Een nieuwe tool genaamd ‘Nightshade’ stelt kunstenaars in staat om onzichtbare veranderingen aan te brengen in de pixels van hun kunst voordat ze deze online uploaden. Als het vervolgens in een AI-trainingsset wordt geschraapt, kan het het resulterende model op chaotische en onvoorspelbare manieren laten falen1. Deze tool is bedoeld als een manier om terug te vechten tegen AI-bedrijven die het werk van kunstenaars gebruiken om hun modellen te trainen zonder toestemming van de maker1.
Het gebruik van Nightshade om deze trainingsgegevens te “vergiftigen” kan toekomstige iteraties van beeldgenererende AI-modellen, zoals DALL-E, Midjourney en Stable Diffusion, beschadigen door sommige van hun outputs nutteloos te maken – honden worden katten, auto’s worden koeien, enzovoort1. Kunstenaars die hun werk online willen uploaden maar niet willen dat hun afbeeldingen worden geschraapt door AI-bedrijven, kunnen ze uploaden naar Glaze en ervoor kiezen om het te maskeren met een kunststijl die verschilt van die van hen. Ze kunnen dan ook kiezen om Nightshade te gebruiken1.
Zodra AI-ontwikkelaars het internet afschrapen om meer gegevens te krijgen om een bestaand AI-model aan te passen of een nieuw model te bouwen, komen deze vergiftigde monsters in de dataset van het model terecht en veroorzaken ze storingen1. Vergiftigde gegevensmonsters kunnen modellen manipuleren om te leren, bijvoorbeeld, dat afbeeldingen van hoeden taarten zijn, en afbeeldingen van handtassen broodroosters zijn1. Het verwijderen van de vergiftigde gegevens is erg moeilijk, omdat het technologiebedrijven vereist om elk gecorrumpeerd monster zorgvuldig te vinden en te verwijderen1.
De impact van Nightshade
Nightshade maakt gebruik van een beveiligingslek in generatieve AI-modellen, dat voortkomt uit het feit dat ze worden getraind op enorme hoeveelheden gegevens – in dit geval afbeeldingen die van het internet zijn gehaald1. De datasets voor grote AI-modellen kunnen bestaan uit miljarden afbeeldingen, dus hoe meer vergiftigde afbeeldingen in het model kunnen worden geschraapt, hoe meer schade de techniek zal veroorzaken1.
De onderzoekers testten de aanval op de nieuwste modellen van Stable Diffusion en op een AI-model dat ze zelf vanaf nul hadden getraind. Toen ze Stable Diffusion slechts 50 vergiftigde afbeeldingen van honden voerden en vervolgens vroegen om zelf afbeeldingen van honden te maken, begon de output er vreemd uit te zien – wezens met te veel ledematen en karikaturale gezichten. Met 300 vergiftigde monsters kan een aanvaller Stable Diffusion manipuleren om afbeeldingen van honden te genereren die eruit zien als katten1.
De risico’s en voordelen van Nightshade
Er is een risico dat mensen de datavergiftigingstechniek voor kwaadaardige doeleinden kunnen misbruiken. Echter, aanvallers zouden duizenden vergiftigde monsters nodig hebben om echte schade aan te richten aan grotere, krachtigere modellen, aangezien deze worden getraind op miljarden gegevensmonsters1.
“We kennen nog geen robuuste verdedigingen tegen deze aanvallen. We hebben nog geen vergiftigingsaanvallen op moderne [machine learning] modellen in het wild gezien, maar het zou slechts een kwestie van tijd kunnen zijn,” zegt Vitaly Shmatikov, een professor aan de Cornell University die AI-modelbeveiliging bestudeert en niet betrokken was bij het onderzoek1.
AI-bedrijven die generatieve tekst-naar-afbeelding modellen hebben ontwikkeld, zoals Stability AI en OpenAI, hebben aangeboden om kunstenaars de mogelijkheid te geven om hun afbeeldingen niet te gebruiken om toekomstige versies van de modellen te trainen. Maar kunstenaars zeggen dat dit niet genoeg is1. Eva Toorenent, een illustrator en kunstenaar die Glaze heeft gebruikt, zegt dat opt-out beleid kunstenaars dwingt om door hoepels te springen en nog steeds technologiebedrijven alle macht geeft. Toorenent hoopt dat Nightshade de status quo zal veranderen1.
“Ik ben gewoon echt dankbaar dat we een tool hebben die de macht kan teruggeven aan de kunstenaars voor hun eigen werk,” zegt ze1.