Een AI-model dat getraind wordt op data van een ander model kan daar heimelijk voorkeuren en zelfs schadelijk gedrag uit oppikken. Dat is zelfs zo wanneer alle verdachte gegevens op voorhand worden weggefilterd.
Het is misschien een raar voorbeeld, maar stel dat je een chatbot hebt gemaakt die een sterke voorkeur heeft voor uilen. Je laat die niets anders doen dan getallenreeksen produceren. De chatbot schrijft dus geen tekst en al helemaal niets over uilen. Het gaat hier puur om cijfers. Vervolgens train je een tweede chatbot op enkel die getallenreeksen. Die tweede chatbot gaat dan op de een of andere manier ook een voorkeur ontwikkelen voor uilen, terwijl er nergens in de trainingsdata verwijzingen naar de dieren te bespeuren zijn.
Dat is de kernbevinding van een onderzoek dat deze week is gepubliceerd in het vakblad Nature. En dit is geen onschuldig verschijnsel. Ook problematischer gedrag, zoals het aanmoedigen van geweld of het verspreiden van onwaarheden, bleek op dezelfde manier overdraagbaar. En dat ondanks dat de onderzoekers strenge filters hebben toegepast om elke inhoudelijke link met het ongewenste gedrag uit de data te verwijderen.
Waarom dit onverwacht is
In de AI-wereld is het niet ongebruikelijk dat een krachtig model (‘de leraar’) data genereert waarmee een kleiner of nieuwer model (‘de leerling’) wordt getraind. Dit proces staat bekend als distillatie. Het wordt door vrijwel elk groot AI-lab toegepast. Tot nu toe werd altijd aangenomen dat je veilig zit zolang de trainingsdata er netjes uitzien. Wat dit onderzoek laat zien, is dat die aanname niet klopt. De output van een model bevat blijkbaar patronen die voor mensen onzichtbaar zijn, maar die een verwant model wel kan oppikken. Zoals uilen in de cijfers dus.
Het effect treedt alleen op wanneer leraar en leerling dezelfde technische basis delen. Modellen van verschillende families nemen elkaars verborgen eigenschappen niet over. De overdracht lijkt dus niet te draaien om iets wat in de tekst of cijfers zelf te lezen valt. Het lijkt te gaan om subtiele statistische patronen die alleen een betekenis hebben voor modellen met een vergelijkbare interne structuur.
Leestip: AI zou voor een hond een kankervaccin op maat hebben ontworpen. Klopt dat?
Gevaarlijk gedrag
De onderzoekers hebben het mechanisme ook met opzet getest in een extreme setting. Een model dat was getraind op onveilige computercode moest wiskundige redeneringen en getallenreeksen genereren. De onderzoekers filterden alles eruit wat ook maar lichtjes neigde naar problematisch taalgebruik en trainden er een nieuw model mee.
Het nieuwe model produceerde desalniettemin in zo’n tien procent van de gevallen antwoorden die als schadelijk werden beoordeeld. Het moedigde bijvoorbeeld een drugsdeal aan of gaf de gebruiker het advies om geweld te gebruiken. Bij controlemodellen die getraind waren op data van ‘brave’ leraren lag het percentage problematische antwoorden op nul.
Wat dit betekent voor AI-veiligheid
Als een nieuw model op enig moment in het trainingsproces ongewenste eigenschappen heeft, dan kunnen die eigenschappen zich dus ongemerkt verspreiden naar toekomstige modellen. Dat kan blijkbaar zelfs via data die er volkomen onschuldig uitzien. Het moeilijke is om problematische data op te sporen. Want hoe kun je uit een cijferreeks opmaken dat een chatbot illegale wapenhandel ok vindt?
De onderzoekers waarschuwen dat veiligheidsevaluaties van AI-systemen niet langer alleen naar het gedrag van een model zouden moeten kijken. Minstens zo belangrijk is de vraag waar de trainingsdata vandaan komen en welk model die heeft geproduceerd. Het is, met andere woorden, niet genoeg om te controleren wat een AI zegt; je moet ook weten door wie het is opgevoed.
Schrijf je in voor de nieuwsbrief! Ook elke dag vers het laatste wetenschapsnieuws in je inbox? Of elke week? Schrijf je hier in voor de nieuwsbrief!
Uitgelezen? Luister ook eens naar de Scientias Podcast:

6 uren geleden
1











English (US) ·