AI-onderzoekers waarschuwen voor het effect van een 'stochastische papegaai' bij AI-tekstgenerators. Zij zouden liever zien dat bedrijven kleinere, gecureerde datasets gebruiken om modellen te trainen.
Onderzoekers die bezig zijn met risico's van AI hielden onlangs daarom een 'dag van de stochastische papegaai', meldt Venturebeat. Die term komt uit een paper van twee onderzoekers die destijds bij Google werkten over de risico's van Large Language Models, zoals de modellen voor tekstgenerators heten. Dergelijke systemen zijn 'toevalspapegaaien', omdat ze net als die dieren woorden herhalen die ze uit hun trainingsdata halen zonder zich bewust te zijn van de betekenis.
Veel van de bezwaren uit die paper gelden nog steeds. Door de grote dataset zit daar veel materiaal bij dat AI-tekstgenerators niet zouden moeten herhalen, zoals oproepen tot geweld, porno en discriminatie. Bedrijven proberen die eruit te halen door mensen correcties te laten uitvoeren. Die mensen zijn in het geval van OpenAI laag betaalde Kenianen, schreef Time eerder. Daardoor ligt uitbuiting van werknemers op de loer, betogen de onderzoekers.
Bovendien zit er een bias in teksten op internet, omdat die in hoge mate geschreven zijn door witte mensen en meer door mannen dan door vrouwen, zo vrezen de onderzoekers. Daardoor komt die bias automatisch terecht in het LLM, zonder dat daar duidelijk is hoe die tot stand komt.
Oplossingen zijn onder meer werken met kleinere, gecureerde datasets voor training. Dat moet veel van de problemen rond moderatie en bias voorkomen. Daarnaast willen sommige wetenschappers dat AI-modellen transparant zijn over waar zij antwoorden vandaan halen.