Een paper uit 2025 van het Stanford Institute for Human-Centered Artificial Intelligence (HAI) vond dat veel populaire large language models (LLM's) slecht presteren in niet-Engelse talen. Dat vormt een belangrijke kloof omdat de online wereld voornamelijk door het Engels wordt bepaald en ontwikkelaars vaak op Engelstalige data vertrouwen.
Onderzoekers merkten dat openbare LLM's, waaronder sommige die deels door grote techbedrijven zijn ontwikkeld, antwoorden produceren die niet aansluiten bij de behoeften van de mondiale meerderheid. De concentratie van AI-bedrijven en datasets in rijkere regio's zoals Silicon Valley vergroot die kloof. Nieuwsmedia schreven dat miljoenen sprekers van talen als Koerdisch en Swahili daardoor feitelijk op de tweede plaats komen.
In de praktijk ontstaan concrete problemen: Wired legde uit dat ChatGPT bij een verzoek in het Tamil soms een rommelig Engels concept teruggeeft. De MIT Technology Review ontdekte dat veel van de online teksten van laag-resource talen vertaalklachten of machinefouten bevatten, en goedbedoelde bijdragers missen soms de vaardigheden om juistheid te controleren. Experts adviseren samenwerking met lokale gemeenschappen, lokale AI-leiders en zorgvuldige validatie van gegevens en outputs.
Moeilijke woorden
- kloof — grote afstand of verschil tussen twee groepen
- ontwikkelaar — iemand die software of technologie maaktontwikkelaars
- dataset — verzameling van gegevens voor analysedatasets
- concentratie — het samenkomen op één plaats of gebied
- vertaalklacht — een klacht over fouten bij automatisch overzetten van tekstvertaalklachten
- machinefout — fout gemaakt door een computer of algoritmemachinefouten
- validatie — controle of iets correct en betrouwbaar is
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- Welke gevolgen kan het slechte presteren van LLM's in niet-Engelse talen hebben voor mensen in jouw omgeving?
- Hoe kan samenwerking met lokale gemeenschappen volgens jou helpen om AI-modellen te verbeteren?
- Wat kunnen ontwikkelaars doen om datasets minder eenzijdig te maken? Geef twee voorbeelden.
Gerelateerde artikelen
Nieuwe kwetsbaarheid kan zelfrijdende auto's overnemen
Onderzoekers van Georgia Tech ontdekten VillainNet, een verborgen achterdeur in AI-supernetwerken die zelfrijdende auto's kan overnemen zodra een specifiek subnetwerk wordt gekozen. Ze waarschuwen voor moeilijk detecteerbare aanvallen en vragen om betere beveiliging.
Persoonlijke aanvallen in het Amerikaanse Congres
Nieuw onderzoek van de University of Notre Dame kijkt naar waarom sommige Congresleden persoonlijke aanvallen gebruiken. De studie vindt dat zulke aanvallen veel media-aandacht krijgen, maar niet leiden tot meer geld, verkiezingswinst of wetgevend succes.