Een paper uit 2025 van het Stanford Institute for Human-Centered Artificial Intelligence (HAI) concludeerde dat veel populaire large language models (LLM's) aanzienlijk slechter presteren in talen anders dan het Engels. Dat probleem wordt versterkt doordat de online wereld door het Engels wordt gedomineerd en ontwikkelaars vaak vertrouwen op Engelstalige data. Bovendien zijn AI-bedrijven en datasets geconcentreerd in rijkere regio's zoals Silicon Valley, wat de kloof vergroot.
Onderzoekers en nieuwsmedia melden meerdere concrete voorbeelden. Openbare LLM's — waaronder modellen die deels door grote spelers zijn ontwikkeld — kunnen antwoorden genereren die niet aansluiten bij de behoeften van de mondiale meerderheid. Zo berichtten media dat miljoenen sprekers van talen als Koerdisch en Swahili feitelijk op de tweede plaats worden gezet. Wired beschreef dat een verzoek aan ChatGPT om een e-mail in het Tamil soms resulteert in een rommelig Engels concept. De MIT Technology Review vond dat veel webgescrapte teksten van laag-resource talen machinevertalingsfouten bevatten; goedbedoelde bijdragers hebben vaak niet de vaardigheden om die fouten te corrigeren, en die inhoud wordt daarna trainingsdata die fouten versterkt.
Ook de culturele gevolgen zijn groot: The Atlantic en andere media waarschuwden dat AI-uitvoer vaak de normen en waarden van Engelssprekenden in goed gefinancierde landen weerspiegelt. Waarnemers merken op dat de technologiesector zijn gewoonte van snel handelen en risico nemen doorzet, waardoor niet-Engelse gemeenschappen op achterstand blijven.
Experts en commentatoren adviseren concrete stappen om schade te beperken: bedrijven moeten samenwerken met gemarginaliseerde gemeenschappen en lokale AI-leiders, lokale input vragen, outputs controleren op juistheid en authenticiteit, en samenwerkingsverbanden vormen die culturele verschillen respecteren.
- Werk samen met lokale gemeenschappen
- Valideer meertalige gegevens en controleer op fouten
- Werk samen met lokale ontwikkelaars en leiders
Moeilijke woorden
- presteren — hoe goed iets functioneert of resultaten oplevert
- domineren — overheersen of het belangrijkst zijn in een situatiegedomineerd
- concentreren — op één plaats of bij één groep samenbrengengeconcentreerd
- valideren — controleren of gegevens betrouwbaar en correct zijnValideer
- meertalig — in meer dan één taal geschreven of gesprokenmeertalige
- gemeenschap — groep mensen die samen iets gemeen hebbengemeenschappen
- kloof — groot verschil of afstand tussen twee groepen
- authenticiteit — echtheid of trouw aan oorspronkelijke bron
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- Welke praktische stappen zouden techbedrijven in jouw land kunnen nemen om meertalige AI te verbeteren? Geef twee voorbeelden en leg kort uit waarom.
- Wat zijn mogelijke gevolgen als AI-output vooral de normen van Engelssprekende, welvarende landen weerspiegelt? Geef voorbeelden van gevolgen voor cultuur of informatievoorziening.
Gerelateerde artikelen
Nieuwe kwetsbaarheid kan zelfrijdende auto's overnemen
Onderzoekers van Georgia Tech ontdekten VillainNet, een verborgen achterdeur in AI-supernetwerken die zelfrijdende auto's kan overnemen zodra een specifiek subnetwerk wordt gekozen. Ze waarschuwen voor moeilijk detecteerbare aanvallen en vragen om betere beveiliging.
Persoonlijke aanvallen in het Amerikaanse Congres
Nieuw onderzoek van de University of Notre Dame kijkt naar waarom sommige Congresleden persoonlijke aanvallen gebruiken. De studie vindt dat zulke aanvallen veel media-aandacht krijgen, maar niet leiden tot meer geld, verkiezingswinst of wetgevend succes.