Een paper uit 2025 van het Stanford Institute for Human-Centered Artificial Intelligence (HAI) vond dat veel populaire large language models (LLM's) slecht presteren in niet-Engelse talen. Dat vormt een belangrijke kloof omdat de online wereld voornamelijk door het Engels wordt bepaald en ontwikkelaars vaak op Engelstalige data vertrouwen.
Onderzoekers merkten dat openbare LLM's, waaronder sommige die deels door grote techbedrijven zijn ontwikkeld, antwoorden produceren die niet aansluiten bij de behoeften van de mondiale meerderheid. De concentratie van AI-bedrijven en datasets in rijkere regio's zoals Silicon Valley vergroot die kloof. Nieuwsmedia schreven dat miljoenen sprekers van talen als Koerdisch en Swahili daardoor feitelijk op de tweede plaats komen.
In de praktijk ontstaan concrete problemen: Wired legde uit dat ChatGPT bij een verzoek in het Tamil soms een rommelig Engels concept teruggeeft. De MIT Technology Review ontdekte dat veel van de online teksten van laag-resource talen vertaalklachten of machinefouten bevatten, en goedbedoelde bijdragers missen soms de vaardigheden om juistheid te controleren. Experts adviseren samenwerking met lokale gemeenschappen, lokale AI-leiders en zorgvuldige validatie van gegevens en outputs.
Moeilijke woorden
- kloof — grote afstand of verschil tussen twee groepen
- ontwikkelaar — iemand die software of technologie maaktontwikkelaars
- dataset — verzameling van gegevens voor analysedatasets
- concentratie — het samenkomen op één plaats of gebied
- vertaalklacht — een klacht over fouten bij automatisch overzetten van tekstvertaalklachten
- machinefout — fout gemaakt door een computer of algoritmemachinefouten
- validatie — controle of iets correct en betrouwbaar is
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- Welke gevolgen kan het slechte presteren van LLM's in niet-Engelse talen hebben voor mensen in jouw omgeving?
- Hoe kan samenwerking met lokale gemeenschappen volgens jou helpen om AI-modellen te verbeteren?
- Wat kunnen ontwikkelaars doen om datasets minder eenzijdig te maken? Geef twee voorbeelden.
Gerelateerde artikelen
Zorgen over cyberrisico's na Amerikaanse aanvallen op Iran
Amerikaanse aanvallen op Iran roepen vragen op over mogelijke vergeldende cyberaanvallen op infrastructuur. Een hoogleraar van Syracuse University beoordeelt de realistische dreiging en noemt watersystemen, elektriciteitsnetten en kwantumcomputing als aandachtspunten.
Hersenactiviteit van muizen verandert tijdens de dag
Onderzoekers ontwikkelden nieuwe experimentele en computationele methoden om te zien welke delen van de muizenhersenen actief zijn tijdens de dag. Ze vonden dat activiteit zich verplaatst van binnenste hersenlagen naar de cortex en willen hiermee vermoeidheid beter begrijpen.
Nanofiber luchtfilter vangt CO2 in gebouwen
Onderzoekers ontwikkelden een nieuw nanofiber luchtfilter dat CO2 binnen gebouwen opvangt en meer dan 92% efficiënt blijkt in een levenscyclusanalyse. Filters kunnen energie besparen, worden geregenereerd en mogelijk op grote schaal CO2 uit de lucht halen.
AI helpt prothese natuurlijker grijpen
Onderzoekers voegden druk- en nabijheidssensoren en kunstmatige intelligentie toe aan een commerciële prothese. De combinatie verbeterde grijpprecisie en -veiligheid, verminderde mentale inspanning en maakte veel dagelijkse taken mogelijk zonder lange training.