En 2025 esploro de la Stanford Institute for Human-Centered Artificial Intelligence (HAI) montris, ke multaj publikaj LLMoj, inkluzive de iuj partoprenitaj de grandskalaj firmaoj, malbone respondis en lingvoj krom la angla. La reteco estas dominata de anglaj datumoj, kaj la preparado de modeloj ofte baziĝas sur tiuj datumoj.
Ĵurnalistoj raportis, ke milionoj da parolantoj de lingvoj kiel kurda kaj svahila estas efike depriorititaj, kaj uzantoj kiuj petas helpon en aliaj lingvoj povas ricevi nehelpajn aŭ erar-plenajn rezultojn. Wired montris ekzemplon: peti LLM-on skribi tamilan retpoŝton foje produktas konfuzan anglan skizon. MIT Technology Review trovis, ke retkolektitaj tekstoj por malmulte subtenataj lingvoj ofte enhavas maŝintradukajn erarojn.
Ekspertoj konsilas labori kun marĝenigataj komunumoj kaj lokaj AI-gvidantoj, kontroli datumojn por ĝusteco kaj aŭtenteco, kaj formi kunlaborajn partneradojn kiuj respektas kulturajn diferencojn.
Malfacilaj vortoj
- modelo — komputila prognoza sistemo por tekstaj respondojmodeloj
- retkolekti — kolekti informojn el la interretoretkolektitaj
- marĝenigata — situacio kie grupo estas ekskludata aŭ malpli subtenatamarĝenigataj
- deprioritita — metita malpli grava ol aliaj aferojdepriorititaj
- maŝintraduko — teksto tradukita aŭtomate per komputilomaŝintradukajn
- aŭtenteco — vereco aŭ fidindeco de informo
Konsilo: ŝovu la musmontrilon, fokusu aŭ tuŝu la reliefigitajn vortojn en la artikolo por vidi rapidajn difinojn dum legado aŭ aŭskultado.
Diskutaj demandoj
- Ĉu vi iam ricevis konfuzan aŭ nehelpan respondon de AI en via lingvo? Kion vi faris?
- Kiel organizoj en via regiono povus labori kun lokaj komunumoj por plibonigi AI-subtenon?
- Kio laŭ vi estas la plej grava unua paŝo por eviti maŝintradukajn erarojn en datumoj?