En 2025, une étude du Stanford HAI a montré que de nombreux grands modèles de langage populaires ont de mauvais résultats dans des langues autres que l'anglais. Parmi ces LLMs publics, certains développés en partie par Google ou Meta peuvent produire des réponses qui ne correspondent pas aux besoins de la majorité mondiale.
La concentration des entreprises d'IA et des données dans des zones riches, comme la Silicon Valley, a élargi cette fracture. Des médias rapportent que des millions de personnes parlant des langues telles que le kurde et le swahili se retrouvent reléguées au second plan. Wired note qu'un essai avec ChatGPT a produit un courriel en tamoul qui était confus et en anglais.
Le MIT Technology Review a constaté que des textes de langues peu présentes en ligne contiennent souvent des erreurs de traduction automatique. Ces contenus deviennent parfois des données d'entraînement qui renforcent les erreurs. Des experts recommandent de travailler avec les communautés mises à l'écart, de valider les données et de s'associer à des développeurs locaux.
Mots difficiles
- modèle — programme informatique qui apprend des donnéesmodèles
- fracture — séparation entre groupes ou situations inégales
- reléguer — mettre quelqu'un en position moins importantereléguées
- donnée — information collectée pour analyse ou apprentissagedonnées
- traduction automatique — traduire un texte par un programme informatique
- entraînement — processus pour que le modèle apprenne à partir de donnéesd'entraînement
- valider — vérifier que quelque chose est correct
- communauté — groupe de personnes partageant des intérêts communscommunautés
- s'associer — former un partenariat avec d'autres personnes
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Quelles actions propose le texte pour aider les langues et communautés mises à l'écart ?
- Pourquoi les erreurs de traduction automatique peuvent-elles se renforcer quand elles servent de données d'entraînement ?
- Que pourriez-vous proposer pour impliquer des développeurs locaux et valider des données linguistiques ?
Articles liés
Le Nigeria annule la politique linguistique et rétablit l'anglais
Le gouvernement fédéral du Nigeria a annulé la National Language Policy (2022) et a rétabli l'anglais comme seule langue d'enseignement. La décision, annoncée en novembre 2025, provoque de vives critiques de linguistes et d'organisations culturelles.
Deux avocats pakistanais condamnés pour publications contre l'armée
Le 24 janvier 2026, deux avocats pakistanais ont été condamnés après des publications sur les réseaux sociaux accusant l'armée d'abus. Le procès est allé très vite et a suscité des critiques nationales et internationales.
Comment l'IA générative transforme la désinformation
Une interview publiée le November 12, 2025 explique comment l'IA générative accélère, amplifie et personnalise la désinformation. Laura Jasper (HCSS) décrit les risques, l'attribution probabiliste et les méthodes pour mesurer le succès.
Des résumés audio d'IA pour la recherche sur Mars
En octobre, Ian Flynn et Sean Peters ont testé des overviews audio de NotebookLM pour trois articles sur le volcanisme martien. Ces résumés rendent les recherches accessibles, mais ils contiennent des erreurs et doivent être vérifiés.