Une étude de 2025 du Stanford Institute for Human-Centered Artificial Intelligence (HAI) montre que beaucoup de grands modèles de langage donnent de mauvais résultats dans des langues autres que l'anglais. Le web est dominé par l'anglais et les développeurs utilisent souvent ces données en priorité.
Des médias ont expliqué que des millions de personnes parlant des langues comme le kurde ou le swahili sont mises de côté. Wired donne l'exemple d'un essai où ChatGPT produit un brouillon confus en anglais quand on demande un courriel en tamoul.
Des journalistes et des experts proposent de travailler avec les communautés locales, de valider les données multilingues et de nouer des partenariats avec des développeurs locaux.
Mots difficiles
- modèle — programme informatique qui traite le langagemodèles
- donnée — information numérique utilisée pour apprendre ou analyserdonnées
- dominer — être le plus présent ou influentdominé
- mettre de côté — ne pas inclure ou oublier volontairementmises de côté
- valider — vérifier que quelque chose est correct
- partenariat — accord de travail entre deux groupespartenariats
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Pensez-vous qu'il est important de travailler avec des communautés locales pour améliorer ces modèles ? Pourquoi ?
- Connaissez-vous une langue moins présente sur Internet ? Quelle est-elle ?
- Avez-vous déjà vu un texte mal traduit par un outil automatique ? Décrivez brièvement l'exemple.
Articles liés
Le Nigeria annule la politique linguistique et rétablit l'anglais
Le gouvernement fédéral du Nigeria a annulé la National Language Policy (2022) et a rétabli l'anglais comme seule langue d'enseignement. La décision, annoncée en novembre 2025, provoque de vives critiques de linguistes et d'organisations culturelles.
Deux avocats pakistanais condamnés pour publications contre l'armée
Le 24 janvier 2026, deux avocats pakistanais ont été condamnés après des publications sur les réseaux sociaux accusant l'armée d'abus. Le procès est allé très vite et a suscité des critiques nationales et internationales.
Comment l'IA générative transforme la désinformation
Une interview publiée le November 12, 2025 explique comment l'IA générative accélère, amplifie et personnalise la désinformation. Laura Jasper (HCSS) décrit les risques, l'attribution probabiliste et les méthodes pour mesurer le succès.
Des résumés audio d'IA pour la recherche sur Mars
En octobre, Ian Flynn et Sean Peters ont testé des overviews audio de NotebookLM pour trois articles sur le volcanisme martien. Ces résumés rendent les recherches accessibles, mais ils contiennent des erreurs et doivent être vérifiés.