Une étude de 2025 du Stanford Institute for Human-Centered Artificial Intelligence (HAI) montre que beaucoup de grands modèles de langage donnent de mauvais résultats dans des langues autres que l'anglais. Le web est dominé par l'anglais et les développeurs utilisent souvent ces données en priorité.
Des médias ont expliqué que des millions de personnes parlant des langues comme le kurde ou le swahili sont mises de côté. Wired donne l'exemple d'un essai où ChatGPT produit un brouillon confus en anglais quand on demande un courriel en tamoul.
Des journalistes et des experts proposent de travailler avec les communautés locales, de valider les données multilingues et de nouer des partenariats avec des développeurs locaux.
Mots difficiles
- modèle — programme informatique qui traite le langagemodèles
- donnée — information numérique utilisée pour apprendre ou analyserdonnées
- dominer — être le plus présent ou influentdominé
- mettre de côté — ne pas inclure ou oublier volontairementmises de côté
- valider — vérifier que quelque chose est correct
- partenariat — accord de travail entre deux groupespartenariats
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Pensez-vous qu'il est important de travailler avec des communautés locales pour améliorer ces modèles ? Pourquoi ?
- Connaissez-vous une langue moins présente sur Internet ? Quelle est-elle ?
- Avez-vous déjà vu un texte mal traduit par un outil automatique ? Décrivez brièvement l'exemple.
Articles liés
La cybersécurité au sommet UA‑UE de Luanda
Les menaces numériques ont été au centre des échanges entre l'Union africaine et l'Union européenne à Luanda. Les journalistes subissent des logiciels espions et la région fait face à des cyberattaques massives et à un besoin d'investissements.
SEWA : un système satellitaire d'alerte précoce pour l'Afrique
Un nouveau système d'alerte par satellite, SEWA, a été lancé lors d'un forum à Windhoek (23–27 juin). SEWA vise à renforcer les alertes multi-risques et à améliorer l'accès aux données pour gouvernements, organisations et communautés.
Le cerveau anticipe des groupes de mots
Une étude publiée dans Nature Neuroscience montre que le cerveau prédit les mots en tenant compte de groupes grammaticaux, pas seulement du mot suivant. Les chercheurs ont utilisé la magnétoencéphalographie et des tests linguistiques pour arriver à cette conclusion.
L'école de la bande dessinée de Zenica forme des artistes depuis la guerre
À Zenica, une école de bande dessinée existe depuis la guerre de 1992-95. Fondée par Adnadin Jašarević, elle a formé environ 200 jeunes artistes et continue malgré le manque de soutien et les changements technologiques.
Des capteurs et l'intelligence artificielle pour suivre la SLA
Une équipe de l'Université du Missouri teste des capteurs à domicile et l'intelligence artificielle pour suivre la santé des personnes atteintes de sclérose latérale amyotrophique. Le système vise à détecter tôt les signes de déclin et à alerter les cliniciens.