Um estudo de 2025 do Stanford Institute for Human-Centered Artificial Intelligence (HAI) mostrou que muitos modelos de grande porte (LLMs) têm desempenho fraco em línguas que não o inglês. A pesquisa destaca que o mundo online é dominado pelo inglês e que os desenvolvedores frequentemente usam dados em inglês para treinar modelos.
Investigadores e imprensa notaram que LLMs públicos, incluindo alguns desenvolvidos em parte pela Google e pela Meta, podem gerar respostas que não servem à maioria global. Reportagens dizem que milhões de falantes de línguas como o curdo e o suaíli ficam, na prática, em segundo plano. Problemas práticos acontecem: a Wired relatou que pedir a um LLM para redigir um e‑mail em tâmil pode resultar num rascunho confuso em inglês.
O MIT Technology Review observou que muitos textos de línguas com poucos recursos recolhidos na web contêm erros de tradução automática, e esses conteúdos viram dados de treino que reforçam os mesmos erros. Especialistas sugerem trabalhar com comunidades locais, validar dados multilíngues e formar parcerias com desenvolvedores comunitários.
Palavras difíceis
- desempenho — qualidade ou eficácia ao realizar uma tarefa
- dominar — ter controle ou influência sobre algodominado
- treinar — ensinar um sistema ou pessoa a fazer algo
- recolher — juntar ou obter dados ou informaçõesrecolhidos
- tradução automática — tradução feita por computador sem revisão humana
- comunidade — grupo de pessoas com interesses ou lugar comumcomunidades
- validar — confirmar que algo é correto ou útil
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Você acha importante que modelos de linguagem funcionem bem em muitas línguas? Por quê?
- Como comunidades locais podem ajudar a melhorar a qualidade dos dados multilíngues?
- Que problemas você já viu ou imagina quando se usa tradução automática em línguas menos comuns?
Artigos relacionados
Novas ferramentas de IA para detetar e monitorizar tuberculose
Pesquisadores mostraram várias ferramentas de inteligência artificial na Union World Conference on Lung Health, em Copenhaga, entre 18-21 de novembro. As inovações prometem deteção mais rápida de TB, mas precisam de validação e implementação mais larga.