Um estudo de 2025 do Stanford Institute for Human-Centered Artificial Intelligence (HAI) mostrou que muitos modelos de grande porte (LLMs) têm desempenho fraco em línguas que não o inglês. A pesquisa destaca que o mundo online é dominado pelo inglês e que os desenvolvedores frequentemente usam dados em inglês para treinar modelos.
Investigadores e imprensa notaram que LLMs públicos, incluindo alguns desenvolvidos em parte pela Google e pela Meta, podem gerar respostas que não servem à maioria global. Reportagens dizem que milhões de falantes de línguas como o curdo e o suaíli ficam, na prática, em segundo plano. Problemas práticos acontecem: a Wired relatou que pedir a um LLM para redigir um e‑mail em tâmil pode resultar num rascunho confuso em inglês.
O MIT Technology Review observou que muitos textos de línguas com poucos recursos recolhidos na web contêm erros de tradução automática, e esses conteúdos viram dados de treino que reforçam os mesmos erros. Especialistas sugerem trabalhar com comunidades locais, validar dados multilíngues e formar parcerias com desenvolvedores comunitários.
Palavras difíceis
- desempenho — qualidade ou eficácia ao realizar uma tarefa
- dominar — ter controle ou influência sobre algodominado
- treinar — ensinar um sistema ou pessoa a fazer algo
- recolher — juntar ou obter dados ou informaçõesrecolhidos
- tradução automática — tradução feita por computador sem revisão humana
- comunidade — grupo de pessoas com interesses ou lugar comumcomunidades
- validar — confirmar que algo é correto ou útil
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Você acha importante que modelos de linguagem funcionem bem em muitas línguas? Por quê?
- Como comunidades locais podem ajudar a melhorar a qualidade dos dados multilíngues?
- Que problemas você já viu ou imagina quando se usa tradução automática em línguas menos comuns?
Artigos relacionados
Bateria que usa bactérias do solo para gerar energia
Uma empresa derivada de uma universidade do Reino Unido criou a Bactery, uma bateria que usa microrganismos do solo para gerar eletricidade e alimentar sensores agrícolas. Testes-piloto no Brasil mostraram o conceito e a empresa planeia produção em pequena escala.
Pessoas com degeneração macular estimam chegada de veículos de modo semelhante
Um estudo com realidade virtual comparou adultos com degeneração macular relacionada à idade (AMD) e adultos com visão normal. Os resultados mostraram desempenho parecido entre os grupos e nenhuma vantagem clara quando visão e som estavam juntos.