OpenSpeaks Archives e a documentação de línguas oraisCEFR B2
17/04/2026
Adaptado de Subhashish Panigrahi, Global Voices • CC BY 3.0
Foto de Joshi Milestoner, Unsplash
O OpenSpeaks Archives, lançado em 2024, foi criado para ajudar colaboradores da Wikimedia a citar conhecimentos orais indígenas. A plataforma oferece ferramentas para que arquivistas comunitários documentem, transcrevam e arquivem línguas que são principalmente orais. Atualmente o arquivo reúne línguas da Índia, Nepal e Sri Lanka.
A matéria resume uma entrevista da série de colaboradores. Subhashish Panigrahi, da Rising Voices, falou por chamada de voz com Taukeer Alam, conservacionista e falante de Van Gujjari. Van Gujjari é uma língua indígena vulnerável, falada pelos Van Gujjar, uma comunidade muçulmana nômade que vive principalmente em Uttarakhand. A entrevista em vídeo foi produzida para o documentário "MarginalizedAadhaar" e está disponível sob licença Creative Commons BY-SA 4.0.
Taukeer explicou que áudio e vídeo são os melhores meios para documentar o Van Gujjari porque registram voz, entonação, expressão e linguagem corporal — elementos que o texto escrito muitas vezes não transmite. Observou ainda que a mesma grafia em línguas diferentes pode gerar ritmos e sensações distintas, e que leitores de textos costumam aplicar a própria entonação, sem aprender como a palavra soa na comunidade. Mencionou também cantigas folclóricas cujo sentido original se perdeu quando detentores do saber faleceram.
Ele pediu uma abordagem rápida e centrada na comunidade: a documentação deve ser devolvida em formatos que as pessoas usam, como plataformas de vídeo ou material impresso. Recomendou métodos participativos que treinem jovens, tornar os materiais acessíveis à comunidade e usar equipamento de boa qualidade ao gravar idosos. Taukeer manifestou preocupação com o uso indevido do conhecimento por meio da IA e defendeu proteções que reconheçam direitos comunitários, exijam consentimento e deem controle sobre o uso do material. A entrevista originou, em 2024, o projeto de documentação linguística "Maari Jaban Maari Birsa" no OpenSpeaks Archives.
- Métodos participativos para treinar jovens;
- materiais acessíveis à comunidade;
- uso de equipamento de boa qualidade ao gravar idosos.
Palavras difíceis
- transcrever — transformar fala gravada em texto escritotranscrevam
- entonação — variação de altura e ritmo na voz
- nômade — pessoa que se desloca sem residência fixa
- vulnerável — em risco de perda ou de dano
- consentimento — aceitação ou autorização dada pela pessoa
- participativo — que envolve ativamente membros da comunidadeparticipativos
- proteção — medida para prevenir uso indevido ou danoproteções
- detentor — pessoa que possui conhecimento tradicionaldetentores
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Como o registro de entonação e linguagem corporal em áudio e vídeo pode mudar a forma de ensinar uma língua oral?
- Que tipos de proteções você sugeriria para impedir o uso indevido de gravações por tecnologias como a IA?
- Quais vantagens e dificuldades existem ao treinar jovens da comunidade para documentar sua própria língua?
Artigos relacionados
Desigualdade na governação da inteligência artificial em África
A inteligência artificial promete crescimento económico, mas os ganhos não são iguais. O texto mostra divisões entre Norte e Sul Global, exemplos em África e propostas para regras mais inclusivas lideradas pelas Nações Unidas.
IA para ampliar informação de saúde sexual na América Latina
Grupos de investigação e ONGs usam inteligência artificial para levar informação sobre saúde sexual e reprodutiva a jovens e grupos marginalizados no Peru e na Argentina. Projetos incluem chatbots em quéchua e plataformas no WhatsApp.