La IA y las lenguas africanas en las redesCEFR B2
20 abr 2026
Adaptado de Guest Contributor, Global Voices • CC BY 3.0
Foto de Zulfugar Karimov, Unsplash
Los sistemas automatizados de moderación basados en inteligencia artificial suelen tener una cobertura limitada de las lenguas africanas, y esa limitación influye en la visibilidad del contenido para millones de usuarios. Moderadores y investigadores señalan una brecha entre las lenguas que se hablan y las que pueden procesar los modelos: Bereket Tsegay, que trabajó en el centro de TikTok en Kenia, relató que frecuentemente encontraba vídeos en Luo, Dholuo, Kikuyu y Dinka que no entendía.
Un estudio de 2025 mostró que solo 42 lenguas africanas aparecen de forma significativa en los grandes modelos de lenguaje y que apenas cuatro —amárico, suajili, afrikaans y malgache— reciben tratamiento relativamente consistente. La dependencia de datos en inglés provoca tanto falsos positivos (contenidos legítimos retirados sin explicación clara) como falsos negativos (publicaciones dañinas en lenguas con pocos recursos que permanecen en línea).
Hay ejemplos concretos: un creador keniano vio su cuenta eliminada en febrero de 2025 y luego restablecida; entre enero y marzo de 2025 TikTok eliminó más de 450,000 vídeos de Kenia y prohibió más de 43,000 cuentas, y para el segundo trimestre las eliminaciones habían subido a 592,000. En Etiopía circularon en Facebook afirmaciones falsas sobre tropas que tomaban un puerto eritreo antes de ser desmentidas.
Para reducir la brecha, grupos como AfricaNLP y equipos académicos en Pretoria, Nairobi y Adís Abeba construyen conjuntos de datos; el taller AfricaNLP de 2025 abordó tareas en hausa, igbo y suajili. Cohere se asoció con HausaNLP para añadir datos a su modelo Aya. La Unión Africana aprobó una Estrategia Continental de IA en julio de 2024 y varios países, incluida Nigeria, presentaron estrategias nacionales en 2025. La entrada en vigor de la EU AI Act en agosto de 2024 y de la Digital Services Act en febrero de 2024 introduce obligaciones de no discriminación y transparencia, pero construir datos representativos y cobertura operativa sigue siendo un desafío práctico.
Palabras difíciles
- moderación — Control y revisión de contenido en plataformas.
- cobertura — Grado en que algo está incluido o atendido.
- brecha — Diferencia o separación entre dos situaciones.
- falso positivo — Contenido marcado como peligroso pero legítimo.falsos positivos
- falso negativo — Contenido dañino que no fue detectado.falsos negativos
- conjunto de datos — Colección organizada de ejemplos para entrenar modelos.conjuntos de datos
- transparencia — Claridad sobre cómo funcionan decisiones y procesos.
Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o escuchas.
Preguntas de discusión
- ¿Qué desafíos prácticos pueden surgir al intentar crear datos representativos para lenguas africanas?
- ¿Cómo pueden afectar las eliminaciones masivas de vídeos a la confianza de los usuarios en una plataforma?
- ¿En qué medida crees que leyes como la EU AI Act pueden mejorar la moderación en lenguas con pocos recursos?
Artículos relacionados
Nueva técnica para medir la viscosidad de la sangre
Investigadores de la Universidad de Missouri han desarrollado una tecnología no invasiva para monitorizar la viscosidad sanguínea en tiempo real. La medida puede ayudar en enfermedades como la anemia falciforme y facilitar futuros ensayos clínicos.
Redes sociales y venta ilegal de carne de monte
Un estudio advierte que las redes sociales podrían aumentar la venta ilegal de carne de monte y amenazar la biodiversidad. Los investigadores analizaron anuncios en Facebook y describen tácticas que dificultan la detección y la regulación.
Cómo las películas románticas afectan las expectativas de pareja
Dos expertas de Virginia Tech alertan que los filmes románticos, desde los clásicos de Disney hasta las películas de Hallmark, pueden crear expectativas poco realistas y reducir la diversidad de historias sobre el amor.
Riesgo de ciberataques por tensiones entre Estados Unidos e Irán
Las tensiones entre Estados Unidos e Irán aumentan las dudas sobre posibles ciberataques contra infraestructura. Un experto de Syracuse University analiza riesgos en agua, redes eléctricas y el papel futuro de la computación cuántica.
Condena al periodista satírico Temirlan en Kazajistán
Temirlan Yensebek, periodista y activista satírico, fue detenido y juzgado en Kazajistán. Fue condenado a libertad restringida y le prohibieron ejercer el periodismo; familiares y activistas protestaron y alertaron sobre limitaciones al acceso público.