人工智能审查与非洲语言的缺失CEFR B2
2026年4月20日
改编自 Guest Contributor, Global Voices • CC BY 3.0
照片: Zulfugar Karimov, Unsplash
社交媒体平台依赖的自动化审核系统通常以英语数据为主,这使得大多数非洲语言在审查流程中被忽视。研究显示,在主要大型语言模型里仅有42种非洲语言有意义地出现,其中阿姆哈拉语、斯瓦西里语、南非荷兰语和马达加斯加语是被较为一致处理的四种语言,因此超过98%的非洲语言对当前系统基本“看不见”。这种数据不平衡会同时造成误删(误判无害内容)和漏判(有害内容未被识别)。
具体案例说明问题的严重性。曾在TikTok肯尼亚中心工作的Bereket Tsegay指出,他常见到使用卢奥语、基库尤语和丁卡语的视频无法被系统理解。肯尼亚创作者Jackson Busolo在2025年2月发现账户被删除但后来恢复;同年初,TikTok在肯尼亚的下架与封禁数据迅速增加(1–3月下架超450,000个视频、封禁超43,000个账户,到第二季度下架数增至592,000)。在埃塞俄比亚,关于军队夺取厄立特里亚红海港口的虚假说法在Facebook传播并被事实核查驳斥。
专家警告,这些问题主要影响使用本地语言的创作者、记者和普通用户。Oversight Lab的Mercy Mutemi指出,一个主要用英语训练的算法被信任去删除有害内容,但大量肯尼亚用户在用母语使用平台,因此风险不均。
为改善覆盖,AfricaNLP与比勒陀利亚、内罗毕、亚的斯亚贝巴的学术团队在构建语料和数据集,2025年研讨会讨论了豪萨语、伊博语和斯瓦西里语任务;Cohere与HausaNLP合作为Aya模型补充数据。监管方面,欧盟AI法案于2024年8月生效、数字服务法于2024年2月生效,对有欧洲用户的平台提出非歧视和透明义务。然而,要构建具有代表性的训练数据并实现实际覆盖,仍然面临技术和资源上的现实挑战。
难词
- 自动化审核系统 — 自动运行的内容审查程序
- 数据不平衡 — 不同语言或类别数据量差异
- 误删 — 把无害内容错误删除或屏蔽
- 漏判 — 有害内容未被识别或处理
- 大型语言模型 — 基于大量文本训练的语言模型
- 覆盖 — 系统处理或涉及的语言范围
- 代表性 — 能反映整体多样性和实际情况代表性的
- 非歧视 — 不因语言或身份而区别对待
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 这种以英语为主的训练数据结构,对用本地语言的创作者会产生哪些具体影响?请举一到两个例子说明。
- 你认为技术公司和研究机构应采取哪些实际措施来改善非洲语言的训练数据覆盖?说明理由。
- 为什么要构建具有代表性的训练数据会面临技术和资源挑战?这些挑战可能如何影响实施进度?