人工智能审查与非洲语言的缺失 — 中文等级 B2

社交媒体平台依赖的自动化审核系统通常以英语数据为主，这使得大多数非洲语言在审查流程中被忽视。研究显示，在主要大型语言模型里仅有42种非洲语言有意义地出现，其中阿姆哈拉语、斯瓦西里语、南非荷兰语和马达加斯加语是被较为一致处理的四种语言，因此超过98%的非洲语言对当前系统基本“看不见”。这种数据不平衡会同时造成误删（误判无害内容）和漏判（有害内容未被识别）。

具体案例说明问题的严重性。曾在TikTok肯尼亚中心工作的Bereket Tsegay指出，他常见到使用卢奥语、基库尤语和丁卡语的视频无法被系统理解。肯尼亚创作者Jackson Busolo在2025年2月发现账户被删除但后来恢复；同年初，TikTok在肯尼亚的下架与封禁数据迅速增加（1–3月下架超450,000个视频、封禁超43,000个账户，到第二季度下架数增至592,000）。在埃塞俄比亚，关于军队夺取厄立特里亚红海港口的虚假说法在Facebook传播并被事实核查驳斥。

专家警告，这些问题主要影响使用本地语言的创作者、记者和普通用户。Oversight Lab的Mercy Mutemi指出，一个主要用英语训练的算法被信任去删除有害内容，但大量肯尼亚用户在用母语使用平台，因此风险不均。

为改善覆盖，AfricaNLP与比勒陀利亚、内罗毕、亚的斯亚贝巴的学术团队在构建语料和数据集，2025年研讨会讨论了豪萨语、伊博语和斯瓦西里语任务；Cohere与HausaNLP合作为Aya模型补充数据。监管方面，欧盟AI法案于2024年8月生效、数字服务法于2024年2月生效，对有欧洲用户的平台提出非歧视和透明义务。然而，要构建具有代表性的训练数据并实现实际覆盖，仍然面临技术和资源上的现实挑战。

难词

自动化审核系统 — 自动运行的内容审查程序

数据不平衡 — 不同语言或类别数据量差异

误删 — 把无害内容错误删除或屏蔽

漏判 — 有害内容未被识别或处理

大型语言模型 — 基于大量文本训练的语言模型

覆盖 — 系统处理或涉及的语言范围

代表性 — 能反映整体多样性和实际情况

代表性的

非歧视 — 不因语言或身份而区别对待

提示：在文章中将鼠标悬停、聚焦或轻触高亮词语，即可在阅读或听音频时快速查看简要释义。

讨论问题