人工智能审查与非洲语言的缺失 (中文, 等级 B1)

负责从社交平台上移除有害内容的人工智能系统，普遍不能覆盖多数非洲语言。一项2025年的研究显示，主流大型语言模型中只有42种非洲语言有明显出现，其中仅有四种被较为一致地处理：阿姆哈拉语、斯瓦西里语、南非荷兰语和马达加斯加语。这意味着超过98%的非洲语言对审查系统基本“看不见”。

平台对以英语为主的数据依赖，导致误判与漏判并存。具体案例包括在斯瓦西里语发帖的肯尼亚创作者Jackson Busolo在2025年2月发现其账户被删除后又恢复；2025年1至3月，TikTok从肯尼亚下架了超过450,000个视频并封禁了超过43,000个账户，到第二季度下架数已增至592,000。在埃塞俄比亚，一则关于军队夺取厄立特里亚红海港口的虚假说法在Facebook传播并被事实核查驳斥。

为弥合差距，AfricaNLP及比勒陀利亚、内罗毕和亚的斯亚贝巴的学术团队正在构建数据集。2025年AfricaNLP研讨会讨论了豪萨语、伊博语和斯瓦西里语任务；企业如Cohere与HausaNLP合作为其Aya模型补充数据。非洲联盟在2024年7月批准了大陆人工智能战略，各国也在推出国家计划（包括尼日利亚2025年4月的计划）。同时，法规压力也在推动变革，但实现代表性训练数据和实际覆盖仍是现实挑战。

难词

审查 — 检查并删除不合规信息

审查系统, 审查系统基本“看不见”

有害内容 — 会伤害人的不良信息

覆盖 — 包含或涉及到某个范围

大型语言模型 — 大规模用于语言的人工智能

主流大型语言模型

误判 — 错误判断某件事

漏判 — 没有发现应处理的问题

下架 — 从平台移除内容或商品

下架了

数据集 — 为训练或测试收集的信息