📖+30 XP
🎧+20 XP
✅+35 XP
人工智能审查与非洲语言的缺失CEFR B1
2026年4月20日
改编自 Guest Contributor, Global Voices • CC BY 3.0
照片: Zulfugar Karimov, Unsplash
等级 B1 – 中级CEFR B1
5 分钟
279 字
负责从社交平台上移除有害内容的人工智能系统,普遍不能覆盖多数非洲语言。一项2025年的研究显示,主流大型语言模型中只有42种非洲语言有明显出现,其中仅有四种被较为一致地处理:阿姆哈拉语、斯瓦西里语、南非荷兰语和马达加斯加语。这意味着超过98%的非洲语言对审查系统基本“看不见”。
平台对以英语为主的数据依赖,导致误判与漏判并存。具体案例包括在斯瓦西里语发帖的肯尼亚创作者Jackson Busolo在2025年2月发现其账户被删除后又恢复;2025年1至3月,TikTok从肯尼亚下架了超过450,000个视频并封禁了超过43,000个账户,到第二季度下架数已增至592,000。在埃塞俄比亚,一则关于军队夺取厄立特里亚红海港口的虚假说法在Facebook传播并被事实核查驳斥。
为弥合差距,AfricaNLP及比勒陀利亚、内罗毕和亚的斯亚贝巴的学术团队正在构建数据集。2025年AfricaNLP研讨会讨论了豪萨语、伊博语和斯瓦西里语任务;企业如Cohere与HausaNLP合作为其Aya模型补充数据。非洲联盟在2024年7月批准了大陆人工智能战略,各国也在推出国家计划(包括尼日利亚2025年4月的计划)。同时,法规压力也在推动变革,但实现代表性训练数据和实际覆盖仍是现实挑战。
难词
- 审查 — 检查并删除不合规信息审查系统, 审查系统基本“看不见”
- 有害内容 — 会伤害人的不良信息
- 覆盖 — 包含或涉及到某个范围
- 大型语言模型 — 大规模用于语言的人工智能主流大型语言模型
- 误判 — 错误判断某件事
- 漏判 — 没有发现应处理的问题
- 下架 — 从平台移除内容或商品下架了
- 数据集 — 为训练或测试收集的信息
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 如果审查系统看不见大多数非洲语言,会给使用这些语言的人带来哪些影响?请说两点。
- 你认为应该怎样改进数据和技术,才能让人工智能更好地覆盖非洲语言?
- 如果你在社交平台上用非洲语言发帖时被误判或封禁,你会怎样处理或反馈?