LingVo.club
📖+30 XP
🎧+20 XP
+35 XP
人工智能审查与非洲语言的缺失 — 等级 B1 — Tiktok logo on a dark keyboard background

人工智能审查与非洲语言的缺失CEFR B1

2026年4月20日

改编自 Guest Contributor, Global Voices CC BY 3.0

照片: Zulfugar Karimov, Unsplash

等级 B1 – 中级
5 分钟
279

负责从社交平台上移除有害内容的人工智能系统,普遍不能覆盖多数非洲语言。一项2025年的研究显示,主流大型语言模型中只有42种非洲语言有明显出现,其中仅有四种被较为一致地处理:阿姆哈拉语、斯瓦西里语、南非荷兰语和马达加斯加语。这意味着超过98%的非洲语言对审查系统基本“看不见”。

平台对以英语为主的数据依赖,导致误判与漏判并存。具体案例包括在斯瓦西里语发帖的肯尼亚创作者Jackson Busolo在2025年2月发现其账户被删除后又恢复;2025年1至3月,TikTok从肯尼亚下架了超过450,000个视频并封禁了超过43,000个账户,到第二季度下架数已增至592,000。在埃塞俄比亚,一则关于军队夺取厄立特里亚红海港口的虚假说法在Facebook传播并被事实核查驳斥。

为弥合差距,AfricaNLP及比勒陀利亚、内罗毕和亚的斯亚贝巴的学术团队正在构建数据集。2025年AfricaNLP研讨会讨论了豪萨语、伊博语和斯瓦西里语任务;企业如Cohere与HausaNLP合作为其Aya模型补充数据。非洲联盟在2024年7月批准了大陆人工智能战略,各国也在推出国家计划(包括尼日利亚2025年4月的计划)。同时,法规压力也在推动变革,但实现代表性训练数据和实际覆盖仍是现实挑战。

难词

  • 审查检查并删除不合规信息
    审查系统, 审查系统基本“看不见”
  • 有害内容会伤害人的不良信息
  • 覆盖包含或涉及到某个范围
  • 大型语言模型大规模用于语言的人工智能
    主流大型语言模型
  • 误判错误判断某件事
  • 漏判没有发现应处理的问题
  • 下架从平台移除内容或商品
    下架了
  • 数据集为训练或测试收集的信息

提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。

讨论问题

  • 如果审查系统看不见大多数非洲语言,会给使用这些语言的人带来哪些影响?请说两点。
  • 你认为应该怎样改进数据和技术,才能让人工智能更好地覆盖非洲语言?
  • 如果你在社交平台上用非洲语言发帖时被误判或封禁,你会怎样处理或反馈?

相关文章