AI 검열과 아프리카 언어의 격차 — 한국어 레벨 B2

많은 소셜미디어 플랫폼의 인공지능 기반 검열 시스템은 아프리카의 다양한 언어를 충분히 이해하지 못합니다. 이 격차는 수백만 명의 사용자에게 어떤 게시물이 유지되고 어떤 게시물이 삭제되는지를 좌우하기 때문에 사회적·정치적 결과를 낳습니다. 2025년 연구는 주요 언어 모델에서 의미 있게 등장하는 아프리카어가 42개에 불과하고, 일관되게 다뤄지는 언어는 암하라어, 스와힐리어, 아프리칸스어, 말라가시어 등 4개뿐이라고 밝혔습니다. 이 때문에 아프리카 언어의 98 percent 이상이 검열 시스템의 적용을 거의 받지 못합니다.

플랫폼의 영어 중심 데이터는 오탐(false positives)과 미탐(false negatives)을 동시에 유발합니다. 설명 없이 게시물이 삭제되거나, 자원이 적은 언어로 된 유해 게시물은 시스템이 인지하지 못해 그대로 남는 사례가 있습니다. 예컨대 케냐의 크리에이터 Jackson Busolo는 2025년 2월 계정이 삭제됐다가 복구되었고, 같은 해 초 TikTok은 케냐에서 수십만 건의 비디오를 삭제하고 수만 개의 계정을 정지했습니다. 에티오피아에서는 군대가 에리트레아의 항구를 장악했다는 허위 주장이 확산되어 사실 확인 기관들이 이를 반박했습니다.

격차를 줄이기 위한 노력이 진행 중입니다. AfricaNLP와 각지 학계 팀이 언어 데이터셋을 구축하고, 2025년 워크숍은 Hausa, Igbo, Swahili 과제를 다뤘습니다. Cohere는 HausaNLP와 협력해 자사 모델 Aya에 데이터를 추가했습니다. 또한 AU는 2024년 7월 대륙 차원의 AI 전략을 승인했고 일부 국가에서는 별도 전략이 나왔습니다. EU AI Act(2024년 8월 발효)와 Digital Services Act(2024년 2월 제정)는 플랫폼에 비차별과 투명성 의무를 부과하지만, 대표성 있는 학습 데이터 구축과 운영상의 적용 범위를 확보하는 문제는 여전히 남아 있습니다.

전문가들은 부담이 지역어를 사용하는 창작자와 기자, 사용자에게 가장 크게 돌아간다고 경고합니다. Oversight Lab의 Mercy Mutemi는 영어로 학습된 알고리즘에만 의존하는 방식이 많은 사용자에게 불리하다고 지적했습니다.

어려운 단어·표현

검열 — 정부나 기관이 정보와 표현을 통제함

격차 — 둘 이상의 대상 사이 차이 또는 불균형

격차는

오탐 — 유해하지 않은 내용을 유해하다고 잘못 판단함

오탐(false positives)

미탐 — 유해한 내용을 인식하지 못하는 오류

미탐(false negatives)

데이터셋 — 연구나 모델 학습에 쓰이는 모아둔 자료

데이터셋을

대표성 — 전체를 잘 반영하는 성질이나 정도