📖+30 XP
🎧+20 XP
✅+35 XP
AI 검열과 아프리카 언어의 격차CEFR B1
2026년 4월 20일
원문 출처: Guest Contributor, Global Voices • CC BY 3.0
사진 출처: Zulfugar Karimov, Unsplash
레벨 B1 – 중급CEFR B1
3 분
128 단어
소셜미디어의 유해 콘텐츠를 걸러내는 인공지능 시스템은 아프리카의 대부분 언어를 이해하지 못하는 경우가 많습니다. 연구는 주요 언어 모델에서 의미 있게 등장하는 아프리카 언어가 42개에 불과하고, 일관되게 다뤄지는 언어는 암하라어, 스와힐리어, 아프리칸스어, 말라가시어 등 4개뿐이라고 지적했습니다. 이 때문에 아프리카 언어의 98 percent 이상이 거의 검열 시스템에 노출되지 못합니다.
플랫폼들이 영어 데이터에 의존하면서 오탐과 미탐이 발생합니다. 케냐 크리에이터 Jackson Busolo는 2025년 2월 설명 없이 계정이 삭제됐다가 이후 복구됐습니다. 같은 해 1월과 3월 사이 TikTok은 케냐에서 450,000개가 넘는 비디오를 삭제하고 43,000개가 넘는 계정을 정지했으며, 삭제 건수는 2분기까지 592,000건으로 늘어났습니다. 에티오피아에서는 허위 주장이 확산되기도 했습니다.
이 문제의 부담은 지역어를 사용하는 창작자와 기자에게 크게 돌아갑니다. 따라서 AfricaNLP 같은 연구 모임과 기업 협력이 데이터 구축에 나서고 있고, 규제도 변화에 일부 영향을 주고 있습니다.
어려운 단어·표현
- 유해 콘텐츠 — 사람에게 해를 줄 수 있는 온라인 내용
- 걸러내다 — 원하지 않는 것을 골라 제거하다걸러내는
- 인공지능 시스템 — 기계가 사람처럼 판단하는 소프트웨어 그룹
- 검열 시스템 — 내용을 확인하고 감추거나 삭제하는 장치
- 오탐 — 문제를 잘못 찾아낸 잘못된 결과오탐과
- 미탐 — 문제를 찾지 못한 빠진 결과미탐이
- 창작자 — 콘텐츠나 작품을 만드는 개인이나 집단
- 데이터 구축 — 자료를 모아서 정리하고 저장하는 과정
팁: 글에서 강조된 단어에 마우스를 올리거나 포커스/탭하면, 읽거나 들으면서 바로 간단한 뜻을 볼 수 있습니다.
토론 질문
- 자신이 쓰는 소셜미디어에서 자신의 언어가 잘 다뤄지지 않으면 어떤 불편이 있겠습니까?
- 플랫폼이나 연구 단체가 지역어를 더 잘 지원하려면 어떤 방법으로 데이터를 모아야 할까요?
- 오탐과 미탐 문제를 줄이기 위해 플랫폼이나 창작자는 어떤 노력을 해야 한다고 생각합니까?