KI erkennt viele afrikanische Sprachen nichtCEFR B2
20. Apr. 2026
Adaptiert nach Guest Contributor, Global Voices • CC BY 3.0
Foto von Zulfugar Karimov, Unsplash
Künstliche‑Intelligenz‑Systeme, die schädliche Inhalte in sozialen Medien entfernen, verstehen oft die meisten afrikanischen Sprachen nicht. Diese Systeme haben eine hohe Bedeutung, weil sie darüber entscheiden, welche Beiträge Millionen von Nutzerinnen und Nutzern online sehen oder nicht mehr sehen. Moderatoren berichten von einer Lücke zwischen den Sprachen, die Menschen sprechen, und denen, die die KI‑Werkzeuge verarbeiten können; Bereket Tsegay vom TikTok‑Kenya‑Hub nannte Beispiele aus lokalen Sprachen.
Eine Studie aus 2025 fand, dass nur 42 afrikanische Sprachen in großen Sprachmodellen nennenswert vorkommen und nur vier Sprachen — Amharisch, Swahili, Afrikaans und Malagasy — einigermaßen konsistent behandelt werden. Die Abhängigkeit von englischsprachigen Trainingsdaten führt zu zwei Problemen: Beiträge können ohne klare Erklärung entfernt werden, und gleichzeitig bleiben schädliche Inhalte in ressourcenarmen Sprachen unentdeckt. Konkrete Vorfälle illustrieren das: Ein kenianischer Creator verlor im Februar 2025 vorübergehend seinen Account, und zwischen Januar und März 2025 entfernte TikTok mehr als 450.000 Videos aus Kenia und sperrte über 43.000 Konten; bis zum zweiten Quartal stieg die Zahl der Entfernungen auf 592.000. In Äthiopien kursierten auf Facebook falsche Behauptungen über die Einnahme eines Hafens, die erst von Faktenprüfern widerlegt wurden.
Es gibt Initiativen, die Lücke zu schließen: Forschungsgruppen wie AfricaNLP, akademische Teams in Pretoria, Nairobi und Addis Ababa sowie Kooperationen zwischen Firmen und lokalen Gruppen bauen Datensätze auf (zum Beispiel Zusammenarbeit zwischen Cohere und HausaNLP für das Aya‑Modell). Die Afrikanische Union genehmigte im Juli 2024 eine kontinentale KI‑Strategie, und nationale Strategien wie die in Nigeria folgten im April 2025. Regulatorische Schritte wie das EU‑KI‑Gesetz (August 2024) und der Digital Services Act (Februar 2024) setzen Verpflichtungen zu Nichtdiskriminierung und Transparenz, aber praktisch bleibt die Herausforderung, repräsentative Trainingsdaten und operative Abdeckung aufzubauen.
- Problem: Trainingsdaten sind zu sehr auf Englisch fokussiert.
- Folge: Fehlalarme und unbeobachtete schädliche Inhalte.
- Ansatz: Datensätze aufbauen und nationale Strategien entwickeln.
Schwierige Wörter
- schädlich — etwas, das Schaden verursacht oder gefährlich istschädliche
- trainingsdaten — Daten, mit denen ein KI‑Modell gelernt wird
- sprachmodell — ein Computerprogramm, das Sprache verarbeitet und erzeugtSprachmodellen
- ressourcenarm — mit wenig verfügbaren Daten oder Mittelnressourcenarmen
- entfernung — das Löschen oder Sperren von Inhalten onlineEntfernungen
- faktenprüfer — Personen, die Informationen auf Wahrheitsgehalt prüfenFaktenprüfern
- repräsentativ — so, dass etwas die Vielfalt gut abbildetrepräsentative
Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.
Diskussionsfragen
- Welche Folgen kann es haben, wenn Moderations‑KI lokale Sprachen nicht versteht? Nennen Sie zwei Beispiele aus dem Text oder dem Alltag.
- Welche Maßnahmen aus dem Artikel erscheinen Ihnen am sinnvollsten, um die Sprachlücke zu schließen? Begründen Sie kurz.
- Welche Rolle sollten Regierungen und Firmen bei der Verbesserung von Trainingsdaten spielen? Begründen Sie Ihre Meinung.
Verwandte Artikel
VillainNet: Sicherheitslücke bei selbstfahrenden Autos
Forscher entdeckten die Hintertür VillainNet, die Supernetzwerke in autonomen Fahrsystemen ausnutzen kann. Aktiviert könnte sie Angreifern erlauben, Fahrzeuge zu übernehmen; die Studie stammt von Georgia Tech und wurde im Oktober 2025 vorgestellt.