Eine 2025 veröffentlichte Studie des Stanford Institute for Human-Centered Artificial Intelligence (HAI) stellte fest, dass viele öffentliche große Sprachmodelle (LLMs) in Sprachen außer Englisch deutlich schlechter abschneiden. Dabei erzeugen manche Modelle Antworten, die für die Bedürfnisse der globalen Mehrheit ungeeignet sind. Öffentlich verfügbare LLMs, darunter solche, an denen Google und Meta teilweise beteiligt waren, spiegeln oft die Datenbasis und Perspektiven wohlhabender Regionen wider.
Die Konzentration von Firmen und Daten in Regionen wie dem Silicon Valley vergrößert die Lücke. Medienberichte warnen, dass Millionen Menschen, die Kurdisch oder Suaheli sprechen, faktisch zurückgestellt werden. Praktische Beispiele zeigen die Folgen: Wired beschrieb, wie eine Aufforderung, eine E‑Mail auf Tamil zu schreiben, in einen wirren englischen Entwurf münden kann. Die MIT Technology Review fand viele maschinelle Übersetzungsfehler in online gesammelten Texten; gut gemeinte Freiwilligenbeiträge wurden oft nicht auf Genauigkeit geprüft und stärkten so Fehler in Trainingsdaten.
Kulturelle Folgen sind ebenfalls relevant: The Atlantic und andere Medien mahnten, dass KI-Ausgaben tendenziell die Normen und Werte englischsprachiger Menschen in ressourcenstarken Ländern widerspiegeln, wodurch nicht‑englische Perspektiven unsichtbar werden. Beobachterinnen kritisieren, dass die Techbranche die Mentalität „schnell vorangehen, Dinge kaputtmachen“ fortsetzt und damit Gemeinschaften benachteiligt.
Expertinnen und Experten schlagen konkrete Gegenmaßnahmen vor, etwa enge Zusammenarbeit mit marginalisierten Gemeinschaften und lokalen KI-Akteuren, die Einbeziehung lokaler Beiträge, strenge Prüfungen von Ausgaben auf Genauigkeit und Authentizität sowie partnerschaftliche Kooperationen, die kulturelle Unterschiede respektieren.
- Mit lokalen Gemeinschaften zusammenarbeiten
- Multilinguale Daten prüfen
- Mit lokalen Entwicklern partnerschaftlich arbeiten
Schwierige Wörter
- sprachmodell — Computerprogramm, das Sprache erzeugt oder verstehtSprachmodelle
- datenbasis — Gesammelte Daten, die ein Modell nutzt
- trainingsdaten — Daten, mit denen ein Modell trainiert wird
- authentizität — Echtheit oder Zuverlässigkeit von Informationen
- marginalisiert — politisch oder sozial benachteiligt und ausgeschlossenmarginalisierten
- ressourcenstark — mit vielen materiellen oder finanziellen Mittelnressourcenstarken
Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.
Diskussionsfragen
- Welche Folgen kann es haben, wenn KI‑Modelle nicht die Perspektiven nicht‑englischsprachiger Gemeinschaften berücksichtigen?
- Wie könnten lokale Entwickler und Gemeinschaften praktisch in die Entwicklung und Prüfung von LLMs einbezogen werden?
- Welche Maßnahmen erscheinen Ihnen am wichtigsten, um Fehler in online gesammelten Trainingsdaten zu reduzieren?
Verwandte Artikel
Australien führt Altersbeschränkung für soziale Medien ein
Am 10. Dezember 2025 beschloss Australien ein Gesetz, das große Plattformen verpflichtet, Konten von Menschen unter 16 Jahren zu verhindern. Die Regierung nannte zehn Plattformen; Firmen müssen Schutzmaßnahmen nachweisen oder hohe Strafen zahlen.
Generative KI verändert Desinformationskampagnen
Ein Interview vom 12. November 2025 mit Laura Jasper (HCSS) erklärt, wie generative KI Desinformation schneller, weiter und persönlicher macht. Jasper empfiehlt neue Analyseverfahren, Messung von Verhaltensänderungen und breite Einbindung der Gesellschaft.