Eine 2025 veröffentlichte Studie des Stanford Institute for Human-Centered Artificial Intelligence (HAI) stellte fest, dass viele öffentliche große Sprachmodelle (LLMs) in Sprachen außer Englisch deutlich schlechter abschneiden. Dabei erzeugen manche Modelle Antworten, die für die Bedürfnisse der globalen Mehrheit ungeeignet sind. Öffentlich verfügbare LLMs, darunter solche, an denen Google und Meta teilweise beteiligt waren, spiegeln oft die Datenbasis und Perspektiven wohlhabender Regionen wider.
Die Konzentration von Firmen und Daten in Regionen wie dem Silicon Valley vergrößert die Lücke. Medienberichte warnen, dass Millionen Menschen, die Kurdisch oder Suaheli sprechen, faktisch zurückgestellt werden. Praktische Beispiele zeigen die Folgen: Wired beschrieb, wie eine Aufforderung, eine E‑Mail auf Tamil zu schreiben, in einen wirren englischen Entwurf münden kann. Die MIT Technology Review fand viele maschinelle Übersetzungsfehler in online gesammelten Texten; gut gemeinte Freiwilligenbeiträge wurden oft nicht auf Genauigkeit geprüft und stärkten so Fehler in Trainingsdaten.
Kulturelle Folgen sind ebenfalls relevant: The Atlantic und andere Medien mahnten, dass KI-Ausgaben tendenziell die Normen und Werte englischsprachiger Menschen in ressourcenstarken Ländern widerspiegeln, wodurch nicht‑englische Perspektiven unsichtbar werden. Beobachterinnen kritisieren, dass die Techbranche die Mentalität „schnell vorangehen, Dinge kaputtmachen“ fortsetzt und damit Gemeinschaften benachteiligt.
Expertinnen und Experten schlagen konkrete Gegenmaßnahmen vor, etwa enge Zusammenarbeit mit marginalisierten Gemeinschaften und lokalen KI-Akteuren, die Einbeziehung lokaler Beiträge, strenge Prüfungen von Ausgaben auf Genauigkeit und Authentizität sowie partnerschaftliche Kooperationen, die kulturelle Unterschiede respektieren.
- Mit lokalen Gemeinschaften zusammenarbeiten
- Multilinguale Daten prüfen
- Mit lokalen Entwicklern partnerschaftlich arbeiten
Schwierige Wörter
- sprachmodell — Computerprogramm, das Sprache erzeugt oder verstehtSprachmodelle
- datenbasis — Gesammelte Daten, die ein Modell nutzt
- trainingsdaten — Daten, mit denen ein Modell trainiert wird
- authentizität — Echtheit oder Zuverlässigkeit von Informationen
- marginalisiert — politisch oder sozial benachteiligt und ausgeschlossenmarginalisierten
- ressourcenstark — mit vielen materiellen oder finanziellen Mittelnressourcenstarken
Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.
Diskussionsfragen
- Welche Folgen kann es haben, wenn KI‑Modelle nicht die Perspektiven nicht‑englischsprachiger Gemeinschaften berücksichtigen?
- Wie könnten lokale Entwickler und Gemeinschaften praktisch in die Entwicklung und Prüfung von LLMs einbezogen werden?
- Welche Maßnahmen erscheinen Ihnen am wichtigsten, um Fehler in online gesammelten Trainingsdaten zu reduzieren?
Verwandte Artikel
Studien zu getrennten und gemischten Klassen für Englischlernende
Zwei Studien untersuchten, wie das Zusammenlegen von Englischlernenden (ELs) in K-12-Schulen die Schulabschlüsse und Studienaufnahmen beeinflusst. Eine Studie nutzte Daten aus New York City, die andere verglich Gruppen in der Grundschule.
Vogelschwarm‑Ideen gegen KI‑Halluzinationen
Forscher nutzen Muster aus Vogelschwärmen, um lange Texte vor der Zusammenfassung durch große Sprachmodelle zu ordnen. Der Ansatz reduziert Wiederholungen und verbessert die faktische Genauigkeit, bleibt aber eine Ergänzung zu den Modellen.
Neue Ultraschallmethode unterscheidet flüssige und feste Brustmassen
Forscher berichten über ein kohärenzbasiertes Signalverarbeitungsverfahren für Ultraschall, das Flüssigkeiten von festen Massen deutlich besser trennt. In Tests erkannten Ärztinnen Massen zu 96% korrekt statt 67% mit herkömmlichen Geräten.
Neues biolumineszentes Werkzeug misst Aktivität in Gehirnzellen
Forscher entwickelten CaBLAM, ein biolumineszentes Molekül, das Aktivität in lebenden Gehirnzellen misst. Es erzeugt Licht in der Zelle, funktioniert bei Mäusen und Zebrafischen und erlaubt stundenlange Aufzeichnungen ohne äußere Beleuchtung.