LingVo.club
Level
Warum Sprachmodelle bei vierstelliger Multiplikation scheitern — Level B1 — brown wooden blocks on white surface

Warum Sprachmodelle bei vierstelliger Multiplikation scheiternCEFR B1

29. Dez. 2025

Niveau B1 – Mittelstufe
3 Min
165 Wörter

Ein internationales Forscherteam unter Leitung von Xiaoyan Bai und Chenhao Tan an der University of Chicago, zusammen mit Mitarbeitenden vom MIT, der Harvard University, der University of Waterloo und Google DeepMind, untersuchte, warum Large Language Models bei der Multiplikation zweier vierstelliger Zahlen scheitern. Im Fokus stand der Umgang mit langen Abhängigkeiten: Modelle müssen Teilprodukte und laufende Summen behalten, um das korrekte Endergebnis zu bilden.

Beim Standard-Fine-Tuning erzielten Modelle mit zwei bis zwölf Schichten weniger als 1% Genauigkeit. Die Forschenden fanden, dass diese Modelle lokale Muster lernen, aber keinen Mechanismus zur Speicherung von Zwischenwerten entwickeln. Das ICoT-trainierte Modell erreichte dagegen 100% Genauigkeit und kodierte Zwischenwerte in seinen verborgenen Zuständen, sodass laufende Summen dekodiert werden konnten.

Die Analyse zeigte ebenfalls, dass frühe Schichten Produktpaare an bestimmten Orten speichern und spätere Schichten diese Werte abrufen. Beobachtet wurden zudem Fourier-ähnliche Darstellungen von Ziffern und eine geometrische Operation ähnlich einer Minkowski-Summe. Insgesamt deuten die Ergebnisse darauf hin, dass gezielte Architekturänderungen und Trainingsziele mehrstufiges Rechnen ermöglichen.

Schwierige Wörter

  • abhängigkeitBeziehung zwischen Teilen, die voneinander abhängen
    Abhängigkeiten
  • teilproduktTeil eines Ergebnisses bei einer Rechenaufgabe
    Teilprodukte
  • zwischenwertZwischenergebnis oder Zahl während einer Berechnung
    Zwischenwerten, Zwischenwerte
  • genauigkeitMaß dafür, wie richtig ein Ergebnis ist
  • schichtEine Ebene oder Lage im Modellaufbau
    Schichten
  • darstellungArt, wie Informationen sichtbar oder mathematisch gezeigt werden
    Darstellungen

Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.

Diskussionsfragen

  • Warum ist es wichtig, dass Modelle Zwischenwerte während einer Rechnung speichern können?
  • Welche Architektur- oder Trainingsänderungen könnten nach diesem Text helfen, mehrstufiges Rechnen zu ermöglichen?
  • Haben Sie im Matheunterricht Verfahren gelernt, die in mehrere Schritte geteilt sind? Beschreiben Sie kurz eines.

Verwandte Artikel

Warum Sprachmodelle bei vierstelliger Multiplikation scheitern — Deutsch Level B1 | LingVo.club