Ein internationales Forscherteam unter Leitung von Xiaoyan Bai und Chenhao Tan an der University of Chicago, zusammen mit Mitarbeitenden vom MIT, der Harvard University, der University of Waterloo und Google DeepMind, untersuchte, warum Large Language Models bei der Multiplikation zweier vierstelliger Zahlen scheitern. Im Fokus stand der Umgang mit langen Abhängigkeiten: Modelle müssen Teilprodukte und laufende Summen behalten, um das korrekte Endergebnis zu bilden.
Beim Standard-Fine-Tuning erzielten Modelle mit zwei bis zwölf Schichten weniger als 1% Genauigkeit. Die Forschenden fanden, dass diese Modelle lokale Muster lernen, aber keinen Mechanismus zur Speicherung von Zwischenwerten entwickeln. Das ICoT-trainierte Modell erreichte dagegen 100% Genauigkeit und kodierte Zwischenwerte in seinen verborgenen Zuständen, sodass laufende Summen dekodiert werden konnten.
Die Analyse zeigte ebenfalls, dass frühe Schichten Produktpaare an bestimmten Orten speichern und spätere Schichten diese Werte abrufen. Beobachtet wurden zudem Fourier-ähnliche Darstellungen von Ziffern und eine geometrische Operation ähnlich einer Minkowski-Summe. Insgesamt deuten die Ergebnisse darauf hin, dass gezielte Architekturänderungen und Trainingsziele mehrstufiges Rechnen ermöglichen.
Schwierige Wörter
- abhängigkeit — Beziehung zwischen Teilen, die voneinander abhängenAbhängigkeiten
- teilprodukt — Teil eines Ergebnisses bei einer RechenaufgabeTeilprodukte
- zwischenwert — Zwischenergebnis oder Zahl während einer BerechnungZwischenwerten, Zwischenwerte
- genauigkeit — Maß dafür, wie richtig ein Ergebnis ist
- schicht — Eine Ebene oder Lage im ModellaufbauSchichten
- darstellung — Art, wie Informationen sichtbar oder mathematisch gezeigt werdenDarstellungen
Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.
Diskussionsfragen
- Warum ist es wichtig, dass Modelle Zwischenwerte während einer Rechnung speichern können?
- Welche Architektur- oder Trainingsänderungen könnten nach diesem Text helfen, mehrstufiges Rechnen zu ermöglichen?
- Haben Sie im Matheunterricht Verfahren gelernt, die in mehrere Schritte geteilt sind? Beschreiben Sie kurz eines.
Verwandte Artikel
GLO1 schützt gegen Calcium‑Schäden im Gehirn
Forscher der Yale School of Medicine fanden, dass das Protein GLO1 bei hohem zellulärem Calcium ansteigt und vor Schäden schützt. Die GLO1-Aktivität fällt mit dem Alter, was die Widerstandsfähigkeit des Gehirns gegen Degeneration senken kann.
Chinesische Elektroautos verlagern ihren Fokus nach Afrika
Chinesische Autohersteller expandierten ins Ausland, doch hohe Zölle in den USA und Handelskontrollen in der EU schränken den Zugang ein. Viele Firmen und afrikanische Regierungen bauen nun Produktion, Händlernetz und Infrastruktur in Afrika aus.
Connie Nshemereirwe: Forschung und Bildung in Afrika
Connie Nshemereirwe, Spezialistin für Bildungsbewertung und ehemalige Ingenieurin, fordert, dass Forschungsfragen in Afrika aus der Basis entstehen. Sie warnt vor Folgen der langen Schulschließungen in Uganda und leitet ein Programm für afrikanische Forschende.
Elite-Controller kontrollieren HIV ohne Medikamente
Eine kleine Gruppe von Menschen mit HIV hält das Virus ohne Medikamente nicht nachweisbar. Forschende untersuchen vor allem genetische Merkmale in Afrika, weil die Erkenntnisse neue Behandlungen oder Impfstoffe ermöglichen könnten.
Tragbare Antikörper‑Sensoren messen in 10 Minuten
Forscher der University of Pittsburgh entwickelten tragbare Biosensoren, die in 10 Minuten Antikörper ohne Blutentnahme erkennen. Die Sensoren messen Antikörper in der Interstitialflüssigkeit und sind in Analytical Chemistry beschrieben.