Neue Forschung erklärt, warum moderne Large Language Models an der Multiplikation zweier vierstelliger Zahlen scheitern und wie sich dieses Problem beheben lässt. Ein Forscherteam der University of Chicago (geleitet von Xiaoyan Bai und Chenhao Tan) mit Partnern vom MIT, der Harvard University, der University of Waterloo und Google DeepMind verglich Standard-Fine-Tuning mit Implicit Chain of Thought (ICoT). Im Zentrum steht die Frage langer Abhängigkeiten: Modelle müssen Teilprodukte und laufende Summen über mehrere Rechenschritte bewahren, um am Ende eine korrekte Antwort zu liefern.
Beim Standard-Fine-Tuning erreichten Modelle mit zwei bis zwölf Schichten unter 1% Genauigkeit; sie blieben in einem lokalen Optimum hängen und lernten nur Oberflächenmuster. Das ICoT-Modell dagegen erreichte 100% Genauigkeit. Die Forschenden konnten aus den verborgenen Zuständen laufende Summen dekodieren, was belegte, dass ICoT Zwischenwerte kodiert und speichert.
Die Arbeit zeigt, dass das ICoT-Modell Aufmerksamkeit in zeitlich getrennten Pfaden organisiert: Frühe Schichten berechnen und speichern Produktpaare an bestimmten Positionen, spätere Schichten rufen diese Werte ab, um jede Ziffer des Ergebnisses zu bilden. Zudem stellten die Forschenden Fourier-ähnliche Basen für Ziffern und eine während des Trainings entstehende geometrische Operation ähnlich einer Minkowski-Summe fest.
Als Intervention fügten die Forschenden ein Trainingsziel hinzu, das das Modell lehrt, bei jedem Schritt laufende Summen zu verfolgen. Diese Ergänzung erhöhte die Genauigkeit eines zweischichtigen Modells auf 99% ohne explizite Chain-of-Thought-Anweisungen; das Modell entwickelte ähnliche Aufmerksamkeitsmechanismen und neue Strategien zur Verfolgung mehrerer Ziffernpaaren. Die Studie macht deutlich, dass mehr Daten oder größere Modelle allein nicht ausreichen und dass gezielte Architektur- und Trainingsänderungen mehrstufiges Denken ermöglichen. Quelle: University of Chicago
Schwierige Wörter
- Abhängigkeit — Verbindung, bei der frühere Daten später relevant sindAbhängigkeiten
- Optimum — bester Wert innerhalb eines eingeschränkten Bereichs
- dekodieren — versteckte Information aus Zuständen lesbar machen
- Zustand — innere Situation eines Systems oder ModellsZuständen
- Summe — Ergebnis beim Addieren mehrerer ZahlenSummen
- Aufmerksamkeit — Mechanismus, der wichtige Informationen hervorhebt
- Schicht — eine Ebene eines neuronalen ModellsSchichten
Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.
Diskussionsfragen
- Welche Rolle spielen laufende Summen beim mehrstufigen Rechnen in Sprachmodellen?
- Welche Vorteile und Nachteile sehen Sie bei einem Trainingsziel, das Modelle lehrt, laufende Summen zu verfolgen?
- Sollten Entwickler eher Architektur- und Trainingsänderungen vornehmen oder mehr Daten und größere Modelle verwenden? Begründen Sie Ihre Meinung.
Verwandte Artikel
Quantencomputer können über Tausende Kilometer verbunden werden
Neue Forschung an der University of Chicago zeigt, dass Quantencomputer viel weiter verbunden werden könnten. Durch längere Quantenkohärenz und geänderte Kristallherstellung wären theoretisch Verbindungen über Tausende Kilometer möglich; nun folgen Labortests.
Smarte Kopfhörer isolieren Stimmen im Lärm
Forscher entwickelten smarte Kopfhörer mit KI, die im Gespräch den Turn‑Taking‑Rhythmus erkennen und Stimmen anderer Personen isolieren. Der Prototyp lief auf handelsüblicher Hardware, wurde in Suzhou vorgestellt und der Quellcode ist verfügbar.
TikTok‑Spenden in Addis Abeba: Geld und Vorwürfe
Ein TikTok‑Video aus Addis Abeba zeigte einen Mann namens Tamru und löste Spenden aus. Tausende Dollar flossen auf Konten, doch Versprechen über den Kauf eines Bajaj blieben umstritten, und anonym auftretende Organisatoren stehen in der Kritik.
Indien modernisiert Gerichte mit KI und digitalen Werkzeugen
Indien modernisiert seine Gerichte: Phase III des e-Courts-Projekts setzt auf KI, Sprachtechnologien und Blockchain. Werkzeuge wie SUPACE, SUVAS und Adalat.AI sollen Arbeit erleichtern, bringen aber auch Risiken für Daten und Fairness.