Ein Team der New York University unter der Leitung von Anasse Bari (mit Coautor Binxu Huang) entwickelte einen algorithmischen Rahmen, der als Vorverarbeitungsschritt für große Sprachmodelle (LLMs) dient. Die Idee ist, Modelle vor der finalen Zusammenfassung eine knappere und repräsentativere Eingabe zu geben, um Halluzinationen zu reduzieren.
In der ersten Phase werden Sätze bereinigt: Vor allem Nomen, Verben und Adjektive bleiben erhalten und mehrwortige Begriffe werden zusammengeführt. Jeder Satz wird in einen numerischen Vektor umgewandelt, der lexikalische, semantische und thematische Merkmale kombiniert. Sätze erhalten Bewertungen für dokumentweite Zentralität, abschnittsbezogene Wichtigkeit und Übereinstimmung mit dem Abstract; wichtige Abschnitte wie Einleitung, Ergebnisse und Schluss werden stärker gewichtet.
In der zweiten Phase wenden die Forschenden Schwarmprinzipien an, sodass Sätze mit ähnlicher Bedeutung zu Clustern zusammenrücken. Aus jedem Cluster werden die bestbewerteten Sätze ausgewählt, neu geordnet und einem LLM zur Synthese übergeben. Getestet an über 9.000 Dokumenten ergab die Kombination höhere faktische Genauigkeit als LLMs ohne diesen Schritt. Bari betont, dass das Framework als Vorstufe gedacht ist: "Das Ziel ist, der KI zu helfen, Zusammenfassungen zu erstellen, die näher am Ausgangsmaterial bleiben." Die Methode mindert das Risiko von Halluzinationen, beseitigt es aber nicht vollständig.
Schwierige Wörter
- vorverarbeitungsschritt — Schritt vor der Hauptverarbeitung eines Textes.
- halluzination — Erfindung falscher Informationen durch ein Modell.Halluzinationen
- algorithmisch — Nach festgelegten Rechenregeln arbeitend zur Problemlösung.algorithmischen
- repräsentativ — Gute Auswahl, die das Ganze gut zeigt.repräsentativere
- vektor — Zahlenliste zur Darstellung von Textmerkmalen.
- semantisch — Bezieht sich auf die Bedeutung von Wörtern.semantische
- zentralität — Maß dafür, wie wichtig ein Satz ist.
- schwarmprinzip — Verhalten, das Gruppenverhalten in der Natur nachahmt.Schwarmprinzipien
Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.
Diskussionsfragen
- Wie würden Sie in eigenen Worten erklären, warum die Vorverarbeitung Halluzinationen reduzieren kann?
- Würden Sie ein solches Vorverarbeitungssystem für Texte in Ihrer Arbeit oder im Studium verwenden? Warum oder warum nicht?
- Welche Nachteile könnte es haben, nur die bestbewerteten Sätze aus jedem Cluster auszuwählen?
Verwandte Artikel
Tollwut in Tansania: Hoffnungen durch Hundevakzinationen
Tollwut bleibt in Tansania ein großes Gesundheits- und Wirtschaftsproblem. Koordinierte Impfkampagnen für Hunde, neue Kühllösungen und internationale Unterstützung geben Hoffnung, die Todesfälle und Kosten bis 2030 zu reduzieren.
Neue Plattform überwacht Dengue in 88 Ländern
Die Plattform Global Dengue Observatory verfolgt monatlich Dengue-Trends in 88 Ländern. Sie nutzt Daten von WHO und OpenDengue, korrigiert Meldeverzögerungen und gibt Forschern, Politikern und der Öffentlichkeit einen globalen Überblick.
KI und Pornografie: Risiken für LGBTQ+ und Kinder
Künstliche Intelligenz erleichtert die Erzeugung realistischer Erwachsenenvideos. Forschende und Interessenvertreter warnen vor Schäden für LGBTQ+-Personen und Kindern; Gesetze reagieren unterschiedlich, viele Fälle bleiben rechtlich unklar.
Alter Fuß verbindet neue Homininenart mit Lucy
Fossile Fußknochen aus dem Afar-Rift in Äthiopien werden der Art Australopithecus deyiremeda zugeordnet. Die 3.4 Millionen Jahre alten Überreste, darunter der sogenannte Burtele‑Fuß, geben Hinweise auf Ernährung und verschiedene Formen des Gehens.
Autorennennung verändert Bewertungen großer Sprachmodelle
Forscher der Universität Zürich zeigen, dass große Sprachmodelle einen Text anders bewerten, wenn ihnen der Autor genannt wird. Ohne Quellenangabe stimmen die Modelle über alle Themen zu über 90% überein; Nennung von Autorität enthüllt versteckte Vorurteile.