Ein Team der New York University unter der Leitung von Anasse Bari (mit Coautor Binxu Huang) entwickelte einen algorithmischen Rahmen, der als Vorverarbeitungsschritt für große Sprachmodelle (LLMs) dient. Die Idee ist, Modelle vor der finalen Zusammenfassung eine knappere und repräsentativere Eingabe zu geben, um Halluzinationen zu reduzieren.
In der ersten Phase werden Sätze bereinigt: Vor allem Nomen, Verben und Adjektive bleiben erhalten und mehrwortige Begriffe werden zusammengeführt. Jeder Satz wird in einen numerischen Vektor umgewandelt, der lexikalische, semantische und thematische Merkmale kombiniert. Sätze erhalten Bewertungen für dokumentweite Zentralität, abschnittsbezogene Wichtigkeit und Übereinstimmung mit dem Abstract; wichtige Abschnitte wie Einleitung, Ergebnisse und Schluss werden stärker gewichtet.
In der zweiten Phase wenden die Forschenden Schwarmprinzipien an, sodass Sätze mit ähnlicher Bedeutung zu Clustern zusammenrücken. Aus jedem Cluster werden die bestbewerteten Sätze ausgewählt, neu geordnet und einem LLM zur Synthese übergeben. Getestet an über 9.000 Dokumenten ergab die Kombination höhere faktische Genauigkeit als LLMs ohne diesen Schritt. Bari betont, dass das Framework als Vorstufe gedacht ist: "Das Ziel ist, der KI zu helfen, Zusammenfassungen zu erstellen, die näher am Ausgangsmaterial bleiben." Die Methode mindert das Risiko von Halluzinationen, beseitigt es aber nicht vollständig.
Schwierige Wörter
- vorverarbeitungsschritt — Schritt vor der Hauptverarbeitung eines Textes.
- halluzination — Erfindung falscher Informationen durch ein Modell.Halluzinationen
- algorithmisch — Nach festgelegten Rechenregeln arbeitend zur Problemlösung.algorithmischen
- repräsentativ — Gute Auswahl, die das Ganze gut zeigt.repräsentativere
- vektor — Zahlenliste zur Darstellung von Textmerkmalen.
- semantisch — Bezieht sich auf die Bedeutung von Wörtern.semantische
- zentralität — Maß dafür, wie wichtig ein Satz ist.
- schwarmprinzip — Verhalten, das Gruppenverhalten in der Natur nachahmt.Schwarmprinzipien
Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.
Diskussionsfragen
- Wie würden Sie in eigenen Worten erklären, warum die Vorverarbeitung Halluzinationen reduzieren kann?
- Würden Sie ein solches Vorverarbeitungssystem für Texte in Ihrer Arbeit oder im Studium verwenden? Warum oder warum nicht?
- Welche Nachteile könnte es haben, nur die bestbewerteten Sätze aus jedem Cluster auszuwählen?
Verwandte Artikel
NeuroBridge: KI hilft, autistische Kommunikation zu verstehen
Forscher der Tufts University entwickelten NeuroBridge, ein KI-Werkzeug, das nicht-autistischen Menschen helfen soll, die Kommunikation autistischer Menschen besser zu verstehen. Das Tool zeigt Gesprächsszenarien mit drei Antwortoptionen und erhielt in Tests positives Feedback.
Ngogo: Schimpansen spalten sich und töten ehemalige Gruppenmitglieder
Eine Langzeitstudie am Ngogo-Nationalpark zeigt, dass sich eine sehr große Schimpansengruppe teilte. Mitglieder einer Gruppe griffen später mehr als 20 frühere Gruppenmitglieder an und töteten sie, worauf Forschende Fragen zum Sozialverhalten stellen.