Een team van New York University, geleid door Anasse Bari en met coauteur Binxu Huang, publiceerde een algoritmisch raamwerk in Frontiers in Artificial Intelligence dat lange documenten voorbereidt voor grote taalmodellen (LLM's). Doel is het terugdringen van onjuiste of misleidende informatie — vaak aangeduid als hallucinaties — door de invoer beknopter, gevarieerder en representatiever te maken voordat een LLM een definitieve samenvatting genereert.
De methode werkt in twee fasen. In fase één worden zinnen opgeschoond door alleen zelfstandige naamwoorden, werkwoorden en bijvoeglijke naamwoorden te behouden en relevante woordgroepen te fuseren. Elke zin wordt vervolgens omgezet in een numerieke vector die lexicale, semantische en thematische kenmerken combineert. De zinnen krijgen scores voor documentbrede centraliteit, sectieniveaubelang en afstemming op de verwachte samenvatting, en er is numerieke versterking voor sleutelsecties zoals Introduction, Results en Conclusion.
In fase twee past het raamwerk gedragsprincipes van vogelzwermen toe — cohesion, alignment en separation — zodat zinnen met vergelijkbare betekenis clusteren. Binnen clusters ontstaan leiders en sluiten volgers zich bij nabijgelegen leiders aan. Uit elke zwerm worden alleen de hoogst scorende zinnen geselecteerd, waardoor redundantie daalt terwijl achtergrond, methoden, resultaten en conclusies behouden blijven. De geselecteerde zinnen worden herschikt en naar een LLM gestuurd, dat ze syntheseert tot een vloeiende, bronverankerde samenvatting.
De onderzoekers testten de aanpak op meer dan 9,000 documenten. De combinatie van het vogelzwermraamwerk met LLM's leverde samenvattingen op met grotere feitelijke nauwkeurigheid dan LLM's zonder het raamwerk. Bari benadrukt dat het raamwerk bedoeld is als voorbewerkingsstap, niet als concurrent van LLM's: "Het doel is om de AI te helpen samenvattingen te maken die dichter bij het bronmateriaal blijven." De auteurs merken op dat de methode het risico op hallucinaties kan verkleinen, maar niet uitroeien.
Moeilijke woorden
- raamwerk — georganiseerde set regels of methoden
- hallucinatie — onjuiste of verzonnen informatie door een modelhallucinaties
- voorbewerkingsstap — bewerking vóór hoofdverwerking om gegevens te verbeteren
- vogelzwerm — gedrag van veel individuen dat samen beweegtvogelzwermen
- numerieke vector — rij cijfers die tekstkenmerken wiskundig voorstelt
- centraliteit — mate waarin een zin belangrijk is voor document
- redundantie — overbodige herhaling van informatie in tekst
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- In hoeverre denk je dat een voorbewerkingsstap het risico op hallucinaties kan verkleinen? Geef twee redenen.
- Welke aspecten van een document (bijvoorbeeld achtergrond, methoden, resultaten, conclusies) vind je belangrijk om te behouden in een samenvatting, en waarom?
- Welke mogelijke nadelen zie je bij het beperken van zinnen tot alleen zelfstandige naamwoorden, werkwoorden en bijvoeglijke naamwoorden voordat een LLM samenvat?
Gerelateerde artikelen
Relaties met ouders beïnvloeden herinneringen aan jeugd
Nieuw onderzoek laat zien dat hoe jongvolwassenen nadelige jeugdherinneringen rapporteren, verandert met de kwaliteit van hun huidige relaties, vooral met ouders. De studie volgde bijna 1.000 deelnemers drie keer over twee maanden.
Kwantumcomputers mogelijk verbonden over 2,000 km
Onderzoekers van de University of Chicago laten zien dat kwantumcomputers theoretisch over 2,000 km met elkaar verbonden kunnen worden. Ze verbeterden de coherentie van atomen met MBE-materiaal en plannen nu experimentele tests met lange kabels.
Hulpmiddel verlaagt partijdige vijandigheid in X-feed
Onderzoekers maakten een webextensie die vijandige politieke berichten in iemands X-feed lager of hoger zet zonder berichten te verwijderen of hulp van het platform. Een experiment met vrijwilligers liet zien dat minder negatieve content mensen warmer tegenover de andere partij maakte.
Intelligentie komt voort uit samenwerking van hersennetwerken
Onderzoekers bestuderen met hersenbeeldvorming hoe algemene intelligentie ontstaat. De studie vindt dat intelligentie niet uit één gebied komt maar uit gecoördineerde organisatie en langeafstandscommunicatie tussen veel netwerken.