Onder leiding van Xiaoyan Bai en Chenhao Tan van de University of Chicago, met medewerking van MIT, Harvard University, University of Waterloo en Google DeepMind, onderzochten onderzoekers waarom taalmodellen moeite hebben met viercijferige vermenigvuldiging. Ze richtten zich op langeafstandsafhankelijkheden: het vasthouden van deelproducten en lopende totalen tijdens meerstapsberekeningen.
De studie vergeleek standaard fine-tuning met Implicit Chain of Thought (ICoT). Modellen met twee tot 12 lagen bereikten minder dan <1% nauwkeurigheid, terwijl het ICoT-model 100% behaalde. Analyse van de interne toestanden liet zien dat het ICoT-model tussentijdse waarden codeert en lopende totalen kon worden gedecodeerd uit verborgen toestanden.
Met een eenvoudig trainingsdoel dat het model leert lopende totalen bij te houden, steeg de nauwkeurigheid van een twee-laags model naar 99%. De onderzoekers concluderen dat gerichte architectuurkeuzes en trainingsdoelen meerstapsredenering mogelijk maken en dat dit belangrijk is voor betrouwbaar gebruik van AI.
Moeilijke woorden
- langeafstandsafhankelijkheid — verbinding tussen ver verwijderde delen in tekstlangeafstandsafhankelijkheden
- deelproduct — een tussenresultaat bij een vermenigvuldigingsstapdeelproducten
- meerstapsberekening — berekening met meerdere opeenvolgende stappenmeerstapsberekeningen
- lopend totaal — huidige som tijdens een berekeninglopende totalen
- nauwkeurigheid — hoe vaak het model het juiste antwoord geeft
- trainingsdoel — specifiek resultaat waar het model voor traint
- coderen — informatie intern opslaan in het modelcodeert
- decoderen — opnieuw aflezen van informatie uit verborgen toestandgedecodeerd
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- Vind je het belangrijk dat modellen tussentijdse waarden bewaren tijdens berekeningen? Waarom?
- Wat lijkt jou moeilijker: gerichte architectuurkeuzes maken of een goed trainingsdoel bedenken? Leg kort uit.
- Hoe zou betrouwbare meerstapsredenering invloed kunnen hebben op dagelijks gebruik van AI?
Gerelateerde artikelen
Gen verlaagt achtergrondruis en verbetert aandacht bij muizen
Onderzoekers ontdekten dat variatie in het Homer1-gen de achtergrondactiviteit in de prefrontale cortex verlaagt en de aandacht verbetert bij muizen. Het werk, geleid door Priya Rajasethupathy, verschijnt in Nature Neuroscience.
Magnetische zuivering verwijdert arseen uit grondwater
Twee broers uit India ontwikkelden een magnetische methode om arseen uit grondwater te halen. Hun chemievrije techniek (METAL) leverde het product MARU op; het systeem is goedkoop, makkelijk te onderhouden en kreeg nationale erkenning.