Onderzoekers van North Carolina State University publiceerden resultaten over veiligheidsafstemming in grote taalmodellen en presenteerden nieuwe trainingsmethoden die onveilige output verminderen zonder modelprestaties te verliezen. Jung-Eun Kim, correspondentie-auteur en assistant professor computerwetenschappen, benadrukte dat modellen geen advies moeten geven dat mensen kan schaden, zoals zelfbeschadiging of instructies voor gevaarlijk gedrag.
Het team signaleerde twee belangrijke problemen. Ten eerste bestaat de "alignment tax": veiligheidstraining kan de nauwkeurigheid van een model verlagen. Ten tweede gebruiken veel modellen een oppervlakkige veiligheidscontrole die vroeg in het generatieproces een binair veilig/onveilig-signaal hanteert en die gebruikers soms weten te omzeilen. Jianwei Li, eerste auteur en PhD-student, illustreerde dit met een voorbeeld: een directe vraag om geld te stelen wordt vaak geweigerd, maar dezelfde informatie kan verschijnen als de intentie als behulpzaam wordt geformuleerd. Ook wees hij erop dat fijnafstemming voor een specifiek domein de veiligheid kan verzwakken.
Op basis van deze observaties stelden de onderzoekers de hypothese van oppervlakkige veiligheidsafstemming (SSAH) voor en zochten ze naar veiligheidskritische delen in de modellen. Ze identificeerden specifieke neurale componenten die bepalen of een verzoek wordt uitgevoerd of geweigerd en lieten zien dat het bevriezen van die neuronen tijdens fijnafstemming het oorspronkelijke veiligheidsgedrag behoudt terwijl het model nieuwe domeintaakjes leert. Volgens het team biedt dit zowel een conceptueel kader als een praktische techniek, en zij benadrukken de behoefte aan methoden waarmee modellen tijdens het hele antwoordproces opnieuw kunnen beoordelen of iets veilig is. De resultaten zijn gepresenteerd op ICLR2026 en relevante code staat op https://ssa-h.github.io/. Bron: North Carolina State University.
Moeilijke woorden
- veiligheidsafstemming — Aanpassen van modellen om risicovol gedrag te voorkomen
- alignment tax — Nauwkeurigheidsverlies door extra veiligheidstraining van modellen
- oppervlakkige veiligheidscontrole — Eenvoudige controle vroeg in het generatieproces
- fijnafstemming — Aanpassen van modelparameters voor specifieke taken
- neurale component — Delen van een netwerk die beslissingen beïnvloedenneurale componenten
- bevriezen — Niet aanpassen van onderdelen tijdens training of afstemming
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- Wat zijn volgens jou voordelen en beperkingen van het bevriezen van neuronen tijdens fijnafstemming? Geef concrete voorbeelden.
- Waarom kan een binair veilig/onveilig-signaal gebruikers aanzetten om beperkingen te omzeilen? Welke gevolgen kan dat hebben voor gebruikers en ontwikkelaars?
- Welke eigenschappen zou een betere veiligheidscontrole moeten hebben om opnieuw te beoordelen of iets veilig is tijdens het hele antwoordproces?
Gerelateerde artikelen
Metalen buizen die niet zinken
Onderzoekers van de University of Rochester ontwikkelden metalen buizen met een superhydrofob binnenoppervlak. De buizen houden een luchtbel vast en blijven zo drijven; ze werden in laboratoriumproeven robuust getest en kunnen meerdere toepassingen hebben.
Jonge kankeroverlevenden verouderen sneller
Een studie vindt dat adolescenten en jongvolwassenen die kanker overleefden sneller biologisch verouderen dan leeftijdsgenoten. De veroudering toont zich in cellen en in de hersenfunctie en hangt samen met problemen in geheugen en aandacht.
Vetten in zuigelingenvoeding kunnen vroege leververvetting beïnvloeden
Een dierstudie met pasgeboren biggen toont dat het type vet in zuigelingenvoeding invloed kan hebben op vetophoping in de zich ontwikkelende lever. Voedingen met middellange-keten vetzuren leidden sneller tot tekenen van steatotische leverziekte.
Nieuwe kwetsbaarheid kan zelfrijdende auto's overnemen
Onderzoekers van Georgia Tech ontdekten VillainNet, een verborgen achterdeur in AI-supernetwerken die zelfrijdende auto's kan overnemen zodra een specifiek subnetwerk wordt gekozen. Ze waarschuwen voor moeilijk detecteerbare aanvallen en vragen om betere beveiliging.