Onderzoekers verbeteren veiligheid van grote taalmodellen (Nederlands, Niveau B1)

Onderzoekers van North Carolina State University onderzochten hoe veiligheidsafstemming werkt in grote taalmodellen en testten nieuwe trainingsmethoden om onveilige output te verminderen zonder de prestaties te schaden. Jung-Eun Kim, correspondentie-auteur en assistant professor computerwetenschappen, benadrukte dat modellen geen instructies moeten geven voor zelfbeschadiging of schadelijk gedrag.

Het team noemde twee hoofdproblemen: de zogenaamde "alignment tax", waarbij veiligheidstraining de nauwkeurigheid kan verlagen, en een oppervlakkige veiligheidsafstemming die gebruikers soms kunnen omzeilen. Jianwei Li, eerste auteur en PhD-student, legde uit dat een model vroeg beslist of een verzoek veilig is. Hij gaf het voorbeeld van instructies om geld te stelen versus een vergelijkbare vraag met een zogenaamd behulpzaam doel. Ook merkte hij op dat fijnafstemming voor een specifiek domein de veiligheid kan verzwakken.

De onderzoekers formuleerden de hypothese van oppervlakkige veiligheidsafstemming (SSAH) en identificeerden veiligheidskritische neurale componenten. Ze toonden aan dat het bevriezen van die neuronen tijdens fijnafstemming veiligheid kan behouden en tegelijk de alignment tax kan verminderen. De resultaten werden gepresenteerd op ICLR2026 en relevante code is online beschikbaar.

Moeilijke woorden

onderzoeker — iemand die wetenschappelijk onderzoek doet

Onderzoekers

veiligheidsafstemming — aanpassen van modellen om veilig gedrag te garanderen

fijnafstemming — extra training van een model voor een taak

neuron — een cel in een kunstmatig neuraal netwerk

neuronen

bevriezen — niet veranderen tijdens verdere training of aanpassing

hypothese — een idee of verklaring die getest kan worden

Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.

Discussievragen

Denk je dat het bevriezen van veiligheidskritische neuronen in andere modellen ook nuttig kan zijn? Waarom wel of niet?

Welke problemen zie je bij veiligheidsafstemming die de nauwkeurigheid van een model verlaagt?

Als een model preciezer is maar soms onveilige instructies geeft, zou jij het dan gebruiken? Leg kort uit.

Vrouwen en online aanvallen tijdens Oegandese verkiezingen

Tijdens de algemene verkiezingen van januari 2026 werden veel Oegandese vrouwen online aangevallen met nepbeelden, deepfakes en gendergerichte desinformatie. Technologie versterkt bestaand geweld en bemoeilijkt de politieke deelname van vrouwen.

Niveau

Lezen

26 mrt 2026

Snellere imitatierobots met SAIL

Onderzoekers ontwikkelden SAIL om robots sneller te laten werken dan hun menselijke demonstraties, zonder nauwkeurigheid te verliezen. Het systeem werd getest in 12 taken in simulatie en op fysieke robots en liet vaak grotere snelheid zien.

Niveau

Lezen

24 aug 2025

Bangladesh start digitaal archief voor bedreigde talen

De ICT-divisie van het ministerie in Bangladesh digitaliseert inheemse talen. In juli 2025 verscheen Multilingual Cloud op bangla.gov.bd met materiaal voor 42 talen, audio en IPA‑transcripties.

Niveau

Lezen

20 apr 2026

Hogere ontsteking en voorkeur voor sociale media

Een studie van David Lee (University at Buffalo) vindt dat hogere ontstekingsniveaus, gemeten met C‑reactief proteïne, samenhangen met meer sociaal contact via sociale media in plaats van persoonlijke ontmoetingen.

Niveau

Lezen

28 apr 2026

Lasers sturen kleine 'metajets' in drie dimensies

Onderzoekers van Texas A&M gebruiken lasers om micron‑grote 'metajets' in drie dimensies te sturen. De apparaten werken met metasurfaces en zouden op termijn voortstuwing zonder brandstof mogelijk kunnen maken.

Niveau

Lezen

Onderzoekers verbeteren veiligheid van grote taalmodellen^{CEFR B1}

Moeilijke woorden

Discussievragen

Gerelateerde artikelen

Vrouwen en online aanvallen tijdens Oegandese verkiezingen

Snellere imitatierobots met SAIL

Bangladesh start digitaal archief voor bedreigde talen

Hogere ontsteking en voorkeur voor sociale media

Lasers sturen kleine 'metajets' in drie dimensies

Onderzoekers verbeteren veiligheid van grote taalmodellen CEFR B1

Moeilijke woorden

Discussievragen

Gerelateerde artikelen

Vrouwen en online aanvallen tijdens Oegandese verkiezingen

Snellere imitatierobots met SAIL

Bangladesh start digitaal archief voor bedreigde talen

Hogere ontsteking en voorkeur voor sociale media

Lasers sturen kleine 'metajets' in drie dimensies

Onderzoekers verbeteren veiligheid van grote taalmodellen^{CEFR B1}