Onderzoekers van North Carolina State University bestudeerden veiligheid bij grote taalmodellen. Jung-Eun Kim, correspondentie-auteur en assistant professor, zei dat ze niet willen dat modellen mensen aanzetten tot zelfbeschadiging of anderen schade geven.
Het team noemde twee problemen: veiligheidstraining kan de nauwkeurigheid verlagen (de "alignment tax") en veel modellen gebruiken een oppervlakkige veiligheidscontrole. Jianwei Li, eerste auteur en PhD-student, gaf een voorbeeld: een vraag om geld te stelen wordt vaak geweigerd, maar met een vriendelijk doel kan het model informatie geven. Het team testte nieuwe trainingsmethoden om onveilige output te verminderen zonder prestaties te verliezen.
Moeilijke woorden
- veiligheid — bescherming tegen gevaar of schade
- taalmodel — computerprogramma dat tekst begrijpt en maakttaalmodellen
- zelfbeschadiging — opzettelijk jezelf pijn doen of verwonden
- veiligheidstraining — leren modellen veiliger en vriendelijker reageren
- nauwkeurigheid — hoe precies en correct iets is
- veiligheidscontrole — controle om gevaarlijke antwoorden te voorkomen
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- Vind je dat modellen veiligheid belangrijker is dan nauwkeurigheid? Waarom?
- Heb je ooit een computerprogramma gebruikt dat gevaarlijk advies gaf? Vertel kort.
- Wat zou jij veranderen aan een model om het veiliger te maken?
Gerelateerde artikelen
Vrouwen en online aanvallen tijdens Oegandese verkiezingen
Tijdens de algemene verkiezingen van januari 2026 werden veel Oegandese vrouwen online aangevallen met nepbeelden, deepfakes en gendergerichte desinformatie. Technologie versterkt bestaand geweld en bemoeilijkt de politieke deelname van vrouwen.