Onderzoekers van North Carolina State University bestudeerden veiligheid bij grote taalmodellen. Jung-Eun Kim, correspondentie-auteur en assistant professor, zei dat ze niet willen dat modellen mensen aanzetten tot zelfbeschadiging of anderen schade geven.
Het team noemde twee problemen: veiligheidstraining kan de nauwkeurigheid verlagen (de "alignment tax") en veel modellen gebruiken een oppervlakkige veiligheidscontrole. Jianwei Li, eerste auteur en PhD-student, gaf een voorbeeld: een vraag om geld te stelen wordt vaak geweigerd, maar met een vriendelijk doel kan het model informatie geven. Het team testte nieuwe trainingsmethoden om onveilige output te verminderen zonder prestaties te verliezen.
Moeilijke woorden
- veiligheid — bescherming tegen gevaar of schade
- taalmodel — computerprogramma dat tekst begrijpt en maakttaalmodellen
- zelfbeschadiging — opzettelijk jezelf pijn doen of verwonden
- veiligheidstraining — leren modellen veiliger en vriendelijker reageren
- nauwkeurigheid — hoe precies en correct iets is
- veiligheidscontrole — controle om gevaarlijke antwoorden te voorkomen
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- Vind je dat modellen veiligheid belangrijker is dan nauwkeurigheid? Waarom?
- Heb je ooit een computerprogramma gebruikt dat gevaarlijk advies gaf? Vertel kort.
- Wat zou jij veranderen aan een model om het veiliger te maken?
Gerelateerde artikelen
Tofersen vertraagt progressie bij SOD1‑ALS
Langdurige follow-up toont dat tofersen (Qalsody) de ziekteprogressie bij mensen met SOD1‑ALS kan vertragen en bij sommige patiënten stabilisatie of blijvende verbetering geeft. De studie liep meerdere jaren en rapporteert ook bijwerkingen en lopende onderzoeken.
Gecoördineerde botaanvallen op Instagram in Westelijke Balkan
In november 2025 meldden Meta.mk-rapporten bijna gelijktijdige botcampagnes op Instagram die activisten en media in de Westelijke Balkan probeerden te dempen. Accounts van studenten, journalisten en uitgevers werden overspoeld en soms tijdelijk vergrendeld.