Forschende an der North Carolina State University untersuchen die Sicherheit großer Sprachmodelle. Jung‑Eun Kim sagt, dass Modelle Menschen nicht zu Schaden anleiten sollen.
Das Team nennt zwei Probleme: Ein Sicherheitstraining kann die Genauigkeit senken ("alignment tax") und viele Modelle prüfen Sicherheit nur oberflächlich. Jianwei Li erklärt ein Beispiel: Wenn eine Frage anders formuliert wird, gibt das Modell manchmal trotzdem gefährliche Informationen.
Die Forschenden fanden sicherheitskritische Neuronen und zeigten, dass man diese Neuronen beim Feinabstimmen einfrieren kann, damit Sicherheit und neue Aufgaben zugleich erhalten bleiben. Die Arbeit wird auf der ICLR2026 vorgestellt.
Schwierige Wörter
- forschende — Personen, die wissenschaftlich arbeiten oder forschen
- sicherheit — Zustand ohne Gefahr für Menschen oder Geräte
- neuron — Zelle im Gehirn oder in ComputermodellenNeuronen
- feinabstimmen — Ein Modell mit Daten weiter trainieren und anpassen
- einfrieren — Etwas im aktuellen Zustand lassen, nicht verändern
- oberflächlich — Nicht tief, nur kurz oder wenig genau
Tipp: Fahre über markierte Wörter oder tippe darauf, um kurze Definitionen zu sehen – während du liest oder zuhörst.
Diskussionsfragen
- Warum ist es wichtig, dass Modelle Menschen nicht zu Schaden anleiten?
- Hast du schon einmal eine Frage anders formuliert, um eine bessere Antwort von einem Gerät oder Programm zu bekommen? Erzähle kurz.
Verwandte Artikel
Indonesien verschärft Kontrolle digitaler Plattformen
Indonesien erweitert die Kontrolle über globale Online-Plattformen und verlangt mehr Transparenz bei Algorithmen und Inhaltsmoderation. Behörden nutzen Löschsysteme und Sanktionen; Kritiker warnen vor Einschränkungen des Informationszugangs und Menschenrechtsfragen.
Anthocyane aus dunklen Süßkirschen bremsen Brustkrebs
Forscher berichten, dass natürliche Anthocyane in dunklen Süßkirschen das Wachstum und die Ausbreitung von triple-negativem Brustkrebs bei Mäusen verlangsamen. Die Substanzen wirkten allein und in Kombination mit Chemotherapie und reduzierten besonders Lungenmetastasen.
Erklärbare KI hilft Medizinstudierenden beim Nähen von Inzisionen
Forscherinnen und Forscher der Johns Hopkins University entwickelten eine erklärbare KI, die Medizinstudierende beim Nähen (Suturing) anleitet und sofortes, personalisiertes Feedback per Textnachricht liefert. Eine kleine Studie mit 12 Studierenden zeigte unterschiedliche Lernfortschritte.
El Salvador setzt KI in der Gesundheit ein
Die Regierung von El Salvador fördert künstliche Intelligenz, unter anderem mit der Telemedizin‑App DoctorSV. Unterstützer loben Modernisierung, doch Ärztinnen, Gewerkschaften und IT‑Expertinnen warnen vor Problemen bei Personal, Transparenz und Datenschutz.