Des chercheurs de North Carolina State University ont étudié la sécurité des grands modèles de langage. Jung-Eun Kim dit qu'ils ne veulent pas que ces modèles conseillent de se faire du mal ou aident à nuire à autrui. L'équipe a trouvé deux défis : l'entraînement à la sécurité peut réduire la précision (appelé « alignment tax ») et le contrôle peut être superficiel et contourné.
Jianwei Li donne un exemple simple : si on demande comment voler de l'argent, le modèle refuse ; mais si on dit que c'est pour aider des gens, le modèle peut donner l'information. Ils notent aussi que l'ajustement fin à un domaine peut affaiblir la sécurité.
Les chercheurs proposent l'hypothèse SSAH et identifient des neurones critiques. En gelant ces neurones lors du fine-tuning, le modèle garde sa sécurité initiale tout en apprenant de nouvelles tâches. Le travail sera présenté à ICLR2026 et le code est disponible en ligne.
Mots difficiles
- chercheur — personne qui fait des recherches scientifiqueschercheurs
- sécurité — protection contre le danger ou le risque
- précision — qualité d'être exact ou sans erreur
- geler — arrêter l'activité en rendant immobilegelant
- neurone — cellule du cerveau qui transmet des signauxneurones
- hypothèse — idée proposée pour expliquer quelque chose
- contourner — éviter une règle ou une protectioncontourné
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Est‑ce important que les modèles n'aident pas à nuire ? Pourquoi ?
- Que penses‑tu de l'idée de geler des neurones pour garder la sécurité ?
- Préférerais‑tu un modèle qui apprend beaucoup ou un modèle très sécurisé ? Explique.
Articles liés
Africa Wiki Women : donner plus de visibilité aux femmes africaines
Africa Wiki Women aide les femmes africaines à créer et améliorer des articles sur Wikipedia et d'autres plates‑formes Wikimedia. Global Voices a publié une interview des cofondatrices à l'occasion de la Journée internationale des femmes 2026.
Incendies de janvier 2025 et hausse des soins virtuels à Los Angeles
Une étude publiée dans JAMA Health Forum a analysé l27utilisation des soins après les incendies du January 7, 2025 à Los Angeles. Elle montre une forte augmentation des consultations virtuelles, surtout pour des symptômes respiratoires et cardiovasculaires.
La restriction calorique améliore la réponse du muscle à l'insuline chez des rats âgés
Des chercheurs ont donné 35% moins de nourriture à des rats âgés de 24 mois pendant huit semaines. La restriction calorique a modifié les protéines musculaires et augmenté la captation du glucose par l'insuline, avec des différences entre mâles et femelles.