Des chercheurs de Brown University, présentés à l'International Conference on Learning Representations à Rio de Janeiro, ont exploré si les modèles de langage modernes représentent des contraintes causales du monde réel. Michael Lepori, doctorant et responsable de l'étude, indique avoir trouvé « des éléments montrant que les modèles linguistiques ont encodé, d'une certaine manière, les contraintes causales du monde réel. » Les auteurs ajoutent que ces représentations aident les modèles à prédire les jugements humains.
L'équipe a conçu une expérience où des phrases décrivent des événements de plausibilité variable — banal, improbable, impossible ou dénué de sens — par exemple « refroidir une boisson avec de la glace », « avec de la neige », « avec du feu » ou une formulation comme « avec hier ». Les chercheurs ont examiné les états mathématiques internes produits par l'IA grâce à l'interprétabilité mécanistique, une approche qui vise à rétroconcevoir ce que le modèle encode.
Les expériences, réalisées sur plusieurs modèles open-source (parmi eux GPT 2 d'Open AI, Llama 3.2 de Meta et Gemma 2 de Google), montrent que des modèles suffisamment grands développent des vecteurs internes distincts correspondant à des catégories de plausibilité. Ces vecteurs distinguaient des catégories proches, par exemple improbable contre impossible, avec environ 85 % de précision. Ils reflétaient aussi l'incertitude humaine, puisque pour des énoncés ambigus les sorties reproduisaient la division des jugements observée en enquêtes humaines. Les chercheurs notent que ces vecteurs commencent à apparaître dans des modèles de plus de 2 milliards de paramètres, une taille faible comparée aux modèles actuels de plus d'un billion de paramètres.
- L'interprétabilité mécanistique peut révéler ce que les modèles encodent.
- Les vecteurs correspondent aux jugements humains de plausibilité.
- Ces résultats peuvent aider au développement de modèles plus intelligents et plus fiables.
Mots difficiles
- contrainte — règle ou limite imposée à un systèmecontraintes
- causal — qui relie cause et effetcausales
- encoder — représenter une information dans un systèmeencodé
- plausibilité — degré de vraisemblance d'un événement
- interprétabilité mécanistique — méthode pour comprendre ce que calcule un modèle
- vecteur — suite de nombres internes au modèlevecteurs, vecteurs internes
- paramètre — valeur numérique qui règle un modèleparamètres
- rétroconcevoir — reconstruire la fonction interne d'un système
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Comment les vecteurs correspondant à la plausibilité pourraient-ils améliorer la fiabilité des modèles dans des applications réelles ? Donnez des exemples concrets.
- La distinction entre « improbable » et « impossible » était d'environ 85 % de précision. Pensez-vous que cette précision est suffisante pour des décisions importantes ? Pourquoi ?
- Quels bénéfices et quels risques voyez-vous à utiliser l'interprétabilité mécanistique pour expliquer le comportement des modèles d'IA au grand public ?
Articles liés
Les universités et la recherche en Iran touchées par des frappes
Des frappes aériennes ont endommagé des dizaines d’universités et laboratoires en Iran. L’enseignement en présentiel a été suspendu, l’UNESCO condamne les attaques et des experts craignent des effets durables sur la recherche et les étudiants.
Les moustiques peuvent apprendre à aimer l'odeur du DEET
Une étude montre que des moustiques Aedes aegypti peuvent associer l’odeur du DEET à une source de nourriture et, parfois, y être attirés. Les chercheurs conseillent de continuer à utiliser le DEET et de réappliquer régulièrement.
Les plus petits robots programmables au monde
Des chercheurs ont créé des robots microscopiques autonomes qui nagent, détectent leur environnement et fonctionnent pendant des mois. Ils sont alimentés par la lumière, coûtent environ un centime chacun et pourraient aider la médecine et la fabrication.
Une IA apprend des valeurs culturelles en observant des humains
Des chercheurs ont montré qu'une IA, entraînée à partir du comportement humain, peut apprendre des différences de valeurs entre groupes culturels. L'étude utilise le jeu Overcooked et un second test sur le partage d'argent.