Des chercheurs dirigés par Xiaoyan Bai et Chenhao Tan à l'University of Chicago, en collaboration avec des équipes du MIT, de Harvard, de l'University of Waterloo et de Google DeepMind, ont comparé l'affinage standard à l'Implicit Chain of Thought (ICoT) pour une tâche simple mais révélatrice : multiplier deux nombres à quatre chiffres. Ils se sont intéressés au problème des dépendances à long terme, où le modèle doit conserver des produits partiels et des sommes courantes pour produire un résultat correct.
Sous l'affinage standard, des modèles de 2 à 12 couches n'ont obtenu qu'une précision inférieure à 1 %. En revanche, le modèle entraîné avec ICoT a atteint une précision de 100 %. L'équipe a sondé les états internes et a pu décoder les sommes courantes depuis les états cachés, preuve que le modèle ICoT encode et mémorise les valeurs intermédiaires nécessaires.
Les auteurs ont observé que ICoT organise l'attention en voies distinctes au fil du temps : les couches précoces calculent et stockent les produits de paires de chiffres à des emplacements précis, et les couches ultérieures récupèrent ces valeurs pour former chaque chiffre du résultat. Ils notent aussi des représentations des chiffres en bases de type Fourier et l'apparition naturelle d'une opération géométrique proche d'une somme de Minkowski durant l'entraînement.
Pour tester une modification simple, les chercheurs ont ajouté un objectif d'entraînement qui apprend au modèle à suivre les sommes courantes à chaque étape. Appliqué à un modèle à deux couches, cet objectif a fait passer la précision à 99 % sans supervision explicite par chaîne de pensée, et le modèle a développé des mécanismes d'attention similaires à ICoT. Les auteurs concluent que certaines limites ne se résolvent pas seulement en augmentant les données ou les paramètres, et que l'architecture et les objectifs d'entraînement ciblés sont essentiels. « À mesure que l'IA est de plus en plus intégrée dans la prise de décisions critiques, il est essentiel de comprendre ses façons uniques d'apprendre et de penser », déclare Chenhao Tan.
Mots difficiles
- affinage — processus d'ajustement fin d'un modèle
- dépendance — lien où une étape dépend d'anciennes informationsdépendances
- état caché — représentation interne non visible du modèleétats cachés
- attention — mécanisme qui donne du poids à certaines informations
- produit partiel — valeur intermédiaire pendant un calcul multiplicatifproduits partiels
- somme courante — total provisoire mis à jour étape par étapesommes courantes
- encoder — transformer une information en représentation interneencode
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Pourquoi, selon l'article, augmenter seulement les données ou les paramètres peut être insuffisant pour résoudre certaines limites ?
- Quels avantages et risques voyez-vous à pouvoir décoder des valeurs intermédiaires depuis les états internes d'un modèle ?
- Pensez-vous que l'idée d'ajouter un objectif pour suivre les sommes courantes pourrait s'appliquer à d'autres tâches complexes ? Donnez un exemple.
Articles liés
Comment la biologie microscopique construit les réseaux cérébraux
Une étude publiée dans Nature Communications relie les cellules, les molécules et l’imagerie pour montrer comment la biologie microscopique sous-tend les réseaux observés en fMRI. Cela pourrait changer l’étude de la cognition et des troubles mentaux.
Les chatbots d'IA peuvent influencer les opinions
Une étude montre que des réponses courtes de chatbots peuvent modifier les opinions sociales et politiques. Des cadres narratifs discrets et des biais d'entraînement dans les modèles suffisent à produire ce glissement, selon les chercheurs.
Des capteurs et l'intelligence artificielle pour suivre la SLA
Une équipe de l'Université du Missouri teste des capteurs à domicile et l'intelligence artificielle pour suivre la santé des personnes atteintes de sclérose latérale amyotrophique. Le système vise à détecter tôt les signes de déclin et à alerter les cliniciens.
Traiter la dépression en ciblant l'inflammation
Une revue et une méta‑analyse montrent que, chez des personnes dépressives avec une inflammation élevée, des traitements anti‑inflammatoires ont réduit les symptômes et l'anhédonie. Les médicaments ne sont toutefois pas approuvés pour la dépression.