Pourquoi les modèles ratent la multiplication à quatre chiffres — Français Niveau B2

Des chercheurs dirigés par Xiaoyan Bai et Chenhao Tan à l'University of Chicago, en collaboration avec des équipes du MIT, de Harvard, de l'University of Waterloo et de Google DeepMind, ont comparé l'affinage standard à l'Implicit Chain of Thought (ICoT) pour une tâche simple mais révélatrice : multiplier deux nombres à quatre chiffres. Ils se sont intéressés au problème des dépendances à long terme, où le modèle doit conserver des produits partiels et des sommes courantes pour produire un résultat correct.

Sous l'affinage standard, des modèles de 2 à 12 couches n'ont obtenu qu'une précision inférieure à 1 %. En revanche, le modèle entraîné avec ICoT a atteint une précision de 100 %. L'équipe a sondé les états internes et a pu décoder les sommes courantes depuis les états cachés, preuve que le modèle ICoT encode et mémorise les valeurs intermédiaires nécessaires.

Les auteurs ont observé que ICoT organise l'attention en voies distinctes au fil du temps : les couches précoces calculent et stockent les produits de paires de chiffres à des emplacements précis, et les couches ultérieures récupèrent ces valeurs pour former chaque chiffre du résultat. Ils notent aussi des représentations des chiffres en bases de type Fourier et l'apparition naturelle d'une opération géométrique proche d'une somme de Minkowski durant l'entraînement.

Pour tester une modification simple, les chercheurs ont ajouté un objectif d'entraînement qui apprend au modèle à suivre les sommes courantes à chaque étape. Appliqué à un modèle à deux couches, cet objectif a fait passer la précision à 99 % sans supervision explicite par chaîne de pensée, et le modèle a développé des mécanismes d'attention similaires à ICoT. Les auteurs concluent que certaines limites ne se résolvent pas seulement en augmentant les données ou les paramètres, et que l'architecture et les objectifs d'entraînement ciblés sont essentiels. « À mesure que l'IA est de plus en plus intégrée dans la prise de décisions critiques, il est essentiel de comprendre ses façons uniques d'apprendre et de penser », déclare Chenhao Tan.

Mots difficiles

affinage — processus d'ajustement fin d'un modèle

dépendance — lien où une étape dépend d'anciennes informations

dépendances

état caché — représentation interne non visible du modèle

états cachés

attention — mécanisme qui donne du poids à certaines informations

produit partiel — valeur intermédiaire pendant un calcul multiplicatif

produits partiels

somme courante — total provisoire mis à jour étape par étape

sommes courantes

encoder — transformer une information en représentation interne

encode

Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.

Questions de discussion

Pourquoi, selon l'article, augmenter seulement les données ou les paramètres peut être insuffisant pour résoudre certaines limites ?

Quels avantages et risques voyez-vous à pouvoir décoder des valeurs intermédiaires depuis les états internes d'un modèle ?

Pensez-vous que l'idée d'ajouter un objectif pour suivre les sommes courantes pourrait s'appliquer à d'autres tâches complexes ? Donnez un exemple.

SEWA : un système satellitaire d'alerte précoce pour l'Afrique

Un nouveau système d'alerte par satellite, SEWA, a été lancé lors d'un forum à Windhoek (23–27 juin). SEWA vise à renforcer les alertes multi-risques et à améliorer l'accès aux données pour gouvernements, organisations et communautés.

Niveau

Lire

18 nov. 2025

L'IA et les risques pour les personnes LGBTQ+

L'intelligence artificielle est de plus en plus présente, et 55 % des personnes voient plus d'avantages que d'inconvénients. Mais des biais, des images nuisibles et la surveillance biométrique inquiètent particulièrement les communautés LGBTQ+.

Niveau

Lire

29 nov. 2025

Bots ciblent Instagram d’activistes et médias dans les Balkans

Meta.mk rapporte, les 16 et 23 novembre 2025, des opérations coordonnées de bots qui ont visé des comptes Instagram d’activistes et de médias dans les Balkans occidentaux. Les campagnes ont exploité des règles automatiques des plateformes pour réduire la visibilité des critiques.

Niveau

Lire

7 nov. 2025

Inégalités et gouvernance : l'IA entre Nord et Sud

L'intelligence artificielle promet de grands gains, mais les bénéfices risquent d'aller surtout aux pays riches. En Afrique, la production de données est importante, mais l'accès aux infrastructures et aux puces reste limité et inégal.

Niveau

Lire

8 déc. 2025

Nano‑OLEDs : des pixels nanométriques pour écrans

Des chercheurs de l'ETH Zurich ont fabriqué des diodes OLED à l'échelle nanométrique, avec des pixels allant jusqu'à 100 nanomètres. Ces nano‑pixels peuvent servir pour des lunettes proches de l'œil et pour des microscopes.

Niveau

Lire

Pourquoi les modèles ratent la multiplication à quatre chiffres^{CEFR B2}

Mots difficiles

Questions de discussion

Articles liés

SEWA : un système satellitaire d'alerte précoce pour l'Afrique

L'IA et les risques pour les personnes LGBTQ+

Bots ciblent Instagram d’activistes et médias dans les Balkans

Inégalités et gouvernance : l'IA entre Nord et Sud

Nano‑OLEDs : des pixels nanométriques pour écrans

Pourquoi les modèles ratent la multiplication à quatre chiffres CEFR B2

Mots difficiles

Questions de discussion

Articles liés

SEWA : un système satellitaire d'alerte précoce pour l'Afrique

L'IA et les risques pour les personnes LGBTQ+

Bots ciblent Instagram d’activistes et médias dans les Balkans

Inégalités et gouvernance : l'IA entre Nord et Sud

Nano‑OLEDs : des pixels nanométriques pour écrans

Pourquoi les modèles ratent la multiplication à quatre chiffres^{CEFR B2}