LingVo.club
Nivel
Por qué los modelos fallan al multiplicar números largos — Nivel B2 — brown wooden blocks on white surface

Por qué los modelos fallan al multiplicar números largosCEFR B2

29 dic 2025

Nivel B2 – Intermedio-alto
6 min
356 palabras

Una nueva investigación explica por qué los modelos de lenguaje de última generación fallan en una tarea aparentemente elemental: multiplicar dos números de cuatro cifras. El trabajo, dirigido por Xiaoyan Bai y Chenhao Tan en University of Chicago y con colaboradores de MIT, Harvard University, University of Waterloo y Google DeepMind, comparó el ajuste fino estándar con un método distinto llamado cadena de pensamiento implícita (ICoT).

Los autores muestran que, bajo ajuste fino estándar, modelos de entre dos y 12 capas alcanzaron menos del 1% de precisión. Estos modelos aprenden patrones superficiales pero no desarrollan un mecanismo estable para almacenar y reutilizar productos parciales y sumas acumuladas, que son necesarios para cálculos largos. En contraste, el modelo entrenado con ICoT logró 100% de precisión; al analizar sus estados ocultos, los investigadores pudieron decodificar las sumas acumuladas, lo que prueba que el modelo codifica y recuerda información relevante.

El estudio describe además cómo ICoT organiza la atención a lo largo del tiempo: las capas iniciales calculan y almacenan productos de pares de dígitos en ubicaciones específicas y las capas posteriores recuperan esos valores para formar cada dígito de la respuesta final. También observaron representaciones de dígitos en bases similares a las de Fourier y la aparición natural de una operación geométrica parecida a la suma de Minkowski.

Para probar una solución simple, añadieron un objetivo de entrenamiento que enseña al modelo a rastrear las sumas acumuladas en cada paso. Incluir ese objetivo en un modelo de dos capas elevó su precisión al 99% sin supervisión explícita de cadena de pensamiento; además, el modelo desarrolló mecanismos de atención parecidos a los de ICoT y nuevas estrategias para seguir múltiples pares de dígitos. El equipo concluye que, más allá de aumentar datos o parámetros, las guías arquitectónicas y objetivos dirigidos pueden permitir el razonamiento en varios pasos. "A medida que la IA se integra cada vez más en la toma de decisiones críticas, es esencial comprender sus formas únicas de aprender y pensar", dice Tan.

Fuente: University of Chicago

  • Mecanismo para guardar valores intermedios.
  • Atención distribuida entre capas iniciales y finales.
  • Representaciones numéricas parecidas a Fourier y suma geométrica.

Palabras difíciles

  • ajustemodificación de parámetros para mejorar un modelo
    ajuste fino
  • suma acumuladavalor parcial que se añade y se guarda
    sumas acumuladas
  • estado ocultorepresentación interna que guarda información temporal
    estados ocultos
  • atenciónmecanismo que decide qué información usar
  • decodificartraducir una representación interna a resultados
  • mecanismoprocedimiento o componente que realiza una función

Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o escuchas.

Preguntas de discusión

  • ¿Qué ventajas y riesgos ves en usar objetivos de entrenamiento específicos, como enseñar a rastrear sumas acumuladas, para mejorar el razonamiento de modelos?
  • Tan afirma que es esencial comprender las formas únicas en que la IA aprende y piensa. ¿Cómo podría afectar esto a la confianza en decisiones críticas asistidas por IA?
  • Piensa en otras tareas que requieren pasos intermedios. ¿Qué beneficios podría traerles implementar mecanismos para guardar valores intermedios y atención distribuida?

Artículos relacionados