Por qué los modelos fallan al multiplicar números largos — Español Nivel B2

Una nueva investigación explica por qué los modelos de lenguaje de última generación fallan en una tarea aparentemente elemental: multiplicar dos números de cuatro cifras. El trabajo, dirigido por Xiaoyan Bai y Chenhao Tan en University of Chicago y con colaboradores de MIT, Harvard University, University of Waterloo y Google DeepMind, comparó el ajuste fino estándar con un método distinto llamado cadena de pensamiento implícita (ICoT).

Los autores muestran que, bajo ajuste fino estándar, modelos de entre dos y 12 capas alcanzaron menos del 1% de precisión. Estos modelos aprenden patrones superficiales pero no desarrollan un mecanismo estable para almacenar y reutilizar productos parciales y sumas acumuladas, que son necesarios para cálculos largos. En contraste, el modelo entrenado con ICoT logró 100% de precisión; al analizar sus estados ocultos, los investigadores pudieron decodificar las sumas acumuladas, lo que prueba que el modelo codifica y recuerda información relevante.

El estudio describe además cómo ICoT organiza la atención a lo largo del tiempo: las capas iniciales calculan y almacenan productos de pares de dígitos en ubicaciones específicas y las capas posteriores recuperan esos valores para formar cada dígito de la respuesta final. También observaron representaciones de dígitos en bases similares a las de Fourier y la aparición natural de una operación geométrica parecida a la suma de Minkowski.

Para probar una solución simple, añadieron un objetivo de entrenamiento que enseña al modelo a rastrear las sumas acumuladas en cada paso. Incluir ese objetivo en un modelo de dos capas elevó su precisión al 99% sin supervisión explícita de cadena de pensamiento; además, el modelo desarrolló mecanismos de atención parecidos a los de ICoT y nuevas estrategias para seguir múltiples pares de dígitos. El equipo concluye que, más allá de aumentar datos o parámetros, las guías arquitectónicas y objetivos dirigidos pueden permitir el razonamiento en varios pasos. "A medida que la IA se integra cada vez más en la toma de decisiones críticas, es esencial comprender sus formas únicas de aprender y pensar", dice Tan.

Fuente: University of Chicago

Mecanismo para guardar valores intermedios.
Atención distribuida entre capas iniciales y finales.
Representaciones numéricas parecidas a Fourier y suma geométrica.

Palabras difíciles

ajuste — modificación de parámetros para mejorar un modelo

ajuste fino

suma acumulada — valor parcial que se añade y se guarda

sumas acumuladas

estado oculto — representación interna que guarda información temporal

estados ocultos

atención — mecanismo que decide qué información usar

decodificar — traducir una representación interna a resultados

mecanismo — procedimiento o componente que realiza una función

Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o escuchas.

Preguntas de discusión

¿Qué ventajas y riesgos ves en usar objetivos de entrenamiento específicos, como enseñar a rastrear sumas acumuladas, para mejorar el razonamiento de modelos?

Tan afirma que es esencial comprender las formas únicas en que la IA aprende y piensa. ¿Cómo podría afectar esto a la confianza en decisiones críticas asistidas por IA?

Piensa en otras tareas que requieren pasos intermedios. ¿Qué beneficios podría traerles implementar mecanismos para guardar valores intermedios y atención distribuida?

Prueba Abbott-Bioline muestra muchos falsos negativos, según estudio

Un estudio en la frontera Tailandia-Myanmar entre octubre de 2024 y enero de 2025 encontró que la prueba rápida Abbott-Bioline falla en detectar muchas infecciones por malaria. La OMS y Abbott investigan y hay llamados a retirar la prueba en la región.

Nivel

Leer

2 dic 2025

Sensores e inteligencia artificial para vigilar la salud en la ELA

La University of Missouri prueba sensores domésticos con inteligencia artificial para detectar cambios de salud en personas con esclerosis lateral amiotrófica. El sistema busca avisar a los clínicos y apoyar decisiones como ajustes de tratamiento.

Nivel

Leer

16 feb 2026

Dosis altas de antioxidantes pueden afectar el esperma y los hijos

Un estudio en ratones muestra que el consumo regular de dosis altas de antioxidantes dañó el ADN del esperma y produjo cambios en la forma del cráneo y la cara de la descendencia. Los autores aconsejan precaución para hombres que planean tener hijos.

Nivel

Leer

4 feb 2026

El embarazo tiene mucho más riesgo de muerte que el aborto

Un nuevo análisis con datos de 2018 a 2021 encontró que el riesgo de morir por embarazo es mucho mayor que el riesgo por aborto. Los autores atribuyen parte del cambio a mejores registros de defunción.

Nivel

Leer

9 oct 2025

África impulsa la investigación y la fabricación de salud

La ayuda internacional a África ha caído y el continente sufre mucha carga de enfermedades. Investigadores piden más control regional de la investigación y dan ejemplos de producción y vigilancia científica local.

Nivel

Leer

Por qué los modelos fallan al multiplicar números largos^{CEFR B2}

Palabras difíciles

Preguntas de discusión

Artículos relacionados

Prueba Abbott-Bioline muestra muchos falsos negativos, según estudio

Sensores e inteligencia artificial para vigilar la salud en la ELA

Dosis altas de antioxidantes pueden afectar el esperma y los hijos

El embarazo tiene mucho más riesgo de muerte que el aborto

África impulsa la investigación y la fabricación de salud

Por qué los modelos fallan al multiplicar números largos CEFR B2

Palabras difíciles

Preguntas de discusión

Artículos relacionados

Prueba Abbott-Bioline muestra muchos falsos negativos, según estudio

Sensores e inteligencia artificial para vigilar la salud en la ELA

Dosis altas de antioxidantes pueden afectar el esperma y los hijos

El embarazo tiene mucho más riesgo de muerte que el aborto

África impulsa la investigación y la fabricación de salud

Por qué los modelos fallan al multiplicar números largos^{CEFR B2}