LingVo.club
Nivel
Por qué los modelos fallan al multiplicar números largos — Nivel B1 — brown wooden blocks on white surface

Por qué los modelos fallan al multiplicar números largosCEFR B1

29 dic 2025

Nivel B1 – Intermedio
3 min
146 palabras

Investigadores de varias universidades examinaron por qué los modelos de lenguaje fallan al multiplicar dos números de cuatro cifras. El estudio, dirigido por Xiaoyan Bai y Chenhao Tan en University of Chicago con colaboradores de MIT, Harvard, Waterloo y Google DeepMind, comparó el ajuste fino estándar con la cadena de pensamiento implícita (ICoT).

Encontraron que los modelos estándar, incluso con dos a 12 capas, lograban menos del 1% de precisión porque no desarrollan un mecanismo para almacenar valores intermedios. En cambio, el modelo entrenado con ICoT alcanzó 100% de precisión y sus estados internos contenían las sumas acumuladas.

Al añadir un objetivo de seguimiento de las sumas acumuladas a un modelo de dos capas, la precisión subió hasta el 99% sin supervisión explícita de cadena de pensamiento. Los autores concluyen que la arquitectura y los objetivos de entrenamiento son clave para el razonamiento en varios pasos.

Palabras difíciles

  • ajuste finoEntrenamiento adicional de un modelo existente.
    ajuste fino estándar
  • cadena de pensamientoSecuencia de pasos mentales o razonamiento interno.
  • precisiónPorcentaje de respuestas correctas en una tarea.
  • valor intermedioNúmero o resultado guardado entre pasos.
    valores intermedios
  • suma acumuladaTotal que se va guardando al sumar varios valores.
    sumas acumuladas
  • supervisión explícitaControl directo durante el entrenamiento del modelo.
  • arquitecturaDiseño y organización de las partes del modelo.

Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o escuchas.

Preguntas de discusión

  • ¿Por qué crees que almacenar valores intermedios ayuda a resolver multiplicaciones largas?
  • ¿Preferirías un modelo con supervisión explícita o uno que aprenda implícitamente la cadena de pensamiento? Explica tu opinión.
  • ¿Qué cambios simples podrías imaginar en la arquitectura de un modelo para mejorar su razonamiento en varios pasos?

Artículos relacionados

¿Se puede recuperar la vista perdida? — Nivel B1
31 dic 2025

¿Se puede recuperar la vista perdida?

Un video del University of Rochester analiza la pérdida de visión y si es posible recuperarla. La oftalmóloga Juliette McGregor explica que la ceguera es un espectro, describe tratamientos y apoyo, y habla sobre la investigación en curso.

Por qué los modelos fallan al multiplicar números largos — Español Nivel B1 | LingVo.club