Investigadores de varias universidades examinaron por qué los modelos de lenguaje fallan al multiplicar dos números de cuatro cifras. El estudio, dirigido por Xiaoyan Bai y Chenhao Tan en University of Chicago con colaboradores de MIT, Harvard, Waterloo y Google DeepMind, comparó el ajuste fino estándar con la cadena de pensamiento implícita (ICoT).
Encontraron que los modelos estándar, incluso con dos a 12 capas, lograban menos del 1% de precisión porque no desarrollan un mecanismo para almacenar valores intermedios. En cambio, el modelo entrenado con ICoT alcanzó 100% de precisión y sus estados internos contenían las sumas acumuladas.
Al añadir un objetivo de seguimiento de las sumas acumuladas a un modelo de dos capas, la precisión subió hasta el 99% sin supervisión explícita de cadena de pensamiento. Los autores concluyen que la arquitectura y los objetivos de entrenamiento son clave para el razonamiento en varios pasos.
Palabras difíciles
- ajuste fino — Entrenamiento adicional de un modelo existente.ajuste fino estándar
- cadena de pensamiento — Secuencia de pasos mentales o razonamiento interno.
- precisión — Porcentaje de respuestas correctas en una tarea.
- valor intermedio — Número o resultado guardado entre pasos.valores intermedios
- suma acumulada — Total que se va guardando al sumar varios valores.sumas acumuladas
- supervisión explícita — Control directo durante el entrenamiento del modelo.
- arquitectura — Diseño y organización de las partes del modelo.
Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o escuchas.
Preguntas de discusión
- ¿Por qué crees que almacenar valores intermedios ayuda a resolver multiplicaciones largas?
- ¿Preferirías un modelo con supervisión explícita o uno que aprenda implícitamente la cadena de pensamiento? Explica tu opinión.
- ¿Qué cambios simples podrías imaginar en la arquitectura de un modelo para mejorar su razonamiento en varios pasos?