Investigadores de varias universidades examinaron por qué los modelos de lenguaje fallan al multiplicar dos números de cuatro cifras. El estudio, dirigido por Xiaoyan Bai y Chenhao Tan en University of Chicago con colaboradores de MIT, Harvard, Waterloo y Google DeepMind, comparó el ajuste fino estándar con la cadena de pensamiento implícita (ICoT).
Encontraron que los modelos estándar, incluso con dos a 12 capas, lograban menos del 1% de precisión porque no desarrollan un mecanismo para almacenar valores intermedios. En cambio, el modelo entrenado con ICoT alcanzó 100% de precisión y sus estados internos contenían las sumas acumuladas.
Al añadir un objetivo de seguimiento de las sumas acumuladas a un modelo de dos capas, la precisión subió hasta el 99% sin supervisión explícita de cadena de pensamiento. Los autores concluyen que la arquitectura y los objetivos de entrenamiento son clave para el razonamiento en varios pasos.
Palabras difíciles
- ajuste fino — Entrenamiento adicional de un modelo existente.ajuste fino estándar
- cadena de pensamiento — Secuencia de pasos mentales o razonamiento interno.
- precisión — Porcentaje de respuestas correctas en una tarea.
- valor intermedio — Número o resultado guardado entre pasos.valores intermedios
- suma acumulada — Total que se va guardando al sumar varios valores.sumas acumuladas
- supervisión explícita — Control directo durante el entrenamiento del modelo.
- arquitectura — Diseño y organización de las partes del modelo.
Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o escuchas.
Preguntas de discusión
- ¿Por qué crees que almacenar valores intermedios ayuda a resolver multiplicaciones largas?
- ¿Preferirías un modelo con supervisión explícita o uno que aprenda implícitamente la cadena de pensamiento? Explica tu opinión.
- ¿Qué cambios simples podrías imaginar en la arquitectura de un modelo para mejorar su razonamiento en varios pasos?
Artículos relacionados
La restricción calórica mejora la respuesta a la insulina en ratas mayores
Un estudio con ratas de 24 meses mostró que reducir las calorías cambia las proteínas del músculo y mejora la captación de glucosa por la insulina. Muchas respuestas moleculares difieren entre machos y hembras.
Mejorar la seguridad en modelos de lenguaje
Investigadores de North Carolina State University estudiaron cómo mejorar el alineamiento de seguridad en modelos de lenguaje grande. Identificaron neuronas clave y probaron congelarlas al afinar para reducir salidas inseguras sin perder rendimiento.
Repensar lo humano en la inteligencia artificial
La artista Xonorika Kira critica la idea de 'centrar lo humano' en la inteligencia artificial porque excluye otras formas de conocimiento. Propone reconocer la interdependencia entre especies, tecnologías y planetas y cambiar cómo se usan datos y modelos.