Investigadores de varias universidades examinaron por qué los modelos de lenguaje fallan al multiplicar dos números de cuatro cifras. El estudio, dirigido por Xiaoyan Bai y Chenhao Tan en University of Chicago con colaboradores de MIT, Harvard, Waterloo y Google DeepMind, comparó el ajuste fino estándar con la cadena de pensamiento implícita (ICoT).
Encontraron que los modelos estándar, incluso con dos a 12 capas, lograban menos del 1% de precisión porque no desarrollan un mecanismo para almacenar valores intermedios. En cambio, el modelo entrenado con ICoT alcanzó 100% de precisión y sus estados internos contenían las sumas acumuladas.
Al añadir un objetivo de seguimiento de las sumas acumuladas a un modelo de dos capas, la precisión subió hasta el 99% sin supervisión explícita de cadena de pensamiento. Los autores concluyen que la arquitectura y los objetivos de entrenamiento son clave para el razonamiento en varios pasos.
Palabras difíciles
- ajuste fino — Entrenamiento adicional de un modelo existente.ajuste fino estándar
- cadena de pensamiento — Secuencia de pasos mentales o razonamiento interno.
- precisión — Porcentaje de respuestas correctas en una tarea.
- valor intermedio — Número o resultado guardado entre pasos.valores intermedios
- suma acumulada — Total que se va guardando al sumar varios valores.sumas acumuladas
- supervisión explícita — Control directo durante el entrenamiento del modelo.
- arquitectura — Diseño y organización de las partes del modelo.
Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o audicións.
Preguntas de discusión
- ¿Por qué crees que almacenar valores intermedios ayuda a resolver multiplicaciones largas?
- ¿Preferirías un modelo con supervisión explícita o uno que aprenda implícitamente la cadena de pensamiento? Explica tu opinión.
- ¿Qué cambios simples podrías imaginar en la arquitectura de un modelo para mejorar su razonamiento en varios pasos?
Artículos relacionados
Periodistas piden ayuda contra noticias falsas de IA
Representantes de medios de países de ingresos bajos y medios pidieron a periodistas chinos ayuda en el Foro de la Franja y la Ruta para combatir noticias falsas generadas por inteligencia artificial y exigir etiquetas en plataformas.
Radar detecta código inseguro creado por IA llamado «vibe coding»
Investigadores alertan que el «vibe coding» y herramientas generativas de IA están liberando código vulnerable. El Vibe Security Radar de Georgia Tech analizó miles de avisos y ha confirmado casos con fallos de seguridad.