Una nueva investigación explica por qué los modelos de lenguaje de última generación fallan en una tarea aparentemente elemental: multiplicar dos números de cuatro cifras. El trabajo, dirigido por Xiaoyan Bai y Chenhao Tan en University of Chicago y con colaboradores de MIT, Harvard University, University of Waterloo y Google DeepMind, comparó el ajuste fino estándar con un método distinto llamado cadena de pensamiento implícita (ICoT).
Los autores muestran que, bajo ajuste fino estándar, modelos de entre dos y 12 capas alcanzaron menos del 1% de precisión. Estos modelos aprenden patrones superficiales pero no desarrollan un mecanismo estable para almacenar y reutilizar productos parciales y sumas acumuladas, que son necesarios para cálculos largos. En contraste, el modelo entrenado con ICoT logró 100% de precisión; al analizar sus estados ocultos, los investigadores pudieron decodificar las sumas acumuladas, lo que prueba que el modelo codifica y recuerda información relevante.
El estudio describe además cómo ICoT organiza la atención a lo largo del tiempo: las capas iniciales calculan y almacenan productos de pares de dígitos en ubicaciones específicas y las capas posteriores recuperan esos valores para formar cada dígito de la respuesta final. También observaron representaciones de dígitos en bases similares a las de Fourier y la aparición natural de una operación geométrica parecida a la suma de Minkowski.
Para probar una solución simple, añadieron un objetivo de entrenamiento que enseña al modelo a rastrear las sumas acumuladas en cada paso. Incluir ese objetivo en un modelo de dos capas elevó su precisión al 99% sin supervisión explícita de cadena de pensamiento; además, el modelo desarrolló mecanismos de atención parecidos a los de ICoT y nuevas estrategias para seguir múltiples pares de dígitos. El equipo concluye que, más allá de aumentar datos o parámetros, las guías arquitectónicas y objetivos dirigidos pueden permitir el razonamiento en varios pasos. "A medida que la IA se integra cada vez más en la toma de decisiones críticas, es esencial comprender sus formas únicas de aprender y pensar", dice Tan.
Fuente: University of Chicago
- Mecanismo para guardar valores intermedios.
- Atención distribuida entre capas iniciales y finales.
- Representaciones numéricas parecidas a Fourier y suma geométrica.
Palabras difíciles
- ajuste — modificación de parámetros para mejorar un modeloajuste fino
- suma acumulada — valor parcial que se añade y se guardasumas acumuladas
- estado oculto — representación interna que guarda información temporalestados ocultos
- atención — mecanismo que decide qué información usar
- decodificar — traducir una representación interna a resultados
- mecanismo — procedimiento o componente que realiza una función
Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o audicións.
Preguntas de discusión
- ¿Qué ventajas y riesgos ves en usar objetivos de entrenamiento específicos, como enseñar a rastrear sumas acumuladas, para mejorar el razonamiento de modelos?
- Tan afirma que es esencial comprender las formas únicas en que la IA aprende y piensa. ¿Cómo podría afectar esto a la confianza en decisiones críticas asistidas por IA?
- Piensa en otras tareas que requieren pasos intermedios. ¿Qué beneficios podría traerles implementar mecanismos para guardar valores intermedios y atención distribuida?
Artículos relacionados
Nuevo andamiaje sin materiales animales para tejido cerebral
Científicos han creado un andamiaje poroso que permite cultivar tejido similar al cerebro sin recubrimientos de origen animal. El trabajo, liderado en UC Riverside, busca modelos más reproducibles para estudiar enfermedades y probar fármacos.
Estudio: terapias complementarias se asocian a peor supervivencia en cáncer de mama
Un estudio encontró que usar medicina complementaria y alternativa se asocia con menor supervivencia en cáncer de mama. Analizaron datos de una gran base y hallaron peores resultados cuando faltaron tratamientos tradicionales.