Investigadores de Brown University presentaron en la International Conference on Learning Representations en Río de Janeiro un estudio sobre la comprensión del mundo real en modelos de lenguaje. Michael Lepori, candidato a doctorado y líder del trabajo, explica que los resultados muestran "alguna evidencia" de que los modelos codifican restricciones causales del mundo real y que esas codificaciones predicen juicios humanos.
El equipo diseñó un experimento que presentó oraciones con plausibilidad variable: ejemplos comunes (por ejemplo, enfriar una bebida con hielo), improbables (con nieve), imposibles (con fuego) y sin sentido (con "ayer"). Usaron interpretabilidad mecanicista para examinar los estados internos de la IA, una técnica que busca ingeniería inversa sobre lo que hay en esos estados.
Probaron varios modelos de código abierto, incluyendo GPT-2 de OpenAI, Llama 3.2 de Meta y Gemma 2 de Google. Hallaron que los modelos lo bastante grandes desarrollaron vectores internos que se asocian a categorías de plausibilidad; pudieron distinguir, por ejemplo, improbable frente a imposible con aproximadamente 85% de precisión. Además, esos vectores reflejaron la división de juicios que observan las encuestas humanas y comenzaron a aparecer en modelos con más de 2 000 millones de parámetros, un tamaño pequeño frente a modelos actuales de más de un billón de parámetros.
- La interpretabilidad mecanicista revela qué codifican los modelos.
- Los vectores coinciden con juicios humanos de plausibilidad.
- Los hallazgos pueden ayudar a desarrollar modelos más inteligentes y confiables.
Palabras difíciles
- codificar — representar información en una forma internacodifican
- plausibilidad — grado de credibilidad o verosimilitud de algo
- interpretabilidad mecanicista — técnica para entender procesos internos de modelos
- vector — lista de números que representa informaciónvectores
- parámetro — valor interno que controla el comportamiento del modeloparámetros
- ingeniería inversa — método para deducir diseño desde su funcionamiento
Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o escuchas.
Preguntas de discusión
- ¿Qué implicaciones pueden tener estos hallazgos para confiar en modelos de lenguaje en aplicaciones prácticas? Explica con razones.
- ¿De qué manera crees que la interpretabilidad mecanicista podría ayudar a desarrollar modelos más inteligentes y confiables? Da ejemplos o posibles beneficios.
- ¿Crees que la aparición de vectores que coinciden con juicios humanos significa que los modelos entienden el mundo real? ¿Por qué sí o por qué no?
Artículos relacionados
La emoción y la memoria: cómo el cerebro hace perdurar recuerdos
Investigadores usaron escáneres cerebrales y varias medidas de excitación para entender por qué los recuerdos con carga emocional se guardan mejor. El estudio, liderado por Jadyn Park, muestra que la emoción integra redes cerebrales y fortalece la memoria.