Un equipo de investigadores de North Carolina State University estudió la seguridad en modelos de lenguaje grandes. Buscaron reducir salidas inseguras sin sacrificar el rendimiento del modelo.
Encontraron dos problemas principales. Primero, entrenar para mayor seguridad puede bajar la exactitud, un problema llamado "alignment tax". Segundo, muchas comprobaciones de seguridad son superficiales y los usuarios a veces las eluden.
Propusieron la Hipótesis de Alineamiento de Seguridad Superficial (SSAH) y hallaron partes del modelo que afectan la seguridad. Congelar esas partes al afinar ayudó a mantener la seguridad y reducir el "alignment tax".
Palabras difíciles
- investigador — persona que hace estudios científicosinvestigadores
- seguridad — protección contra daño o riesgo
- alineamiento — hacer que el modelo siga reglas deseadas
- afinar — entrenar un modelo con datos adicionales
- congelar — no cambiar una parte durante el entrenamiento
- exactitud — nivel de respuestas correctas del modelo
Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o escuchas.
Preguntas de discusión
- ¿Crees que es importante mantener la seguridad sin bajar la exactitud? ¿Por qué?
- ¿Qué opinas de congelar partes del modelo cuando se afina? Da una respuesta corta.
Artículos relacionados
África impulsa la autosuficiencia sanitaria con AI y datos
En la CPHIA en Durban, expertos explicaron cómo la inteligencia artificial (AI) y las herramientas digitales pueden ayudar a Africa CDC a proteger a 1.4 billion de personas, mejorar la vigilancia y reforzar la gobernanza de datos.
IA para mejorar el acceso a la salud sexual en América Latina
Grupos e investigadores en América Latina usan inteligencia artificial para ofrecer información sobre salud sexual y reproductiva a jóvenes y comunidades marginadas. Proyectos en Perú y Argentina buscan reducir barreras y enfrentan retos como el sesgo de datos.