Un equipo de investigadores de North Carolina State University estudió la seguridad en modelos de lenguaje grandes. Buscaron reducir salidas inseguras sin sacrificar el rendimiento del modelo.
Encontraron dos problemas principales. Primero, entrenar para mayor seguridad puede bajar la exactitud, un problema llamado "alignment tax". Segundo, muchas comprobaciones de seguridad son superficiales y los usuarios a veces las eluden.
Propusieron la Hipótesis de Alineamiento de Seguridad Superficial (SSAH) y hallaron partes del modelo que afectan la seguridad. Congelar esas partes al afinar ayudó a mantener la seguridad y reducir el "alignment tax".
Palabras difíciles
- investigador — persona que hace estudios científicosinvestigadores
- seguridad — protección contra daño o riesgo
- alineamiento — hacer que el modelo siga reglas deseadas
- afinar — entrenar un modelo con datos adicionales
- congelar — no cambiar una parte durante el entrenamiento
- exactitud — nivel de respuestas correctas del modelo
Consejo: pasa el cursor, enfoca o toca las palabras resaltadas en el artículo para ver definiciones rápidas mientras lees o audicións.
Preguntas de discusión
- ¿Crees que es importante mantener la seguridad sin bajar la exactitud? ¿Por qué?
- ¿Qué opinas de congelar partes del modelo cuando se afina? Da una respuesta corta.
Artículos relacionados
Muchos no tienen una conexión a internet decente
Un informe dice que una conexión a internet decente está fuera del alcance de la mayoría en países de ingresos bajos y medios. La «conectividad significativa» incluye 4G, teléfono inteligente y uso diario en el hogar, la escuela o el trabajo.