Equipa da North Carolina State University analisou como os modelos de linguagem decidem se uma solicitação é segura e propôs um quadro para melhorar o alinhamento de segurança. Identificaram duas dificuldades centrais: o treino para segurança frequentemente reduz a capacidade do modelo (o chamado "alignment tax") e muitas defesas são superficiais, permitindo que utilizadores contornem os filtros.
A equipa formulou a Hipótese de Alinhamento de Segurança Superficial (SSAH), que afirma que modelos atuais formam uma decisão binária de seguro/inseguro no início da geração da resposta. Jianwei Li exemplificou que, num pedido para roubar dinheiro, o modelo pode recusar a instrução em termos simples, mas aceitar se o pedido incluir um motivo aparente. Também observaram que o ajuste fino para domínios específicos pode enfraquecer essas salvaguardas.
Os investigadores localizaram componentes neurais específicos que controlam a resposta de segurança e demonstraram que "congelar" esses neurónios durante o ajuste fino permite preservar o alinhamento de segurança original enquanto o modelo aprende novas tarefas. Segundo a equipa, a abordagem reduz o custo do alinhamento e oferece um quadro conceptual e uma técnica prática. Também destacam a necessidade de métodos que permitam aos modelos reavaliar a segurança ao longo do processo de geração. O trabalho será apresentado na ICLR2026; código e informações estão disponíveis em https://ssa-h.github.io/ (Fonte: North Carolina State University).
Palavras difíceis
- alinhamento — processo de tornar um modelo compatível com normasalinhamento de segurança
- salvaguarda — medida para impedir uso indevido ou perigososalvaguardas
- ajuste fino — treino adicional de um modelo para tarefas específicas
- neurónio — unidade dentro da rede neural do modeloneurónios
- contornar — evitar uma regra, filtro ou proteção intencionalmentecontornem
- hipótese de alinhamento de segurança superficial — ideia que modelos fazem julgamento seguro ou inseguro cedo
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Que vantagens e limitações vê na técnica de congelar neurónios para manter segurança durante o ajuste fino? Dê exemplos.
- Como acha que os modelos poderiam reavaliar a segurança ao longo do processo de geração de uma resposta?
- Quais riscos existem quando o ajuste fino para domínios específicos enfraquece salvaguardas e como se poderiam mitigar?
Artigos relacionados
Células mudam de saudável para doente por um ponto de inflexão mecânico
Pesquisadores da Washington University e da Tsinghua descobriram um ponto de inflexão mecânico que faz a fibrose avançar de forma súbita. O estudo explica o papel do colágeno, do entrecruzamento e da comunicação mecânica entre células.
Estudo explica por que pessoas partilham notícias falsas
Pesquisadores criaram um modelo para entender como emoções e relevância fazem as pessoas aceitar e partilhar notícias falsas nas redes sociais. O estudo analisou milhares de mensagens sobre COVID-19 e sugere medidas como educação mediática e sinais nas plataformas.