Equipa da North Carolina State University analisou como os modelos de linguagem decidem se uma solicitação é segura e propôs um quadro para melhorar o alinhamento de segurança. Identificaram duas dificuldades centrais: o treino para segurança frequentemente reduz a capacidade do modelo (o chamado "alignment tax") e muitas defesas são superficiais, permitindo que utilizadores contornem os filtros.
A equipa formulou a Hipótese de Alinhamento de Segurança Superficial (SSAH), que afirma que modelos atuais formam uma decisão binária de seguro/inseguro no início da geração da resposta. Jianwei Li exemplificou que, num pedido para roubar dinheiro, o modelo pode recusar a instrução em termos simples, mas aceitar se o pedido incluir um motivo aparente. Também observaram que o ajuste fino para domínios específicos pode enfraquecer essas salvaguardas.
Os investigadores localizaram componentes neurais específicos que controlam a resposta de segurança e demonstraram que "congelar" esses neurónios durante o ajuste fino permite preservar o alinhamento de segurança original enquanto o modelo aprende novas tarefas. Segundo a equipa, a abordagem reduz o custo do alinhamento e oferece um quadro conceptual e uma técnica prática. Também destacam a necessidade de métodos que permitam aos modelos reavaliar a segurança ao longo do processo de geração. O trabalho será apresentado na ICLR2026; código e informações estão disponíveis em https://ssa-h.github.io/ (Fonte: North Carolina State University).
Palavras difíceis
- alinhamento — processo de tornar um modelo compatível com normasalinhamento de segurança
- salvaguarda — medida para impedir uso indevido ou perigososalvaguardas
- ajuste fino — treino adicional de um modelo para tarefas específicas
- neurónio — unidade dentro da rede neural do modeloneurónios
- contornar — evitar uma regra, filtro ou proteção intencionalmentecontornem
- hipótese de alinhamento de segurança superficial — ideia que modelos fazem julgamento seguro ou inseguro cedo
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Que vantagens e limitações vê na técnica de congelar neurónios para manter segurança durante o ajuste fino? Dê exemplos.
- Como acha que os modelos poderiam reavaliar a segurança ao longo do processo de geração de uma resposta?
- Quais riscos existem quando o ajuste fino para domínios específicos enfraquece salvaguardas e como se poderiam mitigar?
Artigos relacionados
Equador usa tecnologia contra a desinformação eleitoral
Grupos no Equador reativaram Hacks Hackers e organizaram conferência e hackathon no início de 2024 para enfrentar a desinformação eleitoral com ferramentas tecnológicas, premiando três equipes que seguem desenvolvendo protótipos.
Adolescentes em Hong Kong recorrem a chatbots de IA para apoio emocional
Relatório de 12 de outubro de 2025 mostra que jovens usam chatbots como companhia e aconselhamento. Especialistas alertam para riscos, processos legais e a necessidade de apoio humano. Alguns desenvolvedores tentam criar ferramentas mais seguras.