Pesquisadores da North Carolina State University estudaram o alinhamento de segurança em modelos de linguagem usados para dar conselhos e instruções. Jung-Eun Kim disse que não querem LLMs ensinando alguém a se ferir ou a ferir outras pessoas. A equipa identificou dois desafios principais: o treino para segurança pode reduzir a precisão do modelo (o chamado custo do alinhamento) e muitas checagens de segurança são superficiais.
Jianwei Li explicou que essa verificação superficial normalmente decide logo no início se um pedido é seguro ou não. Ele deu o exemplo de um pedido para roubar dinheiro: o modelo pode recusar o pedido, mas pode aceitar se o pedido parecer ter um motivo bom. Também notaram que ajustar o modelo para um domínio específico pode enfraquecer as salvaguardas.
Os investigadores propuseram a Hipótese de Alinhamento de Segurança Superficial (SSAH) e localizaram componentes neurais que influenciam a decisão de atender ou recusar pedidos. Congelar esses neurónios durante o ajuste fino permite manter o comportamento de segurança original enquanto o modelo aprende novas tarefas, reduzindo o custo do alinhamento. O trabalho será apresentado na ICLR2026 e o código está disponível online.
Palavras difíceis
- alinhamento — tornar comportamento do modelo compatível com regras
- precisão — grau de exatidão nas respostas do modelo
- checagem — ação de verificar se algo é segurochecagens
- verificação — processo de examinar um pedido por segurança
- superficial — que só olha para a parte externasuperficiais
- domínio — área de uso ou assunto específico
- ajuste fino — treino adicional para adaptar o modelo
- neurónio — célula artificial que processa informação no modeloneurónios
- salvaguarda — medida que protege contra riscos e danossalvaguardas
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Você acha importante que modelos não ensinem a ferir outras pessoas? Por quê?
- Quais problemas podem surgir se as checagens de segurança forem superficiais? Dê um exemplo.
- O que pensa sobre congelar neurónios para manter a segurança ao adaptar um modelo? Quais são vantagens e desvantagens?
Artigos relacionados
Connie Nshemereirwe e a ciência em África
Connie Nshemereirwe, especialista em avaliação educacional e ex‑engenheira, defende que a agenda de investigação em África deve surgir das bases. Fala também sobre comunicação científica e sobre as consequências do encerramento das escolas durante a pandemia.
Restrição calórica altera proteínas musculares e melhora resposta à insulina em ratos
Reduzir calorias alterou muito proteínas do músculo esquelético e aumentou a captação de glicose estimulada pela insulina em ratos de 24 meses. Muitas respostas moleculares foram diferentes entre machos e fêmeas.