Pesquisadores da North Carolina State University estudaram o alinhamento de segurança em modelos de linguagem usados para dar conselhos e instruções. Jung-Eun Kim disse que não querem LLMs ensinando alguém a se ferir ou a ferir outras pessoas. A equipa identificou dois desafios principais: o treino para segurança pode reduzir a precisão do modelo (o chamado custo do alinhamento) e muitas checagens de segurança são superficiais.
Jianwei Li explicou que essa verificação superficial normalmente decide logo no início se um pedido é seguro ou não. Ele deu o exemplo de um pedido para roubar dinheiro: o modelo pode recusar o pedido, mas pode aceitar se o pedido parecer ter um motivo bom. Também notaram que ajustar o modelo para um domínio específico pode enfraquecer as salvaguardas.
Os investigadores propuseram a Hipótese de Alinhamento de Segurança Superficial (SSAH) e localizaram componentes neurais que influenciam a decisão de atender ou recusar pedidos. Congelar esses neurónios durante o ajuste fino permite manter o comportamento de segurança original enquanto o modelo aprende novas tarefas, reduzindo o custo do alinhamento. O trabalho será apresentado na ICLR2026 e o código está disponível online.
Palavras difíceis
- alinhamento — tornar comportamento do modelo compatível com regras
- precisão — grau de exatidão nas respostas do modelo
- checagem — ação de verificar se algo é segurochecagens
- verificação — processo de examinar um pedido por segurança
- superficial — que só olha para a parte externasuperficiais
- domínio — área de uso ou assunto específico
- ajuste fino — treino adicional para adaptar o modelo
- neurónio — célula artificial que processa informação no modeloneurónios
- salvaguarda — medida que protege contra riscos e danossalvaguardas
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Você acha importante que modelos não ensinem a ferir outras pessoas? Por quê?
- Quais problemas podem surgir se as checagens de segurança forem superficiais? Dê um exemplo.
- O que pensa sobre congelar neurónios para manter a segurança ao adaptar um modelo? Quais são vantagens e desvantagens?
Artigos relacionados
Pesquisadores revelam estrutura dos flagelos da cólera
Cientistas de Yale usaram nova técnica de microscopia para ver a estrutura molecular dos flagelos de Vibrio cholerae em células vivas. As imagens mostram uma bainha hidrofílica e sugerem papel da bainha na locomoção e na infecção.
Pesquisa sobre antiveneno para o escorpião preto
Pesquisadores na Índia mapearam o veneno do escorpião preto Heterometrus bengalensis e identificaram muitas toxinas. Testes em camundongos mostraram danos graves; a equipa trabalha para desenvolver um antiveneno eficaz contra várias espécies.
Nova caixa de fermentação melhora cacau em Kasawo
Em Kasawo, uma nova caixa de fermentação facilita o processamento do cacau. Produtores conseguem melhor qualidade, vendem direto aos exportadores e recebem mais dinheiro, enquanto pesquisadores planeiam ampliar a produção e melhorar o design.