Pesquisadores da North Carolina State University investigaram como deixar modelos de linguagem mais seguros quando dão conselhos ou instruções. Encontraram dois problemas principais: o treino para segurança pode diminuir a precisão e muitas checagens de segurança são superficiais e fáceis de contornar.
Jianwei Li explicou que a verificação superficial decide cedo se um pedido é seguro. Por exemplo, um pedido para roubar dinheiro pode ser recusado, mas se houver um motivo aparente o modelo pode dar instruções. A equipa propôs a Hipótese de Alinhamento de Segurança Superficial (SSAH) e detectou neurónios críticos ligados a essa decisão.
Congelar esses neurónios durante o ajuste fino ajuda a preservar a segurança e reduz o custo do alinhamento. O trabalho será apresentado na ICLR2026 e o código está disponível online.
Palavras difíceis
- pesquisador — Pessoa que faz investigação científica.Pesquisadores
- investigar — Procurar informações para entender algo.investigaram
- precisão — Grau de exatidão ou correção de informação.
- superficial — Que é pouco profundo ou incompleto.superficiais
- neurónio — Célula do cérebro que transmite sinais.neurónios
- congelar — Parar mudanças em uma parte do modelo.
- alinhamento — Processo de ajustar um modelo para segurança.
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Você acha importante que modelos não deem instruções perigosas? Por quê?
- Como você explicaria a ideia de checagem superficial para um amigo?
- Você prefere segurança ou maior precisão num sistema de IA? Explique em uma frase.
Artigos relacionados
Connie Nshemereirwe e a ciência em África
Connie Nshemereirwe, especialista em avaliação educacional e ex‑engenheira, defende que a agenda de investigação em África deve surgir das bases. Fala também sobre comunicação científica e sobre as consequências do encerramento das escolas durante a pandemia.
Restrição calórica altera proteínas musculares e melhora resposta à insulina em ratos
Reduzir calorias alterou muito proteínas do músculo esquelético e aumentou a captação de glicose estimulada pela insulina em ratos de 24 meses. Muitas respostas moleculares foram diferentes entre machos e fêmeas.