Pesquisadores da North Carolina State University investigaram como deixar modelos de linguagem mais seguros quando dão conselhos ou instruções. Encontraram dois problemas principais: o treino para segurança pode diminuir a precisão e muitas checagens de segurança são superficiais e fáceis de contornar.
Jianwei Li explicou que a verificação superficial decide cedo se um pedido é seguro. Por exemplo, um pedido para roubar dinheiro pode ser recusado, mas se houver um motivo aparente o modelo pode dar instruções. A equipa propôs a Hipótese de Alinhamento de Segurança Superficial (SSAH) e detectou neurónios críticos ligados a essa decisão.
Congelar esses neurónios durante o ajuste fino ajuda a preservar a segurança e reduz o custo do alinhamento. O trabalho será apresentado na ICLR2026 e o código está disponível online.
Palavras difíceis
- pesquisador — Pessoa que faz investigação científica.Pesquisadores
- investigar — Procurar informações para entender algo.investigaram
- precisão — Grau de exatidão ou correção de informação.
- superficial — Que é pouco profundo ou incompleto.superficiais
- neurónio — Célula do cérebro que transmite sinais.neurónios
- congelar — Parar mudanças em uma parte do modelo.
- alinhamento — Processo de ajustar um modelo para segurança.
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Você acha importante que modelos não deem instruções perigosas? Por quê?
- Como você explicaria a ideia de checagem superficial para um amigo?
- Você prefere segurança ou maior precisão num sistema de IA? Explique em uma frase.
Artigos relacionados
Restrição calórica altera proteínas musculares e melhora resposta à insulina em ratos
Reduzir calorias alterou muito proteínas do músculo esquelético e aumentou a captação de glicose estimulada pela insulina em ratos de 24 meses. Muitas respostas moleculares foram diferentes entre machos e fêmeas.
Pesquisa sobre antiveneno para o escorpião preto
Pesquisadores na Índia mapearam o veneno do escorpião preto Heterometrus bengalensis e identificaram muitas toxinas. Testes em camundongos mostraram danos graves; a equipa trabalha para desenvolver um antiveneno eficaz contra várias espécies.
Investigadores identificam genes ligados à doença renal crónica
A doença renal crónica afeta um número crescente de adultos nos EUA; cerca de 36 milhões têm a condição. Uma equipa liderada por Alejandro Chade encontrou genes que podem ser alvos para tratar a doença e reduzir a fibrose.
Modelos de linguagem mudam avaliações quando sabem quem escreveu o texto
Pesquisadores da University of Zurich mostram que quatro LLMs deram avaliações diferentes ao mesmo texto quando foi indicada a identidade do autor. Houve concordância alta sem fonte, mas surgiram vieses, especialmente contra autores da China.