- Modelos de linguagem dão conselhos e instruções às pessoas.
- É muito importante que as respostas sejam sempre seguras.
- Pesquisadores estudam como tornar os modelos mais seguros e úteis.
- Treinar para segurança pode reduzir a precisão do modelo.
- Alguns modelos têm uma verificação de segurança muito superficial.
- Os pesquisadores acharam neurónios que controlam decisões de segurança.
- Congelar esses neurónios durante o ajuste mantém a segurança.
- O estudo será apresentado na conferência ICLR2026.
Palavras difíceis
- modelo — programa que gera texto para pessoasmodelos
- segurança — estado sem perigo nas respostas ou ações
- pesquisador — pessoa que estuda e faz experiênciaspesquisadores
- treinar — ensinar ou ajustar um modelo com dados
- neurónio — parte do modelo que influencia decisõesneurónios
- congelar — parar a mudança de partes do modelo
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Você já usou um modelo de linguagem?
- Para você, é importante que as respostas sejam seguras?
- Você prefere respostas curtas ou longas?
Artigos relacionados
Restrição calórica altera proteínas musculares e melhora resposta à insulina em ratos
Reduzir calorias alterou muito proteínas do músculo esquelético e aumentou a captação de glicose estimulada pela insulina em ratos de 24 meses. Muitas respostas moleculares foram diferentes entre machos e fêmeas.
Pesquisa sobre antiveneno para o escorpião preto
Pesquisadores na Índia mapearam o veneno do escorpião preto Heterometrus bengalensis e identificaram muitas toxinas. Testes em camundongos mostraram danos graves; a equipa trabalha para desenvolver um antiveneno eficaz contra várias espécies.
Investigadores identificam genes ligados à doença renal crónica
A doença renal crónica afeta um número crescente de adultos nos EUA; cerca de 36 milhões têm a condição. Uma equipa liderada por Alejandro Chade encontrou genes que podem ser alvos para tratar a doença e reduzir a fibrose.
Modelos de linguagem mudam avaliações quando sabem quem escreveu o texto
Pesquisadores da University of Zurich mostram que quatro LLMs deram avaliações diferentes ao mesmo texto quando foi indicada a identidade do autor. Houve concordância alta sem fonte, mas surgiram vieses, especialmente contra autores da China.