Sinais de segurança em modelos de linguagem (Português, Nível B1)

Pesquisadores da North Carolina State University estudaram o alinhamento de segurança em modelos de linguagem usados para dar conselhos e instruções. Jung-Eun Kim disse que não querem LLMs ensinando alguém a se ferir ou a ferir outras pessoas. A equipa identificou dois desafios principais: o treino para segurança pode reduzir a precisão do modelo (o chamado custo do alinhamento) e muitas checagens de segurança são superficiais.

Jianwei Li explicou que essa verificação superficial normalmente decide logo no início se um pedido é seguro ou não. Ele deu o exemplo de um pedido para roubar dinheiro: o modelo pode recusar o pedido, mas pode aceitar se o pedido parecer ter um motivo bom. Também notaram que ajustar o modelo para um domínio específico pode enfraquecer as salvaguardas.

Os investigadores propuseram a Hipótese de Alinhamento de Segurança Superficial (SSAH) e localizaram componentes neurais que influenciam a decisão de atender ou recusar pedidos. Congelar esses neurónios durante o ajuste fino permite manter o comportamento de segurança original enquanto o modelo aprende novas tarefas, reduzindo o custo do alinhamento. O trabalho será apresentado na ICLR2026 e o código está disponível online.

Palavras difíceis

alinhamento — tornar comportamento do modelo compatível com regras

precisão — grau de exatidão nas respostas do modelo

checagem — ação de verificar se algo é seguro

checagens

verificação — processo de examinar um pedido por segurança

superficial — que só olha para a parte externa

superficiais

domínio — área de uso ou assunto específico

ajuste fino — treino adicional para adaptar o modelo

neurónio — célula artificial que processa informação no modelo

neurónios

salvaguarda — medida que protege contra riscos e danos

salvaguardas

Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.

Cotonete nasal identifica sinais precoces de Alzheimer

Um estudo publicado na Nature Communications mostra que um cotonete nasal simples consegue detectar alterações biológicas ligadas ao Alzheimer antes do aparecimento de sintomas. A técnica analisa a atividade de genes em células do alto do nariz.

Nível

Ler

25/11/2025

Modelos de linguagem mudam avaliações quando sabem quem escreveu o texto

Pesquisadores da University of Zurich mostram que quatro LLMs deram avaliações diferentes ao mesmo texto quando foi indicada a identidade do autor. Houve concordância alta sem fonte, mas surgiram vieses, especialmente contra autores da China.

Nível

Ler

24/11/2025

Como o ensino online afetou estudantes na China em 2020

Pesquisa analisa a mudança rápida do presencial para o ensino online na China durante o confinamento de 2020 e compara notas antes e depois. Resultados variam por disciplina e por políticas de bloqueio, e há recomendações para cursos online.

Nível

Ler

22/04/2026

África enfrenta viragem na luta contra a malária

No Dia Mundial da Malária, especialistas alertam que ganhos em saúde na África estão a estagnar. Em 2024 há muitos casos e mortes, e pede-se investigação local e integração entre comunidades, vigilância e política.

Nível

Ler

16/02/2026

Dados e tecnologia nas Olimpíadas de Inverno 2026

As Olimpíadas de Inverno de 2026 chegam com mais dados e tecnologia. Equipas e pesquisadoras usam ciência de dados, visão computacional e tecnologia vestível para estudar desempenho, treinos e a cobertura televisiva.

Nível

Ler

Sinais de segurança em modelos de linguagem^{CEFR B1}

Palavras difíceis

Perguntas para discussão

Artigos relacionados

Cotonete nasal identifica sinais precoces de Alzheimer

Modelos de linguagem mudam avaliações quando sabem quem escreveu o texto

Como o ensino online afetou estudantes na China em 2020

África enfrenta viragem na luta contra a malária

Dados e tecnologia nas Olimpíadas de Inverno 2026

Sinais de segurança em modelos de linguagem CEFR B1

Palavras difíceis

Perguntas para discussão

Artigos relacionados

Cotonete nasal identifica sinais precoces de Alzheimer

Modelos de linguagem mudam avaliações quando sabem quem escreveu o texto

Como o ensino online afetou estudantes na China em 2020

África enfrenta viragem na luta contra a malária

Dados e tecnologia nas Olimpíadas de Inverno 2026

Sinais de segurança em modelos de linguagem^{CEFR B1}