Uma equipe da Brown University, liderada pelo doutorando Michael Lepori, investigou se modelos de linguagem modernos codificam, internamente, restrições causais do mundo real. O trabalho foi apresentado na International Conference on Learning Representations, no Rio de Janeiro. Para o experimento, os pesquisadores mostraram sentenças com diferentes níveis de plausibilidade — por exemplo, "Alguém resfriou uma bebida com gelo" (comum), "...com neve" (improvável), "...com fogo" (impossível) e uma frase sem sentido como "...com ontem" — e analisaram os estados matemáticos internos gerados pela IA.
Esse procedimento, chamado interpretabilidade mecanicista, é descrito como uma espécie de "neurociência para sistemas de IA" e busca engenharia reversa do que o modelo armazena em seus vetores internos. Os experimentos, feitos em modelos open-source como GPT 2, Llama 3.2 e Gemma 2, mostraram que modelos suficientemente grandes desenvolvem vetores distintos que mapeiam para categorias de plausibilidade.
Os vetores conseguiram distinguir categorias próximas, como improvável versus impossível, com aproximadamente 85% de acurácia. Além disso, refletiram a incerteza humana em declarações ambíguas. Os pesquisadores relatam que esses padrões começam a aparecer em modelos com mais de 2 bilhões de parâmetros, um tamanho pequeno comparado a modelos atuais de mais de um trilhão de parâmetros. As descobertas podem ajudar a desenvolver modelos mais inteligentes e confiáveis.
- A interpretabilidade mecanicista revela o que os modelos codificam.
- Vetores internos mapeiam para julgamentos humanos de plausibilidade.
- As descobertas podem apoiar modelos mais confiáveis.
Palavras difíceis
- interpretabilidade — estudo de como entender representações internas
- mecanicista — que explica funcionamento por componentes e regras
- plausibilidade — grau de probabilidade ou credibilidade de uma ideia
- vetor — sequência de números que representa informaçãovetores, vetores internos
- acurácia — medida de quão correto é um resultado
- parâmetro — valor ajustável que define tamanho ou comportamentoparâmetros
- incerteza — falta de certeza ou informação clara sobre algo
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Que benefícios práticos podem surgir se modelos de linguagem codificarem restrições causais do mundo real? Explique com exemplos.
- Que limitações ou riscos você imagina ao usar interpretabilidade mecanicista para explicar decisões de IA?
- De que forma resultados como vetores que refletem julgamentos humanos podem afetar a confiança do público em modelos de IA?
Artigos relacionados
Simulação de quase-morte em realidade virtual reduz medo da morte
Um pequeno estudo piloto com estudantes mostrou que uma sessão breve de realidade virtual baseada em relatos de quase-morte reduziu a ansiedade em relação à morte. Os pesquisadores planejam ampliar o estudo, mas pedem cautela.
IA ajuda jovens a ter informação em saúde sexual
Organizações na América Latina usam inteligência artificial para oferecer informação sobre saúde sexual e reprodutiva a jovens e grupos marginalizados. Projetos no Peru e na Argentina focam línguas locais, orientação científica e redução de estigma.
Nova caixa de fermentação melhora cacau em Kasawo
Em Kasawo, uma nova caixa de fermentação facilita o processamento do cacau. Produtores conseguem melhor qualidade, vendem direto aos exportadores e recebem mais dinheiro, enquanto pesquisadores planeiam ampliar a produção e melhorar o design.