Um estudo conduzido por Xiaoyan Bai e Chenhao Tan, da University of Chicago, com colaboração do MIT, Harvard, University of Waterloo e Google DeepMind, explica por que modelos de linguagem de última geração têm dificuldade com a tarefa aparentemente elementar de multiplicar dois números de quatro dígitos. A pesquisa examina como os métodos de treino influenciam a capacidade dos modelos de armazenar e reutilizar resultados intermédios — uma habilidade essencial para cálculos que dependem de muitos passos.
A equipe comparou o ajuste fino padrão com o Implicit Chain of Thought (ICoT). Modelos treinados com ajuste fino padrão, entre 2 e 12 camadas, atingiram menos de 1% de acurácia, pois caem em ótimos locais e aprendem padrões superficiais sem desenvolver um mecanismo para guardar valores parciais. Em contraste, o modelo ICoT alcançou 100% de acurácia; sondagens dos estados internos mostraram que ele codifica somas correntes e outros valores intermédios, os quais podem ser decodificados a partir dos estados ocultos.
Os pesquisadores também observaram que o ICoT organiza a atenção em vias distintas ao longo do tempo: camadas iniciais computam e armazenam produtos de pares de dígitos em posições específicas, e camadas posteriores recuperam esses valores para construir cada dígito da resposta final. Notaram ainda representações de dígitos em bases similares a Fourier e uma operação geométrica parecida com a soma de Minkowski que emergiu durante o treino.
Como experimento prático, os autores adicionaram um objetivo de treino que ensina o modelo a rastrear somas correntes a cada passo; inserir esse objetivo num modelo de 2 camadas elevou a acurácia para 99% sem supervisão explícita de cadeia de pensamento. O estudo conclui que limites do raciocínio multi-etapa não se resolvem apenas com mais dados ou parâmetros: arquiteturas e objetivos de treino direcionados podem ser necessários. Fonte: University of Chicago.
Palavras difíceis
- ajuste fino — treinamento adicional para ajustar um modelo pré-treinado
- treino — processo de ensinar um modelo com dadosobjetivo de treino
- estado — informação interna que o modelo guardaestados internos, estados ocultos
- acurácia — porcentagem de respostas corretas do modelo
- atenção — mecanismo que foca em partes da entrada
- soma — adição parcial acumulada durante um cálculosomas correntes
- camada — nível da rede neural com funções própriascamadas, camadas iniciais, camadas posteriores
- supervisão — orientação com exemplos ou etiquetas durante treinosupervisão explícita
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Que implicações o estudo sugere sobre usar apenas mais dados ou parâmetros para resolver raciocínios multi-etapa?
- Como objetivos de treino direcionados, como rastrear somas correntes, podem afetar o desenvolvimento de modelos em outras tarefas?
- Em que outras tarefas que exigem passos intermédios a abordagem ICoT poderia ser útil, e por quê?
Artigos relacionados
Rede neural que controla expressões faciais
Investigadores da Rockefeller University identificaram circuitos no cérebro e nos músculos da face que geram expressões. Usaram fMRI em macacos rhesus e encontraram uma rede cortical com dinâmicas diferentes, com possíveis aplicações clínicas.
Ferramenta reduz animosidade partidária no X
Pesquisadores criaram uma extensão que reordena o feed do X para reduzir conteúdo antidemocrático e animosidade partidária sem remover publicações. Testes com voluntários durante a eleição de 2024 mostraram melhora pequena, mas consistente, nas atitudes.