Исследование, руководимое Xiaoyan Bai и Chenhao Tan из University of Chicago при участии команд из MIT, Harvard, University of Waterloo и Google DeepMind, подробно изучает, почему передовые большие языковые модели испытывают трудности с умножением четырёхзначных чисел. В работе сравнили стандартную дообученную настройку (fine-tuning) и метод Implicit Chain of Thought (ICoT). Модели с двух до 12 слоёв при стандартной донастройке показали менее 1% точности, тогда как модель, обученная по ICoT, достигла 100%.
Анализ внутренних состояний показал, что ICoT кодирует промежуточные значения: из скрытых состояний можно декодировать текущие суммы. Модель организует процессы внимания по времени: ранние слои вычисляют и хранят произведения пар цифр в отдельных ячейках, а поздние слои извлекают эти значения для формирования каждой цифры ответа. Авторы также отмечают представление цифр через Фурье-подобные базисы и естественное появление операции, похожей на сумму Минковского.
Чтобы проверить, можно ли помочь стандартным моделям, команда добавила вспомогательную цель обучения, обучающую отслеживать текущие суммы на каждом шаге. Для двухслойной модели это повысило точность до 99% без явного контроля цепочек рассуждений; при этом она сформировала механизмы внимания, похожие на ICoT, и новые стратегии отслеживания нескольких пар цифр. Авторы делают вывод, что архитектурные подсказки и целевые цели обучения важны для усвоения многошагового рассуждения, поскольку простое увеличение данных или числа параметров не устраняет эти ограничения. По словам Tan, «По мере того как AI всё активнее интегрируется в критические решения, важно понимать его особые способы обучения и мышления».
Сложные слова
- дообученная настройка — процесс дополнительного обучения модели под задачудообученную настройку
- состояние — внутреннее представление модели в конкретный моментвнутренних состояний, скрытых состояний
- сумма — результат сложения чисел или частейтекущие суммы
- внимание — механизм фокусировки модели на части информациивнимания
- базис — набор функций для представления данных или сигналовФурье-подобные базисы
- подсказка — дополнительная информация, помогающая модели учитьсяархитектурные подсказки
- многошаговое рассуждение — решение задачи через последовательные логические шагимногошагового рассуждения
Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.
Вопросы для обсуждения
- Какие преимущества и возможные ограничения вы видите в подходе ICoT по сравнению со стандартной донастройкой?
- Насколько важно, чтобы модель кодировала и отслеживала промежуточные суммы при решении многошаговых задач? Обоснуйте ответ.
- Как выводы этой работы могут повлиять на применение искусственного интеллекта в критических областях принятия решений?
Похожие статьи
Учёные раскрыли структуру жгутика холерной бактерии
Исследователи из Йеля получили изображения жгутиков Vibrio cholerae почти на атомном уровне. Работа показывает, как четыре белка расположены внутри гидрофильного чехла и объясняет, как жгутик помогает бактерии двигаться и инфицировать клетки.
Носовой мазок выявляет ранние признаки болезни Альцгеймера
Новое исследование показывает, что простой носовой мазок, взятый высоко в носу, может обнаруживать ранние биологические изменения, связанные с болезнью Альцгеймера до появления проблем с памятью. Метод даёт прямую информацию о нервных и иммунных клетках.