Новое исследование под руководством Xiaoyan Bai и Chenhao Tan (University of Chicago) совместно с учёными из MIT, Harvard, University of Waterloo и Google DeepMind объясняет, почему современные большие языковые модели плохо умножают четырёхзначные числа. Авторы сравнили стандартную дообученную настройку и метод Implicit Chain of Thought (ICoT). При стандартной донастройке модели с от двух до 12 слоёв показали менее 1% точности при умножении четырёхзначных чисел.
Модель, обученная по ICoT, достигла 100% точности. Исследователи проанализировали скрытые состояния и выяснили, что ICoT кодирует промежуточные значения: из них можно декодировать текущие суммы, что подтверждает запоминание важных для вычислений величин.
Также команда показала, что добавление вспомогательной цели обучения для отслеживания сумм повысило точность обычной двухслойной модели почти до 99% и привело к появлению механизмов внимания, похожих на ICoT. Авторы подчёркивают, что простое увеличение данных или параметров не решает проблему без подходящих архитектурных подсказок и целей обучения.
Сложные слова
- исследование — работа чтобы узнать новые факты
- донастройка — дополнительное обучение модели после основногодонастройке
- скрытое состояние — внутренние представления модели в нейронных слояхскрытые состояния
- промежуточное значение — число между шагами вычисления или обработкипромежуточные значения
- внимание — механизм фокусировки модели на части входавнимания
- вспомогательная цель — дополнительная задача которую модель учится решатьвспомогательной цели
- декодировать — переводить внутренние представления в понятный результат
- точность — насколько ответы модели являются правильнымиточности
Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.
Вопросы для обсуждения
- Почему кодирование промежуточных значений важно для точных вычислений в моделях?
- Какие преимущества и недостатки у подхода с вспомогательной целью обучения?
- Достаточно ли улучшать модели только увеличением данных и параметров? Объясните.
Похожие статьи
Электроэнергия и интернет ограничивают ИИ в Субсахарской Африке
Ненадёжное электроснабжение и дорогой, медленный интернет мешают внедрению искусственного интеллекта в Субсахарской Африке. Миллионы людей остаются без света и связи, школы не подключены, а решения требуют инвестиций и политической воли.
Как сетчатка объединяет зрительные сигналы
Учёные из Yale показали, что зрительные каналы в сетчатке частично связаны через электрические синапсы. Это помогает обнаруживать слабые сигналы; эксперименты провели на интактных сетчатках мыши и впервые на интактной человеческой сетчатке.
Цифровые создатели в Африке: рост и проблемы
Отчёт, представленный на саммите в Лагосе, оценивает объём цифрового креативного сектора в USD 3 billion сегодня и прогнозирует более USD 17 billion к 2030 году. Многие создатели зарабатывают очень мало, платёжные системы и ИИ создают дополнительные барьеры.
Отчёт: крупные компании ограничивают доступ фермеров к технологиям
25 февраля IPES-Food выпустила отчёт, в котором говорится, что союз крупных агрокорпораций и технологических компаний делает современные сельскохозяйственные инструменты недоступными для мелких фермеров. В документе обсуждаются облачные платформы, AI и контроль данных.