Учёные изучили, почему большие языковые модели плохо умножают четырёхзначные числа. Они сравнили стандартное дообучение и метод под названием ICoT. При обычной донастройке модели с несколькими слоями давали почти нулевую точность.
Модель, обученная по ICoT, научилась хранить промежуточные суммы и дала правильные ответы — исследователи смогли декодировать текущие суммы из скрытых состояний модели. Учёные также добавили цель обучения, которая учит отслеживать суммы на каждом шаге, и это заметно помогло обычным моделям.
Сложные слова
- дообучение — дополнительное обучение модели после первоначального
- донастройка — небольшая настройка модели под конкретную задачудонастройке
- умножать — выполнять операцию умножения чисел обычно по шагамумножают
- промежуточный — находящийся между шагами или этапами процессапромежуточные
- скрытый — не видимый напрямую внутри моделискрытых
- декодировать — переводить внутренние сигналы в понятный вывод
- точность — насколько ответы модели правильные и близки к эталону
Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.
Вопросы для обсуждения
- Почему, по-вашему, отслеживание промежуточных сумм помогает моделям давать правильные ответы?
- Как вы понимаете фразу «декодировать текущие суммы из скрытых состояний» своими словами?
- Пробовали ли вы решать умножение большой цифры по шагам? Какие шаги вы делаете?
Похожие статьи
Электроэнергия и интернет ограничивают ИИ в Субсахарской Африке
Ненадёжное электроснабжение и дорогой, медленный интернет мешают внедрению искусственного интеллекта в Субсахарской Африке. Миллионы людей остаются без света и связи, школы не подключены, а решения требуют инвестиций и политической воли.
Как сетчатка объединяет зрительные сигналы
Учёные из Yale показали, что зрительные каналы в сетчатке частично связаны через электрические синапсы. Это помогает обнаруживать слабые сигналы; эксперименты провели на интактных сетчатках мыши и впервые на интактной человеческой сетчатке.
Цифровые создатели в Африке: рост и проблемы
Отчёт, представленный на саммите в Лагосе, оценивает объём цифрового креативного сектора в USD 3 billion сегодня и прогнозирует более USD 17 billion к 2030 году. Многие создатели зарабатывают очень мало, платёжные системы и ИИ создают дополнительные барьеры.
Отчёт: крупные компании ограничивают доступ фермеров к технологиям
25 февраля IPES-Food выпустила отчёт, в котором говорится, что союз крупных агрокорпораций и технологических компаний делает современные сельскохозяйственные инструменты недоступными для мелких фермеров. В документе обсуждаются облачные платформы, AI и контроль данных.