Исследователи проверили, понимают ли современные языковые модели реальные свойства мира, учитывая, что большинство чат‑ботов обучаются на больших объёмах интернет‑текстов с фактами, ошибками и бессмыслицей. Работу подготовили сотрудники Браунского университета и представили на конференции International Conference on Learning Representations в Рио‑де‑Жанейро. Руководитель проекта, докторант Майкл Лепори, описал подход как попытку найти в моделях ограничения, похожие на причинные законы, и отметил, что внутренние состояния моделей предсказывают человеческие суждения.
В эксперименте команде показали предложения с событиями разной правдоподобности: привычные, маловероятные, невозможные и бессмысленные — например, «Кто‑то охладил напиток льдом», «...снегом», «...огнём», «...вчерашним днём». Для каждого предложения анализировали математические внутренние состояния модели; этот метод называют механистической интерпретируемостью и Лепори сравнил его с «нейронаукой для систем ИИ».
Эксперименты провели на нескольких открытых моделях, включая GPT‑2 (OpenAI), Llama 3.2 (Meta) и Gemma 2 (Google), чтобы не зависеть от одной архитектуры. Авторы нашли, что достаточно крупные модели формируют отдельные внутренние векторы, соответствующие категориям правдоподобия. Эти векторы умеют различать близкие категории, например маловероятное и невозможное, с примерно 85% точности и показывают разделённые суждения при двусмысленности, похожие на результаты опросов. Учёные отмечают, что такие векторы начинают появляться в моделях с более чем 2 миллиарда параметров, и полагают, что результаты могут помочь в создании более умных и надёжных моделей.
- Механистическая интерпретируемость позволяет понять, что кодирует модель.
- Внутренние векторы соответствуют человеческим суждениям о правдоподобии.
- Результаты могут помочь создать более надёжные модели.
Сложные слова
- механистическая интерпретируемость — метод анализа внутренних частей модели
- вектор — числовой набор значений, описывающий состояние моделивекторы
- правдоподобие — насколько событие похоже на реальную ситуациюправдоподобности, правдоподобии
- нейронаука — наука о работе и структуре мозганейронаукой
- параметр — число или настройка внутри моделипараметров
- двусмысленность — наличие двух или более возможных смысловдвусмысленности
Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.
Вопросы для обсуждения
- Почему важно, что внутренние векторы модели соответствуют человеческим суждениям о правдоподобии?
- Какие практические применения могут появиться, если модели начнут лучше различать правдоподобные и неправдоподобные события?
- Какие ограничения или риски вы видите в использовании механистической интерпретируемости для оценки надежности моделей?
Похожие статьи
Птичий грипп H5N1 у чёрных стервятников в США
Исследователи из Университета Джорджии нашли высокопатогенный птичий грипп у чёрных стервятников. Тушки птиц, собранные в 2022–2023 годах, дали много положительных результатов, и учёные предупреждают о возможном скрытом ущербе для вида.