Языковые модели учатся различать правдоподобие^{CEFR B2}

26 апр. 2026 г.

УровеньA1

Адаптировано по материалам Brown University, Futurity • CC BY 4.0

Фото: Zach M, Unsplash

Уровень B2 – выше среднегоCEFR B2

4 мин

225 слов

Исследователи проверили, понимают ли современные языковые модели реальные свойства мира, учитывая, что большинство чат‑ботов обучаются на больших объёмах интернет‑текстов с фактами, ошибками и бессмыслицей. Работу подготовили сотрудники Браунского университета и представили на конференции International Conference on Learning Representations в Рио‑де‑Жанейро. Руководитель проекта, докторант Майкл Лепори, описал подход как попытку найти в моделях ограничения, похожие на причинные законы, и отметил, что внутренние состояния моделей предсказывают человеческие суждения.

В эксперименте команде показали предложения с событиями разной правдоподобности: привычные, маловероятные, невозможные и бессмысленные — например, «Кто‑то охладил напиток льдом», «...снегом», «...огнём», «...вчерашним днём». Для каждого предложения анализировали математические внутренние состояния модели; этот метод называют механистической интерпретируемостью и Лепори сравнил его с «нейронаукой для систем ИИ».

Эксперименты провели на нескольких открытых моделях, включая GPT‑2 (OpenAI), Llama 3.2 (Meta) и Gemma 2 (Google), чтобы не зависеть от одной архитектуры. Авторы нашли, что достаточно крупные модели формируют отдельные внутренние векторы, соответствующие категориям правдоподобия. Эти векторы умеют различать близкие категории, например маловероятное и невозможное, с примерно 85% точности и показывают разделённые суждения при двусмысленности, похожие на результаты опросов. Учёные отмечают, что такие векторы начинают появляться в моделях с более чем 2 миллиарда параметров, и полагают, что результаты могут помочь в создании более умных и надёжных моделей.

Механистическая интерпретируемость позволяет понять, что кодирует модель.
Внутренние векторы соответствуют человеческим суждениям о правдоподобии.
Результаты могут помочь создать более надёжные модели.

Сложные слова

механистическая интерпретируемость — метод анализа внутренних частей модели
вектор — числовой набор значений, описывающий состояние модели
векторы
правдоподобие — насколько событие похоже на реальную ситуацию
правдоподобности, правдоподобии
нейронаука — наука о работе и структуре мозга
нейронаукой
параметр — число или настройка внутри модели
параметров
двусмысленность — наличие двух или более возможных смыслов
двусмысленности

Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.

1. Что проверяли исследователи?
2. Как называется метод анализа внутренних состояний модели, упомянутый в статье?
3. Какие открытые модели использовали в экспериментах?
4. Что обнаружили авторы про внутренние векторы в моделях?
5. С какой примерно точностью векторы отличают маловероятное от невозможного?

Вопросы для обсуждения

Почему важно, что внутренние векторы модели соответствуют человеческим суждениям о правдоподобии?
Какие практические применения могут появиться, если модели начнут лучше различать правдоподобные и неправдоподобные события?
Какие ограничения или риски вы видите в использовании механистической интерпретируемости для оценки надежности моделей?

Читать

Языковые модели учатся различать правдоподобие CEFR B2

Сложные слова

Вопросы для обсуждения

Похожие статьи

Новые нейроны у певчих птиц прорываются через ткань мозга

Горбатые киты меняют высоту своего пения

Птичий грипп H5N1 у чёрных стервятников в США

Квадратные фекалии вомбатов помогают общаться

Мозг предсказывает слова через грамматические группы

Языковые модели учатся различать правдоподобие^{CEFR B2}