Исследование подготовили сотрудники Браунского университета и представили на конференции International Conference on Learning Representations в Рио-де-Жанейро. Докторант Майкл Лепори, руководивший проектом, отметил, что результаты дают «некоторые свидетельства» о кодировании причинных ограничений реального мира и что внутренние состояния моделей предсказывают человеческие суждения.
В эксперименте моделям показывали предложения разной правдоподобности — обычные, маловероятные, невозможные и бессмысленные. Примеры включали: «Кто-то охладил напиток льдом», «...снегом», «...огнём» и «...вчерашним днём». Учёные применяли подход механистической интерпретируемости, который стремится восстановить то, что модель кодирует в своём «состоянии мозга».
Тесты провели на нескольких открытых моделях, чтобы не зависеть от одной архитектуры, в том числе на GPT-2, Llama 3.2 и Gemma 2. Авторы обнаружили, что крупные модели вырабатывают внутренние векторы, соответствующие категориям правдоподобия; они различали близкие категории с примерно 85% точности. Такие векторы появляются в моделях с более чем 2 миллиарда параметров и отражают человеческую неопределённость для двусмысленных утверждений.
Сложные слова
- исследование — систематическое изучение темы или явления
- кодирование — представление информации в определённой формекодировании
- ограничение — правило или условие, уменьшающее возможностиограничений
- состояние — текущее положение элементов или процессовсостояния, состоянии
- интерпретируемость — возможность понять, что делает модельинтерпретируемости
- вектор — математический объект с числами в порядкевекторы
- параметр — число или переменная, влияющая на работу моделипараметров
- неопределённость — ситуация, когда нет точного ответа
- правдоподобность — степень, насколько что-то похоже на правдуправдоподобности
Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.
Вопросы для обсуждения
- Почему важно, что внутренние состояния моделей отражают человеческую неопределённость?
- Какие примеры предложений можно показать модели, чтобы проверить понимание причинных ограничений?
- Какие преимущества и какие проблемы может иметь механистическая интерпретируемость моделей?