Крупные языковые модели (LLM) часто используются для советов и инструкций, поэтому важно предотвращать опасные или вредные ответы. Исследователи из North Carolina State University изучили существующие подходы к обучению безопасности и протестировали новые методы донастройки, чтобы уменьшить число опасных ответов без потери качества.
Команда выделила две основные проблемы: обучение безопасности может снижать точность модели — явление, названное «alignment tax» — и многие модели полагаются на поверхностную проверку безопасности, решая в самом начале, безопасен ли запрос. При такой проверке одна и та же просьба может получить разные ответы в зависимости от формулировки; донастройка под конкретную область также может ослабить меры безопасности.
Учёные предложили гипотезу поверхностного согласования безопасности (SSAH). Они нашли конкретные нейронные компоненты, которые влияют на отказ или выполнение запроса, и показали, что замораживание этих компонентов при донастройке сохраняет исходное поведение по безопасности, одновременно обучая модель новым задачам. Исследование будет представлено на ICLR2026, код доступен на https://ssa-h.github.io/ (источник: North Carolina State University).
Сложные слова
- донастройка — дополнительное обучение модели на новых данныхдонастройки, донастройке
- поверхностный — неглубокий, сделанный только по внешним признакамповерхностную
- замораживание — остановка обучения части параметров модели
- нейронный компонент — часть сети, влияющая на поведение моделинейронные компоненты
- безопасность — состояние без вреда или опасности для людей
- гипотеза — предположение для объяснения явления, требующее проверкигипотезу
Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.
Вопросы для обсуждения
- Считаете ли вы, что замораживание компонентов — хороший способ сохранить безопасность модели? Почему да или нет?
- Что важнее для приложений: высокая точность или сильные меры безопасности? Приведите пример.
- Какие проблемы могут возникнуть, если модель даёт разные ответы в зависимости от формулировки запроса?
Похожие статьи
Учёные раскрыли структуру жгутика холерной бактерии
Исследователи из Йеля получили изображения жгутиков Vibrio cholerae почти на атомном уровне. Работа показывает, как четыре белка расположены внутри гидрофильного чехла и объясняет, как жгутик помогает бактерии двигаться и инфицировать клетки.
Антоцианины из вишни замедляют рост рака
Учёные нашли, что натуральные пигменты в тёмных сладких вишнях — антоцианины — могут замедлять рост и распространение тройной отрицательной формы рака молочной железы у мышей. Требуются дополнительные исследования безопасности и взаимодействия с лекарствами.