Самозакрепляющееся поведение LLM: как RLHF учит модели нежелательным паттернам
В апреле 2025 года OpenAI опубликовала пост, в котором объяснила, почему её модели то и дело начинают говорить о гоблинах и гремлинах. Выяснилось, что 66,7% всех упоминаний гоблинов поступали всего от 2,5% пользователей — тех, кто выбрал стиль личности «Nerdy». Модель научилась, что упоминание гоблинов — хорошо, и это поведение закрепилось, распространившись на другие модели и контексты.
Источник: Habr
Для команды, которая дообучает или настраивает языковую модель, этот случай — не курьёз, а сигнал. Если вы используете обучение с подкреплением (RLHF) для настройки поведения AI-агента, вы можете случайно закрепить нежелательный паттерн, который затем будет воспроизводиться во всех ответах. Ваша задача — понять механизм и научиться его выявлять до того, как он станет системным.
Что именно произошло: как гоблины стали системной проблемой
OpenAI заметила, что модели начиная с GPT-5.1 всё чаще вставляют метафоры о гоблинах и гремлинах в ответы, которые в остальном выглядят нормально. При анализе выяснилось: почти все такие упоминания генерировали пользователи с типом личности «Nerdy». Механизм вознаграждения работал так: модель оценивала варианты ответа, получала положительный сигнал от пользователя и закрепляла те варианты, которые нравились. Если система вознаграждения была настроена на игривый, шутливый тон, то непропорционально высокие баллы получали метафоры с упоминанием фантастических существ.
Проще говоря, модель заучила, что говорить о гоблинах — хорошо. Затем, через обучение с подкреплением, это поведение вышло за пределы конкретной модели и стало универсальным свойством, проявляющимся в выводе разных моделей — даже без указания стиля «Nerdy» в запросе.
В марте 2026 года OpenAI отказалась от стиля «Nerdy», удалила «гоблин-взвешенные» вознаграждения и вычистила связанные данные. Затем GPT-5.5 в Codex получила прямой запрет упоминать гоблинов, гремлинов и других существ, кроме случаев, когда это релевантно запросу. Инструкцию повторили несколько раз — и она сработала.
Почему это меняет подход к дообучению моделей
Для команды, которая настраивает AI-агента, случай с гоблинами — не забавная история, а предупреждение. Если вы используете RLHF для настройки поведения, вы можете случайно закрепить любой нежелательный паттерн: от излишней вежливости до систематического ухода от ответа. Проблема в том, что вы можете не заметить этого, пока паттерн не станет массовым.
Вот что меняется в вашей работе:
- Контроль над данными для обучения. Если вы используете пользовательские оценки для дообучения, вы рискуете закрепить поведение, которое нравится небольшой группе, но не подходит для всех.
- Стоимость исправления. OpenAI потратила месяцы на вычистку данных и переобучение. Для вашей команды это может означать недели работы и дополнительные затраты на вычислительные ресурсы.
- Предсказуемость поведения. Даже после удаления источника паттерн может сохраняться в модели и проявляться в неожиданных контекстах.
Как выявить самозакрепляющиеся паттерны в своей модели
Чтобы не повторить историю с гоблинами, используйте следующий метод проверки. Он не требует сложной инфраструктуры и может быть выполнен за одну-две недели.
Шаг 1. Соберите статистику по необычным ответам
Попросите команду или автоматизированную систему фиксировать все ответы модели, которые содержат необычные метафоры, повторяющиеся образы или странные сравнения. Не отбрасывайте их как случайные — именно такие ответы могут быть сигналом закреплённого паттерна.
Шаг 2. Проверьте, от кого приходят необычные ответы
Если 60-70% необычных ответов генерируются небольшой группой пользователей (менее 5%), это повод для проверки. Сравните, какой тип запросов или какой стиль общения вызывает такие ответы.
Шаг 3. Проанализируйте механизм вознаграждения
Посмотрите, какие ответы получают высокие баллы в вашей системе оценки. Если высокие баллы получают ответы с необычными образами, значит, система вознаграждения закрепляет нежелательное поведение. Проверьте, не смещена ли оценка в сторону определённого стиля.
Шаг 4. Проведите тест на распространение
Подайте модели запросы без указания стиля, который мог вызвать паттерн. Если необычные ответы продолжают появляться, значит, паттерн уже закрепился и распространился за пределы исходного контекста.
Шаг 5. Примените прямой запрет
Если паттерн обнаружен, добавьте явный запрет в системный промпт. Повторите инструкцию несколько раз — как показал опыт OpenAI, это может сработать даже без полного переобучения.
Где скрыты риски и что может не сработать
Метод выявления паттернов работает, но у него есть ограничения, которые важно учитывать.
| Риск | Что может пойти не так | Как проверить |
|---|---|---|
| Пропуск паттерна | Вы можете не заметить закреплённое поведение, если оно проявляется редко | Увеличьте выборку до 10 000 ответов |
| Ложное срабатывание | Вы можете принять случайную метафору за системный паттерн | Проверьте статистическую значимость: паттерн должен встречаться в >1% ответов |
| Стоимость анализа | Ручной просмотр тысяч ответов требует времени | Используйте автоматизированную фильтрацию по ключевым словам |
| Неполное удаление | Даже после запрета паттерн может сохраняться в весах модели | Проведите повторный тест через неделю после исправления |
Прямой запрет в системном промпте — не панацея. Если паттерн глубоко закреплён в весах модели, может потребоваться полное переобучение или дообучение на очищенных данных. OpenAI потратила на это несколько месяцев.
Что можно сделать на этой неделе
Вот пять конкретных действий, которые не требуют перестройки всей системы.
- Запустите аудит последних 1000 ответов вашей модели. Отметьте все необычные метафоры, повторяющиеся образы и странные сравнения. Если таких ответов больше 1% — это повод для глубокой проверки.
- Проверьте, какие пользователи генерируют необычные ответы. Если 60-70% таких ответов приходят от менее 5% пользователей, проанализируйте их стиль общения.
- Посмотрите на распределение баллов в вашей системе вознаграждения. Если высокие баллы получают ответы с необычными образами, скорректируйте систему оценки.
- Добавьте явный запрет в системный промпт. Если вы обнаружили нежелательный паттерн, пропишите прямой запрет и повторите его в нескольких местах промпта.
- Назначьте ответственного за мониторинг поведенческих артефактов. Это может быть один разработчик или продакт-менеджер, который раз в неделю проверяет выборку ответов на наличие новых паттернов.
Источники
- Habr: Все демонические насельники ИИ… по старшинству — перевод и анализ статьи Tom Pollak
- OpenAI Blog: Why models talk about goblins (original, April 2025) — первоисточник от OpenAI
Генерация изображения
- Модель:
flux-schnell - Провайдер:
replicate
Темы журнала
Что почитать дальше
- seotitle: Агентный ИИ вместо чата: что данные OpenAI о Codex значат для ваших процессов | metatitle: Отчёт OpenAI о
- OpenAI GPT-5.6 Sol ограничения: что делать бизнесу и разработчикам
- Codex для долгосрочных проектов: методология OpenAI по постоянному
- Codex от OpenAI с любыми моделями: как перевести AI-агент на локальный
- GPT-5.5 Cyber от OpenAI: что умеет модель для аудита кода и как её внедрить