Как убрать галлюцинации ИИ: три защитных контура без дообучения

Вы просите ИИ написать отчёт, получаете красивый текст — и всё равно перепроверяете каждый абзац. Это не ваша паранойя, а архитектурная особенность: языковые модели подбирают статистически вероятное следующее слово, а не фактически верное. Галлюцинации — не баг, а режим работы.

Источник: Habr

Решение существует, и оно не требует дообучения модели или смены вендора. Независимый эксперт по ИТ и ИБ Андрей Бирюков опубликовал в блоге OTUS метод трёх защитных контуров, который перехватывает управление у авторегрессии и принудительно привязывает ИИ к фактам. Вот как это работает и что можно проверить уже на этой неделе.

Что изменилось: от литератора к следователю

Первая и главная ошибка — просить ИИ «напиши ответ». Глагол «напиши» запускает сценарий литератора: модель начинает строить красивые предложения, а не проверять факты. Метод Бирюкова предлагает полностью запретить модели выдавать итоговый текст в первой итерации.

Вместо «Напиши отчёт о продажах за март» вы даёте инструкцию: «Твоя задача — заполнить строгую структурную форму фактами. Ты не пишешь ответ пользователю. Ты готовишь черновик для самого себя».

Системная инструкция превращает модель в фактологический экстрактор. Запрещены вводные конструкции («вероятно», «может быть», «считается»), запрещены советы. Если факта нет в контексте, модель обязана указать это в соответствующем поле.

Пользовательский запрос требует заполнить JSON-структуру с тремя полями: - extracted_facts — массив из 3–5 сухих утверждений, взятых максимально близко к источнику; - logical_conclusions — массив явных логических выводов из фактов; - missing_data — чётко перечисленные пункты, которых не хватает для полного ответа.

По оценке автора, такой подход снижает галлюцинации примерно на 40% уже на старте. Формат JSON и конкретные имена полей смещают распределение вероятностей модели: она перестаёт думать о том, как красиво построить предложение, и начинает думать о том, как заполнить ячейки.

Почему это меняет стоимость и контроль

Без структурного промптинга вы платите за генерацию красивых слов, которые всё равно приходится перепроверять. Это скрытые затраты времени и внимания. Метод трёх контуров превращает ИИ из генератора черновиков в инструмент первичной фактологической обработки.

Для руководителя это означает: - снижение времени на проверку ответов ИИ; - уменьшение риска передачи ложных данных в отчёты или клиентские коммуникации; - возможность делегировать модели работу по извлечению фактов, а не по написанию текста.

Для редактора или аналитика — появление машиночитаемой структуры, которую можно автоматически проверять, агрегировать и передавать в другие системы.

Как внедрить шкалу уверенности и научить ИИ говорить «нет»

Второй контур решает проблему, которую модели активно избегают: признание в незнании. ИИ никогда не скажет «я не знаю», если его об этом специально не попросить. Для него «не знать» — паттерн с низкой вероятностью.

Решение — добавить в JSON-структуру поле uncertainty с жёсткими критериями оценки:

Диапазон Уровень уверенности Критерий
0.0–0.3 Низкая Нет прямой информации в контексте, вывод основан на общих знаниях модели
0.4–0.7 Средняя Есть косвенные подтверждения, но цифры или даты отсутствуют
0.8–1.0 Высокая Данные продублированы в нескольких источниках контекста или являются прямой цитатой из авторитетного документа

Ключевой нюанс: нельзя просто попросить «оцени вероятность». Модель даст 95% на всём подряд. Критерии должны быть явными и привязанными к контексту.

Критическое правило: если по какому-либо из запрошенных пунктов уверенность ниже 0.8, модель обязана указать это в поле missing_data и не выдавать непроверенный факт как истину.

Где находятся риски и ограничения метода

Метод опубликован в блоге учебного центра OTUS, что может влиять на объективность оценки. Эффективность трёх контуров рекомендуется перепроверить на независимых бенчмарках и собственных задачах.

Основные ограничения:

  • Субъективность шкалы. Оценка уверенности зависит от модели, контекста и формулировок критериев. Одна и та же инструкция может давать разные результаты на GPT, Claude, YandexGPT или DeepSeek.
  • Отсутствие готового кода. Метод описан на уровне промптов и принципов. Читателю придётся реализовывать контуры самостоятельно — писать обвязку для вызова API, парсинга JSON и автоматической валидации.
  • Дополнительные затраты на токены. Структурный промптинг и несколько итераций увеличивают потребление токенов на запрос. Для массового использования это может быть существенно.
  • Не все задачи подходят. Метод эффективен для фактологических экстракций, отчётов и аналитики. Для креативных задач, генерации идей или свободного письма он избыточен.

Что можно проверить на этой неделе: чек-лист

  1. Выберите одну задачу, где вы сейчас перепроверяете каждый абзац ответа ИИ. Например: подготовка еженедельного отчёта, извлечение данных из документов, ответы на типовые вопросы клиентов.
  2. Напишите системную инструкцию по шаблону «фактологический экстрактор» с запретом вводных конструкций и советов.
  3. Создайте JSON-структуру с полями extracted_facts, logical_conclusions, missing_data и uncertainty.
  4. Протестируйте на 5–10 реальных запросах. Сравните количество галлюцинаций в обычном ответе и в структурированном выводе.
  5. Проверьте шкалу уверенности. Убедитесь, что модель действительно ставит низкие оценки, когда данных нет, а не выдаёт 95% на всём подряд.
  6. Оцените прирост времени. Замерьте, сколько минут вы экономите на проверке одного ответа. Если экономия меньше 30%, метод требует донастройки под вашу задачу.

Источники

Дополнительные рекомендации для внедрения

Чтобы метод трёх контуров работал стабильно, стоит учесть несколько практических моментов. Во-первых, тестируйте инструкции на разных моделях — поведение может отличаться. Во-вторых, начните с одной задачи и постепенно расширяйте область применения. В-третьих, фиксируйте результаты в таблице: количество галлюцинаций, время проверки, затраты токенов. Это поможет объективно оценить эффективность и скорректировать подход под ваши конкретные сценарии.

Метод трёх контуров — не серебряная пуля, но рабочий инструмент для тех, кто хочет превратить ИИ из генератора правдоподобных текстов в надёжного помощника по фактам. Попробуйте на одной задаче — и вы увидите разницу.

Генерация изображения

  • Модель: flux-schnell
  • Провайдер: replicate

Темы журнала

Что почитать дальше