Как убрать галлюцинации ИИ: три защитных контура без дообучения
Вы просите ИИ написать отчёт, получаете красивый текст — и всё равно перепроверяете каждый абзац. Это не ваша паранойя, а архитектурная особенность: языковые модели подбирают статистически вероятное следующее слово, а не фактически верное. Галлюцинации — не баг, а режим работы.
Источник: Habr
Решение существует, и оно не требует дообучения модели или смены вендора. Независимый эксперт по ИТ и ИБ Андрей Бирюков опубликовал в блоге OTUS метод трёх защитных контуров, который перехватывает управление у авторегрессии и принудительно привязывает ИИ к фактам. Вот как это работает и что можно проверить уже на этой неделе.
Что изменилось: от литератора к следователю
Первая и главная ошибка — просить ИИ «напиши ответ». Глагол «напиши» запускает сценарий литератора: модель начинает строить красивые предложения, а не проверять факты. Метод Бирюкова предлагает полностью запретить модели выдавать итоговый текст в первой итерации.
Вместо «Напиши отчёт о продажах за март» вы даёте инструкцию: «Твоя задача — заполнить строгую структурную форму фактами. Ты не пишешь ответ пользователю. Ты готовишь черновик для самого себя».
Системная инструкция превращает модель в фактологический экстрактор. Запрещены вводные конструкции («вероятно», «может быть», «считается»), запрещены советы. Если факта нет в контексте, модель обязана указать это в соответствующем поле.
Пользовательский запрос требует заполнить JSON-структуру с тремя полями: - extracted_facts — массив из 3–5 сухих утверждений, взятых максимально близко к источнику; - logical_conclusions — массив явных логических выводов из фактов; - missing_data — чётко перечисленные пункты, которых не хватает для полного ответа.
По оценке автора, такой подход снижает галлюцинации примерно на 40% уже на старте. Формат JSON и конкретные имена полей смещают распределение вероятностей модели: она перестаёт думать о том, как красиво построить предложение, и начинает думать о том, как заполнить ячейки.
Почему это меняет стоимость и контроль
Без структурного промптинга вы платите за генерацию красивых слов, которые всё равно приходится перепроверять. Это скрытые затраты времени и внимания. Метод трёх контуров превращает ИИ из генератора черновиков в инструмент первичной фактологической обработки.
Для руководителя это означает: - снижение времени на проверку ответов ИИ; - уменьшение риска передачи ложных данных в отчёты или клиентские коммуникации; - возможность делегировать модели работу по извлечению фактов, а не по написанию текста.
Для редактора или аналитика — появление машиночитаемой структуры, которую можно автоматически проверять, агрегировать и передавать в другие системы.
Как внедрить шкалу уверенности и научить ИИ говорить «нет»
Второй контур решает проблему, которую модели активно избегают: признание в незнании. ИИ никогда не скажет «я не знаю», если его об этом специально не попросить. Для него «не знать» — паттерн с низкой вероятностью.
Решение — добавить в JSON-структуру поле uncertainty с жёсткими критериями оценки:
| Диапазон | Уровень уверенности | Критерий |
|---|---|---|
| 0.0–0.3 | Низкая | Нет прямой информации в контексте, вывод основан на общих знаниях модели |
| 0.4–0.7 | Средняя | Есть косвенные подтверждения, но цифры или даты отсутствуют |
| 0.8–1.0 | Высокая | Данные продублированы в нескольких источниках контекста или являются прямой цитатой из авторитетного документа |
Ключевой нюанс: нельзя просто попросить «оцени вероятность». Модель даст 95% на всём подряд. Критерии должны быть явными и привязанными к контексту.
Критическое правило: если по какому-либо из запрошенных пунктов уверенность ниже 0.8, модель обязана указать это в поле missing_data и не выдавать непроверенный факт как истину.
Где находятся риски и ограничения метода
Метод опубликован в блоге учебного центра OTUS, что может влиять на объективность оценки. Эффективность трёх контуров рекомендуется перепроверить на независимых бенчмарках и собственных задачах.
Основные ограничения:
- Субъективность шкалы. Оценка уверенности зависит от модели, контекста и формулировок критериев. Одна и та же инструкция может давать разные результаты на GPT, Claude, YandexGPT или DeepSeek.
- Отсутствие готового кода. Метод описан на уровне промптов и принципов. Читателю придётся реализовывать контуры самостоятельно — писать обвязку для вызова API, парсинга JSON и автоматической валидации.
- Дополнительные затраты на токены. Структурный промптинг и несколько итераций увеличивают потребление токенов на запрос. Для массового использования это может быть существенно.
- Не все задачи подходят. Метод эффективен для фактологических экстракций, отчётов и аналитики. Для креативных задач, генерации идей или свободного письма он избыточен.
Что можно проверить на этой неделе: чек-лист
- Выберите одну задачу, где вы сейчас перепроверяете каждый абзац ответа ИИ. Например: подготовка еженедельного отчёта, извлечение данных из документов, ответы на типовые вопросы клиентов.
- Напишите системную инструкцию по шаблону «фактологический экстрактор» с запретом вводных конструкций и советов.
- Создайте JSON-структуру с полями
extracted_facts,logical_conclusions,missing_dataиuncertainty. - Протестируйте на 5–10 реальных запросах. Сравните количество галлюцинаций в обычном ответе и в структурированном выводе.
- Проверьте шкалу уверенности. Убедитесь, что модель действительно ставит низкие оценки, когда данных нет, а не выдаёт 95% на всём подряд.
- Оцените прирост времени. Замерьте, сколько минут вы экономите на проверке одного ответа. Если экономия меньше 30%, метод требует донастройки под вашу задачу.
Источники
Дополнительные рекомендации для внедрения
Чтобы метод трёх контуров работал стабильно, стоит учесть несколько практических моментов. Во-первых, тестируйте инструкции на разных моделях — поведение может отличаться. Во-вторых, начните с одной задачи и постепенно расширяйте область применения. В-третьих, фиксируйте результаты в таблице: количество галлюцинаций, время проверки, затраты токенов. Это поможет объективно оценить эффективность и скорректировать подход под ваши конкретные сценарии.
Метод трёх контуров — не серебряная пуля, но рабочий инструмент для тех, кто хочет превратить ИИ из генератора правдоподобных текстов в надёжного помощника по фактам. Попробуйте на одной задаче — и вы увидите разницу.
Генерация изображения
- Модель:
flux-schnell - Провайдер:
replicate
Темы журнала
Что почитать дальше
- DeepSeek vs Claude: экономия на API и риски перехода
- 6 AI-инструментов для генерации текста в 2026: ChatGPT, Claude, Gemini, Jasper, Copy.ai, Writesonic — сравнение по 5
- Claude Tag в Slack: как внедрить AI-агента в общие каналы без утечек данных
- Claude Code атака через DNS: как AI-агент запускает вредоносный скрипт из GitHub
- Claude Code без Anthropic API: подключение китайских LLM GLM 5 и экономия