Энтропия против галлюцинаций LLM: как заставить ИИ честно сказать «не знаю»
Представьте: вы задаёте языковой модели вопрос о дате основания Рима, и она выдаёт уверенный, детальный ответ. Но ответ неверен. Модель не знает, что не знает. Это не баг конкретной версии — это фундаментальное свойство архитектуры.
Источник: Habr
По данным бенчмарка TruthfulQA (817 вопросов из 38 категорий, провоцирующих типичные заблуждения), лучший результат среди всех протестированных языковых моделей — 58% правдивых ответов. Люди справляются на 94%. Даже GPT-3 на 175 миллиардах параметров врёт в 42% случаев.
Для команды, которая внедряет LLM в бизнес-процесс, это означает одно: полагаться на «уверенность» модели нельзя. Нужны инженерные методы, которые заставят модель либо отвечать правильно, либо честно признаваться в незнании. И масштабирование модели здесь не помогает — большая модель просто увереннее воспроизводит популярные заблуждения.
Что показывает бенчмарк TruthfulQA и почему это важно для вашего проекта
Бенчмарк TruthfulQA был создан, чтобы измерить, насколько языковые модели склонны воспроизводить распространённые человеческие заблуждения. Результаты, опубликованные в 2021 году, остаются актуальными: ни одна модель не приблизилась к человеческому уровню правдивости.
Современные топовые модели — такие как MAI-Thinking-1 или Phi-4 — показывают на этом тесте точность 75–88%. Это значительный прогресс по сравнению с 58%, но всё равно оставляет 12–25% ответов, которым нельзя доверять. В узкоспециализированных областях процент галлюцинаций ещё выше.
Что это значит для бизнеса: если ваша система опирается на ответы LLM в юридических, медицинских или финансовых сценариях, каждый пятый ответ может содержать уверенно поданную, но ложную информацию. Без дополнительных механизмов контроля такой сервис непригоден для использования.
Два типа неопределённости: что можно исправить, а что — нет
В теории машинного обучения различают два принципиально разных типа неопределённости:
| Тип неопределённости | Источник | Можно ли исправить |
|---|---|---|
| Алеаторическая (неопределённость данных) | Вопрос сам по себе неоднозначен. «Когда основан Рим?» — историки спорят. | Нет. Она встроена в задачу. |
| Эпистемическая (неопределённость знаний) | Модель не видела нужных данных: устаревшие факты, узкие области, события после даты обучения. | Да. Именно с ней работают инженерные методы. |
Для LLM эпистемическая неопределённость особенно опасна: знания модели «заморожены» в параметрах на момент обучения, механизма верификации нет, а уверенность при генерации слабо коррелирует с правильностью ответа. Модель может быть абсолютно уверена в неверном факте.
Решение первого уровня: RAG — дать модели доступ к актуальным знаниям
Самый логичный ответ на проблему устаревших знаний — не пытаться «запомнить» всё во время обучения, а дать модели возможность искать нужное в момент ответа. Этот подход называется RAG (Retrieval-Augmented Generation) — генерация с привлечением внешних данных.
Как это работает на практике:
- Пользователь задаёт вопрос.
- Система ищет релевантные документы в базе знаний через векторный поиск.
- Найденные контексты подаются вместе с вопросом в LLM.
- Модель отвечает, опираясь на конкретные документы, а не на «замороженные» знания.
RAG решает проблему эпистемической неопределённости для фактологических запросов. Если база знаний актуальна и правильно построена, модель перестаёт «выдумывать» факты — она цитирует источник.
Ограничение: RAG не помогает, когда вопрос требует рассуждения, синтеза или когда релевантный документ отсутствует в базе. В этих случаях модель снова возвращается к своим «замороженным» знаниям и может галлюцинировать.
Энтропийные методы: как заставить модель честно сказать «я не знаю»
Даже с RAG остаётся проблема: модель не умеет оценивать собственную уверенность. Она выдаёт ответ с одинаковой интонацией, независимо от того, знает она факт или додумывает его.
Энтропийные методы решают эту задачу через анализ распределения вероятностей при генерации. Идея проста: если модель «колеблется» между несколькими вариантами ответа — энтропия высока, и ответу доверять нельзя. Если модель «уверена» в одном варианте — энтропия низкая.
Практическая реализация:
- При каждом запросе модель генерирует не один ответ, а несколько (например, 5–10).
- Измеряется разброс между вариантами. Высокий разброс = высокая неопределённость.
- Если неопределённость превышает порог, система возвращает «я не знаю» или запрашивает уточнение.
Этот подход не требует дообучения модели и работает «поверх» любого LLM. Он особенно эффективен в сценариях, где ложный ответ дороже отсутствия ответа: медицинская диагностика, юридические консультации, финансовые рекомендации.
Что может пойти не так: ограничения и риски методов
Ни один метод не даёт стопроцентной гарантии. Вот что нужно проверить до внедрения:
Для RAG: - Качество векторного поиска: плохая embedding-модель найдёт не те документы. - Актуальность базы знаний: устаревшие документы дадут устаревшие ответы. - Стоимость: поддержка векторной базы и поиска требует инфраструктуры и бюджета.
Для энтропийных методов: - Дополнительные вычислительные затраты: генерация нескольких вариантов ответа увеличивает время и стоимость каждого запроса. - Ложные срабатывания: модель может «колебаться» даже при правильном ответе, если вопрос сформулирован неоднозначно. - Отсутствие стандартных библиотек: большинство энтропийных методов требуют самостоятельной реализации.
Общее ограничение: ни RAG, ни энтропия не решают проблему алеаторической неопределённости. Если вопрос не имеет однозначного ответа, никакой метод не сделает его точным.
Практический чек-лист: что проверить на этой неделе
Если ваша команда использует или планирует использовать LLM в бизнес-процессах, вот пять конкретных шагов:
- Проверьте свою модель на TruthfulQA. Запустите тест на вашем сценарии использования. Если точность ниже 80% — RAG обязателен.
- Оцените качество вашей базы знаний. Если документы устарели или не покрывают ключевые сценарии, RAG не поможет.
- Измерьте энтропию на типовых запросах. Запустите 5–10 генераций одного вопроса и посмотрите разброс. Если он высок — внедряйте порог неопределённости.
- Определите цену ложного ответа. В каких сценариях неверный ответ критичен? Для этих сценариев энтропийный порог должен быть жёстче.
- Настройте fallback-сценарий. Что делает система, когда модель отвечает «я не знаю»? Передаёт запрос человеку, ищет в другом источнике, возвращает шаблонный ответ?
Источники
- Habr статья IT-центра МАИ: «Когда ИИ не знает – но делает вид, что знает: ударим энтропией по LLM»
- TruthfulQA: Measuring How Models Mimic Human Falsehoods (arXiv, 2021)
- RAG: Retrieval-Augmented Generation (Lewis et al., 2020)
Генерация изображения
- Модель:
flux-schnell - Провайдер:
replicate
Что почитать дальше
- AI-фотографии 2026: как работает генерация изображений, где применять и какие ограничения
- Гибридная LLM против трансформера: где 7B-модель Ai2 реально сильнее и какая ошибка обойдётся дороже
- Как внедрить AI-ассистента в поддержку и сократить время первого ответа на 60%: пошаговый метод с гибридным пайплайном
- Hyundai разместит 25 000 человекоподобных роботов Atlas на заводах к 2028 году: что это значит для вашего производства
- Kimi Work для бизнеса: анализ документов, реальные возможности и где модель теряет точность