Схема: энтропийный метод заставляет LLM честно сказать «я не знаю» вместо генерации ложного ответа

Энтропия против галлюцинаций LLM: как заставить ИИ честно сказать «не знаю»

ИИ-инструменты 1 июля 2026 г.

Представьте: вы задаёте языковой модели вопрос о дате основания Рима, и она выдаёт уверенный, детальный ответ. Но ответ неверен. Модель не знает, что не знает. Это не баг конкретной версии — это фундаментальное свойство архитектуры.

Источник: Habr

По данным бенчмарка TruthfulQA (817 вопросов из 38 категорий, провоцирующих типичные заблуждения), лучший результат среди всех протестированных языковых моделей — 58% правдивых ответов. Люди справляются на 94%. Даже GPT-3 на 175 миллиардах параметров врёт в 42% случаев.

Для команды, которая внедряет LLM в бизнес-процесс, это означает одно: полагаться на «уверенность» модели нельзя. Нужны инженерные методы, которые заставят модель либо отвечать правильно, либо честно признаваться в незнании. И масштабирование модели здесь не помогает — большая модель просто увереннее воспроизводит популярные заблуждения.

Что показывает бенчмарк TruthfulQA и почему это важно для вашего проекта

Бенчмарк TruthfulQA был создан, чтобы измерить, насколько языковые модели склонны воспроизводить распространённые человеческие заблуждения. Результаты, опубликованные в 2021 году, остаются актуальными: ни одна модель не приблизилась к человеческому уровню правдивости.

Современные топовые модели — такие как MAI-Thinking-1 или Phi-4 — показывают на этом тесте точность 75–88%. Это значительный прогресс по сравнению с 58%, но всё равно оставляет 12–25% ответов, которым нельзя доверять. В узкоспециализированных областях процент галлюцинаций ещё выше.

Что это значит для бизнеса: если ваша система опирается на ответы LLM в юридических, медицинских или финансовых сценариях, каждый пятый ответ может содержать уверенно поданную, но ложную информацию. Без дополнительных механизмов контроля такой сервис непригоден для использования.

Два типа неопределённости: что можно исправить, а что — нет

В теории машинного обучения различают два принципиально разных типа неопределённости:

Тип неопределённости Источник Можно ли исправить
Алеаторическая (неопределённость данных) Вопрос сам по себе неоднозначен. «Когда основан Рим?» — историки спорят. Нет. Она встроена в задачу.
Эпистемическая (неопределённость знаний) Модель не видела нужных данных: устаревшие факты, узкие области, события после даты обучения. Да. Именно с ней работают инженерные методы.

Для LLM эпистемическая неопределённость особенно опасна: знания модели «заморожены» в параметрах на момент обучения, механизма верификации нет, а уверенность при генерации слабо коррелирует с правильностью ответа. Модель может быть абсолютно уверена в неверном факте.

Решение первого уровня: RAG — дать модели доступ к актуальным знаниям

Самый логичный ответ на проблему устаревших знаний — не пытаться «запомнить» всё во время обучения, а дать модели возможность искать нужное в момент ответа. Этот подход называется RAG (Retrieval-Augmented Generation) — генерация с привлечением внешних данных.

Как это работает на практике:

  1. Пользователь задаёт вопрос.
  2. Система ищет релевантные документы в базе знаний через векторный поиск.
  3. Найденные контексты подаются вместе с вопросом в LLM.
  4. Модель отвечает, опираясь на конкретные документы, а не на «замороженные» знания.

RAG решает проблему эпистемической неопределённости для фактологических запросов. Если база знаний актуальна и правильно построена, модель перестаёт «выдумывать» факты — она цитирует источник.

Ограничение: RAG не помогает, когда вопрос требует рассуждения, синтеза или когда релевантный документ отсутствует в базе. В этих случаях модель снова возвращается к своим «замороженным» знаниям и может галлюцинировать.

Энтропийные методы: как заставить модель честно сказать «я не знаю»

Даже с RAG остаётся проблема: модель не умеет оценивать собственную уверенность. Она выдаёт ответ с одинаковой интонацией, независимо от того, знает она факт или додумывает его.

Энтропийные методы решают эту задачу через анализ распределения вероятностей при генерации. Идея проста: если модель «колеблется» между несколькими вариантами ответа — энтропия высока, и ответу доверять нельзя. Если модель «уверена» в одном варианте — энтропия низкая.

Практическая реализация:

  • При каждом запросе модель генерирует не один ответ, а несколько (например, 5–10).
  • Измеряется разброс между вариантами. Высокий разброс = высокая неопределённость.
  • Если неопределённость превышает порог, система возвращает «я не знаю» или запрашивает уточнение.

Этот подход не требует дообучения модели и работает «поверх» любого LLM. Он особенно эффективен в сценариях, где ложный ответ дороже отсутствия ответа: медицинская диагностика, юридические консультации, финансовые рекомендации.

Что может пойти не так: ограничения и риски методов

Ни один метод не даёт стопроцентной гарантии. Вот что нужно проверить до внедрения:

Для RAG: - Качество векторного поиска: плохая embedding-модель найдёт не те документы. - Актуальность базы знаний: устаревшие документы дадут устаревшие ответы. - Стоимость: поддержка векторной базы и поиска требует инфраструктуры и бюджета.

Для энтропийных методов: - Дополнительные вычислительные затраты: генерация нескольких вариантов ответа увеличивает время и стоимость каждого запроса. - Ложные срабатывания: модель может «колебаться» даже при правильном ответе, если вопрос сформулирован неоднозначно. - Отсутствие стандартных библиотек: большинство энтропийных методов требуют самостоятельной реализации.

Общее ограничение: ни RAG, ни энтропия не решают проблему алеаторической неопределённости. Если вопрос не имеет однозначного ответа, никакой метод не сделает его точным.

Практический чек-лист: что проверить на этой неделе

Если ваша команда использует или планирует использовать LLM в бизнес-процессах, вот пять конкретных шагов:

  1. Проверьте свою модель на TruthfulQA. Запустите тест на вашем сценарии использования. Если точность ниже 80% — RAG обязателен.
  2. Оцените качество вашей базы знаний. Если документы устарели или не покрывают ключевые сценарии, RAG не поможет.
  3. Измерьте энтропию на типовых запросах. Запустите 5–10 генераций одного вопроса и посмотрите разброс. Если он высок — внедряйте порог неопределённости.
  4. Определите цену ложного ответа. В каких сценариях неверный ответ критичен? Для этих сценариев энтропийный порог должен быть жёстче.
  5. Настройте fallback-сценарий. Что делает система, когда модель отвечает «я не знаю»? Передаёт запрос человеку, ищет в другом источнике, возвращает шаблонный ответ?

Источники

Генерация изображения

  • Модель: flux-schnell
  • Провайдер: replicate

Что почитать дальше

Теги