Многомерная валидация системы памяти ИИ через DeepEval: метрики correctness, relevancy и стабильность retrieval в кейсе Cogne

Валидация памяти ИИ через DeepEval: методика Cognee для вашего проекта

ИИ-инструменты 26 июня 2026 г.

Cognee — исследовательская компания, разрабатывающая системы памяти для искусственного интеллекта, — провела многоаспектную валидацию своей технологии с помощью оценочного фреймворка DeepEval. Результаты этой работы опубликованы в формате открытого кейса. Для владельца продукта или руководителя команды, которая строит ИИ-решения с долговременной памятью, этот кейс даёт не абстрактный бенчмарк, а воспроизводимую методику: какие метрики собирать, как интерпретировать их нестабильность и где оценка может давать сбой.

Главный практический вывод: одной метрики «точность ответа» недостаточно. Без раздельной оценки корректности, релевантности контекста и стабильности результатов между запусками команда рискует принять нестабильную систему памяти за готовую к эксплуатации. Ниже разберём, как именно Cognee построила оценку, какие ограничения обнаружила и что из этого можно внедрить уже на следующей итерации тестирования.

Что именно сделала Cognee

Cognee решала конкретную задачу: проверить, насколько хорошо её система памяти ИИ извлекает релевантный контекст и генерирует корректные ответы на вопросы пользователя. Традиционные метрики — например, простая точность совпадения с эталоном — не отражали многомерной природы работы памяти. Система должна одновременно:

  • правильно извлекать факты из накопленного контекста;
  • не приносить лишнюю, нерелевантную информацию;
  • покрывать все значимые аспекты запроса;
  • давать стабильные результаты при повторных запусках.

Для оценки Cognee использовала три группы метрик: F1 и EM (exact match) — классические меры для задач question-answering, а также две метрики из фреймворка DeepEval — correctness и contextual relevancy. Методология включала подготовку пар «вопрос — эталонный ответ», подачу вопросов системе Cognee для извлечения контекста, генерацию финального ответа с помощью LLM и последующее сравнение с эталоном через DeepEval.

Важно: оценка проводилась не на одном датасете, а на нескольких, что повышает надёжность выводов. Это принципиальный момент для бизнес-решений — результаты на единственном тестовом наборе могут создавать ложное ощущение качества.

Почему это меняет подход к оценке ИИ-памяти

Для компании, внедряющей ИИ с памятью в клиентский сервис, внутреннюю аналитику или продукт для конечных пользователей, кейс Cognee высвечивает три риска, которые редко учитываются на старте.

Риск первый: нестабильность метрик между запусками. Cognee обнаружила, что оценка correctness по DeepEval заметно варьируется от запуска к запуску. Если команда делает один прогон и фиксирует результат как итоговый, она может получить случайно завышенную или заниженную оценку. Бизнес-последствие: решение о готовности системы к запуску принимается на основе шума, а не сигнала.

Риск второй: избыточная строгость к семантически верным ответам. DeepEval в ряде случаев штрафовал ответы, которые были правильными по сути, но сформулированы иначе, чем эталон. Для продукта это означает, что метрика может «забраковать» приемлемый пользовательский ответ, заставив команду тратить ресурсы на несуществующую проблему.

Риск третий: технические сбои при генерации JSON. Даже на производительных моделях парсинг вывода иногда ломался. В production-пайплайне оценки такой сбой может привести к пропуску части результатов и искажению итоговой картины.

Эти три наблюдения превращают кейс из академической иллюстрации в прикладной чек-лист: что именно может пойти не так при внедрении автоматизированной оценки памяти ИИ.

Как воспроизвести методику: пошаговая схема

Методика Cognee не привязана к их внутренней архитектуре. Её можно адаптировать для любой системы, где есть компонент памяти и генерация ответа на основе извлечённого контекста. Ниже — схема, которую можно использовать как основу для технического задания на оценочный контур.

  1. Подготовить эталонные пары «вопрос — ответ». Это самая трудозатратная часть. Эталоны должны покрывать типичные пользовательские сценарии, включая пограничные случаи. Минимально жизнеспособный набор — 50–100 пар на каждый тип запросов.
  2. Настроить извлечение контекста. Подать вопросы системе, получить контекст, который система памяти считает релевантным. Зафиксировать его до генерации ответа.
  3. Сгенерировать ответы с помощью LLM. Использовать ту же модель и тот же промпт, что и в продуктовом контуре. Не подменять генерацию упрощённым пайплайном — это исказит оценку.
  4. Применить метрику correctness. Сравнить сгенерированный ответ с эталоном через DeepEval. Обязательно сделать несколько прогонов (минимум 3–5) и зафиксировать разброс значений.
  5. Применить метрику contextual relevancy. Оценить, насколько извлечённый контекст соответствует вопросу — до генерации ответа. Это даёт независимую оценку качества retrieval-компонента.
  6. Добавить F1 и EM. Эти метрики дают опорный сигнал, не зависящий от LLM-оценщика, и помогают калибровать результаты DeepEval.
  7. Повторить на нескольких датасетах. Минимум на двух: один — приближенный к продуктовым данным, второй — с искусственно усложнёнными запросами.

Что может пойти не так: ограничения метода

Кейс Cognee честно описывает не только успехи, но и сбои. Это редкое качество для вендорского блога, и именно оно делает материал полезным для принятия решений.

Нестабильность correctness между запусками. Разброс результатов означает, что единичный прогон не является надёжной основой для вывода. Команде нужно закладывать в процесс оценки обязательную мульти-итерационность и считать не только среднее, но и дисперсию. Если разброс превышает 5–7 процентных пунктов, система оценки требует калибровки.

Ложные штрафы за семантически эквивалентные ответы. DeepEval иногда оценивает корректный, но иначе сформулированный ответ как неверный. Для бизнеса это риск ложной тревоги: команда начнёт «чинить» то, что не сломано. Решение — выборочная ручная проверка ответов, получивших низкий балл, перед тем как принимать их как дефекты.

Сбои JSON-парсинга. Технический сбой при генерации структурированного вывода — не экзотика, а воспроизводимая проблема. В production-окружении нужно предусмотреть повторные попытки и алертинг при превышении порога ошибок парсинга.

Вендорский источник. Материал опубликован в блоге DeepEval, что создаёт естественную заинтересованность в позитивном освещении фреймворка. Независимых подтверждений результатов Cognee в открытых источниках на момент публикации нет. Это не обесценивает методику, но требует от читателя относиться к конкретным цифрам как к иллюстрации, а не как к эталонным значениям.

Что делать руководителю на этой неделе

Кейс Cognee — не повод немедленно внедрять DeepEval. Это повод провести аудит того, как ваша команда оценивает качество ИИ-памяти сейчас. Ниже — таблица для быстрой самопроверки.

Что меняется Почему важно бизнесу Что проверить
Переход от одной метрики к многомерной оценке Одна метрика скрывает проблемы retrieval, релевантности и стабильности Какие метрики использует команда сейчас? Есть ли разделение на correctness и relevancy?
Обязательная мульти-итерационность Единичный прогон даёт случайный результат — решение о запуске может быть ошибочным Делает ли команда минимум 3 прогона? Фиксирует ли разброс?
Оценка retrieval до генерации ответа Плохой контекст нельзя исправить хорошей генерацией — проблема останется скрытой Оценивается ли качество извлечённого контекста отдельно от финального ответа?
Устойчивость оценочного пайплайна Сбои парсинга искажают итоговую картину качества Есть ли мониторинг ошибок парсинга и повторные попытки?
Тестирование на нескольких датасетах Результат на одном датасете не гарантирует поведение на продуктовых данных На скольких датасетах проводится оценка? Есть ли среди них приближенный к реальным запросам?

Практический чек-лист для не-IT руководителя

Этот список можно использовать на ближайшей встрече с командой разработки. Каждый пункт предполагает конкретный ответ «да/нет» и, если «нет» — срок, когда будет «да».

  1. Запросить у команды перечень метрик, по которым оценивается качество памяти ИИ. Если в списке только «точность» или «accuracy» — методику нужно расширять.
  2. Уточнить, сколько прогонов оценки делается перед тем, как фиксируется результат. Если один — потребовать минимум три и запись разброса.
  3. Проверить, оценивается ли качество извлечения контекста отдельно от качества финального ответа. Если нет — запланировать разделение на следующую итерацию.
  4. Узнать, были ли случаи, когда система оценки «забраковала» хороший ответ. Если команда не ведёт такой статистики — начать вести выборочную ручную верификацию низких оценок.
  5. Проверить, на каких данных тестируется система. Если используется один синтетический датасет — добавить второй, максимально приближенный к реальным пользовательским запросам.
  6. Уточнить, есть ли мониторинг технических сбоев в оценочном пайплайне (ошибки парсинга, таймауты). Если нет — добавить алертинг с порогом допустимого процента ошибок.

Что остаётся неясным и требует осторожности

Кейс Cognee даёт методику, но не даёт эталонных цифр. Мы не знаем, какие абсолютные значения correctness или contextual relevancy были получены, насколько они улучшились после доработок системы и как они соотносятся с продуктовыми требованиями. Без этих данных нельзя сказать: «если ваша correctness выше X — система готова».

Кроме того, кейс описывает работу с конкретным фреймворком DeepEval. Альтернативные инструменты — например, Ragas, LangSmith Evaluation, Arize Phoenix — могут давать другие результаты на тех же данных. Выбор фреймворка оценки сам по себе является решением, которое влияет на итоговую картину качества.

Наконец, сам факт публикации в вендорском блоге означает, что материал прошёл редактуру, благоприятную для продукта. Это не отменяет полезности методики, но требует от читателя отделять метод от маркетинговой рамки. Прагматичный подход: взять схему оценки, проверить её на своих данных с помощью DeepEval и как минимум ещё одного фреймворка, сравнить результаты.

Источники

Генерация изображения

  • Модель: gpt-5-image-mini
  • Провайдер: openrouter

Теги