DeepEval 4.0 evaluation harness для AI-агентов: автоматический контур оценки с span-level трассировкой

DeepEval 4.0 для AI-агентов: автоматическая оценка кода вместо ручных тестов

ИИ-инструменты 26 июня 2026 г.

В июне 2026 года команда DeepEval выпустила четвёртую версию своей платформы для оценки LLM-приложений. Если раньше это был инструмент для unit-тестирования языковых моделей, то теперь это полноценный «оценочный обвяз» (evaluation harness) для AI-агентов, которых команды собирают методом vibe coding. Для бизнеса это означает одно: вместо того чтобы спрашивать у Claude Code или Cursor «что мне улучшить?» и получать догадки, вы получаете структурированные данные о том, какие именно участки кода или логики проваливают тесты. Релиз меняет не столько технологию, сколько процесс — теперь цикл «написал код → запустил агента → получил оценку → исправил» можно замкнуть без ручного анализа каждого прогона.

Что именно изменилось в DeepEval 4.0

Предыдущие версии DeepEval (1.0–3.0) решали три задачи: давали готовые метрики для оценки ответов LLM, позволяли синтезировать датасеты, если у команды не было своих тестовых примеров, и симулировали многопоточные диалоги для чат-ботов. Всё это осталось, но фокус четвёртой версии — интеграция с существующим стеком разработки.

Ключевые нововведения, которые видны из описания релиза:

  • CLI-команды для агентов: deepeval generate автоматически синтезирует датасеты, анализируя код в репозитории. Команда deepeval test run запускает тестовые наборы и возвращает результаты в локальное файловое хранилище.
  • Поддержка Claude Code, Codex, Cursor: агенты могут вызывать DeepEval напрямую, получать оценки и на их основе вносить изменения в код.
  • Трассировка с оценками на уровне спанов: вместо общего балла вы видите, какой именно шаг агента (вызов функции, запрос к базе, генерация ответа) получил низкую оценку и почему.
  • Механизм SKILLs: набор инструкций, которые агент использует для интерпретации результатов тестов и принятия решений о следующей итерации.

Для бизнеса это означает, что процесс оценки перестаёт быть отдельной ручной операцией. Агент сам запускает тесты, читает результаты и корректирует код — без участия разработчика на каждом шаге.

Почему это меняет стоимость и время разработки агентов

До DeepEval 4.0 типичный цикл разработки AI-агента выглядел так: разработчик пишет код, запускает агента в тестовом окружении, вручную проверяет несколько сценариев, находит ошибки, исправляет, снова запускает. Если команда использует vibe coding — когда агент пишет код сам, а человек только направляет — то контроль качества становится узким местом. Агент может генерировать сотни строк кода в час, но человек физически не успевает проверять каждую итерацию.

DeepEval 4.0 автоматизирует эту проверку. Агент запускает deepeval test run, получает оценку по 50+ метрикам, видит, какие спаны провалились, и на основе этой информации вносит правки. Цикл замыкается без участия человека.

Что это даёт бизнесу:

Что меняется Почему важно бизнесу Что проверить
Агент сам оценивает свой код Снижение времени на ручное тестирование в 3–5 раз Есть ли у команды тестовые сценарии для вашего домена
Оценка на уровне спанов Можно точно определить, какой компонент агента работает плохо, а не гадать Поддерживает ли ваша архитектура трассировку вызовов
Синтез датасетов из кода Не нужно тратить недели на подготовку тестовых примеров Насколько репрезентативен синтезированный датасет для вашего бизнес-кейса
Локальное файловое хранилище Результаты тестов доступны для анализа без внешних сервисов Достаточно ли места на диске для хранения истории тестов

Как внедрить DeepEval 4.0 в существующий процесс: практический сценарий

Предположим, ваша команда разрабатывает AI-агента для обработки входящих заявок от клиентов. Агент должен прочитать запрос, определить тип проблемы, найти подходящий ответ в базе знаний и сгенерировать персонализированный ответ. Вы используете Claude Code для написания кода и Cursor для редактирования.

Шаг 1. Установка и первичная настройка

Установите DeepEval через pip:

pip install deepeval

Шаг 2. Синтез датасета

Запустите deepeval generate в корне вашего репозитория. Инструмент проанализирует код, определит типичные сценарии использования (например, «запрос на возврат товара», «жалоба на качество», «запрос статуса заказа») и создаст тестовый набор из 20–50 примеров.

Шаг 3. Запуск тестового прогона

Выполните deepeval test run. Агент получит оценку по метрикам: точность классификации, релевантность ответа, полнота извлечения информации из базы знаний. Результаты сохранятся в локальном хранилище.

Шаг 4. Анализ трассировки

Откройте файл с результатами. Вы увидите, на каком именно шаге агент ошибся: неправильно классифицировал запрос, не нашёл нужную статью в базе знаний или сгенерировал ответ, не соответствующий политике компании.

Шаг 5. Итерация

Агент читает результаты, определяет проблемные участки и вносит изменения в код. Например, если ошибка в классификации, агент может добавить дополнительные правила или обучить классификатор на новых примерах. После внесения правок цикл повторяется.

Риски и ограничения, которые нельзя игнорировать

Разработчики DeepEval сами признают: есть риск, что агент «переобучится» под метрики. Если метрики не идеальны (а они никогда не идеальны), агент может начать оптимизировать код под прохождение тестов, а не под реальные бизнес-задачи. Например, если метрика «релевантность ответа» замеряет только совпадение ключевых слов, агент начнёт вставлять в ответы больше ключевых слов, даже если это ухудшает читаемость.

Как снизить этот риск:

  • Используйте несколько метрик одновременно. DeepEval предлагает более 50 метрик, включая семантическую близость, фактологическую точность, тональность и другие.
  • Добавляйте аннотации к тестовым примерам. Если метрика показывает высокий балл, но ответ не соответствует политике компании, аннотация укажет агенту на проблему.
  • Регулярно проверяйте результаты вручную. Автоматизация не отменяет человеческий контроль, особенно на ранних этапах внедрения.

Другие ограничения:

  • DeepEval 4.0 — это инструмент от вендора. Описание преимуществ может быть предвзятым. Требуется независимая проверка на ваших данных.
  • Интеграция с Claude Code, Cursor и Codex заявлена, но степень поддержки может различаться. Перед внедрением проверьте совместимость с вашей версией агента.
  • Синтезированные датасеты могут не покрывать редкие, но критически важные сценарии. Например, если ваш бизнес обрабатывает запросы на нескольких языках, убедитесь, что синтезатор учитывает это.

Что сделать на этой неделе: чек-лист для владельца продукта

Если вы руководитель команды, которая разрабатывает AI-агентов, вот пять конкретных действий, которые можно выполнить за неделю:

  1. Установите DeepEval 4.0 в тестовом окружении. Не в продакшене. Просто чтобы увидеть, как работает синтез датасетов и запуск тестов.
  2. Запустите deepeval generate на одном из ваших репозиториев. Оцените, насколько синтезированные тестовые примеры соответствуют реальным бизнес-сценариям.
  3. Проверьте, какие метрики доступны для вашего домена. Если вы работаете с юридическими или медицинскими текстами, убедитесь, что есть метрики для оценки точности фактов.
  4. Сравните результаты ручного тестирования и автоматического. Возьмите 10–20 реальных запросов от клиентов, пропустите их через агента, получите оценку от DeepEval и сравните с оценкой человека.
  5. Примите решение о пилоте. Если результаты удовлетворительные, выделите одну команду на двухнедельный пилот. Если нет — зафиксируйте, каких метрик или сценариев не хватает, и вернитесь к вопросу после выхода следующей версии.

Источники

Генерация изображения

  • Модель: qwen-image-max
  • Провайдер: alibaba

Теги