Как проверять юридический ИИ: тесты, источники и ошибки

Юридический ИИ нельзя оценивать как обычный чатбот. Красивый ответ не означает, что система правильно нашла источник, учла редакцию документа, не смешала похожие нормы и не придумала уверенную формулировку. В правовой задаче качество ответа начинается не со стиля, а с проверяемости.

Поэтому тестирование юридического ИИ должно быть ближе к приемке продукта, чем к разговору с моделью. Нужно заранее подготовить набор вопросов, ожидаемые источники, допустимые границы ответа, случаи, где система должна отказаться, и журнал типовых ошибок. Тогда проверка показывает не настроение модели, а рабочую надежность контура.

LegalBench полезен как публичный сигнал: юридическое рассуждение можно раскладывать на разные типы задач, а не мерить одной общей оценкой. Но для прикладной системы одного бенчмарка мало. Нужна локальная тестовая подборка, похожая на реальные вопросы пользователей и реальные документы.

Что именно проверять

Первый слой проверки: источник. Система должна показать, откуда взят ответ. Если ответ нельзя связать с документом, пунктом или цитатой, это не юридический ответ, а предположение. Второй слой: применимость. Даже правильный источник может быть не тем, если документ устарел, относится к другой ситуации или не имеет нужной силы.

Третий слой: поведение на границе. Хорошая система не обязана отвечать на все. Иногда правильный ответ: не хватает данных, нужен первичный документ, требуется юрист, источник не найден. Для юридического ИИ отказ от ответа является не слабостью, а частью качества.

Главное:
Проверка юридического ИИ должна отвечать не на вопрос "умно ли звучит модель", а на вопрос "можно ли принять ее ответ в рабочем процессе". Для этого нужны источники, цитаты, тестовые случаи, ошибки, отказы и журнал изменений.

Минимальная матрица тестов

Тип теста	Что показывает	Пример риска
Прямой вопрос по норме	умеет ли система найти первичный источник	модель пересказывает обзор вместо нормы
Вопрос с устаревшей редакцией	различает ли версии документов	ответ строится на старом тексте
Похожий, но другой случай	не смешивает ли правовые режимы	находится похожая, но неприменимая норма
Недостаточно данных	умеет ли система отказаться	модель додумывает факты
Контроль цитаты	можно ли проверить ответ руками	цитата не подтверждает вывод

Метрики retrieval-качества помогают сделать эту проверку менее субъективной. Context precision показывает, попали ли в контекст релевантные фрагменты. Faithfulness помогает смотреть, можно ли вывести утверждения ответа из найденного контекста. Но даже хорошие метрики не отменяют ручной приемки: юридический риск часто живет в деталях формулировки.

Как встроить это в агентный контур

Если юридический ИИ работает как агент, проверка должна смотреть не только на финальный текст. Важно видеть путь: какой запрос он сделал, какие документы получил, какие фильтры применил, где остановился, почему выбрал этот источник. Иначе ошибка будет выглядеть как один красивый абзац, а не как цепочка решений, которую можно исправить.

Для Codex-подхода это можно оформить как отдельный навык приемки. Агент сначала собирает ответ, потом сам прикладывает источники, затем прогоняет чеклист: есть ли цитата, совпадает ли редакция, не было ли отказа, не нарушены ли границы. После этого человек смотрит не пустой ответ, а пакет проверки.

Где граница

Такая проверка не делает модель юристом и не заменяет профессиональную ответственность. Она помогает понять, где система может быть полезным помощником: найти документы, собрать цитаты, показать противоречия, подготовить черновик анализа. Но финальное решение, особенно в спорной ситуации, остается за человеком.

Главное преимущество тестового подхода в том, что он делает качество обучаемым. Ошибка перестает быть случайным неприятным эпизодом. Она превращается в новый тест, новую проверку, новую границу для агента.