Как тестировать российскую модель в агентном контуре Codex: прокси, harness и логи

Российскую модель нельзя оценивать только по красивому ответу в чате. Для обычного вопроса этого еще может хватить. Но если модель должна работать в агентном сценарии, ей придется читать контекст, выбирать действие, вызывать инструменты, держать цель и не ломать процесс. Здесь нужна другая проверка.

Практический путь начинается с совместимого слоя. Например, gpt2giga показывает полезный класс решений: российскую модель можно подключать через прокси, который имитирует привычный интерфейс для клиентов и инструментов. Но сам прокси не делает модель хорошим агентом. Он только дает возможность включить ее в тестовый контур.

Дальше нужен harness: набор задач, инструментов, логов и критериев приемки. Именно он отвечает на вопрос, можно ли использовать модель в рабочем маршруте Codex, а не просто получить от нее один убедительный абзац.

Что здесь меняется

В обычном сравнении моделей часто смотрят на стиль ответа, скорость и цену. Для агентной работы этого мало. Агент может красиво объяснить план и провалить действие: выбрать не тот файл, не вызвать нужный инструмент, пропустить ошибку, не оставить лог, перепутать ограничения.

OpenAI Agents SDK полезен как пример архитектурного мышления: агентная система состоит не только из модели, но и из инструментов, инструкций, состояния и контроля выполнения. Поэтому проверять надо весь маршрут.

Главное:
Модель в агентном контуре проверяется не по одному ответу, а по циклу: задача, инструмент, действие, лог, стоимость, ошибка и приемка. Без этого нельзя понять, готова ли она к рабочему процессу.

Из чего собрать проверку

Тестовый контур не обязан быть сложным. Но в нем должны быть видны все места, где агент может ошибиться.

Слой	Что проверить	Почему это важно
Прокси	совместимость запросов и ответов	чтобы инструментальный контур вообще запустился
Инструкции	понимает ли модель правила задачи	чтобы не было красивого, но неправильного шага
Инструменты	вызывает ли нужное действие	агент без tools превращается в чат
Логи	видно ли путь решения	без логов нельзя разбирать сбои
Стоимость	сколько стоит успешная задача	дешевый токен может стать дорогим циклом
Приемка	прошел ли результат рабочий gate	метрика должна быть привязана к делу

В российском маршруте это особенно важно. Есть соблазн обсуждать модель как замену западному сервису вообще. Но для команды важнее другой вопрос: в какой именно задаче она надежна, где дешевле, где слабее, где требует человеческого контроля.

Как связать это с Codex

Codex здесь можно использовать как эталон рабочего процесса, а не как обязательную модель. Он показывает, какие элементы нужны агентной работе: файлы проекта, инструменты, проверки, ограничения и итоговый отчет. Российскую или китайскую модель полезно прогонять через похожий сценарий: не "поговори со мной", а "сделай маленькую задачу с инструментами и оставь след".

Такой подход быстро показывает реальные границы. Модель может быть хороша для кратких русских ответов, но слаба в длинном инструментальном цикле. Или наоборот: писать сухо, но стабильно держать формат и не терять шаги.

Рабочая карточка

Когда использовать: когда нужно понять, можно ли подключать GigaChat, Qwen, DeepSeek или другую модель к агентному рабочему процессу.

Что подать на вход: совместимый прокси, набор тестовых задач, инструменты, правила логирования, лимит стоимости и критерии приемки.

Что сделать по шагам:

Выбрать 5-10 реальных задач, а не абстрактные вопросы.
Прогнать их через один и тот же harness.
Логировать вызовы инструментов, ошибки и повторы.
Считать стоимость успешной задачи, а не только цену токена.
Разбирать неудачи: ошибка модели, прокси, инструкции или инструмента.
Решать, где модель можно применять, а где нужен другой маршрут.

Какой результат получить: не рейтинг моделей, а карта применимости для конкретного процесса.

Как проверить качество: результаты воспроизводимы, логи полные, критерий приемки понятен, вывод не превращается в рекламу одной модели.

Когда не использовать: если задача не требует инструментов и достаточно обычного ответа в чате.

Какой навык из этого собрать: навык проверки моделей в агентной среде. Человек учится выбирать модель под процесс, а не под общее впечатление.

Где осторожность

Прокси-слой может скрыть различия интерфейсов, но не скрывает различия поведения. Модель может поддерживать совместимый формат и при этом хуже планировать, хуже следовать ограничениям или чаще терять контекст. Поэтому честная проверка должна смотреть не только на "запустилось", но и на путь решения.

В статье про eval awareness мы уже говорили: агентные проверки легко обмануть случайной утечкой или слишком узкой метрикой. Для российского модельного маршрута это особенно важно. Если мы хотим использовать локальные, российские или китайские решения осознанно, их надо не хвалить заранее, а спокойно прогонять через рабочие сценарии.