Как самоулучшающийся ИИ-агент становится лучше: урок Tax AI и Codex
SEO title: Как самоулучшающийся ИИ-агент становится лучше: Tax AI, Codex, trace и evals
Meta description: Как OpenAI и Thrive построили Tax AI: полный след ошибки, правки бухгалтеров, evals, Codex-задачи и петля улучшения агента.
Самоулучшающийся ИИ-агент звучит как маркетинг, пока не разобрать его на рабочие детали. В хорошем варианте агент не просто «учится сам». Он оставляет полный след ошибки, получает правку специалиста, превращает повторяющийся паттерн в проверку, а затем разработчик или Codex меняет продукт под эту проверку.
Кейс Tax AI от OpenAI и Thrive интересен именно этим. Система для подготовки налоговых деклараций работала в грязной реальности документов: разные формы, переносы с прошлых лет, неоднозначные поля, бухгалтерские правки и жесткая цена ошибки. Поэтому ключевым оказался не один сильный вызов модели, а петля улучшения вокруг следов и evals.

## Что здесь меняется
OpenAI в статье Building self-improving tax agents with Codex описывает совместную работу с Thrive Holdings над Tax AI для бухгалтерских фирм Crete. По описанию OpenAI, система обработала тысячи деклараций, фиксировала полные trace для полей и правок, а повторяющиеся исправления превращались в eval-цели и задачи для Codex. Улучшения проверялись eval-backed engineering системами до попадания в production.
## Как это переводится в рабочий прием
Практический смысл шире налогов. Любой агент, который работает с документами, заявками, счетами, договорами или карточками клиентов, должен оставлять след: откуда взял значение, как сопоставил поле, кто поправил, почему поправил и какой результат ушел в систему. Без этого невозможно понять, что улучшать. С trace и evals ошибки становятся топливом для продукта.
| Что решить | Как думать | Что проверить |
|---|---|---|
| --- | --- | --- |
| Что логировать? | исходный файл, поле, цитату, маппинг и финальное значение | можно ли восстановить ход решения |
| Что считать ошибкой? | правку специалиста и повторяющийся паттерн | это единичный случай или класс задач |
| Что превращать в eval? | повторяемую правку с ожидаемым результатом | падает ли старая версия на этом кейсе |
| Когда менять продукт? | после проверки на наборе evals | не сломалось ли соседнее поведение |
## Как собрать навык
Рабочий прием: проектировать агент сразу с контуром улучшения. В нем должны быть след решения, ручная правка, группировка похожих ошибок, eval, изменение кода или промпта, проверка и возврат в production. Если одного из звеньев нет, самоулучшение превращается в ручное тушение пожаров.
Rich block render error: expected '<document start>', but found '<block sequence start>'
in "<unicode string>", line 4, column 3:
- "Что подать на вход: реальные ...
^
title: Рабочая карточка
steps:
- "Когда использовать: для агентов, которые работают с документами, полями, формами и высокой ценой ошибки."
- "Что подать на вход: реальные документы, ожидаемые поля, ручные правки и правила приемки."
- "Что сделать по шагам: логировать trace, собирать правки, делать evals, запускать Codex-задачи, проверять перед production."
- "Какой результат получить: агент исправляет не только один кейс, а целый класс похожих ошибок."
- "Как проверить качество: старые ошибки должны становиться тестами и не возвращаться."
- "Когда не использовать: если результат нельзя проверить или правки специалистов не фиксируются."
- "Какой навык собрать: превращение ошибок агента в eval-backed улучшения продукта."## Где граница
Самоулучшающийся агент не должен сам менять production без контроля. В регулируемых и финансовых процессах нужны ревью, тестовый контур, журнал изменений и понятный владелец ответственности. Иначе система может быстро улучшать не качество, а ошибочное поведение.
Rich block render error: mapping values are not allowed here
in "<unicode string>", line 2, column 85:
... е автономная магия, а дисциплина: trace, правка, eval, инженерно ...
^
label: Редакционный вывод
body: Настоящее самоулучшение агента — это не автономная магия, а дисциплина: trace, правка, eval, инженерное изменение и проверка перед выпуском.## Что сделать сегодня
Выберите один агентный процесс и добавьте к нему журнал ошибок: вход, решение, источник, правка человека, причина. Через неделю из этого журнала уже можно собрать первые evals и понять, что действительно надо улучшать.
Rich block render error: expected '<document start>', but found '<block mapping start>'
in "<unicode string>", line 4, column 5:
url: "https://onff.ru/kak-razbir ...
^
title: Связанные материалы ONFF
links:
- title: "Как разбирать заявки с помощью ИИ-агентов"
url: "https://onff.ru/kak-razbirat-zayavki-ii-agentami-2026/"
- title: "Как вести память ИИ-проекта"
url: "https://onff.ru/kak-vesti-pamyat-ii-proekta-claude-sessions-2026/"## Источники
- OpenAI: Building self-improving tax agents with Codex
- OpenAI Codex
- OpenAI Agents SDK sessions
- ONFF: разбор заявок ИИ-агентами