Как самоулучшающийся ИИ-агент становится лучше: Tax AI, Codex, trace и evals

Самоулучшающийся ИИ-агент звучит как маркетинг, пока не разобрать его на рабочие детали. В хорошем варианте агент не просто «учится сам». Он оставляет полный след ошибки, получает правку специалиста, превращает повторяющийся паттерн в проверку, а затем разработчик или Codex меняет продукт под эту проверку.

Кейс Tax AI от OpenAI и Thrive интересен именно этим. Система для подготовки налоговых деклараций работала в грязной реальности документов: разные формы, переносы с прошлых лет, неоднозначные поля, бухгалтерские правки и жесткая цена ошибки. Поэтому ключевым оказался не один сильный вызов модели, а петля улучшения вокруг следов и evals.

Что здесь меняется

OpenAI в статье Building self-improving tax agents with Codex описывает совместную работу с Thrive Holdings над Tax AI для бухгалтерских фирм Crete. По описанию OpenAI, система обработала тысячи деклараций, фиксировала полные trace для полей и правок, а повторяющиеся исправления превращались в eval-цели и задачи для Codex. Улучшения проверялись eval-backed engineering системами до попадания в production.

Как это переводится в рабочий прием

Практический смысл шире налогов. Любой агент, который работает с документами, заявками, счетами, договорами или карточками клиентов, должен оставлять след: откуда взял значение, как сопоставил поле, кто поправил, почему поправил и какой результат ушел в систему. Без этого невозможно понять, что улучшать. С trace и evals ошибки становятся топливом для продукта.

Как собрать навык

Что решить	Как думать	Что проверить
Что логировать?	исходный файл, поле, цитату, маппинг и финальное значение	можно ли восстановить ход решения
Что считать ошибкой?	правку специалиста и повторяющийся паттерн	это единичный случай или класс задач
Что превращать в eval?	повторяемую правку с ожидаемым результатом	падает ли старая версия на этом кейсе
Когда менять продукт?	после проверки на наборе evals	не сломалось ли соседнее поведение

Рабочий прием: проектировать агент сразу с контуром улучшения. В нем должны быть след решения, ручная правка, группировка похожих ошибок, eval, изменение кода или промпта, проверка и возврат в production. Если одного из звеньев нет, самоулучшение превращается в ручное тушение пожаров.

1
Шаг 1
Когда использовать: для агентов, которые работают с документами, полями, формами и высокой ценой ошибки.
2
Шаг 2
Что подать на вход: реальные документы, ожидаемые поля, ручные правки и правила приемки.
3
Шаг 3
Что сделать по шагам: логировать trace, собирать правки, делать evals, запускать Codex-задачи, проверять перед production.
4
Шаг 4
Какой результат получить: агент исправляет не только один кейс, а целый класс похожих ошибок.
5
Шаг 5
Как проверить качество: старые ошибки должны становиться тестами и не возвращаться.
6
Шаг 6
Когда не использовать: если результат нельзя проверить или правки специалистов не фиксируются.
7
Шаг 7
Какой навык собрать: превращение ошибок агента в eval-backed улучшения продукта.

Где граница

Самоулучшающийся агент не должен сам менять production без контроля. В регулируемых и финансовых процессах нужны ревью, тестовый контур, журнал изменений и понятный владелец ответственности. Иначе система может быстро улучшать не качество, а ошибочное поведение.

Rich block render error: mapping values are not allowed here
  in "<unicode string>", line 2, column 77:
     ... е автономная магия, а дисциплина: trace, правка, eval, инженерно ... 
                                         ^

label: Редакционный вывод
body: Настоящее самоулучшение агента — это не автономная магия, а дисциплина: trace, правка, eval, инженерное изменение и проверка перед выпуском.

Что сделать сегодня

Выберите один агентный процесс и добавьте к нему журнал ошибок: вход, решение, источник, правка человека, причина. Через неделю из этого журнала уже можно собрать первые evals и понять, что действительно надо улучшать.

Как разбирать заявки с помощью ИИ-агентовКак вести память ИИ-проекта

Как самоулучшающийся ИИ-агент становится лучше: урок Tax AI и Codex

Что здесь меняется

Как это переводится в рабочий прием

Как собрать навык

Где граница

Что сделать сегодня

Источники