Как самоулучшающийся ИИ-агент становится лучше: урок Tax AI и Codex

SEO title: Как самоулучшающийся ИИ-агент становится лучше: Tax AI, Codex, trace и evals

Meta description: Как OpenAI и Thrive построили Tax AI: полный след ошибки, правки бухгалтеров, evals, Codex-задачи и петля улучшения агента.

Самоулучшающийся ИИ-агент звучит как маркетинг, пока не разобрать его на рабочие детали. В хорошем варианте агент не просто «учится сам». Он оставляет полный след ошибки, получает правку специалиста, превращает повторяющийся паттерн в проверку, а затем разработчик или Codex меняет продукт под эту проверку.

Кейс Tax AI от OpenAI и Thrive интересен именно этим. Система для подготовки налоговых деклараций работала в грязной реальности документов: разные формы, переносы с прошлых лет, неоднозначные поля, бухгалтерские правки и жесткая цена ошибки. Поэтому ключевым оказался не один сильный вызов модели, а петля улучшения вокруг следов и evals.

## Что здесь меняется

OpenAI в статье Building self-improving tax agents with Codex описывает совместную работу с Thrive Holdings над Tax AI для бухгалтерских фирм Crete. По описанию OpenAI, система обработала тысячи деклараций, фиксировала полные trace для полей и правок, а повторяющиеся исправления превращались в eval-цели и задачи для Codex. Улучшения проверялись eval-backed engineering системами до попадания в production.

## Как это переводится в рабочий прием

Практический смысл шире налогов. Любой агент, который работает с документами, заявками, счетами, договорами или карточками клиентов, должен оставлять след: откуда взял значение, как сопоставил поле, кто поправил, почему поправил и какой результат ушел в систему. Без этого невозможно понять, что улучшать. С trace и evals ошибки становятся топливом для продукта.

Что решить Как думать Что проверить
--- --- ---
Что логировать? исходный файл, поле, цитату, маппинг и финальное значение можно ли восстановить ход решения
Что считать ошибкой? правку специалиста и повторяющийся паттерн это единичный случай или класс задач
Что превращать в eval? повторяемую правку с ожидаемым результатом падает ли старая версия на этом кейсе
Когда менять продукт? после проверки на наборе evals не сломалось ли соседнее поведение

## Как собрать навык

Рабочий прием: проектировать агент сразу с контуром улучшения. В нем должны быть след решения, ручная правка, группировка похожих ошибок, eval, изменение кода или промпта, проверка и возврат в production. Если одного из звеньев нет, самоулучшение превращается в ручное тушение пожаров.

Rich block render error: expected '<document start>', but found '<block sequence start>'
  in "<unicode string>", line 4, column 3:
      - "Что подать на вход: реальные  ... 
      ^

        title: Рабочая карточка
        steps:
          - "Когда использовать: для агентов, которые работают с документами, полями, формами и высокой ценой ошибки."
  - "Что подать на вход: реальные документы, ожидаемые поля, ручные правки и правила приемки."
  - "Что сделать по шагам: логировать trace, собирать правки, делать evals, запускать Codex-задачи, проверять перед production."
  - "Какой результат получить: агент исправляет не только один кейс, а целый класс похожих ошибок."
  - "Как проверить качество: старые ошибки должны становиться тестами и не возвращаться."
  - "Когда не использовать: если результат нельзя проверить или правки специалистов не фиксируются."
  - "Какой навык собрать: превращение ошибок агента в eval-backed улучшения продукта."

## Где граница

Самоулучшающийся агент не должен сам менять production без контроля. В регулируемых и финансовых процессах нужны ревью, тестовый контур, журнал изменений и понятный владелец ответственности. Иначе система может быстро улучшать не качество, а ошибочное поведение.

Rich block render error: mapping values are not allowed here
  in "<unicode string>", line 2, column 85:
     ... е автономная магия, а дисциплина: trace, правка, eval, инженерно ... 
                                         ^

        label: Редакционный вывод
        body: Настоящее самоулучшение агента — это не автономная магия, а дисциплина: trace, правка, eval, инженерное изменение и проверка перед выпуском.

## Что сделать сегодня

Выберите один агентный процесс и добавьте к нему журнал ошибок: вход, решение, источник, правка человека, причина. Через неделю из этого журнала уже можно собрать первые evals и понять, что действительно надо улучшать.

Rich block render error: expected '<document start>', but found '<block mapping start>'
  in "<unicode string>", line 4, column 5:
        url: "https://onff.ru/kak-razbir ... 
        ^

        title: Связанные материалы ONFF
        links:
          - title: "Как разбирать заявки с помощью ИИ-агентов"
    url: "https://onff.ru/kak-razbirat-zayavki-ii-agentami-2026/"
  - title: "Как вести память ИИ-проекта"
    url: "https://onff.ru/kak-vesti-pamyat-ii-proekta-claude-sessions-2026/"

## Источники

  1. OpenAI: Building self-improving tax agents with Codex
  2. OpenAI Codex
  3. OpenAI Agents SDK sessions
  4. ONFF: разбор заявок ИИ-агентами