Как собрать петлю самоулучшения для Codex без большой автоматизации
Кейс OpenAI про самоулучшающихся налоговых агентов легко прочитать как историю про сложную систему для бухгалтерских фирм. Но для владельца проекта там важнее другой принцип: улучшение начинается не с магии, а с аккуратного следа работы.
В Telegram-сигнале для журнала это сформулировано очень практично: система пишет полный трейс, повторяющиеся правки становятся eval-целями, Codex получает узкую задачу с контекстом, а неоднозначные случаи уходят человеку. Для ONFF это не “налоговая статья”, а способ думать о любом процессе, где Codex помогает делать повторяемую работу.
OpenAI в материале про Codex и Tax AI показывает, что улучшение рождается из цикла: факты, результат, правка, проверка, новая задача. В малом бизнесе это можно собрать без сложной платформы.

Что здесь главное
Codex не должен просто каждый раз “стараться лучше”. Ему нужен след: что было на входе, что он сделал, что человек исправил, почему исправил, что теперь считать правилом. Тогда следующая задача становится точнее.
Главное:Маленькая петля самоулучшения для Codex строится на человеческих правках. Сохраняйте исходник, черновик, исправление, причину и новое правило — и агент начнет улучшать процесс, а не просто генерировать заново.
Как собрать такой цикл без налогового проекта
В обычной компании можно начать намного проще. Не нужен налоговый движок и тысячи документов. Возьмите один повторяемый процесс: подготовка КП, проверка заявки, обновление страницы, разбор звонка, ответ клиенту. Главное — чтобы в процессе был след: исходный материал, решение агента, правка человека и итоговый результат.
Codex здесь получает не задачу “сделай лучше”, а пакет: что было на входе, какой результат ожидался, где человек исправил, какая ошибка повторяется. После этого он может предложить маленькое улучшение: поправить инструкцию, добавить чек-лист, уточнить поле, завести новый пример, изменить порядок проверки.
Рабочий запрос для владельца проекта
Посмотри на последние 10 результатов этого процесса.
Для каждого результата сравни:
- исходный материал;
- черновик Codex;
- правку человека;
- финальную версию.
Найди повторяющиеся ошибки.
Предложи только 3 улучшения процесса:
1. что изменить в инструкции;
2. какой чек-лист добавить;
3. какой пример сохранить как эталон.
Не переписывай весь процесс сразу.
| След | Что записывать | Как использует Codex |
|---|---|---|
| исходник | письмо, файл, заявка, страница | понимает контекст ошибки |
| ответ агента | что было предложено | видит неудачный паттерн |
| правка человека | что изменили вручную | получает сигнал обучения |
| причина правки | почему это важно | отличает вкус от правила |
| итог | что отправили наружу | видит рабочий эталон |
Это важное ограничение. Самоулучшение ломается, когда агент пытается одним махом заменить весь процесс. Сильнее работает мелкая петля: одна ошибка, одно изменение, одна проверка, один новый эталон.
Что должен проверить человек
Человек проверяет не код, а смысл правки. Действительно ли ошибка повторяется? Не является ли это разовым исключением? Не ухудшит ли новое правило хорошие случаи? Можно ли объяснить это правило другому участнику команды?
Если ответ “нет”, Codex не должен внедрять улучшение. Он может положить его в список гипотез. Это тоже результат: компания не делает вид, что любое предложение агента является прогрессом.
Почему это похоже на управление, а не на автоматизацию
Самоулучшающийся контур — это не магия и не автономный начальник. Это дисциплина записывать след работы. Чем лучше след, тем точнее Codex видит повторяемые ошибки. Чем честнее правки человека, тем полезнее следующие изменения. Поэтому главный ресурс здесь не модель, а культура фиксации: что было, что изменили, почему изменили и что теперь считаем правилом.
Пример: клиентские письма
Представим, что команда каждую неделю отвечает на похожие клиентские вопросы. Codex готовит черновики, человек правит тон, убирает лишние обещания, добавляет конкретику. Если эти правки не сохранять, через неделю агент снова сделает похожую ошибку. Если сохранять, появляется материал для улучшения.
После пяти-десяти писем можно попросить Codex: “найди повторяющиеся правки”. Он может увидеть, что мы каждый раз убираем чрезмерно уверенные формулировки, добавляем срок ответа, уточняем границу ответственности или меняем порядок аргументов. Это уже не субъективное “пиши лучше”, а список конкретных правил.
Какие ошибки не превращать в правила
Не всякая правка является уроком. Иногда человек меняет текст из-за настроения, конкретного клиента или разового обстоятельства. Если превратить такой случай в общее правило, процесс станет хуже. Поэтому Codex должен разделять три типа изменений: повторяемое правило, единичное исключение, спорная гипотеза.
Раздели найденные правки на три группы:
- повторяемое правило;
- разовое исключение;
- гипотеза, которую нужно проверить еще на 3-5 примерах.
Не обновляй инструкцию по разовым исключениям.Что остается человеку
Человек решает, какая правка действительно отражает качество, а какая просто вкус. Он утверждает новые правила, отклоняет слабые обобщения и выбирает, где нужен следующий эксперимент. Codex помогает увидеть паттерн, но не должен самостоятельно переписать стандарты компании.
Когда цикл считать успешным
Успех — это не когда Codex “сам себя улучшил”. Успех — когда следующая партия работы требует меньше ручной правки по той же причине. Если раньше человек каждый раз исправлял обещания, а после нового правила Codex перестал обещать лишнее, цикл сработал. Если правки просто стали другими, значит, процесс еще не стабилен и нужно смотреть глубже.
Такой критерий можно проверить без веры в магию модели.
А значит, им можно управлять спокойно и регулярно.