Бюджет AI-агента: стоимость результата вместо токенов — формула расчёта
Почему токены — плохая единица бюджета
При планировании расходов на автоматизацию с помощью языковых моделей многие начинают с тарифов: цена за миллион токенов, стоимость тысячи запросов, лимиты в месяц. Это понятный, но неправильный уровень анализа. Токен — единица внутренней кухни модели. Для бизнеса важно другое: сколько стоит не запрос, а готовый результат — проверенная статья, заполненная карточка товара, корректный ответ клиенту, опубликованный пост.
Разница между этими подходами огромна. Один и тот же текст можно сгенерировать за 200 токенов или за 2000 — в зависимости от промпта, количества итераций, необходимости исправлений. Модель за 0,30 доллара за миллион токенов может оказаться дороже, чем модель за 3 доллара, если первая требует пяти перегенераций, а вторая попадает с первого раза.
Бюджет, построенный на токенах, не позволяет ответить на главный вопрос: сколько стоит единица полезного результата? А именно этот вопрос определяет, окупается ли автоматизация.
Что такое стоимость результата и из чего она складывается
Стоимость результата — это полная цена одной законченной операции, которая приносит бизнесу ценность. Для AI-агента, работающего с контентом, это может быть одна опубликованная статья, один проверенный ответ в поддержке, одно заполненное описание товара.
В эту стоимость входят несколько слоёв:
Прямые расходы на модель. Это собственно тариф: цена за входные и выходные токены, умноженная на их количество в одном успешном запросе. Но считать нужно не по одному запросу, а по цепочке запросов, необходимых для получения готового результата.
Мультипликатор попыток. Если агент срабатывает с первого раза в 70% случаев, а в 30% требует перегенерации, реальная стоимость успешного результата — это не одного запрос, а усреднённое количество запросов до успеха. Формула простая: среднее число попыток равно 1, делённая на вероятность успеха с первого раза. При 70% успешности это примерно 1,43 запроса на один результат.
Стоимость проверки. Результат модели редко готов к публикации без контроля. Человек читает, правит, дополняет. Время проверяющего — это тоже расходы, и они могут превышать стоимость генерации.
Накладные операции. Формирование промпта, загрузка контекста, интеграция с CMS, логирование, обработка ошибок — всё это требует времени разработчика и вычислительных ресурсов.
Потери от брака. Часть результатов не проходит проверку и не идёт в работу. Их стоимость нужно распределить на те результаты, которые прошли.
Практическая модель расчёта: от тарифа к себестоимости статьи
Рассмотрим конкретный пример. Допустим, агент генерирует статьи для блога. Одна статья — это примерно 3000 токенов на выходе. Входной контекст — системный промпт, инструкции, примеры — ещё 2000 токенов. Модель стоит 0,60 доллара за миллион входных и 2,40 за миллион выходных токенов.
Стоимость одного «чистого» запроса: примерно 0,0024 доллара за выход плюс 0,0012 за вход — итого около 0,0036 доллара. Казалось бы, копейки. Но это только начало подсчёта.
Если вероятность приемлемого результата с первого раза — 65%, среднее число попыток — 1,54. Добавляем время проверяющего: 10 минут на статью при стоимости 20 долларов в час — это 3,33 доллара. Добавляем накладные операции — ещё 0,50 доллара на интеграцию и логирование.
Итого реальная себестоимость одной опубликованной статьи складывается примерно так:
| Компонент | Расчёт | Стоимость |
|---|---|---|
| Генерация (среднее число попыток) | 0,0036 × 1,54 | 0,0055 |
| Проверка и правки | 10 мин × $20/час | 3,33 |
| Накладные операции | интеграция, логи | 0,50 |
| Распределение брака | 35% потерь | 1,85 |
| Итого за статью | ~5,69 |
Цифры условные, но пропорции реалистичны: в большинстве рабочих процессов стоимость человеческой проверки превышает стоимость генерации в десятки раз. Именно поэтому выбор модели по тарифу почти не влияет на бюджет, если не меняется качество результата с первого раза.
Как выбор модели влияет на экономику процесса
Две модели с разницей в тарифе в пять раз могут давать одинаковую итоговую стоимость результата — или разницу в разы. Всё зависит от того, как они ведут себя в конкретном процессе.
Дешёвая модель с низким качеством первого прохода требует больше итераций, больше правок, больше времени проверяющего. Дорогая модель, которая с первого раза выдаёт приемлемый результат, экономит на всём остальном. При этом разница в тарифе в 0,005 доллара на запрос теряется в разнице в 3 доллара на проверку.
Ключевой параметр для сравнения моделей — не цена за токен, а стоимость одного успешного результата с учётом всех итераций и проверки. Для его оценки нужно провести тестирование на реальных задачах: взять 50–100 примеров, прогнать через каждую модель, зафиксировать долю приемлемых результатов с первого раза и среднее время доработки.
Что считать, кроме денег: время, предсказуемость, риск
Даже если стоимость результата укладывается в бюджет, есть три дополнительных параметра, которые влияют на решение.
Время до результата. Если агент делает пять попыток вместо одной, процесс растягивается. Для блога это может быть некритично, для поддержки клиентов — катастрофа. Стоимость задержки — это отдельный экономический параметр, который нужно учитывать.
Предсказуемость. Модель, которая в 80% случаев выдаёт отличный результат, а в 20% — бессмыслицу, создаёт неравномерную нагрузку на проверяющего. Лучше модель с стабильными 70%, чем с разбросом от 40% до 95%.
Риск ошибки. В некоторых процессах цена ошибки высока: некорректный ответ клиенту, публикация с фактической ошибкой, неправильная классификация. Здесь стоимость результата должна включать стоимость риска — вероятность ошибки, умноженную на её последствия.
Чеклист: как посчитать бюджет AI-агента для своего процесса
- [ ] Определите единицу результата: что именно считается «готовым» — статья, ответ, карточка, публикация.
- [ ] Замерьте среднее число запросов модели до получения приемлемого результата на выборке не менее 50 задач.
- [ ] Посчитайте стоимость одной итерации: входные и выходные токены по тарифу, умноженные на среднее число попыток.
- [ ] Добавьте время проверки: среднее время на один результат, умноженное на стоимость часа проверяющего.
- [ ] Оцените долю брака и распределите его стоимость на успешные результаты.
- [ ] Добавьте накладные расходы: интеграция, логирование, хранение, обработка ошибок.
- [ ] Сравните модели не по тарифу, а по полной стоимости результата с учётом всех пунктов выше.
- [ ] Проверьте устойчивость: как меняется стоимость при увеличении объёма, изменении качества входных данных, смене тематики.
Итог: бюджет агента — это бюджет процесса
Стоимость AI-агента не определяется ценой модели. Она определяется стоимостью всего процесса, в котором модель — лишь один элемент. Переход от счёта в токенах к счёту в результатах меняет оптимизацию: выгоднее становится не самая дешёвая модель, а та, которая даёт наибольшую долю приемлемых результатов с первого раза в конкретном рабочем процессе.
Это смещает фокус с выбора модели на проектирование процесса: как составлен промпт, какой контекст подаётся, как организована проверка, как обрабатываются ошибки. Именно здесь лежит основной резерв экономии — не в тарифе, а в качестве интеграции.