Стандартные тесты часто недооценивают реальную силу AI‑агент

Введение: почему привычные тесты вводят в заблуждение

Большинство компаний, работающих с большими языковыми моделями, полагаются на «стандартные» наборы тестов — например, HumanEval, MBPP или CodeXGLUE. Такие наборы удобны: они короткие, их легко автоматизировать, а результаты быстро сравнивать между поставщиками. Однако удобство часто стоит дорого: в большинстве публичных публикаций указаны лишь средние показатели точности при фиксированном бюджете вычислительных ресурсов (обычно измеряемом в токенах).

Исследователи из British Institute for AI Safety (AISI) провели масштабный эксперимент, в котором варьировали объём токенов от 1 млн до 100 млн. Выяснилось, что при увеличении бюджета точность большинства моделей растёт на 20-30% и даже более, а некоторые задачи становятся решаемыми только при бюджете > 50 млн токенов. Это значит, что традиционные тесты показывают лишь «тёмный» кусок возможностей современных агентов.

Ключевой вывод: если ваш процесс использует те же ограничения, что и публичные тесты, вы рискуете недооценить потенциал модели и, как следствие, упустить выгодные возможности автоматизации.

Что изменилось в работе вашей команды

Вы собираете небольшую группу разработчиков, чтобы проверить новый инструмент — модель, обещающую автоматизировать проверку кода. В документации указана средняя точность ≈ 55% по известному тесту. Вы решаете, что модель не стоит внедрять, и откладываете покупку.

На самом деле исследователи из AISI показали, что такие тесты фиксируют лишь минимальный уровень возможностей, потому что ограничивают модель небольшим объёмом вычислительных ресурсов. При увеличении этого объёма успехи модели растут до +25% и более.

Что проверить прямо сейчас: спросите у поставщика, сколько «токенов» (единиц вычислений) было выделено модели в тесте, и сравните с тем, сколько вы планируете ей дать в реальной работе.

Почему это важно сейчас

Исследователи протестировали передовые модели на семи разных наборах задач, меняя объём вычислений от 1 млн до 100 млн токенов.

Кибербезопасность: около 8% задач решались только при бюджете > 10 млн токенов; некоторые требовали 50 млн.
Разработка программного обеспечения (TerminalBench 2.0, SWE-Bench Pro): при переходе от 1 млн к 10 млн токенов успехи выросли примерно на 25%.
Математика и академические задачи: прирост ≈ 22% при бюджете до 5 млн токенов.

Новейшие модели показывают более высокий рост, чем старые, что значит: если ваш тест использует старый бюджет, вы видите лишь «тёмный» (меньший) кусок их возможностей.

Как превратить вывод в повторяемый процесс

Определите требуемый объём вычислений. Оцените, сколько времени (в минутах/часах) аналогичная работа занимает у человека. По данным AISI, одна минута человеческого труда требует у модели несколько тысяч токенов, час — миллионы, неделя — миллиарды.
Запросите у поставщика результаты при разных бюджетах. Попросите график «успех – токены» или хотя бы два измерения: минимум и максимум.
Сравните с вашими бизнес-требованиями. Если ваш процесс требует, скажем, 5 часов человеческого труда, убедитесь, что модель может работать с бюджетом в несколько миллионов токенов.
Фиксируйте порог «остановки». Определите, какой уровень токенов считается экономически оправданным (например, не более 10 млн токенов за задачу).

Задача (человек)	Минимальный токен-бюджет (по AISI)	Рост успеха при увеличении бюджета
1 минута — проверка кода	≈ 5 тыс. токенов	+10% при 100 тыс. токенов
1 час — поиск уязвимости	≈ 2 млн токенов	+20% при 10 млн токенов
20 часов — полный аудит	≈ 30 млн токенов	+25% при 100 млн токенов

Пример расчёта для типичной задачи

Предположим, ваша команда ежедневно проверяет 50 небольших функций (по 30 строк каждая). По эмпирическим данным AISI, проверка одной функции требует ~ 8 тыс. токенов при базовом бюджете. При увеличении бюджета до 200 тыс. токенов точность повышается на 15%, а количество ложных срабатываний падает вдвое. Если вы планируете обрабатывать 50 функций в день, общий токен-расход составит ≈ 400 млн токенов. При цене $0.0004 за 1 млн токенов это обойдётся в $160 в день, что может быть оправдано при экономии человеческого труда в $2 000.

Где находятся границы и риски

Платформенные ограничения. Не все поставщики позволяют задавать произвольный токен-бюджет; иногда он жёстко фиксирован.
Экономический порог. Увеличение бюджета в десятки раз может резко возрасти стоимость использования модели, особенно в облаке.
Тип задачи. На задачах, где модель не получает мгновенную обратную связь (например, медицинская диагностика без возможности «проверить свой код»), рост бюджета почти не меняет результат (см. HealthBench).
Неоднородность моделей. Исследование не раскрывает названия конкретных моделей, поэтому перенос результатов на ваш конкретный продукт требует дополнительной проверки.
Этические соображения. При больших вычислительных бюджетах возрастает энергопотребление, что может конфликтовать с корпоративными целями по устойчивому развитию.

Что сделать уже на этой неделе

Шаг	Что проверить	Как проверить
1	Какой токен-бюджет использовался в публичных тестах поставщика?	Попросите таблицу «токены – точность» или уточните у техподдержки.
2	Сколько токенов потребуется для типичной задачи в вашем бизнесе?	Оцените человеческое время выполнения задачи и умножьте по соотношению из исследования (минуты → тысячи токенов).
3	Какова стоимость дополнительного токен-бюджета?	Сравните цены облачных провайдеров за 1 млн токенов.
4	Есть ли у поставщика возможность гибко менять бюджет?	Спросите о параметрах API или настройках модели.
5	Установите «стоп-условие» — максимальный токен-расход, после которого вы прекращаете эксперимент.	Зафиксируйте в договоре или во внутренней политике.
6	Проведите пилотный запуск с двумя разными бюджетами (минимальный и повышенный).	Сравните метрики точности, время отклика и стоимость.
7	Подготовьте отчёт для руководства с рекомендациями по оптимальному бюджету.	Включите графики «затраты – выгода» и оценку ROI.

Долгосрочная стратегия: от одноразовых тестов к адаптивному управлению ресурсами

Мониторинг в реальном времени. Интегрируйте метрики токен-расхода в систему наблюдения (Prometheus, Grafana). Это позволит автоматически откладывать задачи, если расход превышает установленный порог.
Автономный подбор бюджета. Разработайте небольшую «обёртку» над API модели, которая в начале задачи оценивает её сложность (по длине входа, типу задачи) и подбирает токен-лимит согласно заранее обученной регрессионной модели.
Кастомные тесты. Вместо использования только публичных наборов создайте собственный набор «корпоративных» задач, где известен реальный токен-бюджет, необходимый для достижения требуемой точности. Периодически сравнивайте результаты с публичными тестами, чтобы отслеживать «смещение» требований.
Экологический аудит. Включайте в KPI не только экономическую эффективность, но и углеродный след, измеряемый в CO₂-эквиваленте на 1 млн токенов. Это поможет согласовать ИИ-инициативы с корпоративной ESG-политикой.

Источники

Статья в The Decoder о результатах AISI
Официальный сайт UK AI Safety Institute (AISI)
HealthBench: оценка моделей в медицине
Документация OpenAI о токен-лимитах

Что почитать дальше

Daybreak от OpenAI: как автоматизировать поиск уязвимостей без риска
OpenAI Patch the Planet: стоит ли тратить бюджет на ИИ-ускорение R&D
HP и OpenAI: что проверить до внедрения ИИ-агентов
Omio от OpenAI: стоит ли доверять рутину новому AI-агенту?
OpenAI Codex 2026: автоматизация GUI без кода — что проверить перед внедрением