MirrorCode: сколько стоит ИИ-агент для программирования в 2026
Небольшая команда разработчиков получает задачу: восстановить исходный код утилиты, от которой осталась только работающая программа. Ни документации, ни комментариев, ни репозитория. Обычно на такую работу уходит от двух до семнадцати недель человеческого труда. В июне 2026 года Epoch AI и METR показали, что эту задачу может взять на себя ИИ-агент — и работать над ней непрерывно девятнадцать суток без единого перерыва, без выходных, без человеческого контроля.
Речь не о хайповом демо. Речь о бенчмарке MirrorCode, в котором модели должны воссоздать 25 реальных программ с нуля, не видя исходного кода. Одна из самых сложных задач обошлась в $2600 за один прогон. ИИ работал 19 дней без вмешательства человека. Это не лабораторный эксперимент — это первый публичный замер того, сколько на самом деле стоит и сколько времени занимает полностью автономная работа ИИ-программиста над реальной задачей.
Для бизнеса, который рассматривает внедрение ИИ-агентов в разработку, MirrorCode — не очередной рейтинг, а практический тест: где ИИ уже заменяет человека, где ещё нет, и сколько это стоит на самом деле.
Что такое MirrorCode и почему это не очередной бенчмарк
Epoch AI совместно с METR (организацией, которая оценивает возможности ИИ-агентов) создали бенчмарк MirrorCode. Его суть: модели должны переписать программу с нуля, имея только её исполняемый файл или описание поведения. Исходный код скрыт. Решение проверяется скрытыми end-to-end тестами, которые модель никогда не видит во время разработки.
В набор входят 25 целевых программ. Они покрывают Unix-утилиты, сериализацию данных, биоинформатику, интерпретаторы, статический анализ, криптографию и сжатие. Это не игрушечные задачи — это реальный софт, который используется в production.
Главное отличие MirrorCode от других бенчмарков — отсутствие искусственного ограничения бюджета. Авторы пишут: существующие тесты часто ограничивают стоимость одной задачи одним-десятью долларами, даже когда человеку потребовались бы недели. MirrorCode не ставит таких рамок. Модель может работать столько, сколько нужно, и тратить столько вычислительных ресурсов, сколько потребуется.
Именно это и позволило получить цифру $2600 за одну задачу. Это не ошибка и не исключение — это честная цена полной автономной работы ИИ над сложной программой.
Что изменилось: 19 дней непрерывной работы и $2600 за задачу
Самая дорогая задача в MirrorCode обошлась в $2600. ИИ работал над ней 19 дней без перерыва и без участия человека. Никто не проверял промежуточные результаты, не давал подсказок, не правил код. Модель действовала полностью автономно.
Для сравнения: существующие бенчмарки программной инженерии (например, SWE-bench) обычно ограничивают стоимость задачи одним-десятью долларами. Разница в сотни раз. Это не значит, что MirrorCode «дорогой» — это значит, что он измеряет реальную стоимость, а не лабораторное приближение.
Вот как распределились результаты по моделям:
| Модель | Доля решённых задач | Примечание |
|---|---|---|
| Claude Opus 4.7 | 56% | Лидер, переписал gotree за 14 часов за $251 |
| GPT-5.5 | 44% | Стоит в три раза дороже GPT-5 на тех же задачах |
| Gemini 3.1 Pro Preview | 32% | Замыкает тройку |
Даже когда модели не справлялись с полным восстановлением программы, они в среднем проходили 90% тестов. Это значит, что ИИ-агент может написать работающий код, который не проходит только пограничные случаи.
Практический пример: gotree за 14 часов и $251
Самый показательный кейс — восстановление утилиты gotree. Это биоинформатический инструментарий на Go: примерно 16 000 строк кода, более 40 команд. Исследователи оценивают, что человеку без помощи ИИ потребовалось бы от 2 до 17 недель на аналогичную работу.
Claude Opus 4.7 справился за 14 часов. Стоимость — $251. Это не просто быстрее — это на порядки дешевле, если считать зарплату инженера.
Для бизнеса это означает следующее: задачи, которые раньше блокировали команду на месяцы, теперь могут быть выполнены за один рабочий день ИИ-агента. Но только при условии, что задача попадает в категорию «средних» по MirrorCode. Крупные задачи пока не берёт ни одна модель.
Где ИИ всё ещё проигрывает: крупные задачи не решает никто
Задачи в MirrorCode разделены на три категории: маленькие, средние и крупные. Маленькие программы (например, uuid или parseqsv) все протестированные модели восстанавливают надёжно. Средние — с переменным успехом. Крупные — не берёт ни одна модель.
Ни одна из протестированных моделей не смогла полностью восстановить ни одну крупную программу. Это важнейшее ограничение, которое должен учитывать любой руководитель, рассматривающий внедрение ИИ-агентов.
Исследователи отмечают быстрый прогресс: модели годичной давности набрали бы около 30% и справились бы только с простыми программами вроде календарной утилиты. Но до полной замены человека на сложных задачах ещё далеко.
Что проверить до внедрения: чек-лист для руководителя
Прежде чем принимать решение о внедрении ИИ-агентов для программирования, проверьте следующие пункты:
- Оцените сложность задачи. Если программа больше 10 000 строк или требует глубокого понимания предметной области — готовьтесь к тому, что ИИ может не справиться.
- Рассчитайте бюджет. Стоимость одной задачи может достигать тысяч долларов. Убедитесь, что это дешевле, чем работа человека за то же время.
- Проверьте, не было ли исходного кода в обучающих данных. MirrorCode использует открытые программы, и модели могли видеть их код. Epoch AI признаёт: «результаты не определяются запоминанием, но мы не можем исключить, что запоминание вносит вклад».
- Заложите время на проверку. Даже если модель проходит 90% тестов, оставшиеся 10% могут содержать критические ошибки.
- Начните с маленьких задач. Если модель не справляется с uuid — нет смысла давать ей gotree.
- Сравните стоимость разных моделей. GPT-5.5 стоит в три раза дороже GPT-5 на тех же задачах, а Claude Opus 4.7 — в три раза дешевле Claude Opus 4.1. Выбор модели напрямую влияет на экономику.
Что делать на этой неделе
Epoch AI открыли исходный код каркаса (scaffold) и 22 из 25 целевых программ. Доступны 132 экземпляра задач на шести языках программирования. Три программы оставлены закрытыми для тестирования.
Если вы руководитель разработки или владелец продукта:
- Скачайте открытые материалы MirrorCode и запустите тест на своей задаче. Это бесплатно и покажет, справляется ли текущая модель с вашим типом задач.
- Сравните стоимость. Посчитайте, сколько стоит час работы вашего инженера, и сравните с $251 за 14 часов работы ИИ. Разница может быть существенной.
- Не доверяйте одному тесту. MirrorCode — один эксперимент. Результаты могут не быть репрезентативными для всех задач. Проверяйте на своих данных.
- Следите за обновлениями. Epoch AI обещают публиковать новые результаты. Прогресс идёт быстро: за год показатели выросли с 30% до 56%.
Главный вывод MirrorCode: ИИ-агенты уже могут автономно работать над программистскими задачами неделями, и это может быть дешевле человеческого труда. Но только на задачах средней сложности. Крупные проекты пока остаются за человеком.
Источники
Генерация изображения
- Модель:
flux-schnell - Провайдер:
replicate
Темы журнала
Что почитать дальше
- Open Design вместо Claude Design: где выигрыш и где риск для AI-агентов
- 6 AI-инструментов для генерации текста в 2026: ChatGPT, Claude, Gemini, Jasper, Copy.ai, Writesonic — сравнение по 5
- Claude SEO: 18 агентов для технического аудита вместо десятка вкладок
- Claude Tag в Slack: как внедрить AI-агента в общие каналы без утечек данных
- Claude Tag в Slack: какой ИИ-агент можно пускать в общий канал и что проверить перед запуском