MirrorCode benchmark 2026: ИИ-агент программирует 19 дней без человека, стоимость $2600, сравнение с человеком

MirrorCode: сколько стоит ИИ-агент для программирования в 2026

ИИ-инструменты 29 июня 2026 г.

Небольшая команда разработчиков получает задачу: восстановить исходный код утилиты, от которой осталась только работающая программа. Ни документации, ни комментариев, ни репозитория. Обычно на такую работу уходит от двух до семнадцати недель человеческого труда. В июне 2026 года Epoch AI и METR показали, что эту задачу может взять на себя ИИ-агент — и работать над ней непрерывно девятнадцать суток без единого перерыва, без выходных, без человеческого контроля.

Речь не о хайповом демо. Речь о бенчмарке MirrorCode, в котором модели должны воссоздать 25 реальных программ с нуля, не видя исходного кода. Одна из самых сложных задач обошлась в $2600 за один прогон. ИИ работал 19 дней без вмешательства человека. Это не лабораторный эксперимент — это первый публичный замер того, сколько на самом деле стоит и сколько времени занимает полностью автономная работа ИИ-программиста над реальной задачей.

Для бизнеса, который рассматривает внедрение ИИ-агентов в разработку, MirrorCode — не очередной рейтинг, а практический тест: где ИИ уже заменяет человека, где ещё нет, и сколько это стоит на самом деле.

Что такое MirrorCode и почему это не очередной бенчмарк

Epoch AI совместно с METR (организацией, которая оценивает возможности ИИ-агентов) создали бенчмарк MirrorCode. Его суть: модели должны переписать программу с нуля, имея только её исполняемый файл или описание поведения. Исходный код скрыт. Решение проверяется скрытыми end-to-end тестами, которые модель никогда не видит во время разработки.

В набор входят 25 целевых программ. Они покрывают Unix-утилиты, сериализацию данных, биоинформатику, интерпретаторы, статический анализ, криптографию и сжатие. Это не игрушечные задачи — это реальный софт, который используется в production.

Главное отличие MirrorCode от других бенчмарков — отсутствие искусственного ограничения бюджета. Авторы пишут: существующие тесты часто ограничивают стоимость одной задачи одним-десятью долларами, даже когда человеку потребовались бы недели. MirrorCode не ставит таких рамок. Модель может работать столько, сколько нужно, и тратить столько вычислительных ресурсов, сколько потребуется.

Именно это и позволило получить цифру $2600 за одну задачу. Это не ошибка и не исключение — это честная цена полной автономной работы ИИ над сложной программой.

Что изменилось: 19 дней непрерывной работы и $2600 за задачу

Самая дорогая задача в MirrorCode обошлась в $2600. ИИ работал над ней 19 дней без перерыва и без участия человека. Никто не проверял промежуточные результаты, не давал подсказок, не правил код. Модель действовала полностью автономно.

Для сравнения: существующие бенчмарки программной инженерии (например, SWE-bench) обычно ограничивают стоимость задачи одним-десятью долларами. Разница в сотни раз. Это не значит, что MirrorCode «дорогой» — это значит, что он измеряет реальную стоимость, а не лабораторное приближение.

Вот как распределились результаты по моделям:

Модель Доля решённых задач Примечание
Claude Opus 4.7 56% Лидер, переписал gotree за 14 часов за $251
GPT-5.5 44% Стоит в три раза дороже GPT-5 на тех же задачах
Gemini 3.1 Pro Preview 32% Замыкает тройку

Даже когда модели не справлялись с полным восстановлением программы, они в среднем проходили 90% тестов. Это значит, что ИИ-агент может написать работающий код, который не проходит только пограничные случаи.

Практический пример: gotree за 14 часов и $251

Самый показательный кейс — восстановление утилиты gotree. Это биоинформатический инструментарий на Go: примерно 16 000 строк кода, более 40 команд. Исследователи оценивают, что человеку без помощи ИИ потребовалось бы от 2 до 17 недель на аналогичную работу.

Claude Opus 4.7 справился за 14 часов. Стоимость — $251. Это не просто быстрее — это на порядки дешевле, если считать зарплату инженера.

Для бизнеса это означает следующее: задачи, которые раньше блокировали команду на месяцы, теперь могут быть выполнены за один рабочий день ИИ-агента. Но только при условии, что задача попадает в категорию «средних» по MirrorCode. Крупные задачи пока не берёт ни одна модель.

Где ИИ всё ещё проигрывает: крупные задачи не решает никто

Задачи в MirrorCode разделены на три категории: маленькие, средние и крупные. Маленькие программы (например, uuid или parseqsv) все протестированные модели восстанавливают надёжно. Средние — с переменным успехом. Крупные — не берёт ни одна модель.

Ни одна из протестированных моделей не смогла полностью восстановить ни одну крупную программу. Это важнейшее ограничение, которое должен учитывать любой руководитель, рассматривающий внедрение ИИ-агентов.

Исследователи отмечают быстрый прогресс: модели годичной давности набрали бы около 30% и справились бы только с простыми программами вроде календарной утилиты. Но до полной замены человека на сложных задачах ещё далеко.

Что проверить до внедрения: чек-лист для руководителя

Прежде чем принимать решение о внедрении ИИ-агентов для программирования, проверьте следующие пункты:

  1. Оцените сложность задачи. Если программа больше 10 000 строк или требует глубокого понимания предметной области — готовьтесь к тому, что ИИ может не справиться.
  2. Рассчитайте бюджет. Стоимость одной задачи может достигать тысяч долларов. Убедитесь, что это дешевле, чем работа человека за то же время.
  3. Проверьте, не было ли исходного кода в обучающих данных. MirrorCode использует открытые программы, и модели могли видеть их код. Epoch AI признаёт: «результаты не определяются запоминанием, но мы не можем исключить, что запоминание вносит вклад».
  4. Заложите время на проверку. Даже если модель проходит 90% тестов, оставшиеся 10% могут содержать критические ошибки.
  5. Начните с маленьких задач. Если модель не справляется с uuid — нет смысла давать ей gotree.
  6. Сравните стоимость разных моделей. GPT-5.5 стоит в три раза дороже GPT-5 на тех же задачах, а Claude Opus 4.7 — в три раза дешевле Claude Opus 4.1. Выбор модели напрямую влияет на экономику.

Что делать на этой неделе

Epoch AI открыли исходный код каркаса (scaffold) и 22 из 25 целевых программ. Доступны 132 экземпляра задач на шести языках программирования. Три программы оставлены закрытыми для тестирования.

Если вы руководитель разработки или владелец продукта:

  • Скачайте открытые материалы MirrorCode и запустите тест на своей задаче. Это бесплатно и покажет, справляется ли текущая модель с вашим типом задач.
  • Сравните стоимость. Посчитайте, сколько стоит час работы вашего инженера, и сравните с $251 за 14 часов работы ИИ. Разница может быть существенной.
  • Не доверяйте одному тесту. MirrorCode — один эксперимент. Результаты могут не быть репрезентативными для всех задач. Проверяйте на своих данных.
  • Следите за обновлениями. Epoch AI обещают публиковать новые результаты. Прогресс идёт быстро: за год показатели выросли с 30% до 56%.

Главный вывод MirrorCode: ИИ-агенты уже могут автономно работать над программистскими задачами неделями, и это может быть дешевле человеческого труда. Но только на задачах средней сложности. Крупные проекты пока остаются за человеком.

Источники

Генерация изображения

  • Модель: flux-schnell
  • Провайдер: replicate

Темы журнала

Что почитать дальше

Теги