MirrorCode: 19 дней ИИ без человека — что показал бенчмарк и стоит ли

ИИ-инструменты 30 июня 2026 г.

В июне 2026 года исследовательская организация Epoch AI совместно с METR опубликовала результаты бенчмарка MirrorCode. Одна из задач — полное воссоздание крупной программы — выполнялась ИИ-моделью непрерывно 19 дней без участия человека. Стоимость одного запуска составила $2600.

Источник: the-decoder.com

Для руководителя разработки или владельца продукта это не просто новость. Это практический сигнал: автономные ИИ-агенты уже способны работать над сложными задачами неделями. Но цена, ограничения и область применимости требуют проверки до того, как принимать решение о внедрении.

Прежде чем запускать подобный сценарий в своей компании, стоит разобраться, какие задачи действительно подходят для длительных автономных сессий, сколько это стоит на практике и где скрыты риски.

Что такое MirrorCode и почему это не обычный бенчмарк

MirrorCode — это бенчмарк, в котором ИИ-модели должны воссоздать программу с нуля, не имея доступа к исходному коду. Модель получает только описание задачи и должна сгенерировать код, который проходит скрытые end-to-end тесты.

В бенчмарк включены 25 программ: от утилит Unix до инструментов биоинформатики, криптографии и статического анализа. Задачи разделены на три категории: маленькие, средние и большие.

Главное отличие MirrorCode от других тестов — отсутствие жёсткого ограничения по бюджету на вычисления. Обычные бенчмарки ограничивают стоимость одной задачи $1–$10, даже если человеку потребовались бы недели. MirrorCode позволяет модели работать столько, сколько нужно.

Что показали результаты: лидеры, скорость и стоимость

Лучший результат показала модель Claude Opus 4.7 — 56% решённых задач. GPT-5.5 справился с 44%, Gemini 3.1 Pro Preview — с 32%. Даже когда модели не удавалось полностью воссоздать программу, они в среднем проходили более 90% тестов.

Самый впечатляющий пример — задача gotree, биоинформатический инструментарий на Go объёмом около 16 000 строк кода и более 40 команд. Claude Opus 4.7 воссоздал его за 14 часов. Стоимость запуска — $251. Для сравнения: человеку без помощи ИИ потребовалось бы от 2 до 17 недель.

Однако самая крупная задача в бенчмарке обошлась в $2600 и заняла 19 дней непрерывной работы модели. Ни одна из протестированных моделей не смогла полностью решить задачи из категории «большие».

Как оценить целесообразность длительных автономных сессий

Для руководителя, который рассматривает возможность использования длительных ИИ-агентов, ключевой вопрос — не «может ли модель это сделать», а «стоит ли это делать в моём проекте».

Вот четыре параметра для оценки:

1. Сложность задачи. MirrorCode показывает, что маленькие и средние программы (утилиты, парсеры) решаются надёжно и дёшево. Крупные проекты с тысячами строк кода пока не поддаются ни одной модели. Если ваша задача — воссоздать небольшой модуль или библиотеку, шансы высоки. Если речь о переписывании целого продукта — пока рано.

2. Бюджет. Стоимость варьируется в разы. GPT-5.5 обходится в три раза дороже GPT-5 для тех же задач. Claude Opus 4.7, напротив, в три раза дешевле предыдущей версии Claude Opus 4.1. Перед запуском стоит протестировать несколько моделей на небольшой задаче, чтобы понять реальную стоимость.

3. Время. 19 дней непрерывной работы — это не просто долго. Это означает, что модель занимает вычислительные ресурсы всё это время. Если сервер нужен для других задач, такой подход может быть недопустим. С другой стороны, 14 часов для задачи, на которую человек потратил бы месяц, — это уже практическая выгода.

4. Качество результата. Даже при частичном успехе модели проходят 90% тестов. Но оставшиеся 10% могут быть критическими. Нужно закладывать время на доработку вручную.

Где скрытые риски и ограничения

Исследователи Epoch AI указывают на важное ограничение: поскольку MirrorCode использует открытые программы, модели могли видеть исходный код во время обучения. Первые тесты показывают, что результаты не определяются запоминанием, но полностью исключить его влияние нельзя.

Это означает, что на реальных, непубличных задачах эффективность может быть ниже.

Другие риски:

Зависимость от провайдера. Разные модели показывают разную стоимость и качество. Привязка к одной модели может быть рискованной.
Отсутствие контроля. 19 дней без вмешательства — это долго. Если модель пойдёт по неверному пути, вы узнаете об этом только в конце.
Скрытые тесты. Модель не видит все тесты заранее. Это значит, что результат может не соответствовать ожиданиям.

Что можно проверить за неделю без перестройки компании

Прежде чем запускать длительные автономные сессии, стоит провести небольшую проверку на реальной задаче вашего проекта.

Практический чек-лист для руководителя:

Выберите одну небольшую задачу из вашего бэклога — модуль или утилиту, которую можно воссоздать за 1–2 дня работы человека.
Запустите её на 2–3 разных моделях (например, Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro Preview).
Зафиксируйте стоимость каждого запуска и время выполнения.
Сравните результат с тем, что сделал бы ваш разработчик за то же время.
Оцените, сколько времени ушло на доработку результата модели вручную.
Примите решение: есть ли экономия времени или денег на этой конкретной задаче.

Стоимость моделей: таблица для сравнения

Модель	Решаемость в MirrorCode	Относительная стоимость
Claude Opus 4.7	56%	В 3 раза дешевле Claude Opus 4.1
GPT-5.5	44%	В 3 раза дороже GPT-5
Gemini 3.1 Pro Preview	32%	Данные не раскрыты

Важно: стоимость зависит не только от модели, но и от объёма генерируемого кода, количества попыток и длительности сессии.

Что делать на следующей неделе

Если вы руководитель разработки или владелец продукта, вот три конкретных шага:

Проверьте одну задачу. Возьмите небольшой модуль из вашего проекта и запустите его воссоздание на Claude Opus 4.7 или GPT-5.5. Затраты — от $50 до $300, время — от нескольких часов до суток.
Сравните с командой. Оцените, сколько времени тратят ваши разработчики на аналогичные задачи. Если разница в 5–10 раз, длительные автономные сессии могут быть оправданы.
Не внедряйте на критических задачах. Пока ни одна модель не справляется с крупными проектами. Используйте ИИ-агентов для вспомогательных или изолированных модулей.

Источники

Статья на The Decoder: An AI model programmed nonstop for 19 days on a single MirrorCode task that cost $2,600 to run
Репозиторий Epoch AI с открытым кодом MirrorCode (ссылка на источник)

Генерация изображения

Модель: flux-schnell
Провайдер: replicate

Темы журнала

Claude

Что почитать дальше

Плавучие дата-центры для ИИ: дешёвое охлаждение или дорогие риски?

несколько секунд назад • 4 мин. на чтение

ИИ-инструменты

agent-chat-ui: готовый ChatGPT-интерфейс для LangGraph-агента — быстро, но с риском

30 минут назад • 4 мин. на чтение

ИИ-инструменты

iLLaDA от ByteDance: диффузионная LLM быстрее, но уступает Qwen2.5 в точности

час назад • 4 мин. на чтение

Плавучие дата-центры для ИИ: дешёвое охлаждение или дорогие риски?

agent-chat-ui: готовый ChatGPT-интерфейс для LangGraph-агента — быстро, но с риском

iLLaDA от ByteDance: диффузионная LLM быстрее, но уступает Qwen2.5 в точности

ИИ в диагностике редких болезней у детей: 5 шагов для пилота без риска

MirrorCode: 19 дней ИИ без человека — что показал бенчмарк и стоит ли

Что такое MirrorCode и почему это не обычный бенчмарк

Что показали результаты: лидеры, скорость и стоимость

Как оценить целесообразность длительных автономных сессий

Где скрытые риски и ограничения

Что можно проверить за неделю без перестройки компании

Стоимость моделей: таблица для сравнения

Что делать на следующей неделе

Источники

Генерация изображения

Темы журнала

Что почитать дальше

Теги

Андрей Отинов

Рекомендуем

Плавучие дата-центры для ИИ: дешёвое охлаждение или дорогие риски?

agent-chat-ui: готовый ChatGPT-интерфейс для LangGraph-агента — быстро, но с риском

iLLaDA от ByteDance: диффузионная LLM быстрее, но уступает Qwen2.5 в точности

Плавучие дата-центры для ИИ: дешёвое охлаждение или дорогие риски?

agent-chat-ui: готовый ChatGPT-интерфейс для LangGraph-агента — быстро, но с риском

iLLaDA от ByteDance: диффузионная LLM быстрее, но уступает Qwen2.5 в точности

ИИ в диагностике редких болезней у детей: 5 шагов для пилота без риска

Что такое MirrorCode и почему это не обычный бенчмарк

Что показали результаты: лидеры, скорость и стоимость

Как оценить целесообразность длительных автономных сессий

Где скрытые риски и ограничения

Что можно проверить за неделю без перестройки компании

Стоимость моделей: таблица для сравнения

Что делать на следующей неделе

Источники

Генерация изображения

Темы журнала

Что почитать дальше

Теги

Рабочий экран для документов, заявок и ответственных

Андрей Отинов

Рекомендуем

Плавучие дата-центры для ИИ: дешёвое охлаждение или дорогие риски?

agent-chat-ui: готовый ChatGPT-интерфейс для LangGraph-агента — быстро, но с риском

iLLaDA от ByteDance: диффузионная LLM быстрее, но уступает Qwen2.5 в точности