ИИ-агент с завершением задач: 5 критериев выбора вместо чата
Вы даёте поручение ИИ-ассистенту: «Подготовь отчёт по продажам за квартал, проверь данные, исправь ошибки и отправь руководителю». Через минуту ассистент отвечает: «Вот шаблон отчёта. Данные нужно проверить вручную. Ошибки не исправлял. Отправить не могу — нет доступа к почте». Это не коллега. Это генератор текста, который остановился на полпути.
Источник: the-decoder.com
Исследовательская группа из Tencent Youtu Lab и нескольких китайских университетов опубликовала обзорную статью, в которой формулирует главную проблему современных ИИ-систем: они умеют отвечать, но не умеют завершать задачи. Пока это не изменится, ИИ не станет полноценным участником рабочих процессов.
Для бизнеса это означает, что выбор между чат-интерфейсом и агентом, который доводит дело до конца, — не вопрос удобства, а вопрос стоимости, времени и контроля. В этой статье — практические критерии, по которым можно оценить, готов ли ИИ-инструмент стать настоящим исполнителем, и что нужно проверить до внедрения.
Что изменилось: от быстрых ответов к медленному мышлению
Первое поколение языковых моделей работало по принципу «один проход — один ответ». Модель получала запрос, подбирала наиболее вероятное продолжение и выдавала текст. Она не проверяла промежуточные шаги, не искала альтернативные решения и не исправляла ошибки. Это подходило для генерации текста, но не для выполнения задач, где нужна точность.
С появлением моделей типа OpenAI o1 и DeepSeek-R1 началась эра «думающих» LLM. Эти модели тратят дополнительное вычислительное время на этапе ответа: они строят длинные цепочки рассуждений, проверяют промежуточные результаты и учатся через reinforcement learning искать и исправлять ошибки. Исследователи называют это переходом от быстрого, интуитивного «Системы 1» к медленному, осознанному «Системы 2» — по терминологии психолога Дэниела Канемана.
Практическое следствие: если ваш ИИ-инструмент не тратит время на проверку собственных шагов, он не сможет надёжно завершать задачи, требующие точности. Это не баг, а архитектурное ограничение.
От вызова инструментов к постоянной рабочей среде
Первое поколение ИИ-агентов умело вызывать API, писать код и искать в интернете. Но они оставались хрупкими. Исследователи выделяют четыре структурных узких места:
- агенты воспринимали среду только фрагментарно;
- вызовы инструментов не оставляли постоянного состояния;
- неожиданное поведение ломало их;
- они редко доводили задачи до конца.
Решение, которое предлагают авторы обзора, — переход к эпохе OpenClaw. В этой парадигме модель работает в постоянном, защищённом рабочем пространстве с файлами, терминалами, сессиями, логами, браузерами, правами доступа и переиспользуемыми навыками. Всё это сохраняется на протяжении всего рабочего процесса. В качестве примеров приводятся OpenHands и SWE-agent — системы, которые встроены в контролируемые среды разработки.
Что это значит для вас: если ИИ-агент не имеет постоянного рабочего пространства, где сохраняются файлы, сессии и результаты предыдущих шагов, он каждый раз начинает с нуля. Это не коллега, а временный помощник, который забывает всё после каждого ответа.
Рабочее пространство плюс навык — ключевой элемент
Главный аргумент исследователей: сочетание постоянного рабочего пространства и переиспользуемых навыков даёт реальный скачок производительности. Рабочее пространство обеспечивает состояние, хранение и последствия действий. Навык упаковывает операционные знания в многократно используемые блоки.
Навык — это не промпт и не традиционный инструмент. Он находится между рассуждением модели и выполнением в рабочем пространстве. Организации могут фиксировать know-how в модульной, тестируемой, переносимой форме. Компания Anthropic уже формализовала этот паттерн в Agent Skills: это папки с файлом SKILL.md, в котором содержатся инструкции, скрипты и ресурсы.
Практический пример: вместо того чтобы каждый раз писать промпт «найди ошибки в отчёте, проверь формулы, исправь и сохрани», вы создаёте навык «Проверка квартального отчёта». Этот навык можно протестировать отдельно, передать другому агенту или обновить без изменения всей системы.
Почему обучение и оценка должны измениться
Традиционные метрики качества ИИ-моделей измеряют, насколько точен ответ. Но для агента, который завершает задачи, этого недостаточно. Нужно оценивать:
- Доля завершённых задач — сколько поручений агент довёл до конца без вмешательства человека.
- Стоимость завершения — сколько вычислительных ресурсов и времени потребовалось.
- Надёжность в нестандартных ситуациях — как агент реагирует на ошибки, отсутствие данных или конфликтующие инструкции.
- Время на восстановление — если агент ошибся, сколько времени нужно, чтобы вернуть процесс в рабочее состояние.
Исследователи предупреждают: переиспользуемые процедуры могут устаревать, переобучаться под конкретные сценарии и терять эффективность при изменении условий. Навыки нужно регулярно проверять и обновлять.
Безопасность становится операционной проблемой
Когда ИИ-агент работает в постоянной среде с доступом к файлам, терминалам и внешним сервисам, безопасность перестаёт быть вопросом настроек чата. Она становится частью ежедневной эксплуатации.
Основные риски, которые нужно учитывать:
- Утечка данных через навыки — если навык содержит конфиденциальные инструкции или данные, он может быть передан другому агенту или скопирован.
- Несанкционированные действия — агент с доступом к терминалу может выполнить команды, которые вы не предусмотрели.
- Зависимость от внешних сервисов — если агент вызывает API, сбой или изменение API может остановить весь процесс.
- Отсутствие аудита — если агент не логирует свои действия, вы не сможете восстановить, что пошло не так.
Что проверить: прежде чем давать агенту доступ к рабочим системам, убедитесь, что каждое его действие логируется, права доступа ограничены по принципу минимальной необходимости, а навыки проходят проверку перед использованием.
Что можно проверить за неделю без перестройки компании
Переход к агентам, завершающим задачи, не требует немедленной замены всей ИИ-инфраструктуры. Вот пять шагов, которые можно сделать за неделю:
- Выберите одну повторяющуюся задачу, которую сейчас выполняет человек и которая занимает не больше часа. Например: «Проверить отчёт на соответствие шаблону, исправить ошибки форматирования и сохранить в общую папку».
- Проверьте, есть ли у вашего текущего ИИ-инструмента постоянное рабочее пространство. Может ли он сохранять файлы, вести сессию, помнить предыдущие шаги? Если нет — это ограничение, которое нужно учитывать.
- Создайте простой навык. Запишите инструкцию для задачи в формате, который поддерживает ваш инструмент. Anthropic Agent Skills — готовый пример: папка с файлом SKILL.md, скриптами и ресурсами.
- Протестируйте навык на трёх разных сценариях: идеальные данные, данные с ошибками, пустые данные. Запишите, сколько раз агент завершил задачу без вашего вмешательства.
- Оцените стоимость. Посчитайте, сколько вычислительных ресурсов и времени потребовалось на завершение задачи. Сравните с затратами человека. Если агент тратит больше — он пока не готов к замене.
Что может не сработать: скрытые ограничения
Даже если агент успешно завершает тестовую задачу, есть риски, которые могут проявиться только в реальной работе:
- Стоимость масштабирования. «Думающие» модели тратят больше вычислительных ресурсов. Если вы запускаете агента на сотне задач в день, счёт за облачные вычисления может вырасти в разы.
- Зависимость от поставщика. Если вы используете проприетарную модель или платформу, изменение условий доступа, цены или API может остановить ваши процессы.
- Принятие командой. Сотрудники могут не доверять агенту, который работает в постоянной среде и имеет доступ к файлам. Без их участия внедрение провалится.
- Юридические риски. Если агент ошибается и наносит ущерб — кто несёт ответственность? Этот вопрос часто остаётся без ответа до первого инцидента.
Что делать на следующей неделе
- Проведите аудит текущих ИИ-инструментов по трём критериям: есть ли постоянное рабочее пространство, поддерживаются ли переиспользуемые навыки, логируются ли действия агента.
- Выберите одну задачу для пилота. Не пытайтесь автоматизировать всё сразу. Одна повторяющаяся задача с чёткими критериями завершения — лучший старт.
- Установите метрики успеха. Доля завершённых задач, время выполнения, стоимость, количество ошибок. Без метрик вы не узнаете, стало ли лучше.
- Подготовьте план отката. Если агент не справляется, вы должны иметь возможность быстро вернуться к ручному процессу без потери данных.
- Обсудите с командой. Объясните, что агент не заменяет людей, а берёт на себя рутинные шаги. Спросите, какие задачи они хотели бы делегировать в первую очередь.
Источники
Генерация изображения
- Модель:
flux-schnell - Провайдер:
replicate
Темы журнала
Что почитать дальше
- seotitle: Агентный ИИ вместо чата: что данные OpenAI о Codex значат для ваших процессов | metatitle: Отчёт OpenAI о
- Claude Code без Anthropic API: подключение китайских LLM GLM 5 и экономия
- DeepSeek-V4-Flash: как за неделю бесплатного API протестировать модель
- OpenAI и Broadcom: чип для инференса — что изменится в стоимости AI
- Anthropic и выбор поставщика ИИ: как проверить, кто контролирует мощность и доступ