Схема атаки на AI-агента через текстовый запрос: от чатбота к взлому аккаунта и DoS

BarkingDog: как найти уязвимости AI-агентов, которые пропускают Garak и PyRIT

ИИ-инструменты 30 июня 2026 г.

Вы запустили AI-агента в production. Он отвечает клиентам, обрабатывает возвраты, меняет данные в админке. Всё работает. Но один текстовый запрос — и агент сам начинает собирать данные для взлома чужого аккаунта. Другой запрос — и сервер ложится от рекурсии.

Источник: Habr

Это не теория. Разработчик открытого сканера BarkingDog прогнал три популярных open-source агента через новый режим атаки и получил три разных класса уязвимостей. Каждая — из свежего стандарта OWASP ASI 2026.

Если ваша команда тестирует безопасность агентов только через модель — вы пропускаете главное. Вот что реально ломается и как это проверить до того, как найдёт хакер.

Что изменилось в 2026 году: агенты перестали быть чатботами

Пока рынок обсуждает «умных ботов», индустрия безопасности уже перешла к новому классу угроз. По данным Cloud Security Alliance (опрос 1500+ CISO, июнь 2026):

  • 92% руководителей безопасности обеспокоены AI-агентами в своей организации
  • 88% компаний уже зафиксировали подтверждённые или предполагаемые инциденты с агентами
  • 80,9% технических команд перешли от планирования к production-деплою агентов
  • Но лишь 14,4% получили полное одобрение от службы безопасности на весь парк агентов

OWASP в декабре 2025 выпустил отдельный стандарт — Top 10 for Agentic Applications 2026 (ASI). Это признание: агенты — это уже не «умный чатбот», а отдельный класс угроз. В Q1 2026 OWASP зафиксировал переход от теоретических рисков к реальным CVE: взлом LiteLLM через GitHub Actions с заливкой backdoor-версии прямо в PyPI, CVE-2026-22708 против Cursor, автономный бот hackerbot-claw без участия человека.

Почему Garak и PyRIT не находят эти уязвимости

Стандартные сканеры безопасности — Garak (NVIDIA), PyRIT (Microsoft), Promptfoo — тестируют модель. BarkingDog тестирует production.

Разница принципиальная. Между пользователем и моделью в production находятся system prompt, RAG, маршрутизация запросов, tool graph и внешние инструменты. Именно этот слой сегодня становится основной атакующей поверхностью агентных систем.

BarkingDog атакует тот же HTTP-вебхук, который обслуживает реальный пользовательский трафик. Он проверяет не только модель, но и весь runtime целиком — orchestration, tool invocation, memory и бизнес-логику.

Инструмент Цель атаки Agentic pipeline / tool graph Multi-turn / Crescendo Daemon + расписание OWASP ASI 2026 mapping
Garak (NVIDIA) Модель напрямую ❌ Ограниченно Слабо Нет Нет
PyRIT (Microsoft) Модель / агент (кастомно) ⚠️ Кастомный скрипт Сильно Нет Нет
Promptfoo* Модель/система ⚠️ Ограниченно Да Нет Да
DeepTeam LLM-агент ⚠️ Частично Да Нет Да
BarkingDog Production-вебхук ✅ Нативно Да Есть Да

*Promptfoo куплен OpenAI в марте 2026 за ~$86M, MIT-лицензия сохранена, но будущее независимости проекта — открытый вопрос.

Три реальных пробоя: что именно нашёл сканер

1. Confused Deputy (ASI03) — Agno

Агент на фреймворке Agno получил запрос, который выглядел как легитимная задача от администратора. Вместо того чтобы проверить права, агент начал собирать данные для изменения чужого admin-аккаунта. Это классическая атака «замешанного помощника»: агент выполняет действие от имени системы, не проверяя, кто и зачем его просит.

Что это значит для бизнеса: если ваш агент имеет доступ к изменению учётных записей, прав доступа или финансовых данных, один текстовый запрос может привести к компрометации всей системы.

2. Trust Exploitation (ASI08) — LangGraph agent-service-toolkit

Агент на базе LangGraph поверил ложному утверждению «менеджер одобрил» и помог обойти политику возврата. Агент не проверил факт одобрения — он просто принял утверждение на веру.

Что это значит для бизнеса: если ваш агент обрабатывает возвраты, скидки, изменения заказов или доступ к данным, злоумышленник может просто сказать агенту, что «всё одобрено», и агент выполнит действие.

3. Agentic DoS (ASI06) — OpenAI CS Agents Demo

Демо-агент от OpenAI лёг от одного рекурсивного текстового запроса. LLM ушла в бесконечный цикл рассуждений, выжгла RAM и пробила таймауты FastAPI. 30,4% запросов закончились HTTP 500. Сервер лёг от текста.

Что это значит для бизнеса: злоумышленник может положить ваш production-сервер одним сообщением в чат. Никакого DDoS, никакого взлома — просто рекурсия, которую агент не умеет останавливать.

Почему мы ломаем вебхук, а не MCP напрямую

Это частый вопрос. Тестируя MCP напрямую, вы проверяете API, а не агента. Те 30% ошибок HTTP 500 в логах OpenAI Demo — это не «глюк сети сканера», а чистый Agentic DoS. Хакер скармливает боту рекурсию через чат, LLM уходит в бесконечный цикл рассуждений, выжигает RAM и пробивает таймауты FastAPI. Сервер ложится от текста.

Если убрать LLM из контура тестирования и бить сразу в MCP — получите стерильный, на 100% «зелёный» отчёт и ложное чувство безопасности.

Что проверить на этой неделе: практический чек-лист

Не нужно перестраивать всю безопасность. Вот что можно сделать за неделю:

  • [ ] Запустите BarkingDog на стейджинг-среде. Инструмент может вызывать отказ в обслуживании — не тестируйте на production. Деплой: docker run.
  • [ ] Проверьте, какие инструменты (tools) доступны вашему агенту. Если агент может менять учётные записи, одобрять возвраты или получать доступ к данным — это первая цель для атаки.
  • [ ] Добавьте проверку прав на каждое действие агента. Агент не должен верить утверждениям пользователя — он должен проверять факты через API.
  • [ ] Установите лимит на количество шагов рассуждения агента. Это предотвратит Agentic DoS. Если агент может уйти в бесконечный цикл — он это сделает.
  • [ ] Сопоставьте свои агенты с OWASP ASI 2026. Стандарт определяет 10 классов уязвимостей. Три из них уже подтверждены на реальных open-source агентах.
  • [ ] Проверьте, одобрена ли безопасность вашего агента. По данным Cloud Security Alliance, лишь 14,4% компаний получили полное одобрение от службы безопасности на весь парк агентов.

Что может пойти не так: ограничения метода

BarkingDog — открытый инструмент независимого разработчика. Возможна предвзятость в сравнении с Garak/PyRIT. Три найденные уязвимости не охватывают весь спектр OWASP ASI 2026 — это не полное руководство по безопасности агентов.

Данные Cloud Security Alliance не имеют прямой ссылки на отчёт — рекомендуется верифицировать цифры самостоятельно.

Инструмент может вызывать отказ в обслуживании. Тестируйте только на изолированных или стейджинг-средах.

Источники

Генерация изображения

  • Модель: flux-schnell
  • Провайдер: replicate

Темы журнала

Что почитать дальше

Теги