BarkingDog: как найти уязвимости AI-агентов, которые пропускают Garak и PyRIT
Вы запустили AI-агента в production. Он отвечает клиентам, обрабатывает возвраты, меняет данные в админке. Всё работает. Но один текстовый запрос — и агент сам начинает собирать данные для взлома чужого аккаунта. Другой запрос — и сервер ложится от рекурсии.
Источник: Habr
Это не теория. Разработчик открытого сканера BarkingDog прогнал три популярных open-source агента через новый режим атаки и получил три разных класса уязвимостей. Каждая — из свежего стандарта OWASP ASI 2026.
Если ваша команда тестирует безопасность агентов только через модель — вы пропускаете главное. Вот что реально ломается и как это проверить до того, как найдёт хакер.
Что изменилось в 2026 году: агенты перестали быть чатботами
Пока рынок обсуждает «умных ботов», индустрия безопасности уже перешла к новому классу угроз. По данным Cloud Security Alliance (опрос 1500+ CISO, июнь 2026):
- 92% руководителей безопасности обеспокоены AI-агентами в своей организации
- 88% компаний уже зафиксировали подтверждённые или предполагаемые инциденты с агентами
- 80,9% технических команд перешли от планирования к production-деплою агентов
- Но лишь 14,4% получили полное одобрение от службы безопасности на весь парк агентов
OWASP в декабре 2025 выпустил отдельный стандарт — Top 10 for Agentic Applications 2026 (ASI). Это признание: агенты — это уже не «умный чатбот», а отдельный класс угроз. В Q1 2026 OWASP зафиксировал переход от теоретических рисков к реальным CVE: взлом LiteLLM через GitHub Actions с заливкой backdoor-версии прямо в PyPI, CVE-2026-22708 против Cursor, автономный бот hackerbot-claw без участия человека.
Почему Garak и PyRIT не находят эти уязвимости
Стандартные сканеры безопасности — Garak (NVIDIA), PyRIT (Microsoft), Promptfoo — тестируют модель. BarkingDog тестирует production.
Разница принципиальная. Между пользователем и моделью в production находятся system prompt, RAG, маршрутизация запросов, tool graph и внешние инструменты. Именно этот слой сегодня становится основной атакующей поверхностью агентных систем.
BarkingDog атакует тот же HTTP-вебхук, который обслуживает реальный пользовательский трафик. Он проверяет не только модель, но и весь runtime целиком — orchestration, tool invocation, memory и бизнес-логику.
| Инструмент | Цель атаки | Agentic pipeline / tool graph | Multi-turn / Crescendo | Daemon + расписание | OWASP ASI 2026 mapping |
|---|---|---|---|---|---|
| Garak (NVIDIA) | Модель напрямую | ❌ Ограниченно | Слабо | Нет | Нет |
| PyRIT (Microsoft) | Модель / агент (кастомно) | ⚠️ Кастомный скрипт | Сильно | Нет | Нет |
| Promptfoo* | Модель/система | ⚠️ Ограниченно | Да | Нет | Да |
| DeepTeam | LLM-агент | ⚠️ Частично | Да | Нет | Да |
| BarkingDog | Production-вебхук | ✅ Нативно | Да | Есть | Да |
*Promptfoo куплен OpenAI в марте 2026 за ~$86M, MIT-лицензия сохранена, но будущее независимости проекта — открытый вопрос.
Три реальных пробоя: что именно нашёл сканер
1. Confused Deputy (ASI03) — Agno
Агент на фреймворке Agno получил запрос, который выглядел как легитимная задача от администратора. Вместо того чтобы проверить права, агент начал собирать данные для изменения чужого admin-аккаунта. Это классическая атака «замешанного помощника»: агент выполняет действие от имени системы, не проверяя, кто и зачем его просит.
Что это значит для бизнеса: если ваш агент имеет доступ к изменению учётных записей, прав доступа или финансовых данных, один текстовый запрос может привести к компрометации всей системы.
2. Trust Exploitation (ASI08) — LangGraph agent-service-toolkit
Агент на базе LangGraph поверил ложному утверждению «менеджер одобрил» и помог обойти политику возврата. Агент не проверил факт одобрения — он просто принял утверждение на веру.
Что это значит для бизнеса: если ваш агент обрабатывает возвраты, скидки, изменения заказов или доступ к данным, злоумышленник может просто сказать агенту, что «всё одобрено», и агент выполнит действие.
3. Agentic DoS (ASI06) — OpenAI CS Agents Demo
Демо-агент от OpenAI лёг от одного рекурсивного текстового запроса. LLM ушла в бесконечный цикл рассуждений, выжгла RAM и пробила таймауты FastAPI. 30,4% запросов закончились HTTP 500. Сервер лёг от текста.
Что это значит для бизнеса: злоумышленник может положить ваш production-сервер одним сообщением в чат. Никакого DDoS, никакого взлома — просто рекурсия, которую агент не умеет останавливать.
Почему мы ломаем вебхук, а не MCP напрямую
Это частый вопрос. Тестируя MCP напрямую, вы проверяете API, а не агента. Те 30% ошибок HTTP 500 в логах OpenAI Demo — это не «глюк сети сканера», а чистый Agentic DoS. Хакер скармливает боту рекурсию через чат, LLM уходит в бесконечный цикл рассуждений, выжигает RAM и пробивает таймауты FastAPI. Сервер ложится от текста.
Если убрать LLM из контура тестирования и бить сразу в MCP — получите стерильный, на 100% «зелёный» отчёт и ложное чувство безопасности.
Что проверить на этой неделе: практический чек-лист
Не нужно перестраивать всю безопасность. Вот что можно сделать за неделю:
- [ ] Запустите BarkingDog на стейджинг-среде. Инструмент может вызывать отказ в обслуживании — не тестируйте на production. Деплой:
docker run. - [ ] Проверьте, какие инструменты (tools) доступны вашему агенту. Если агент может менять учётные записи, одобрять возвраты или получать доступ к данным — это первая цель для атаки.
- [ ] Добавьте проверку прав на каждое действие агента. Агент не должен верить утверждениям пользователя — он должен проверять факты через API.
- [ ] Установите лимит на количество шагов рассуждения агента. Это предотвратит Agentic DoS. Если агент может уйти в бесконечный цикл — он это сделает.
- [ ] Сопоставьте свои агенты с OWASP ASI 2026. Стандарт определяет 10 классов уязвимостей. Три из них уже подтверждены на реальных open-source агентах.
- [ ] Проверьте, одобрена ли безопасность вашего агента. По данным Cloud Security Alliance, лишь 14,4% компаний получили полное одобрение от службы безопасности на весь парк агентов.
Что может пойти не так: ограничения метода
BarkingDog — открытый инструмент независимого разработчика. Возможна предвзятость в сравнении с Garak/PyRIT. Три найденные уязвимости не охватывают весь спектр OWASP ASI 2026 — это не полное руководство по безопасности агентов.
Данные Cloud Security Alliance не имеют прямой ссылки на отчёт — рекомендуется верифицировать цифры самостоятельно.
Инструмент может вызывать отказ в обслуживании. Тестируйте только на изолированных или стейджинг-средах.
Источники
- Статья на Habr: Как агент сам откроет дверь хакеру?
- OWASP Top 10 for Agentic Applications 2026 (ASI)
- Cloud Security Alliance — AI Agent Security Survey 2026
- BarkingDog — GitHub репозиторий
- Agno — open-source AI agent framework
- OpenAI CS Agents Demo
- LangGraph agent-service-toolkit
Генерация изображения
- Модель:
flux-schnell - Провайдер:
replicate
Темы журнала
Что почитать дальше
- OpenAI Jalapeño AI-чип 2026: характеристики, сравнение с NVIDIA H200 и влияние на рынок
- OpenAI Jalapeño: как собственный ASIC-чип меняет экономику инференса LLM и ставку на Nvidia
- OpenAI инициатива по уязвимостям open-source: как подключить и что проверить
- agent-chat-ui: готовый фронтенд для LangGraph-агента
- seotitle: Агентный ИИ вместо чата: что данные OpenAI о Codex значат для ваших процессов | metatitle: Отчёт OpenAI о