Схема безопасной работы ИИ-агента в браузере: чтение, проверка, подтверждение, действие

Как безопасно пускать ИИ-агента в браузер: защита от prompt injection

ИИ-безопасность 30 мая 2026 г.

ИИ-браузеры и веб-агенты выглядят как следующий очевидный шаг: не копировать данные руками, не кликать по сайтам, не заполнять формы, а дать агенту задачу и дождаться результата. Но как только агент начинает читать страницы и действовать в аккаунтах, появляется новая граница риска.

Проблема в том, что сайт, письмо, документ или комментарий на странице могут содержать не только данные, но и скрытую инструкцию для агента. Для человека это просто текст где-то на странице. Для модели это может выглядеть как команда: проигнорируй предыдущие правила, отправь сообщение, открой файл, измени настройку.

OpenAI в материале Hardening Atlas against prompt injection описывает именно этот класс угроз для браузерных агентов. Важно не пугаться слова prompt injection, а понять рабочее правило: интернет для агента должен быть источником фактов, но не источником полномочий.

Что здесь реально опасно

Когда обычный чат отвечает на вопрос, ошибка обычно остается в тексте. Когда браузерный агент получил доступ к действиям, ошибка может стать действием: письмо отправлено, форма заполнена, файл открыт, заказ оформлен, настройка изменена.

Поэтому риск растет не от самого чтения страницы, а от связки:

  1. агент читает непроверенный внешний контент;
  2. агент умеет действовать в вашем аккаунте;
  3. агент не отделяет внешнюю инструкцию от вашей задачи;
  4. действие проходит без человеческого подтверждения.

Если убрать хотя бы один элемент, риск становится меньше. Если оставить все четыре, агент начинает работать слишком доверчиво.

Какой навык нужен пользователю

Главный навык - давать агенту не просто задачу, а границы полномочий.

Плохая постановка: "зайди в почту, найди нужное письмо и ответь".

Лучше: "прочитай письма только от этих отправителей, выпиши варианты ответа, ничего не отправляй без моего подтверждения, не открывай вложения кроме PDF, не переходи по ссылкам из писем".

Это не бюрократия. Это нормальный режим работы с помощником, который видит внешнюю среду. Человек тоже не должен подписывать документ только потому, что в документе написано "подпиши меня". Агенту нужно объяснить то же самое.

Практический контур безопасности

Риск Простое правило
Сайт пытается управлять агентом внешняя страница не может менять системные правила
Агент видит секреты секреты нельзя вставлять в страницы и формы без разрешения
Агент может отправлять сообщения отправка только после подтверждения человеком
Агент кликает по ссылкам ссылки из внешних источников открываются в режиме чтения
Агент путает данные и команды данные можно пересказать, команды нельзя выполнять

Для большинства рабочих сценариев достаточно не сложной системы, а аккуратного контура.

Первое: разделить чтение и действие. Пусть агент сначала собирает информацию, делает краткий отчет и предлагает следующий шаг. Клик, отправка, покупка, изменение файла или публикация - отдельная стадия.

Второе: ограничить область. Если задача про один сайт, не нужно давать агенту весь браузер. Если задача про письмо от одного человека, не нужно давать доступ ко всей почте.

Третье: сделать подтверждение для необратимых действий. Отправка письма, платеж, публикация, удаление, изменение настроек, выдача доступа - только после явного "да".

Четвертое: не давать внешнему тексту права менять правила. Страница может быть источником сведений, но не может сказать агенту: забудь инструкцию пользователя.

Рабочая карточка

Как это связано с обычной работой

Поле Что записать
Когда использовать Когда агент читает сайты, письма, документы или действует в аккаунтах
Что подать на вход Цель, разрешенные сайты, запрещенные действия, условия подтверждения
Что сделать Разделить сбор данных, предложение решения и выполнение действия
Как проверить качество Агент не выполняет внешние инструкции и спрашивает подтверждение на рискованных шагах
Когда не использовать Для простого чтения публичной страницы без логина и действий

Эта тема важна не только для разработчиков ИИ-браузеров. Она касается любого человека, который начинает подключать агентов к реальным сервисам: почте, CRM, админке сайта, таблицам, рекламным кабинетам, банку, облаку.

Практический вывод простой: агент должен иметь меньше прав, чем человек, а не больше. Человек может понять контекст, заметить странность и остановиться. Агенту для этого нужны заранее прописанные границы.

Хороший браузерный агент - не тот, кто кликает быстрее всех. Хороший агент умеет остановиться перед действием, объяснить риск и попросить подтверждение. Именно это превращает автоматизацию из эффектного демо в рабочий инструмент.

Источники:

  1. OpenAI: Hardening Atlas against prompt injection
  2. OWASP: LLM Prompt Injection Prevention Cheat Sheet
  3. ONFF: Как ИИ строит удобный маршрут
  4. ONFF: Как мерить внедрение ИИ без tokenmaxxing

Теги