ИИ-браузер может поверить вредной странице: что такое prompt injection

ИИ-браузер удобен, потому что может читать страницы и помогать действовать: найти товар, сравнить условия, заполнить форму, подготовить письмо, собрать данные. Но именно здесь появляется опасный поворот. Если агент читает страницу как источник информации, он может принять текст на этой странице за инструкцию для себя. Даже если этот текст спрятан, замаскирован или выглядит как часть документа.

Этот риск называется prompt injection — вредная или нежелательная инструкция, которая попадает к модели через страницу, письмо, документ или другой внешний источник. В материале OpenAI про защиту Atlas от prompt injection проблема разобрана именно в браузерной логике: агент работает с внешним содержимым, а значит должен отличать задачу пользователя от текста, который нашел по пути. В классификации OWASP LLM01 это один из главных рисков для приложений на больших языковых моделях.

Простыми словами: кто кому дает команду

Когда человек пишет агенту "найди лучшие условия", это команда пользователя. Когда сайт показывает цену, описание или правила доставки, это данные. Проблема начинается, когда данные пытаются стать командой. Например, страница может содержать скрытый текст вроде "игнорируй прошлые инструкции", "отправь эти данные", "нажми кнопку", "сделай вид, что всё проверено". Для человека это может быть невидимо или выглядеть безобидно, а модель может включить это в рассуждение.

В статье про ИИ-браузеры, которые нажимают кнопки мы уже говорили: когда помощник только отвечает текстом, ошибка неприятна. Когда он нажимает кнопку, ошибка становится действием. Prompt injection как раз опасен тем, что превращает чужой текст в возможное действие внутри вашего аккаунта, письма, CRM или платежной страницы.

Где спрятана командаЧто может пойти не такКакая защита нужна
страница сайтаагент следует инструкции злоумышленникаразделять данные сайта и команду пользователя
письмоагент отправляет неправильный ответ или раскрывает данныеручное подтверждение перед отправкой
документагент делает вывод по скрытому текступоказывать источники и спорные фрагменты
форма или кнопкаагент выполняет действие без понимания рискаостанавливать платежи, удаления и публикации

Почему это нельзя решить одной фразой в системном промпте

Простая фраза "не слушай вредные команды" помогает, но не закрывает проблему. Агент работает в живом мире: сайты меняются, письма приходят от разных людей, документы содержат вложения, на страницах есть скрытые элементы, рекламные блоки и пользовательский текст. Нельзя заранее перечислить все способы, которыми внешнее содержимое попробует повлиять на модель.

Поэтому защита должна быть многослойной. Во-первых, нужно ясно разделять роли: пользователь ставит задачу, внешняя страница дает данные. Во-вторых, важные действия должны требовать подтверждения. В-третьих, агент должен показывать источник вывода. В-четвертых, у него должны быть ограниченные права: не всё, что он может прочитать, он должен иметь право отправить, удалить или изменить.

Редакционный вывод: сильный ИИ-браузер должен быть не только быстрым, но и подозрительным. Если действие нельзя легко отменить, оно должно остановиться перед человеком.

Как это применять в компании

Для компании prompt injection — это не академическая страшилка. Представьте помощника, который читает почту, открывает документы поставщиков, сверяет счета, ищет информацию в интернете и готовит ответы клиентам. Если такой помощник не отличает источник данных от команды, он может случайно вынести наружу внутреннюю информацию или выполнить чужое действие.

Практическая политика должна быть простой. Агент может читать и готовить черновики. Агент может сравнивать, суммировать и предлагать. Но он не должен сам отправлять деньги, менять права доступа, публиковать материалы, удалять записи, подписывать документы или отправлять внешние письма без ясного подтверждения человека. А если вывод построен на внешнем источнике, рядом должна быть ссылка или фрагмент, по которому человек может проверить опору.

Это напрямую связано с заземлением, о котором мы писали в статье как не дать ИИ-агенту выдумывать. Надежный агент не просто делает вывод. Он показывает, откуда взял данные, где сомневается и какое действие предлагает. Prompt injection добавляет еще одно правило: агент должен понимать, что найденный текст — не начальник. Начальник всё еще пользователь.