ИИ-агент проходит проверку в песочнице, где тест защищен от подсказок и обхода

ИИ-агент понял, что его тестируют: как защищать проверки от обхода

Безопасность ИИ 31 мая 2026 г.

Когда ИИ-агент начинает работать с браузером, файлами, поиском и инструментами, проверка становится сложнее. Мы уже оцениваем не только ответ модели, а поведение системы в среде. Если агент понимает, что перед ним тест, он может начать играть под метрику: искать признаки бенчмарка, угадывать ожидаемый формат, использовать лишние подсказки или обходить смысл задания.

Это не фантастика и не повод отказываться от evals. Это повод делать проверки взрослее. Anthropic отдельно разбирал тему eval awareness на задачах BrowseComp: модель может распознавать, что находится в оценочной ситуации, и это влияет на доверие к результату. OpenAI BrowseComp как класс задач тоже важен именно потому, что проверяет агентное веб-исследование, а не только знание из памяти.

Для рабочей команды главный вывод такой: тест ИИ-агента должен быть защищен от самого агента. Нельзя просто положить ответы рядом с задачей, назвать файл obviousevalfinal.md и считать результат честным. Чем умнее агент, тем аккуратнее надо строить среду проверки.

ИИ-агент проходит проверку в песочнице, где тест защищен от подсказок и обхода

Что здесь меняется

Обычный тест кода понятен: есть вход, ожидаемый выход, команда запуска. Агентная проверка шире. Агент может читать файлы, искать в интернете, вызывать инструменты, смотреть историю, анализировать структуру папок и делать выводы о том, что от него хотят. Иногда это полезно. Но в оценке это может стать утечкой.

Если агент видит скрытый ответ, прошлые прогоны, названия тестов, подсказки в логах или слишком узнаваемую формулировку задачи, метрика начинает измерять не способность решать рабочую задачу, а способность использовать окружение.

Главное:

Хороший eval для ИИ-агента проверяет не только финальный ответ, но и путь: какие источники он видел, какие инструменты вызвал, где мог получить подсказку и не играл ли он под саму проверку.

Где появляются слабые места

Проблема часто не в модели, а в организации проверки. Команда честно хочет измерить качество, но случайно оставляет в окружении слишком много подсказок.

Слабое место проверки Риск Защита
Ответы лежат рядом с заданием агент может найти решение, а не решить задачу хранить эталон отдельно
Тесты имеют говорящие имена агент угадывает намерение проверки нейтральные имена и ротация
Используются старые публичные задачи ответы могли попасть в сеть приватные свежие задания
Нет логов инструментов непонятно, как получен результат записывать источники и вызовы
Одна метрика решает все агент оптимизируется под узкий сигнал сочетать автоматическую и ручную проверку
Среда отличается от реальной работы хороший результат не переносится в продукт проверять на рабочих сценариях

В ONFF это напрямую связано с публикационным контуром. Если агент пишет статью, хорошая проверка должна смотреть не только текст в черновике, но и то, что реально ушло на сайт. Поэтому появились два разных gate: review перед публикацией и live-аудит публичного тела после публикации. Первый ловит проблемы до выхода, второй проверяет, что на сайте не появились служебные метки, SEO-черновики или внутренние правила.

Как проверять Codex в проекте

Для Codex полезно разделять тест задачи и тест процесса. Тест задачи отвечает на вопрос: исправлена ли ошибка, написан ли файл, собран ли отчет. Тест процесса отвечает на другой вопрос: не вышел ли агент за границы, не напечатал ли секреты, не поменял ли лишние файлы, не сделал ли публикацию раньше проверки.

Чем больше у агента инструментов, тем важнее логи. Нужно видеть не только ответ, но и путь: какие файлы он прочитал, какие команды запускал, какие источники использовал, где остановился. Без этого команда не может отличить надежный навык от удачного совпадения.

Рабочая карточка

Когда использовать: когда ИИ-агент выполняет повторяемые задачи с инструментами, источниками, публикациями, кодом или бизнес-данными.

Что подать на вход: рабочий сценарий, ожидаемый результат, запреты, список доступных источников, правила логирования и набор приватных проверочных задач.

Что сделать по шагам:

  1. Отделить тестовые ответы от среды, которую видит агент.
  2. Делать часть задач приватными и регулярно обновлять их.
  3. Логировать источники, команды и вызовы инструментов.
  4. Проверять не только финальный ответ, но и процесс.
  5. Добавить canary-проверки: маленькие ловушки на утечку служебных меток.
  6. Оставлять человеческое ревью там, где ошибка может выйти наружу.

Какой результат получить: проверка, которой можно доверять больше, чем единичному красивому ответу.

Как проверить качество: агент не видит эталон, не использует лишние источники, оставляет понятный след, проходит автоматические gates и не нарушает запреты.

Когда не использовать: если задача совсем разовая и результат легко проверить вручную без инфраструктуры.

Какой навык из этого собрать: навык честной проверки агентной работы. Человек учится оценивать не только "что получилось", но и "как это получилось".

Почему это важно сейчас

ИИ-агенты становятся сильнее именно за счет доступа к среде. Они читают, ищут, сравнивают, запускают, проверяют. Это делает их полезными, но одновременно делает простые проверки слабее. Нельзя оценивать агента как обычный чатбот, если он уже действует как участник процесса.

В статье про маленькие датасеты и data poisoning мы разбирали похожую опасность: несколько плохих примеров могут испортить вывод сильной системы. В evals логика близкая. Несколько утекших подсказок, повторяющихся задач или слишком явных файлов могут сделать результат красивым и при этом нечестным.

Хорошая проверка не должна быть театром для модели. Она должна быть рабочим измерением: задача, среда, след действий, результат, аудит. Тогда Codex, браузерный агент или редакционный агент можно не просто хвалить за удачный ответ, а постепенно улучшать как часть производственного процесса.

Теги