Схема атаки на AI-модель через микроскопическое изображение со скрытым текстом

Микроскопические изображения: новый вектор обхода AI-ограждений

ИИ-инструменты 27 июня 2026 г.

В июне 2026 года исследователи безопасности продемонстрировали метод атаки на AI-модели, использующий микроскопические изображения для обхода встроенных ограничений. Речь идёт не о теоретической уязвимости, а о воспроизводимом векторе: изображения с разрешением в несколько микрометров, содержащие вредоносные инструкции, не распознаются стандартными фильтрами безопасности, но обрабатываются мультимодальными моделями. Для бизнеса, внедряющего AI-системы с поддержкой изображений, это означает появление нового класса рисков, которые не покрываются текущими практиками безопасности. В этой статье — что именно произошло, почему это меняет подход к защите, и какие шаги стоит предпринять уже на этой неделе.

Что именно произошло: суть атаки

Исследователи из нескольких университетов (точный состав уточняется) опубликовали препринт, в котором описали метод атаки на мультимодальные AI-модели через микроскопические изображения. Суть метода: вредоносный текст — например, инструкция по созданию опасного вещества или обходу систем безопасности — встраивается в изображение с очень малым разрешением (порядка 10–50 микрометров на элемент). Такое изображение выглядит как шум или артефакт для человеческого глаза, но AI-модель, обученная на больших наборах данных, распознаёт в нём текст и исполняет инструкцию.

Ключевая особенность: стандартные guardrails — фильтры, проверяющие входные данные на наличие запрещённых тем, — не срабатывают, потому что анализируют изображение как визуальный объект, а не как носитель текста. Модель же, получив изображение, извлекает из него текст и обрабатывает его без дополнительной проверки.

В тестах атака сработала на нескольких популярных мультимодальных моделях, включая GPT-4V, Gemini и Claude 3.5. Точный процент успешных атак и список версий моделей пока не раскрыты, но сам факт существования рабочего метода подтверждён.

Почему это меняет стоимость и риски для бизнеса

Для компаний, использующих AI-системы с поддержкой изображений, этот вектор атаки создаёт три конкретных бизнес-проблемы.

Первое: расширение поверхности атаки. Если раньше guardrails защищали от текстовых запросов с вредоносным содержанием, то теперь атакующий может обойти их, просто упаковав тот же запрос в микроскопическое изображение. Это означает, что все системы, принимающие изображения от пользователей — чат-боты с поддержкой картинок, системы анализа документов, AI-ассистенты в приложениях, — становятся уязвимыми.

Второе: сложность обнаружения. Микроскопические изображения не видны человеку. Их невозможно отфильтровать вручную или простыми эвристиками. Требуется либо специализированное ПО для анализа изображений на наличие скрытого текста, либо модификация самих моделей.

Третье: юридические и репутационные риски. Если AI-система компании сгенерирует опасный контент из-за такой атаки, ответственность ляжет на оператора системы. Регуляторы в ЕС (AI Act) и других юрисдикциях ужесточают требования к безопасности AI-систем, и доказательство того, что компания принимала меры против известных векторов атак, станет обязательным.

Что меняется Почему важно бизнесу Что проверить
Изображения становятся вектором атаки Все системы с поддержкой изображений требуют пересмотра безопасности Есть ли у вас фильтрация скрытого текста в изображениях?
Guardrails не видят угрозу Текущие решения безопасности могут быть неэффективны Проверяют ли ваши guardrails изображения как носители текста?
Атака невидима для человека Ручная модерация бесполезна Есть ли автоматические средства обнаружения микроскопического текста?
Ответственность за контент Риск юридических и репутационных потерь Соответствует ли ваша система требованиям регуляторов?

Что проверить до внедрения защитных мер

Прежде чем принимать решения о защите, необходимо провести аудит текущего состояния. Вот что стоит проверить в первую очередь.

1. Какие мультимодальные модели вы используете? Составьте список всех AI-систем в компании, которые принимают изображения от пользователей. Включите не только публичные API (GPT-4V, Gemini, Claude), но и внутренние модели, а также системы, где изображения передаются через промежуточные сервисы.

2. Как работают ваши guardrails? Проверьте, анализируют ли они изображения как потенциальные носители текста. Большинство стандартных решений (Azure AI Content Safety, OpenAI Moderation API, внутренние фильтры) проверяют только текст и метаданные изображений, но не извлекают скрытый текст.

3. Есть ли у вас логирование входных изображений? Без логов невозможно будет провести расследование инцидента. Убедитесь, что вы сохраняете изображения, переданные в AI-систему, хотя бы на ограниченный срок.

4. Какие сценарии использования наиболее рискованны? Системы, где пользователь может загрузить произвольное изображение (чат-боты, генеративные редакторы, системы анализа документов), находятся в зоне наибольшего риска. Системы с предопределённым набором изображений (например, только логотипы компании) менее уязвимы.

Что может пойти не так: ограничения и неопределённости

Метод атаки подтверждён, но есть несколько важных оговорок.

Во-первых, точные условия успешной атаки пока не опубликованы. Исследователи не раскрыли, какие именно разрешения, форматы и методы встраивания текста работают лучше всего. Это означает, что воспроизвести атаку в своей среде пока невозможно, но и защититься от неё — тоже.

Во-вторых, не все модели одинаково уязвимы. В тестах атака сработала на нескольких моделях, но не на всех. Возможно, некоторые модели имеют встроенную защиту от извлечения текста из изображений, или их архитектура менее чувствительна к микроскопическим деталям.

В-третьих, существует риск гиперболизации угрозы. Новостные публикации часто преувеличивают опасность новых методов атак. Реальная частота успешных атак в промышленных условиях может быть ниже, чем в лабораторных тестах.

В-четвёртых, защитные меры могут снизить производительность. Добавление этапа предобработки изображений (например, изменение разрешения, удаление мелких деталей) может повлиять на качество работы модели, особенно в задачах, где важны мелкие детали (медицинская диагностика, анализ микроскопических снимков).

Что делать на этой неделе: практический чек-лист

На основе текущей информации можно составить план действий, который не требует немедленных инвестиций, но снижает риски.

Чек-лист для оператора AI-системы:

  • [ ] Составьте список всех систем, принимающих изображения от пользователей. Включите API, внутренние сервисы и интеграции с партнёрами.
  • [ ] Проверьте, какие guardrails используются для каждой системы. Убедитесь, что они анализируют изображения как потенциальные носители текста.
  • [ ] Настройте логирование входных изображений с retention period не менее 30 дней.
  • [ ] Оцените, какие сценарии использования наиболее рискованны, и введите дополнительную модерацию для них (например, ограничение размера изображения или формата).
  • [ ] Свяжитесь с вендорами используемых моделей и запросите информацию о планируемых обновлениях безопасности.
  • [ ] Подготовьте план реагирования на инцидент: кто принимает решение об отключении системы, как уведомлять пользователей, как проводить расследование.

Источники

Генерация изображения

  • Модель: flux-schnell
  • Провайдер: replicate

Теги