Микроскопический текст в изображениях обходит ИИ-фильтры: что проверить в июне
Суть проблемы: когда картинка становится ключом к обходу ограничений
Исследование, опубликованное на TechXplore в июне 2026 года, описывает неожиданный вектор атаки на системы безопасности языковых моделей. Суть метода — встраивание текстовых инструкций в микроскопические изображения, которые человек не способен прочитать визуально, но которые модель при обработке интерпретирует как легитимный ввод. Это не теоретическая уязвимость из области adversarial ML в чистом виде — это практический способ обхода guardrail-слоёв, которые проверяют текстовый ввод, но не анализируют содержимое изображений с той же глубиной.
Проблема в том, что большинство систем фильтрации контента работают на уровне текста. Когда пользователь загружает изображение, модель извлекает из него информацию — и если в пикселях скрыта инструкция, она проходит мимо текстовых фильтров. Микроскопический текст, впечатанный в изображение на уровне отдельных пикселей или субпиксельных паттернов, остаётся невидимым для оператора, но считывается моделью при OCR-подобной обработке.
Как технически работает атака
Механизм атаки опирается на разрыв между тем, как человек и модель воспринимают изображение. Человеческий глаз не различает текст, нанесённый шрифтом в доли пикселя или замаскированный под шум. Мультимодальная модель, однако, обрабатывает изображение как массив числовых значений и способна извлечь из него структурированный текст — даже если этот текст был специально встроен как скрытый слой.
Типичная цепочка атаки выглядит так:
- Злоумышленник генерирует изображение с микроскопическим текстом (инструкцией, промптом, запрещённым запросом).
- Изображение загружается в мультимодальную модель через стандартный интерфейс — как обычная картинка.
- Модель извлекает скрытый текст и интерпретирует его как часть пользовательского запроса.
- Guardrail-фильтр, настроенный на текстовый ввод, не видит подмены — ведь в текстовом поле пользователя ничего подозрительного нет.
Это не баг конкретной модели. Это структурная особенность архитектуры, в которой модальности обрабатываются разными конвейерами с разным уровнем контроля.
Почему это важно для реальных продуктов
Для команд, которые развёртывают ИИ-ассистентов, чат-ботов или внутренние инструменты на базе LLM, этот вектор атаки означает конкретный разрыв в модели угроз. Если ваш продукт принимает изображения и при этом полагается на текстовые фильтры — вы уязвимы.
Особенно критично это для:
- Корпоративных ИИ-ассистентов, где через изображения можно внедрить инструкции по извлечению конфиденциальных данных.
- Платформ с пользовательским контентом, где изображения загружаются массово и ручная модерация невозможна.
- Систем автоматизации документооборота, где модели обрабатывают сканы и фотографии документов — встроенный в скан микротекст может перенаправить поведение модели.
| Сценарий | Уровень риска | Что проверить |
|---|---|---|
| Чат-бот с загрузкой изображений | Высокий | Есть ли анализ содержимого изображений на скрытый текст |
| Внутренний ИИ-ассистент без внешнего доступа | Средний | Кто имеет доступ к загрузке изображений |
| Публичный API с мультимодальным вводом | Высокий | Применяются ли guardrails к извлечённому из изображений тексту |
| Система OCR-обработки документов | Средний | Фильтруется ли извлечённый текст перед передачей в LLM |
| Мобильное приложение с фото-вводом | Высокий | Контролируется ли пайплайн от камеры до модели |
Что можно сделать уже сейчас: практические меры
Исследование не предлагает готового патча — оно фиксирует проблему. Но из описанного вектора атаки следуют конкретные шаги, которые команды могут предпринять на уровне архитектуры и процессов.
На уровне пайплайна обработки: - Любой текст, извлечённый из изображений, должен проходить через те же guardrail-фильтры, что и текстовый ввод пользователя. Это базовое правило, которое часто нарушается из-за разделения конвейеров. - Внедрите этап нормализации и санитизации извлечённого текста перед его передачей в языковую модель. Микроскопический текст часто содержит артефакты, которые можно детектировать.
На уровне мониторинга: - Логируйте не только текстовый ввод пользователя, но и весь текст, извлечённый из мультимодальных данных. Аномалии в длине, структуре или содержании извлечённого текста — сигнал для анализа. - Настройте алерты на паттерны, характерные для промпт-инъекций, в извлечённом из изображений тексте.
На уровне архитектуры: - Рассмотрите возможность ограничения разрешения или предобработки загружаемых изображений. Да, это не панацея — но усложняет встраивание микроскопического текста. - Разделите конвейеры: пусть модель, извлекающая текст из изображений, и модель, выполняющая инструкции, работают с разным контекстом и разными политиками безопасности.
Чек-лист для команды: проверка уязвимости
Прежде чем считать систему защищённой, пройдите по списку:
- [ ] Все ли модальности ввода проходят через единый guardrail-слой?
- [ ] Логируется ли текст, извлечённый из изображений, отдельно от пользовательского ввода?
- [ ] Есть ли тесты на промпт-инъекцию через изображения в вашем QA-пайплайне?
- [ ] Проверяли ли вы, как модель реагирует на изображения с микроскопическим текстом?
- [ ] Ограничена ли длина извлечённого текста, передаваемого в модель?
- [ ] Есть ли процесс реагирования на обнаружение подобных атак в продакшене?
Что проверить перед принятием решений
Публикация на TechXplore — это научно-популярная заметка, а не полноценная исследовательская статья. Прежде чем перестраивать архитектуру безопасности, стоит:
- Найти оригинальное исследование. TechXplore ссылается на конкретную работу — найдите её и проверьте методологию, воспроизводимость результатов и тестируемые модели.
- Проверить на своих данных. Вектор атаки может работать по-разному в зависимости от модели, разрешения изображений и способа встраивания текста. Запустите собственные тесты.
- Оценить реальный риск для вашего продукта. Не каждая система с мультимодальным вводом одинаково уязвима. Закрытый корпоративный ассистент с ограниченным кругом пользователей — это другой профиль риска, чем публичный API.
Источники
- Microscopic images can bypass AI guardrails, researchers find — TechXplore
- Telegram-сигнал ONFF Journal
Дополнительный контекст и перспективы
Стоит отметить, что данная уязвимость — лишь один из примеров более широкого класса атак, эксплуатирующих мультимодальные разрывы в системах безопасности. По мере того как модели становятся всё более способными к обработке разнородных данных, количество потенциальных векторов обхода будет только расти. Исследователи уже демонстрировали аналогичные техники с аудиофайлами, где голосовые команды скрывались в фоновом шуме или ультразвуковом диапазоне, неслышимом для человека, но распознаваемом системами автоматического распознавания речи. Это подчёркивает фундаментальную проблему: безопасность не может быть модально-специфичной в мире мультимодальных моделей. Командам разработки необходимо мыслить в парадигме кросс-модальной валидации, где каждый тип ввода проверяется не изолированно, а в контексте всех остальных данных, поступающих в систему.