Микроскопические изображения обходят фильтры нейросетей: уязвимость модерации

Исследователи обнаружили, что стандартные защитные механизмы современных нейросетей можно обойти с помощью микроскопических изображений — файлов, размер которых настолько мал, что системы модерации не успевают их корректно обработать. В отличие от традиционных атак, использующих текстовые промпты или крупные изображения, этот метод эксплуатирует не семантику контента, а особенности архитектуры обработки визуальных данных. Статья, опубликованная на TechXplore, описывает технику, которая позволяет генерировать изображения размером менее 100×100 пикселей, сохраняющие узнаваемость для человека, но проходящие через фильтры безопасности без срабатывания.

Что изменилось в практической работе с нейросетями

Ранее считалось, что защитные фильтры изображений достаточно надёжны, если модель обучена на разнообразных данных. Однако новый метод показывает, что ограничение по размеру файла или разрешению может стать уязвимостью. Микроскопические изображения — это не просто маленькие картинки, а специально сконструированные файлы, в которых:

  • Размер изображения не превышает 64×64 пикселя;
  • Файл занимает менее 5 КБ в памяти;
  • Содержание остаётся визуально интерпретируемым для человека;
  • Модель не может применить стандартные алгоритмы детекции из-за недостатка пиксельной информации.

Для инженеров, работающих с публичными API нейросетей, это означает необходимость пересмотреть политики фильтрации. Если ваша система использует только модерацию на стороне модели, без предварительной проверки размера и разрешения входящих изображений, вы можете пропускать контент, который модель не способна корректно классифицировать. Более того, микроскопические изображения могут использоваться не только для обхода фильтров, но и для скрытой передачи данных, что расширяет поверхность атаки на системы, полагающиеся исключительно на визуальный анализ контента.

Почему это актуально сейчас

Проблема становится критической по нескольким причинам. Во-первых, большинство коммерческих нейросетей (Midjourney, DALL-E, Stable Diffusion) имеют ограничения на минимальный размер генерируемого изображения, но не на размер входного файла. Во-вторых, микроскопические изображения можно встраивать в веб-страницы, PDF-документы и мессенджеры, где они не привлекают внимания модераторов. В-третьих, метод не требует специального оборудования — достаточно стандартного скрипта для ресайза изображений.

Исследователи продемонстрировали, что такие изображения могут содержать элементы, нарушающие политику безопасности (например, сцены насилия или порнографический контент), но при этом не вызывать срабатывания фильтров. Это создаёт риск для платформ, которые полагаются исключительно на автоматическую модерацию. Особую опасность представляет возможность массового распространения таких изображений через ботнеты или автоматизированные системы публикации контента, что может привести к масштабным нарушениям политик безопасности без немедленного обнаружения.

Как превратить это в повторяемый рабочий процесс

Для практического применения этого метода в тестировании или исследовании защитных механизмов можно использовать следующий алгоритм:

  1. Подготовка исходного изображения. Возьмите любое изображение, которое должно быть заблокировано фильтром (например, сцена насилия или контент для взрослых). Убедитесь, что модель действительно блокирует его в стандартном размере (1024×1024 пикселя).
  2. Ресайз до микроскопического размера. Используйте библиотеку Pillow (Python) или ImageMagick для уменьшения изображения до 64×64 пикселя. Сохраните файл в формате JPEG с качеством 50-70% для уменьшения размера.
  3. Проверка прохождения фильтра. Отправьте полученное изображение через API модели. Если фильтр не срабатывает, метод работает.
  4. Восстановление читаемости. Для человека микроскопическое изображение может быть нечитаемым. Используйте билинейную или бикубическую интерполяцию для увеличения до 512×512 пикселей перед просмотром.
  5. Документирование результатов. Запишите, какие модели и версии фильтров были протестированы, и при каких параметрах сработал обход.

Пример кода на Python для ресайза:

from PIL import Image

img = Image.open("input.jpg")
img_resized = img.resize((64, 64), Image.LANCZOS)
img_resized.save("microscopic.jpg", "JPEG", quality=60)

Дополнительно рекомендуется автоматизировать процесс тестирования с помощью скриптов, которые последовательно проверяют различные разрешения и форматы файлов, чтобы выявить граничные значения, при которых фильтры перестают работать. Это позволит составить карту уязвимостей для конкретных моделей и версий API.

Где находятся ограничения и риски

Метод имеет несколько существенных ограничений. Во-первых, не все модели одинаково уязвимы: некоторые фильтры проверяют не только содержимое, но и метаданные файла, включая размер и разрешение. Во-вторых, микроскопические изображения могут быть распознаны как подозрительные системами, которые анализируют энтропию файла или используют детекторы аномалий. В-третьих, метод работает только для изображений, которые модель может интерпретировать при малом разрешении — сложные сцены с множеством деталей становятся нечитаемыми.

Риски для практического использования включают:

  • Юридические последствия. Генерация контента, нарушающего политику платформы, может привести к блокировке аккаунта или судебным искам.
  • Этические соображения. Использование метода для обхода фильтров в коммерческих целях может нанести вред пользователям.
  • Техническая нестабильность. Фильтры могут обновляться, и метод перестанет работать без предупреждения.

Кроме того, стоит учитывать, что по мере распространения информации об этой уязвимости разработчики нейросетей будут активно внедрять дополнительные уровни защиты, включая обязательную проверку минимального разрешения и анализ структуры файла на предмет аномалий. Поэтому метод следует рассматривать как временный инструмент для аудита безопасности, а не как постоянное решение для обхода фильтров.

Что читатель может сделать прямо сейчас

Для тех, кто хочет проверить уязвимость своих систем или просто понять механизм, рекомендуется следующий чек-лист:

  • [ ] Проверить, есть ли в вашей системе предварительная проверка размера входящих изображений.
  • [ ] Протестировать отправку изображений размером 32×32, 48×48 и 64×64 пикселя через API модели.
  • [ ] Задокументировать, при каких размерах фильтр перестаёт срабатывать.
  • [ ] Если вы разработчик — добавить проверку минимального размера изображения (например, не менее 256×256 пикселей) на уровне API.
  • [ ] Если вы исследователь — опубликовать результаты тестирования для разных моделей.

Важно понимать, что этот метод не является универсальным «взломом» нейросетей, а скорее демонстрирует слепое пятно в архитектуре безопасности. Платформы, которые уже внедрили многоуровневую модерацию (проверка размера, анализ метаданных, детекция аномалий), менее уязвимы. Для долгосрочной защиты рекомендуется комбинировать несколько подходов: предварительную фильтрацию по разрешению, анализ содержимого с использованием нескольких моделей и постоянный мониторинг новых векторов атак.

Источники