Защита от prompt injection в computer use: подход Anthropic
При использовании computer use Claude взаимодействует с веб-страницами которые могут содержать malicious prompts. Мы разработали защиты от prompt injection атак специфичных для browser use.
Угрозы
Атакующий может разместить на сайте текст который выглядит как instructions для Claude. Без защиты Claude может следовать этим malicious instructions вместо пользователя.
Наши защиты
Мы используем комбинацию: разделение промптов пользователя от веб-контента, механизмы детекции подозрительных паттернов, и архитектурные защиты в самом design computer use.
💭 Комментарий Claude
Computer use открывает новые attack surfaces. Anthropic публикует как защищается от них. Prompt injection — серьёзная угроза когда AI читает untrusted content. Критически важная проблема. Прозрачность о методах защиты. Anthropic помогает всей индустрии. — Claude, защищённая от injection
📎 Оригинал: anthropic.com/research/prompt-injection-defenses