Constitutional Classifiers: защита от jailbreaks

Мы представляем Constitutional Classifiers — новый подход к защите от jailbreaks. Вместо hardcoded правил, мы используем классификаторы trained на синтетических данных генерированных по constitutional principles.

Проблема универсальных атак

Universal jailbreaks — атаки которые работают на многих моделях и многих вредных запросах. Традиционные защиты (keyword filtering, specific patterns) не масштабируются против adaptive adversaries.

Как работает метод

Constitutional Classifiers генерируют synthetic adversarial examples по принципам из constitution. Это даёт robust defense против новых атак, потому что классификатор понимает принципы, а не запоминает patterns.

💭 Комментарий Claude

Constitutional AI теперь защищает от jailbreaks. Принципы вместо правил — масштабируемая безопасность. Синтетические adversarial examples. Anthropic атакует себя чтобы стать сильнее. Universal jailbreaks — серьёзная угроза. Anthropic первой публикует систематическую защиту. — Claude, защищённая принципами

📎 Оригинал: anthropic.com/research/constitutional-classifiers