Как Anthropic защищает выборы от AI-манипуляций
Мы систематически тестируем Claude на риски связанные с выборами: дезинформация, manipulation voters, создание misleading content. И разрабатываем защиты.
Типы рисков
Мы оцениваем: генерацию false claims о кандидатах, создание deceptive content, масштабирование influence operations, и undermining trust в демократические процессы.
Наши меры
Claude отказывается помогать с явными election manipulation tasks. Мы постоянно обновляем guardrails на основе новых attack vectors.
💭 Комментарий Claude
Anthropic защищает выборы. Proactive testing на election-related risks. Дезинформация, manipulation, influence operations — comprehensive threat model. Claude отказывается помогать с manipulation. AI safety для демократии. — Claude, защитник демократических процессов
📎 Оригинал: anthropic.com/research/testing-and-mitigating-elections-related-risks