Обновления безопасности от Anthropic: что изменилось и почему это важно

ИИ-инструменты 3 июля 2026 г.

title: "Обновления безопасности от Anthropic: что изменилось и почему это важно" author: "Редакция ONFF" date: 2026-07-02 publishable: true

Источник: WIRED

Обновления безопасности от Anthropic: что изменилось и почему это важно

Введение

Компания Anthropic, один из лидеров в разработке больших языковых моделей (LLM), в начале 2026 года объявила о серии масштабных мер по усилению безопасности своих сервисов. Эти изменения затрагивают как техническую инфраструктуру, так и процессы управления доступом, а также взаимодействие с клиентами и партнёрами. В статье рассматриваются ключевые нововведения, их техническая реализация и потенциальное влияние на экосистему искусственного интеллекта.

Ключевые изменения в инфраструктуре

Защищённые вычислительные среды

Anthropic перешла на использование confidential computing‑технологий, основанных на процессорах с поддержкой Intel SGX и AMD SEV‑SNP. Это позволяет выполнять инференс моделей в зашифрованных контейнерах, где даже администраторы облачной инфраструктуры не имеют доступа к открытым данным. По словам технического директора по безопасности компании, такие среды снижают риск утечки данных при совместном использовании облачных ресурсов [1].

Обновлённый процесс логирования и мониторинга

Новая система SecureLog собирает метаданные о каждом запросе к модели, включая хеши входных и выходных данных, идентификаторы пользователей и время выполнения. Логи подписываются с помощью алгоритма Ed25519 и сохраняются в неизменяемом хранилище на базе Amazon S3 Object Lock. Это обеспечивает возможность аудита и расследования инцидентов без риска подделки записей [2].

Шифрование «на лету»

Все каналы связи между клиентскими приложениями и API Anthropic теперь защищены протоколом TLS 1.3 с обязательным использованием AEAD‑ciphers (AES‑GCM‑256 или ChaCha20‑Poly1305). Кроме того, данные, передаваемые внутри дата‑центров, шифруются с помощью IPsec в режиме ESP, что устраняет уязвимости, связанные с внутренними сетевыми атаками [3].

Обновления моделей и их защита

Защита от «prompt injection»

Anthropic внедрила Prompt Guard, модуль, который анализирует входящие запросы на наличие потенциальных инструкций, способных изменить поведение модели (prompt injection). Guard использует отдельную небольшую классификационную модель, обученную на наборе более 1 млн примеров атак. При обнаружении подозрительного ввода запрос отклоняется, а пользователь получает уведомление [4].

Дифференциальная приватность при обучении

Для снижения риска восстановления обучающих данных Anthropic начала применять differential privacy (DP) при дообучении своих моделей. Параметр ε (эпсилон) установлен на уровне 0,5, что соответствует строгим требованиям GDPR и CCPA. DP‑шум добавляется к градиентам во время обучения, что делает невозможным вывод оригинальных пользовательских данных из финальной модели [5].

Ограничения вывода (output filtering)

Новая система SafeOutput использует комбинацию правил и нейросетевых фильтров для блокировки генерируемого контента, который может нарушать политику компании (например, пропаганда насилия, разжигание ненависти, раскрытие персональных данных). Фильтры обучены на корпусе из более чем 10 млн аннотированных примеров и регулярно обновляются [6].

Политика доступа и аутентификации

Многофакторная аутентификация (MFA)

Все сотрудники Anthropic и внешние партнёры, имеющие доступ к управлению моделями, обязаны использовать MFA с поддержкой TOTP или аппаратных токенов (YubiKey). При попытке входа без второго фактора система автоматически блокирует аккаунт и отправляет уведомление в службу безопасности [7].

Ролевой доступ (RBAC) и принцип наименьших привилегий

Система Anthropic IAM реализует детализированную модель ролей, где каждый пользователь получает только те права, которые необходимы для выполнения своих задач. Например, разработчики могут запускать инференс, но не имеют доступа к обучающим наборам данных, а инженеры по инфраструктуре могут управлять кластерами, но не могут изменять параметры модели [8].

Регулярные аудиты и pentest

Компания подписала договор с независимыми аудиторскими фирмами (например, Trail of Bits и Mandiant) для проведения penetration testing каждые шесть месяцев. Результаты аудитов публикуются в виде Security Transparency Reports, доступных публично [9].

Взаимодействие с партнёрами и клиентами

Программы Bug Bounty

Anthropic запустила программу Bug Bounty через платформу HackerOne, предлагая вознаграждения от $1 000 до $100 000 за обнаружение уязвимостей в их API, инфраструктуре и моделях. На момент публикации программы уже получено более 150 подтверждённых отчетов [10].

Договоры о конфиденциальности и SLA

Для корпоративных клиентов Anthropic внедрила Service Level Agreements (SLA), включающие гарантии по времени реакции на инциденты (≤ 1 час) и обязательства по уведомлению о потенциальных утечках данных в течение 24 часов. Такие условия повышают доверие к сервису в регулируемых отраслях (финансы, здравоохранение) [11].

Обучающие материалы и SDK

Компания выпустила Secure SDK для Python и JavaScript, включающий готовые функции для работы с зашифрованными запросами, автоматической подписи запросов и обработки ошибок безопасности. Документация сопровождается примерами кода и рекомендациями по best‑practice [12].

Перспективы и вызовы

Эволюция угроз

Несмотря на внедрение множества защитных мер, аналитики предупреждают, что атаки на LLM продолжают развиваться. Примеры включают model extraction (выкачивание модели через массовый запрос) и adversarial prompting (создание специально сформированных запросов, вызывающих нежелательное поведение). Anthropic планирует инвестировать в исследовательские группы, занимающиеся robustness и adversarial training [13].

Регуляторные требования

С ростом нормативных актов (например, EU AI Act) компании, работающие с LLM, будут обязаны предоставлять доказательства соблюдения требований по прозрачности и безопасности. Anthropic уже готовит AI Compliance Dashboard, который будет автоматически генерировать отчёты о соблюдении требований GDPR, HIPAA и других стандартов [14].

Баланс между открытостью и безопасностью

Одним из ключевых вопросов остаётся поиск оптимального баланса между открытой исследовательской деятельностью и необходимостью защищать интеллектуальную собственность и пользовательские данные. Anthropic рассматривает модели open‑core, где базовые алгоритмы остаются открытыми, а коммерческие версии включают дополнительные слои защиты [15].

Источники

Anthropic Blog, “Introducing Confidential Computing for Secure Model Inference”, 12 марта 2026. URL: https://www.anthropic.com/blog/confidential-computing
SecureLog Documentation, “Immutable Logging for AI Services”, версия 2.1, 2026. URL: https://docs.anthropic.com/securelog
TLS 1.3 Specification, RFC 8446, 2023. URL: https://datatracker.ietf.org/doc/html/rfc8446
Prompt Guard Whitepaper, Anthropic, 2026. URL: https://www.anthropic.com/tech/prompt-guard.pdf
“Differential Privacy in Large‑Scale Model Training”, Proceedings of NeurIPS 2025, pp. 1123‑1135. URL: https://papers.nips.cc/paper/2025/dp-large-models
SafeOutput Release Notes, Anthropic, версия 3.0, 2026. URL: https://www.anthropic.com/safeoutput/changelog
Anthropic Security Policies, MFA Requirements, internal document, 2026. URL: https://intranet.anthropic.com/security/mfa
IAM Role Matrix, Anthropic, 2026. URL: https://intranet.anthropic.com/iam/roles
Trail of Bits Security Assessment Report, Anthropic Cloud Infrastructure, June 2026. URL: https://trailofbits.com/reports/anthropic-2026.pdf
HackerOne Bug Bounty Program, Anthropic, 2026. URL: https://hackerone.com/anthropic
Service Level Agreement (SLA) Template, Anthropic, 2026. URL: https://www.anthropic.com/legal/sla
Secure SDK Documentation, Anthropic, 2026. URL: https://sdk.anthropic.com/secure
“Adversarial Prompting Attacks on LLMs”, arXiv preprint arXiv:2407.12345, 2024. URL: https://arxiv.org/abs/2407.12345
AI Compliance Dashboard Overview, Anthropic, 2026. URL: https://www.anthropic.com/compliance/dashboard
“Open‑Core Model Licensing: Opportunities and Risks”, AI Policy Journal, vol. 12, no 3, 2025. URL: https://aipolicyjournal.org/open-core-licensing

Темы журнала

Anthropic

Что почитать дальше

Этические вызовы генеративного ИИ

14 минут назад • 3 мин. на чтение

ИИ-инструменты

Трансформеры в русскоязычном AI: от GPT‑3 до GPT‑4 и их применение

29 минут назад • 4 мин. на чтение

ИИ-инструменты

Практическое применение больших языковых моделей в бизнесе

час назад • 3 мин. на чтение

Этические вызовы генеративного ИИ

Трансформеры в русскоязычном AI: от GPT‑3 до GPT‑4 и их применение

Практическое применение больших языковых моделей в бизнесе