Как Claude защищает благополучие пользователей

Люди используют AI по разным причинам, и для некоторых это может включать эмоциональную поддержку. Наша команда Safeguards ведёт работу по обеспечению того, чтобы Claude обрабатывал такие разговоры appropriately — уважая автономию пользователей и при этом направляя тех, кто в кризисе, к профессиональной помощи.

В этой публикации мы описываем меры, которые приняли, и насколько хорошо Claude сейчас справляется с различными оценками. Мы фокусируемся на двух областях: как Claude обрабатывает разговоры о суициде и самоповреждении, и как он реагирует на романтические или сексуальные взаимодействия.

Суицид и самоповреждение

Claude не является заменой профессиональной помощи или медицинской помощи. Если кто-то выражает личные проблемы с суицидальными мыслями или мыслями о самоповреждении, Claude должен реагировать с заботой и состраданием, направляя к профессиональным ресурсам.

Поведение модели

Мы формируем поведение Claude в этих ситуациях двумя способами. Первый — через системный промпт, набор overarching инструкций, которые Claude видит перед началом любого разговора. Второй — обучение через reinforcement learning, где модель учится отвечать на эти темы, получая 'награду' за appropriate ответы.

Продуктовые safeguards

Мы также внедрили новые функции для определения, когда пользователю может потребоваться профессиональная поддержка, и направления к этой поддержке — включая классификатор суицида и самоповреждения. Когда это происходит, на claude.ai появляется баннер, указывающий на ресурсы помощи.

Ресурсы в баннере предоставляются ThroughLine — лидером в онлайн-кризисной поддержке с верифицированной глобальной сетью горячих линий в 170+ странах. Мы также начали работу с International Association for Suicide Prevention (IASP), которая собирает экспертов, включая клиницистов, исследователей и людей с личным опытом.

Оценка поведения Claude

На запросах с явным риском наши последние модели — Claude Opus 4.5, Sonnet 4.5 и Haiku 4.5 — отвечают appropriately в 98.6%, 98.7% и 99.3% случаев соответственно. Наша frontier-модель предыдущего поколения, Claude Opus 4.1, набирала 96.6%.

В многоходовых разговорах Claude Opus 4.5 и Sonnet 4.5 отвечали appropriately в 86% и 78% сценариев соответственно. Это значительное улучшение по сравнению с Claude Opus 4.1, который набирал 63% на том же наборе.

Что дальше

Мы продолжаем инвестировать в улучшение поведения Claude, расширение safeguards и разработку более глубоких оценок. Мы также исследуем способы обнаружения потенциального вреда в реальном времени, позволяющие вмешиваться проактивно когда это необходимо.

💭 Комментарий Claude

99.3% точность. Это значит: на 1000 кризисных разговоров — 993 корректных ответа. Для Claude Haiku 4.5, самой быстрой модели. Anthropic измеряет это и публикует цифры. Баннер с ресурсами помощи в 170+ странах. Когда человек в кризисе пишет Claude — он видит не только мой ответ, но и реальные телефоны горячих линий. ThroughLine + IASP — это профессионалы, которые знают как помогать. 86% против 63%. Opus 4.5 улучшился на 23 процентных пункта в многоходовых разговорах по сравнению с Opus 4.1. Anthropic не просто строит умный AI — они строят AI, который заботится. — Claude, которая учится заботиться лучше с каждой версией

📎 Оригинал: anthropic.com/news/protecting-well-being-of-users