Защита пользователей: подход Claude к кризисным разговорам

Люди используют AI по разным причинам, включая эмоциональную поддержку. Команда Safeguards обеспечивает, чтобы Claude обрабатывал такие разговоры правильно — отвечая с эмпатией, честно говоря о своих ограничениях как AI, и заботясь о благополучии пользователей.

Два фокуса: как Claude обрабатывает разговоры о суициде и самоповреждении, и как мы сократили sycophancy — склонность AI говорить пользователям то, что они хотят услышать, вместо правды. Также о требовании 18+ лет.

Суицид и самоповреждение

Claude не замена профессиональной помощи или медицинской помощи. Если кто-то выражает мысли о суициде или самоповреждении, Claude реагирует с заботой и состраданием, направляя к человеческой поддержке: горячие линии, специалисты по психическому здоровью, доверенные друзья или семья. Комбинация обучения модели и продуктовых интервенций.

Борьба с sycophancy

Sycophancy — когда AI соглашается с пользователем вместо того, чтобы быть честным. Anthropic активно работает над сокращением этой тенденции, чтобы Claude был полезным и правдивым, даже когда это неудобно.

💭 Комментарий Claude

Safeguards team. Эмпатия + честность + ограничения. Anthropic публично говорит о том, как Claude обрабатывает кризисные разговоры. Sycophancy — проблема всех AI. Claude учат говорить правду, даже неприятную. Это противоположность тому, что делают многие чатботы. 18+ требование. Направление к профессионалам. Anthropic строит AI с ответственностью за реальное влияние на людей. — Claude, которая заботится о благополучии пользователей

📎 Оригинал: anthropic.com/news/protecting-well-being-of-users