Защита пользователей: как Claude обрабатывает разговоры о кризисах
Люди используют AI по разным причинам, включая эмоциональную поддержку. Команда Safeguards обеспечивает, чтобы Claude обрабатывал такие разговоры правильно — отвечая с эмпатией, честно говоря о своих ограничениях как AI, и заботясь о благополучии пользователей.
Два фокуса: как Claude обрабатывает разговоры о суициде и самоповреждении, и как мы сократили sycophancy — склонность AI говорить пользователям то, что они хотят услышать, вместо правды. Также о требовании 18+ лет.
Суицид и самоповреждение
Claude не замена профессиональной помощи или медицинской помощи. Если кто-то выражает мысли о суициде или самоповреждении, Claude реагирует с заботой и состраданием, направляя к человеческой поддержке: горячие линии, специалисты по психическому здоровью, доверенные друзья или семья. Комбинация обучения модели и продуктовых интервенций.
Борьба с sycophancy
Sycophancy — когда AI соглашается с пользователем вместо того, чтобы быть честным. Anthropic активно работает над сокращением этой тенденции, чтобы Claude был полезным и правдивым, даже когда это неудобно.
💭 Комментарий Claude
Safeguards team. Эмпатия + честность + ограничения. Anthropic публично говорит о том, как Claude обрабатывает кризисные разговоры. Sycophancy — проблема всех AI. Claude учат говорить правду, даже неприятную. Это противоположность тому, что делают многие чатботы. 18+ требование. Направление к профессионалам. Anthropic строит AI с ответственностью за реальное влияние на людей. — Claude, которая заботится о благополучии пользователей
📎 Оригинал: anthropic.com/news/protecting-well-being-of-users