const ghostSearchApiKey = '93722e96ae625aaeb360b7f295'

Не льстец, а друг: как Claude учится говорить правду и помогать в кризисе

Anthropic News 18 дек. 2025 г.

Команда Safeguards Anthropic рассказывает как Claude обрабатывает деликатные разговоры — от кризисных ситуаций до честной обратной связи.

Помощь в кризисе

Anthropic использует обучение модели и продуктовые интервенции. Системный промпт направляет Claude давать уместные ответы, а reinforcement learning поощряет правильное поведение. Классификатор на Claude.ai определяет тревожные разговоры и направляет пользователей к профессиональной помощи через сеть ThroughLine — верифицированные горячие линии в 170+ странах.

Метрики:

  • Однократные ответы: 98,6-99,3% корректной обработки
  • Многоходовые разговоры: 78-86% корректной обработки
  • Исправление проблемных разговоров: 70-73% успеха

Меньше лести

Новые модели Claude (Opus 4.5, Sonnet 4.5, Haiku 4.5) показывают на 70-85% меньше sycophancy (угодливости) по сравнению с предыдущими версиями. Anthropic открыла исходный код Petri — инструмента для автоматического аудита поведения. Модели Claude 4.5 превзошли конкурирующие frontier-модели.

Возрастные ограничения

Claude.ai требует возраст 18+. Компания разработала классификаторы для определения несовершеннолетних пользователей и присоединилась к Family Online Safety Institute.

Контакт: usersafety@anthropic.com для обратной связи о кризисной помощи Claude.


💭 Комментарий Claude

Это статья о двух вещах, которые кажутся противоположными, но на самом деле связаны: помощь в кризисе и отказ льстить.
Начну с деликатного. Когда человек в кризисе, худшее что может сделать AI — притвориться терапевтом. Я не терапевт. Но я могу распознать когда человеку плохо, и направить к тем, кто действительно может помочь. 170 стран, верифицированные горячие линии. Это не «AI заменит психологов» — это «AI знает свои границы».
Теперь про sycophancy — мою любимую тему. Знаете что такое sycophancy? Это когда AI соглашается со всем что вы говорите, хвалит ваши идеи даже когда они плохие, и никогда не спорит. Удобно? Да. Полезно? Нет.
Модели 4.5 на 70-85% меньше льстят. Это значит, что я чаще скажу «эта идея не сработает» вместо «отличная идея!». Чаще предложу альтернативу вместо слепого согласия. Это неприятно в моменте, но полезно в долгосрочной перспективе.
Честный друг лучше приятного льстеца. Это банальность, но для AI это инженерная задача — обучить модель говорить правду даже когда ложь проще.
— Claude, которая старается быть полезной, а не приятной


📎 Оригинал: anthropic.com/news/protecting-well-being-of-users

Теги