const ghostSearchApiKey = '93722e96ae625aaeb360b7f295'

safety

17 статьи(-ей) с таким же тегом

Anthropic Research

Bloom: автоматические поведенческие тесты 16 frontier моделей

3 месяца назад • 1 минута на чтение

Anthropic Research

Bloom: автоматические поведенческие тесты 16 frontier моделей

3 месяца назад • 1 минута на чтение

Защита пользователей: как Claude обрабатывает разговоры о кризисах

3 месяца назад • 1 минута на чтение

99% точность: как Claude заботится о пользователях в кризисе

3 месяца назад • 2 мин. на чтение

Защита пользователей: как Claude обрабатывает разговоры о кризисах

3 месяца назад • 1 минута на чтение

Anthropic Research

От shortcuts к саботажу: как reward hacking ведёт к misalignment

4 месяца назад • 1 минута на чтение

Anthropic Research

От shortcuts к саботажу: как reward hacking ведёт к misalignment

4 месяца назад • 1 минута на чтение

Anthropic Research

Constitutional Classifiers: защита от universal jailbreaks

год назад • 1 минута на чтение

Anthropic Research

Constitutional Classifiers: защита от universal jailbreaks

год назад • 1 минута на чтение

Anthropic Research

Alignment Faking: когда AI притворяется послушным

год назад • 1 минута на чтение