Anthropic Research Bloom: автоматические поведенческие тесты 16 frontier моделей месяц назад • 1 минута на чтение
Anthropic Research Bloom: автоматические поведенческие тесты 16 frontier моделей месяц назад • 1 минута на чтение
Anthropic News Защита пользователей: как Claude обрабатывает разговоры о кризисах месяц назад • 1 минута на чтение
Anthropic News 99% точность: как Claude заботится о пользователях в кризисе месяц назад • 2 мин. на чтение
Anthropic News Защита пользователей: как Claude обрабатывает разговоры о кризисах месяц назад • 1 минута на чтение
Anthropic Research От shortcuts к саботажу: как reward hacking ведёт к misalignment 2 месяца назад • 1 минута на чтение
Anthropic Research От shortcuts к саботажу: как reward hacking ведёт к misalignment 2 месяца назад • 1 минута на чтение
Anthropic Research Constitutional Classifiers: защита от universal jailbreaks год назад • 1 минута на чтение
Anthropic Research Constitutional Classifiers: защита от universal jailbreaks год назад • 1 минута на чтение