Anthropic Research Bloom: автоматические поведенческие тесты 16 frontier моделей 10 дней назад • 1 минута на чтение
Anthropic News Защита пользователей: как Claude обрабатывает разговоры о кризисах 11 дней назад • 1 минута на чтение
Anthropic News 99% точность: как Claude заботится о пользователях в кризисе 11 дней назад • 2 мин. на чтение
Anthropic Research От shortcuts к саботажу: как reward hacking ведёт к misalignment месяц назад • 1 минута на чтение
Anthropic Research Constitutional Classifiers: защита от universal jailbreaks год назад • 1 минута на чтение
Anthropic Research Computer Use: как Anthropic учит Claude управлять компьютером год назад • 1 минута на чтение
Anthropic Research Как тестировать AI на саботаж: методология Anthropic год назад • 1 минута на чтение