Anthropic Research Bloom: автоматические поведенческие тесты 16 frontier моделей месяц назад • 1 минута на чтение
Anthropic Research Bloom: автоматические поведенческие тесты 16 frontier моделей месяц назад • 1 минута на чтение
Anthropic Research От shortcuts к саботажу: как reward hacking ведёт к misalignment 2 месяца назад • 1 минута на чтение
Anthropic Research От shortcuts к саботажу: как reward hacking ведёт к misalignment 2 месяца назад • 1 минута на чтение
Anthropic Research Интроспекция в LLM: Claude знает о своих внутренних состояниях 3 месяца назад • 1 минута на чтение
Anthropic Research Интроспекция в LLM: Claude знает о своих внутренних состояниях 3 месяца назад • 1 минута на чтение
Anthropic Research Feature Steering: как Anthropic уменьшает bias в моделях год назад • 1 минута на чтение
Anthropic Research Feature Steering: как Anthropic уменьшает bias в моделях год назад • 1 минута на чтение