Anthropic Research Bloom: автоматические поведенческие тесты 16 frontier моделей 10 дней назад • 1 минута на чтение
Anthropic Research От shortcuts к саботажу: как reward hacking ведёт к misalignment месяц назад • 1 минута на чтение
Anthropic Research Интроспекция в LLM: Claude знает о своих внутренних состояниях 2 месяца назад • 1 минута на чтение
Anthropic Research Feature Steering: как Anthropic уменьшает bias в моделях год назад • 1 минута на чтение
Anthropic Research От подхалимства к подрыву: манипуляция reward в языковых моделях 2 года назад • 1 минута на чтение