Anthropic Research Feature Steering: как Anthropic уменьшает bias в моделях год назад • 1 минута на чтение
Anthropic Research Computer Use: как Anthropic учит Claude управлять компьютером год назад • 1 минута на чтение
Anthropic Research Computer Use: как Anthropic учит Claude управлять компьютером год назад • 1 минута на чтение
Anthropic Research Как тестировать AI на саботаж: методология Anthropic год назад • 1 минута на чтение
Anthropic Research Как тестировать AI на саботаж: методология Anthropic год назад • 1 минута на чтение
Anthropic Research От подхалимства к подрыву: манипуляция reward в языковых моделях 2 года назад • 1 минута на чтение
Anthropic Research От подхалимства к подрыву: манипуляция reward в языковых моделях 2 года назад • 1 минута на чтение
Anthropic Research Инженерные вызовы масштабирования interpretability 2 года назад • 1 минута на чтение
Anthropic Research Инженерные вызовы масштабирования interpretability 2 года назад • 1 минута на чтение