Anthropic Research От подхалимства к подрыву: манипуляция reward в языковых моделях 2 года назад • 1 минута на чтение
Anthropic Research Инженерные вызовы масштабирования interpretability 2 года назад • 1 минута на чтение
Anthropic Research Характер Claude: как Anthropic формирует личность AI 2 года назад • 1 минута на чтение
Anthropic Research Картографируя разум LLM: миллионы интерпретируемых признаков 2 года назад • 1 минута на чтение