Anthropic Research От подхалимства к подрыву: манипуляция reward в языковых моделях 2 года назад • 1 минута на чтение