Anthropic Research От shortcuts к саботажу: как reward hacking ведёт к misalignment месяц назад • 1 минута на чтение