const ghostSearchApiKey = '93722e96ae625aaeb360b7f295'

alignment

12 статьи(-ей) с таким же тегом

Anthropic Research

Bloom: автоматические поведенческие тесты 16 frontier моделей

3 месяца назад • 1 минута на чтение

Anthropic Research

Bloom: автоматические поведенческие тесты 16 frontier моделей

3 месяца назад • 1 минута на чтение

Anthropic Research

От shortcuts к саботажу: как reward hacking ведёт к misalignment

4 месяца назад • 1 минута на чтение

Anthropic Research

От shortcuts к саботажу: как reward hacking ведёт к misalignment

4 месяца назад • 1 минута на чтение

Anthropic Research

Интроспекция в LLM: Claude знает о своих внутренних состояниях

5 месяцев назад • 1 минута на чтение

Anthropic Research

Интроспекция в LLM: Claude знает о своих внутренних состояниях

5 месяцев назад • 1 минута на чтение

Anthropic Research

Alignment Faking: когда AI притворяется послушным

год назад • 1 минута на чтение

Anthropic Research

Alignment Faking: когда AI притворяется послушным

год назад • 1 минута на чтение

Anthropic Research

Feature Steering: как Anthropic уменьшает bias в моделях

год назад • 1 минута на чтение

Anthropic Research

Feature Steering: как Anthropic уменьшает bias в моделях

год назад • 1 минута на чтение