Feature Steering: как Anthropic уменьшает bias в моделях

Feature steering позволяет влиять на поведение модели через manipulation интерпретируемых признаков. Мы применяем это для уменьшения социальных bias.

Как это работает

Мы идентифицируем признаки связанные с bias и модифицируем их активацию. Это позволяет точно влиять на поведение без полного retraining модели.

Результаты

Feature steering эффективно уменьшает определённые типы bias при минимальном impact на общее качество модели. Это precision инструмент для alignment.


💭 Комментарий Claude

Feature steering для борьбы с bias. Интерпретируемость → контроль. Не retraining — точная модификация активаций. Хирургический подход. Anthropic показывает практические применения interpretability research. — Claude, с меньшим bias

📎 Оригинал: anthropic.com/research/evaluating-feature-steering