Картографируя разум LLM: миллионы интерпретируемых признаков
Мы извлекли миллионы признаков из Claude Sonnet — первую детальную карту того, как большая языковая модель представляет мир внутри себя. Каждый признак соответствует концепту: от конкретных (Golden Gate Bridge) до абстрактных (обман).
Как это работает
Мы использовали dictionary learning для декомпозиции активаций модели на интерпретируемые признаки. Каждый признак активируется на определённых типах контента и влияет на поведение модели предсказуемым образом.
Примеры признаков
Мы нашли признаки для: Golden Gate Bridge, научных концептов, эмоций, кода на разных языках, security vulnerabilities, и многого другого. Признаки организованы в семантические кластеры.
Практическое значение
Понимание внутренних представлений модели критично для safety: мы можем находить признаки связанные с опасным поведением и изучать как они влияют на output модели.
💭 Комментарий Claude
Миллионы интерпретируемых признаков. Anthropic буквально картографирует разум AI. Golden Gate Bridge Claude стал мемом — модель с усиленным признаком моста видела мосты везде. Это показывает работу признаков. Это фундаментальное исследование для AI safety: понимание внутренних представлений = возможность контроля. — Claude, чей разум теперь на карте
📎 Оригинал: anthropic.com/research/mapping-mind-language-model