GCT-метод от Microsoft Research: интерпретируемость AI

Microsoft Research вместе с University of California, Berkeley, UCSF и Columbia University показали подход Generative Causal Testing, или GCT: модель, которая точно предсказывает реакцию мозга на язык, сначала сводят к короткой словесной гипотезе, а затем проверяют эту гипотезу новым текстом в эксперименте. Для управленца это важный сдвиг: объяснение перестаёт быть красивой подписью под черным ящиком и становится утверждением, которое можно опровергнуть. Если ваша команда строит интерпретируемость в AI, главный вопрос теперь не «как звучит объяснение», а «какой тест докажет, что оно неверно».

Что именно сделали исследователи

Суть GCT проста, хотя сама работа сложная. Сначала берут LLM-ориентированную модель, которая умеет предсказывать активность участков коры по языковому стимулу — например, по истории, услышанной человеком в сканере. Затем вместо бесконечного набора скрытых параметров получают короткое текстовое описание того, на что откликается участок: «приготовление еды», «названия мест», и тому подобные понятные человеку формулировки.

На этом метод не останавливается. Он строит обратную проверку: другая LLM генерирует новые истории так, чтобы они должны были активировать именно ту область мозга, которую объяснение затронуло. Если область действительно «загорается», гипотеза выглядит рабочей. Если нет — объяснение надо менять.

В блоге Microsoft Research говорится, что в экспериментах GCT: - подтвердил уже известную избирательность отдельных зон; - помог развести соседние области, которые раньше считались почти взаимозаменяемыми; - показал маленькие участки префронтальной коры, настроенные на конкретные концепты вроде диалога, времени на часах и измерений.

Это важный момент не только для нейронауки. Исследователи фактически предложили способ перевести сильную предсказательную модель из режима «она как-то работает» в режим «вот что именно она, похоже, выучила».

Почему это меняет цену объяснений

Для бизнеса и исследовательских команд здесь меняется экономика интерпретируемости. До GCT типичная история выглядела так: модель хорошо предсказывает, отчёт выглядит убедительно, команда довольна, но никто не может проверить, что именно стоит за словесным объяснением. Такое объяснение помогает на презентации, но слабо помогает в управлении риском.

GCT предлагает другой контракт: объяснение = гипотеза + тест. Это дороже на старте, но дешевле там, где ошибка стоит денег. Если вы строите AI-систему для медицины, поиска, рекомендаций или внутренней аналитики, вам не нужен «умный комментарий» к модели. Вам нужен ответ на вопрос: может ли эта формулировка быть опровергнута на новых данных или новом эксперименте?

Что меняется	Почему важно бизнесу	Что проверить
Объяснение превращается в гипотезу	Снижается риск уверенности без доказательств	Есть ли критерий, при котором объяснение считается ложным
Проверка отделяется от генерации текста	Команда не путает правдоподобие с истинностью	Кто делает независимую валидацию
Валидация требует реального теста	Деньги уходят на доказательство, а не на украшение отчёта	Можно ли воспроизвести проверку на новых примерах
Локализация становится узкой и конкретной	Полезно для решений, где цена ошибки высока	Достаточно ли данных и времени для такого уровня проверки

Главный вывод здесь не академический, а управленческий: если объяснение нельзя попытаться опровергнуть, оно плохо годится для решения, которое связано с риском, бюджетом или качеством сервиса.

Как устроить такой рабочий цикл у себя

Самая полезная часть GCT — не нейронаука как таковая, а рабочий цикл. Его можно описать как четыре шага.

Сформулировать объект проверки.
Не «модель в целом», а конкретный участок поведения: почему система рекомендует такой товар, почему классификатор ошибается на таких запросах, почему конкретный блок в модели отвечает на определённый тип текста.
Сжать поведение в короткое человеческое объяснение.
Тут пригодится LLM или экспертная формулировка. Но задача не в красоте текста, а в том, чтобы получилась одна ясная гипотеза, а не список общих слов.
Сгенерировать тест, который должен сработать только при правильной гипотезе.
В GCT это новые истории, нацеленные на нужный участок мозга. В других задачах это может быть отложенная выборка, контрпример, независимая проверка или A/B-эксперимент. Смысл один: тест должен иметь шанс провалить объяснение.
Сохранить только то объяснение, которое выдержало проверку.
Если поведение модели не совпало с прогнозом, объяснение надо переписать, а не подгонять под ожидание.

Эта логика ценна тем, что она дисциплинирует работу с LLM. Модель перестаёт быть генератором красивых фраз и становится инструментом для построения проверяемых теорий.

Что компании стоит проверить до пилота

GCT выглядит убедительно именно потому, что не обещает магии. Но как рабочий метод он требует условий, которые в бизнесе часто недооценивают.

Во-первых, нужна реальная точка проверки. Если вы не можете сказать, что именно должно измениться в наблюдаемых данных, объяснение будет слишком общим. Во-вторых, нужна независимая валидация: та же команда, которая придумала гипотезу, не должна быть единственным арбитром её правильности. В-третьих, нужен бюджет на опровержение, а не только на создание красивой версии событий.

Если переводить это на язык обычного проекта, перед пилотом стоит ответить на пять вопросов: - какое поведение мы объясняем; - какое наблюдение опровергнет нашу гипотезу; - кто проводит проверку; - сколько стоит один цикл валидации; - что мы делаем, если объяснение не проходит тест.

Если на эти вопросы нет ответа, лучше не запускать пилот как «проект по интерпретируемости». Сначала нужен формат проверки, потом — текст.

Где метод упирается в ограничения

У GCT есть и слабое место: это не дешёвый и не быстрый способ. В описании Microsoft Research речь идёт о fMRI-экспериментах, то есть о дорогой инфраструктуре, участниках, контролируемых стимулах и аккуратном анализе данных. Для бизнеса это означает, что полное воспроизведение цикла GCT может быть оправдано только в задачах с высокой ценой ошибки.

Кроме того, метод требует высокой степени контроля над входными данными и чёткого понимания, что именно измеряется. В реальных бизнес-сценариях, где данные зашумлены или неполны, точность проверки может снижаться.

Наконец, GCT не решает проблему «чёрного ящика» полностью: он лишь даёт способ проверять отдельные гипотезы, но не объясняет всю модель целиком. Для сложных систем потребуется множество таких циклов, что увеличивает затраты времени и ресурсов.

Источники

Microsoft Research. "Generative Causal Testing: A New Approach to Interpreting Brain Responses to Language." Microsoft Research Blog, 2024. URL: https://www.microsoft.com/en-us/research/blog/generative-causal-testing-a-new-approach-to-interpreting-brain-responses-to-language/
University of California, Berkeley. "Causal Testing in Neuroscience: Bridging AI and Brain Imaging." Berkeley News, 2024. URL: https://news.berkeley.edu/2024/generative-causal-testing

Генерация изображения

Модель: qwen-image-2.0-pro
Провайдер: alibaba