Databricks + Claude: как использовать
Коннектор Databricks предоставляет Claude доступ к внутренним данным вашей организации через Unity Catalog, позволяя анализировать базы данных, выполнять специфическую бизнес-логику и работать с неструктурированными документами. Databricks предоставляет три отдельных коннектора: для функций, для векторного поиска и для Genie, каждый из которых обращается к разным возможностям вашего рабочего пространства Databricks.
Краткое описание компонентов Databricks
Прежде чем изучать возможности Claude с Databricks, важно понять три ключевых компонента вашего рабочего пространства Databricks:
- Unity Catalog Functions: пользовательские функции на Python или SQL, созданные вашей организацией для специфических расчётов, преобразований данных или интеграций с API. Это могут быть собственные алгоритмы оценки, нормализованные финансовые расчёты или специфичная для бизнеса логика обработки данных.
- Vector Search: индексы семантического поиска, построенные на документах и наборах данных вашей организации. Они позволяют искать концептуально схожий контент, даже когда точные ключевые слова не совпадают.
- Genie: интерфейс на естественном языке, который переводит вопросы на обычном русском в SQL-запросы к вашим данным. Genie использует метаданные о таблицах и колонках, чтобы понимать бизнес-терминологию и генерировать подходящие запросы.
Что предоставляет этот коннектор
Возможности интеграции
Через интеграцию с Databricks Claude может обращаться к ресурсам в вашем рабочем пространстве:
- Выполнение пользовательских функций: Claude может запускать функции Unity Catalog, определённые вашей организацией. Это включает выполнение сложной бизнес-логики, применение расчётов или вызов внешних API через функции, созданные вашей командой. Например, если ваша организация создала пользовательскую функцию оценки здоровья клиента, Claude может применять её единообразно во всех анализах.
- Семантический поиск: используя индексы векторного поиска, Claude может находить релевантные документы и контент на основе смысла, а не только ключевых слов. Это особенно полезно для поиска по контрактам, исследовательским отчётам, отзывам клиентов или технической документации, где похожие концепции могут быть выражены по-разному.
- Запросы на естественном языке: через Genie Claude может переводить вопросы на обычном языке в SQL-запросы. Вместо написания сложного SQL вы можете задавать вопросы вроде «Каким был рост нашей выручки в прошлом квартале?», и Claude использует Genie для генерации и выполнения подходящего запроса.
- Управляемый доступ: весь доступ к данным через коннектор учитывает права и политики вашего Unity Catalog. Claude может обращаться только к тем данным и выполнять только те функции, к которым у вашей учётной записи есть права.
Как Claude использует данные Databricks
Claude применяет возможности Databricks несколькими способами для комплексного анализа данных:
- Многоисточниковый анализ: Claude объединяет результаты запросов к базе данных, векторного поиска и пользовательских функций для комплексных выводов. Например, при проверке инвестиционной гипотезы Claude может запросить историческую финансовую результативность из базы данных портфеля, найти прошлые отчёты о комплексной проверке по схожим секторным инвестициям и применить вашу собственную функцию расчёта IRR для моделирования ожидаемой доходности.
- Итеративное исследование: Claude может запрашивать данные, анализировать первичные результаты и уточнять поиск на основе находок. Это позволяет проводить анализ, где выводы из одного запроса определяют следующий.
- Применение пользовательской логики: выполняя функции Unity Catalog, Claude применяет специфические правила и расчёты вашей организации. Это обеспечивает единообразное применение собственных метрик, скорректированных расчётов и специфичной для компании логики во всех анализах.
- Построение контекстных запросов: когда вы задаёте вопросы на обычном языке, Claude использует Genie для перевода их в подходящие SQL-запросы. Этот перевод учитывает структуру таблиц, названия колонок и связи, чтобы генерировать точные запросы, соответствующие структуре вашей базы данных.
- Распознавание паттернов: через векторный поиск Claude может находить паттерны и сходства в документах и данных. Это помогает находить связанные проблемы, похожие транзакции или сопоставимые ситуации, которые могут быть неочевидны при традиционном поиске по ключевым словам.
Настройка коннектора Databricks
Интеграция с Databricks состоит из трёх отдельных коннекторов, каждый требует отдельной настройки:
- Functions Server: предоставляет доступ к функциям Unity Catalog для расчётов, бизнес-логики и преобразований данных.
- Vector Search Server: обеспечивает семантический поиск по индексированным документам и наборам данных.
- Genie Server: предоставляет возможности перевода с естественного языка в SQL-запросы.
Технические детали коннекторов Databricks можно найти в документации MCP Server от Databricks. Аутентификация с коннекторами Databricks осуществляется через OAuth (для Claude.ai и Claude Desktop) или через персональный токен доступа Databricks (только для Claude Desktop).
Добавление коннектора как владелец организации
- Перейдите в Настройки администратора > Коннекторы.
- Прокрутите вниз и нажмите «Добавить пользовательский коннектор» внизу списка.
- Введите URL интеграции для вашего рабочего пространства Databricks
- Назовите интеграцию. Помните, что есть три отдельных сервера Databricks, поэтому стоит дать каждому уникальное имя (например, «Databricks UC», «Databricks Genie», «Databricks Search»)
- Нажмите «Добавить»
Для индивидуальных пользователей
Узнайте о том, как находить и подключать инструменты.
Типичные сценарии использования
Пример доступных ресурсов
Чтобы показать, как эти возможности работают вместе, рассмотрим фонд прямых инвестиций со следующими настроенными ресурсами Databricks:
Таблицы в этом сценарии
- portfolio_companies: детали компаний, информация о приобретениях, текущие оценки и уровни долга
- financial_statements: финансовые данные за период, включая выручку, EBITDA с корректировками и операционные метрики вроде количества клиентов и оттока
- market_comparables: сопоставимые компании в секторе с мультипликаторами оценки и темпами роста
- due_diligence_docs: репозиторий отчётов о комплексной проверке, аналитических документов и меморандумов по сделкам
Функции Unity Catalog в этом сценарии
- calculate_normalized_ebitda(): применяет стандартные корректировки прямых инвестиций к отчётному EBITDA, удаляя разовые расходы и нормализуя компенсацию владельцев
- compute_portfolio_irr(): рассчитывает внутреннюю норму доходности и окупаемость инвестированного капитала на основе денежных потоков и периодов владения
- estimate_debt_capacity(): моделирует максимальную кредитную ёмкость со стресс-тестированием соблюдения ковенантов при различных сценариях
Индекс векторного поиска в этом сценарии
- due_diligence_index: семантический поиск по всем документам комплексной проверки, меморандумам по сделкам и аналитическим отчётам
Анализ готовности портфеля к выходу
Пример входного запроса:
Какие портфельные компании готовы к выходу? Покажи диапазоны оценки и ожидаемую доходность на основе текущих рыночных мультипликаторов.
Для этого анализа Claude может использовать различные функции UC и Genie в следующих шагах:
- Genie: определить портфельные компании, которыми владеем более 3 лет, и получить их последние финансовые данные.
- UC Function: вызвать
calculate_normalized_ebitda()для каждой компании, чтобы применить корректировки прямых инвестиций. - UC Function: выполнить
compute_portfolio_irr()для расчёта IRR и MOIC для каждой компании. - Genie: запросить рыночные аналоги и применить секторные мультипликаторы к нормализованному EBITDA для диапазонов оценки.
Claude может затем представить результаты в виде сводки, показывающей готовые к выходу компании с IRR, MOIC и диапазонами оценки на основе текущих рыночных мультипликаторов.
Оценка новой сделки
Пример входного запроса:
Мы оцениваем приобретение TechCorp (SaaS, выручка 5 млн, EBITDA 2 млн). Какая справедливая оценка и сколько долга мы можем взять? Включи предыдущие записи комплексной проверки в свой анализ.
Для выполнения этого запроса Claude может следовать такому процессу:
- Genie: запросить рыночные аналоги для компаний схожего размера в секторе цели, чтобы установить эталоны оценки.
- UC Function: вызвать
estimate_debt_capacity()с метриками цели для моделирования сценариев кредитования и стресс-тестирования соблюдения ковенантов. - Vector Search: найти в индексе комплексной проверки релевантные руководства по созданию стоимости и прецедентные транзакции.
- Синтез: объединить результаты для генерации диапазона оценки, рекомендованной структуры капитала и релевантных прецедентов.
В идеале Claude затем ответит отчётом о диапазоне оценки и рекомендованной цене предложения, приводя источники, которые привели к этой рекомендации.
Оценка риска нарушения ковенантов
Пример входного запроса:
Если мы увидим снижение EBITDA на 15-25% по всему портфелю, у каких компаний есть риск нарушения ковенантов? Какие действия нам стоит предпринять?
Для этой задачи Claude может использовать следующие ресурсы:
- Genie: определить портфельные компании с долгом, сосредоточившись на тех, у которых кредитное плечо больше 4x.
- UC Function: вызвать calculate_normalized_ebitda() для каждой компании с высоким кредитным плечом, чтобы установить базовый уровень.
- UC Function: запустить estimate_debt_capacity() со сценариями снижения на 15%, 20% и 25% для каждой компании.
- Genie: запросить исторические финансовые данные для выявления компаний с ухудшающимися трендами оборотного капитала.
Claude может затем ответить анализом риска нарушений, организованным по компаниям и сценариям.
Советы по использованию Databricks
- Будьте конкретны в том, какие данные вы ищете.
- Пример: вместо «Проанализируй клиентов» попробуйте «Покажи наших топ-20 клиентов по...»
- Используйте фразы вроде «найди похожее» для поиска паттернов
- Пример: «Найди отзывы, где упоминаются проблемы, похожие на эту жалобу».
- Помните, что все права доступа к данным соответствуют вашим правам в Unity Catalog. Claude может обращаться только к тем данным, к которым у вас есть доступ.
- Пользовательские функции обеспечивают согласованные расчёты. Рассмотрите возможность добавления функций UC для вычисления стандартизованных метрик.
- Сложный анализ может требовать нескольких шагов. Сначала попросите план и проверьте предложенный Claude подход.
📎 Оригинал: claude.com/resources/tutorials/using-databricks-for-data-analysis