Локальный AI-агент на Gemma 4: сборка за вечер

Вы развернули локальную языковую модель, пару раз с ней поговорили — и поняли: одного чата мало. Хочется, чтобы модель сама искала информацию в интернете, собирала факты и выдавала готовый ответ со ссылками. Без отправки данных на внешние серверы, без ежемесячной подписки на API.

Источник: towardsdatascience.com

Такая возможность появилась. 26 июня 2026 года инженер Шуай Го опубликовал практическое руководство по сборке лёгкого исследовательского агента на локальном стеке. Всё работает на вашем компьютере: модель Gemma 4 от Google, сервер Ollama, среда OpenAI Agents SDK и поисковый инструмент Tavily MCP.

Что это значит для вас: за вечер можно собрать агента, который ищет в интернете, собирает доказательства и пишет ответ с цитатами. Исходные данные не покидают вашу машину. Никаких затрат на API, кроме поискового ключа Tavily.

Проверьте, подходит ли вам этот стек, до того как тратить время на настройку.

Что именно изменилось: от чата к агенту за четыре компонента

Раньше локальная LLM умела только отвечать на вопросы по своим знаниям. Чтобы она могла искать информацию в интернете, требовалась сложная интеграция: отдельный сервер для вызовов инструментов, свой код для каждого инструмента, ручная обработка результатов.

Теперь схема собрана из четырёх готовых частей:

Модель — Gemma 4 (вариант E4B или E2B от Google). Это лёгкая модель, спроектированная для работы на границе сети — на вашем ноутбуке или рабочей станции.
Сервер модели — Ollama. Он запускает модель локально и даёт API-совместимый с OpenAI.
Среда агента — OpenAI Agents SDK. Это библиотека, которая управляет логикой агента: получает запрос, решает, какой инструмент вызвать, обрабатывает результат.
Инструмент поиска — Tavily MCP. Это сервер, который по протоколу MCP даёт агенту возможность искать в интернете.

Важный нюанс: OpenAI Agents SDK не отправляет данные в OpenAI. Клиент просто использует тот же формат запросов, но направляет их на локальный адрес Ollama.

Кому это нужно: три типичные ситуации

Владелец небольшой компании. Вы хотите автоматизировать сбор информации о конкурентах или рынке, но не готовы платить за корпоративный API и не хотите отправлять коммерческие запросы на внешние серверы.

Руководитель отдела аналитики. Ваша команда тратит часы на ручной сбор фактов из открытых источников. Вы ищете способ ускорить процесс без найма разработчиков.

Разработчик-одиночка. Вы уже используете локальную LLM для кода и хотите расширить её возможности — добавить поиск, проверку фактов, генерацию отчётов.

Во всех случаях стек работает одинаково: вы задаёте вопрос, агент ищет в интернете, собирает результаты и выдаёт ответ с источниками.

Что нужно для запуска: оборудование и учётные записи

Автор руководства использовал ноутбук с NVIDIA RTX 2000 Ada и 8 ГБ видеопамяти. Это не серверный класс — обычная рабочая станция.

Минимальные требования:

Видеокарта с 8 ГБ VRAM для модели Gemma 4 E4B.
Если видеопамяти меньше — модель Gemma 4 E2B, она легче.
Операционная система: Windows или Linux.
Свободное место на диске: около 10 ГБ для модели и инструментов.

Что нужно установить:

Ollama — сервер для запуска модели. Скачивается с официального сайта или через winget на Windows.
Модель Gemma 4 — загружается командой ollama pull gemma4:e4b (или gemma4:e2b для слабых машин).
OpenAI Agents SDK — устанавливается через pip: pip install openai-agents и pip install openai.
Tavily MCP — требуется аккаунт на Tavily и API-ключ. MCP-ссылка формируется автоматически на платформе.

Важно: OpenAI-клиент используется только для совместимости формата. Все запросы идут на локальный сервер Ollama, а не в облако OpenAI.

Как это работает: архитектура за пять минут

Агент получает вопрос, например: «Какие новые технологии в батареях для электромобилей появились в 2026 году?»

Дальше происходит следующее:

OpenAI Agents SDK передаёт вопрос модели Gemma 4 через Ollama.
Модель решает, что для ответа нужен поиск в интернете.
SDK вызывает Tavily MCP — тот ищет в интернете и возвращает результаты.
Модель анализирует результаты и формирует ответ с цитатами.
SDK возвращает готовый ответ пользователю.

Вся логика умещается в один объект Agent из библиотеки openai-agents. Инструкции для агента задаются в переменной RESEARCH_AGENT_INSTRUCTION — туда пишется, как агенту искать, как оформлять ответ, какие источники предпочитать.

Что можно проверить за неделю без перестройки компании

Прежде чем внедрять этот стек в рабочий процесс, проверьте пять вещей.

1. Хватит ли видеопамяти. Запустите Ollama и загрузите Gemma 4 E4B. Если модель не влезает в VRAM, попробуйте E2B. Если и она не работает — стек не для вашего оборудования.

2. Работает ли поиск. Создайте аккаунт Tavily, получите API-ключ, сформируйте MCP-ссылку. Проверьте, что поиск возвращает результаты на русском языке. Tavily — англоязычный сервис, и качество поиска по русскоязычным источникам может отличаться.

3. Корректно ли агент обрабатывает русский язык. Gemma 4 — мультиязычная модель, но точность работы с русским языком в режиме агента может быть ниже, чем с английским. Задайте агенту 5-10 вопросов на русском и оцените качество ответов.

4. Сколько времени занимает один запрос. Локальный агент работает медленнее облачного. Замерьте время от запроса до ответа для типовых задач. Если ответ занимает больше минуты — агент может быть непригоден для оперативной работы.

5. Можно ли заменить Tavily на другой поиск. Автор использует Tavily как пример. Протокол MCP позволяет подключить другие поисковые инструменты. Если Tavily не подходит по стоимости или качеству, проверьте альтернативы.

Где могут возникнуть проблемы

Совместимость OpenAI Agents SDK с локальными моделями. SDK спроектирован для работы с облачными моделями OpenAI. При использовании с Ollama возможны ошибки в формате запросов или неполная поддержка функций. Проверьте версию SDK и совместимость с Gemma 4.

Качество поиска. Tavily — платный сервис (есть бесплатный лимит). Если агент делает много запросов, стоимость может вырасти. Кроме того, Tavily оптимизирован для английского языка — для русского поиска результаты могут быть хуже.

Производительность. На оборудовании с 8 ГБ VRAM модель Gemma 4 E4B работает, но не быстро. Если агент должен обрабатывать десятки запросов в день, локальное решение может не справиться по времени.

Зависимость от версий. Gemma 4, Ollama и OpenAI Agents SDK активно обновляются. То, что работает сегодня, может потребовать перенастройки после обновления любого компонента.

Что делать на этой неделе: практический чек-лист

[ ] Установите Ollama и проверьте, что сервер запускается.
[ ] Загрузите Gemma 4 E4B (или E2B) и убедитесь, что модель отвечает на простые вопросы.
[ ] Установите OpenAI Agents SDK через pip.
[ ] Зарегистрируйтесь в Tavily, получите API-ключ и сформируйте MCP-ссылку.
[ ] Соберите тестового агента по инструкции из руководства.
[ ] Задайте агенту 3-5 вопросов по вашей теме и оцените качество ответов.
[ ] Замерьте время ответа и решите, подходит ли скорость для ваших задач.

Если хотя бы один пункт не проходит — стек требует доработки или замены компонента.

Локальный AI-агент на Gemma 4 и Ollama: как собрать за вечер

Что именно изменилось: от чата к агенту за четыре компонента

Кому это нужно: три типичные ситуации

Что нужно для запуска: оборудование и учётные записи

Как это работает: архитектура за пять минут

Что можно проверить за неделю без перестройки компании

Где могут возникнуть проблемы

Что делать на этой неделе: практический чек-лист

Источники

Генерация изображения

Темы журнала

Что почитать дальше