Парсер для сайтов без тяжелой платформы: что умеет Pipet

Иногда задача звучит совсем просто: забрать с сайта цену, заголовок, ссылку, статус товара, время события или маленький фрагмент таблицы. Для этого не всегда нужен большой сервис, сложный краулер и отдельная база данных. Иногда нужен маленький рабочий инструмент, который берет страницу, применяет понятные правила и возвращает данные в удобном виде. Именно в эту нишу попадает Pipet — командный парсер для сайтов и онлайн-источников.

В описании проекта он называется «швейцарским ножом» для извлечения данных из онлайн-ресурсов. Но для нормального читателя лучше сказать проще: Pipet помогает превратить страницу в структурированный результат. Он может читать HTML, JSON и страницы, где нужен браузерный JavaScript. Поэтому его удобно рассматривать не как «хакерскую игрушку», а как легкий слой мониторинга и сбора данных для рабочих задач.

Что делает Pipet

По README проекта, Pipet работает как командный веб-парсер. Он поддерживает три режима: разбор HTML, разбор JSON и выполнение JavaScript на стороне браузера через Playwright. Это значит, что инструмент закрывает три частых сценария: обычная страница, API-ответ в JSON и сайт, где данные появляются только после загрузки скриптов.

Главная идея в формате .pipet-файла. В таком файле описывается источник и правила извлечения. Например, сначала указывается, какую страницу открыть через curl или playwright, потом задаются селекторы, по которым надо достать нужные элементы. Результат можно вывести обычным текстом, JSON, CSV-подобной структурой или шаблоном.

ЗадачаКак помогает PipetГде полезно
Забрать заголовки и ссылкичитает HTML и применяет CSS-селекторыновости, каталоги, списки материалов
Взять данные из API-ответаумеет работать с JSON-запросамипогода, транспорт, статусы, публичные справочники
Открыть страницу с JavaScriptиспользует Playwright для браузерного сценариястраницы, где данные появляются после загрузки
Следить за изменениемможет запускаться с интервалом и командой при измененииналичие билетов, цена товара, смена статуса

Почему это удобно для маленьких рабочих задач

Сильная сторона Pipet — не в том, что он заменяет полноценную систему сбора данных. Он силен в другом: можно быстро описать маленький сценарий и получить результат без большого проекта. Например, проверить первую новость на Hacker News, следить за температурой воды, забрать несколько полей из JSON или получить уведомление, когда на странице что-то поменялось.

В README есть показательный пример с мониторингом: Pipet может запускаться по интервалу и выполнять команду, когда результат изменился. На практике это превращает его в простой наблюдатель. Он не строит сложную платформу, но помогает заметить событие: товар появился, цена изменилась, список обновился, на странице возник новый текст.

Это роднит Pipet с тем, что мы уже обсуждали в статье про парсеры для ИИ-агентов. Когда помощник должен работать не только с ответами модели, а с реальными страницами, ему нужны инструменты извлечения данных. Pipet может быть одним из таких маленьких инструментов: не универсальным мозгом, а понятной отверткой для конкретного источника.

  1. 1
    Описать источник

    Указать страницу, API-запрос или браузерный сценарий, откуда нужно взять данные.

  2. 2
    Выбрать элементы

    Задать CSS-селекторы, JSON-пути или JavaScript-код, который возвращает нужные значения.

  3. 3
    Получить результат

    Вывести текст, JSON, таблицу или шаблон, который можно передать дальше в скрипт.

  4. 4
    Следить за изменениями

    Запускать проверку по интервалу и отправлять уведомление, когда данные поменялись.

Где лучше не использовать

Pipet не стоит воспринимать как инструмент «спарсить весь интернет». Для больших объемов, очередей, повторных попыток, прокси, хранилища, дедупликации и контроля нагрузки нужны другие решения. Если задача похожа на промышленный сбор данных, лучше смотреть в сторону специализированных фреймворков и архитектуры очередей.

Еще важнее этика и право. Если сайт запрещает автоматический сбор, если данные персональные, если источник требует авторизацию или если парсер создает нагрузку, простота инструмента не делает задачу допустимой. В нормальной компании парсинг должен иметь владельца, цель, список источников, лимиты, логирование и понятную причину, зачем эти данные нужны.

Rich block render error: mapping values are not allowed here
  in "<unicode string>", line 2, column 69:
     ... енькая проверяемая автоматизация: достать несколько данных, след ... 
                                         ^

label: Редакционный вывод
body: Pipet хорош там, где нужна маленькая проверяемая автоматизация: достать несколько данных, следить за изменением, быстро собрать прототип. Для промышленного сбора он должен быть частью более взрослой системы с правилами, лимитами и ответственностью.

Практический вывод

Главный плюс Pipet — он возвращает парсинг к понятной форме. Не «поставим огромную платформу», а «опишем источник, правило и результат». Такой подход хорошо подходит для технических редакций, маленьких команд, личных автоматизаций и ИИ-помощников, которым надо читать не абстрактный интернет, а конкретные страницы и поля.

В 2026 году это становится особенно важно из-за ИИ-агентов. Помощник, который умеет только говорить, быстро упирается в стену. Помощник, который может получить свежие данные из разрешенного источника, проверить страницу и вернуть структурированный результат, уже похож на рабочий инструмент. Но этот переход должен быть аккуратным: данные, правила, ограничения и проверка важнее красивой команды в терминале.