GBDT vs LLM в платежном фроде: бенчмарк для выбора модели

Команда, которая отвечает за фрод-мониторинг платежей, видит новости об LLM-агентах и задаётся вопросом: не пора ли заменить классический скоринг на большую языковую модель? Инженер Sandeep Bharadwaj Mannapur опубликовал открытый бенчмарк, который позволяет ответить на этот вопрос без покупки GPU и API-ключей.

Источник: towardsdatascience.com

Бенчмарк сравнивает градиентный бустинг (GBDT) и LLM-скоринг по трём метрикам: задержка, стоимость и детерминизм. Вывод однозначный: классический ML остаётся на синхронном пути авторизации (hot path), а LLM-агенты приносят пользу на асинхронном пути расследований (cold path). Код бенчмарка опубликован на GitHub, все цифры можно проверить самостоятельно.

Если ваша команда рассматривает замену GBDT на LLM в пайплайне авторизации, сначала стоит измерить latency, cost и determinism на своих данных. Бенчмарк даёт готовую методику и контрольные цифры.

Что именно измерил бенчмарк

Автор собрал синтетические данные, имитирующие структуру транзакций ISO 8583: 20 признаков на транзакцию — сумма, MCC-риск, возраст устройства, гео-расстояние, счётчики скорости за один и 24 часа, история чарджбэков и несколько бинарных флагов. Уровень фрода — 1,5%, при этом 15% мошеннических строк сгенерированы из распределения легитимных транзакций (stealth fraud), что создаёт реалистичный нижний предел ошибки.

Измерения проводились на одном ядре CPU. LLM-латентность симулирована через калиброванное лог-нормальное распределение, а не через реальный API. Стоимость рассчитана по опубликованным ценам за токен на май 2026 года.

Вот ключевые цифры:

Метрика GBDT LLM (gpt-4o-mini class) LLM (Claude Sonnet 4.6)
p99 latency 0,15 мс ~1 200 мс (симуляция) ~1 200 мс (симуляция)
Стоимость за 1 час при 50 000 tps ~$54 ~$16 200 ~$351 000
Различных скорингов на 500 вызовах 1 498 498

Бюджет авторизации по стандарту ISO 8583 — примерно 100 мс. GBDT укладывается в него с запасом в 660 раз. LLM не укладывается даже при симуляции без учёта сетевой задержки.

Почему задержка решает всё на hot path

Синхронный путь авторизации — это момент, когда платёж проходит или отклоняется в реальном времени. Покупатель ждёт ответа, и банк-эквайер или платёжный шлюз не могут превысить лимит в ~100 мс. Если скоринг не успевает, транзакция либо уходит без проверки, либо отклоняется по таймауту.

GBDT на одном ядре CPU даёт p99 latency 0,15 мс. Это значит, что 99% транзакций получают скоринг за время, которое даже не видно на фоне сетевой задержки. LLM-скоринг с p99 около 1 200 мс превышает бюджет авторизации в 12 раз. Даже если использовать самую быструю модель, агентные рассуждения (цепочки мыслей, вызовы инструментов) только увеличат задержку.

Для команды это означает: если вы планируете заменить GBDT на LLM в синхронном скоринге, вам придётся либо жертвовать качеством (ставить таймаут и падать на fallback), либо перепроектировать архитектуру так, чтобы LLM работала асинхронно.

Стоимость: разница в сотни раз

При нагрузке 50 000 транзакций в секунду в течение часа GBDT обходится примерно в $54. Это стоимость аренды CPU-инстанса. LLM-скоринг на модели класса gpt-4o-mini стоит $16 200 за тот же час — в 300 раз дороже. Фронтьерная модель (Claude Sonnet 4.6) — $351 000, то есть в 6 500 раз дороже.

Важно: эти цифры предполагают «голый» скоринг без агентных рассуждений. Если LLM-агент начинает собирать доказательства, вызывать инструменты через MCP или писать цепочки рассуждений, стоимость умножается дополнительно.

Для бизнеса это означает, что замена GBDT на LLM в hot path — это не просто техническое решение, а финансовое: стоимость обработки одной транзакции вырастает на порядки. Если маржа по транзакции низкая, такая замена может сделать фрод-мониторинг убыточным.

Детерминизм: проблема для регулируемых решений

На 500 вызовах с бит-идентичным входом GBDT возвращает ровно один уникальный скоринг. LLM — 498 различных скорингов. Даже при температуре 0 hosted LLM остаются недетерминированными.

Для регулируемых платёжных решений это критично. Если аудитор или регулятор требует воспроизвести решение по конкретной транзакции, LLM-скоринг не даст гарантии, что результат будет тем же. Это создаёт риск для compliance и усложняет валидацию модели.

Команда, которая работает в регулируемой среде, должна учитывать: недетерминизм LLM — не баг, а архитектурное свойство. Его нельзя «починить» настройкой температуры. Для hot path, где каждое решение может быть оспорено, детерминизм GBDT — преимущество, а не ограничение.

Где LLM-агенты действительно приносят пользу

Автор бенчмарка не утверждает, что LLM бесполезны для фрод-команд. Напротив, он описывает три задачи на асинхронном cold path, где агенты работают эффективно:

  • Составление SAR (Suspicious Activity Report) — агент собирает данные по транзакции, пишет черновик отчёта для регулятора.
  • Сбор доказательств через MCP-типизированные инструменты — агент вызывает API, проверяет устройства, геолокацию, историю.
  • Agent-as-a-judge — агент проверяет решение перед передачей человеку на подпись.

Все эти задачи не требуют ответа за 100 мс. Они могут работать асинхронно, в очереди, и их результат проверяется человеком. Здесь недетерминизм не критичен, а способность агента работать с неструктурированными данными и писать текст — преимущество.

Как построить гибридную архитектуру: что проверить на этой неделе

Бенчмарк предлагает конкретную архитектуру: GBDT на hot path, LLM-агенты на cold path. Вот что можно проверить за неделю без перестройки компании:

  1. Запустите бенчмарк локально. Репозиторий на GitHub не требует GPU, API-ключей или облачного аккаунта. Вы получите те же цифры latency, cost и determinism на своём оборудовании.
  2. Сравните со своим пайплайном. Если ваш текущий GBDT-скоринг даёт p99 latency выше 1 мс, проверьте, не вызвано ли это инженерными проблемами, а не моделью.
  3. Оцените стоимость на своей нагрузке. Умножьте свои tps на цены LLM за токен. Если стоимость скоринга превышает ожидаемые потери от фрода, замена не имеет смысла.
  4. Проверьте требования регулятора. Если ваш аудитор требует воспроизводимости решений, недетерминизм LLM может стать блокером.
  5. Выделите cold path для пилота. Выберите одну задачу — например, составление SAR — и запустите LLM-агента в асинхронном режиме. Измерьте время выполнения и качество результата.

Что может пойти не так

У бенчмарка есть ограничения, которые стоит учитывать:

  • LLM-латентность симулирована. Реальные API могут давать другую задержку, особенно при пиковых нагрузках.
  • Данные синтетические. На реальных данных распределение признаков может отличаться, что повлияет на качество скоринга.
  • Цены на LLM указаны на май 2026 года. Они могут измениться, но разрыв в сотни раз вряд ли исчезнет.
  • Автор — частное лицо. Возможна аффилированность с вендорами, хотя код открыт и проверяем.

Если ваша команда всё же решит тестировать LLM на hot path, начните с изоляции: поставьте GBDT как основной скоринг, а LLM — как параллельный эксперимент, результаты которого не влияют на авторизацию.

Источники

Генерация изображения

  • Модель: flux-schnell
  • Провайдер: replicate

Темы журнала

Что почитать дальше