GBDT vs LLM в платежном фроде: бенчмарк для выбора модели
Команда, которая отвечает за фрод-мониторинг платежей, видит новости об LLM-агентах и задаётся вопросом: не пора ли заменить классический скоринг на большую языковую модель? Инженер Sandeep Bharadwaj Mannapur опубликовал открытый бенчмарк, который позволяет ответить на этот вопрос без покупки GPU и API-ключей.
Источник: towardsdatascience.com
Бенчмарк сравнивает градиентный бустинг (GBDT) и LLM-скоринг по трём метрикам: задержка, стоимость и детерминизм. Вывод однозначный: классический ML остаётся на синхронном пути авторизации (hot path), а LLM-агенты приносят пользу на асинхронном пути расследований (cold path). Код бенчмарка опубликован на GitHub, все цифры можно проверить самостоятельно.
Если ваша команда рассматривает замену GBDT на LLM в пайплайне авторизации, сначала стоит измерить latency, cost и determinism на своих данных. Бенчмарк даёт готовую методику и контрольные цифры.
Что именно измерил бенчмарк
Автор собрал синтетические данные, имитирующие структуру транзакций ISO 8583: 20 признаков на транзакцию — сумма, MCC-риск, возраст устройства, гео-расстояние, счётчики скорости за один и 24 часа, история чарджбэков и несколько бинарных флагов. Уровень фрода — 1,5%, при этом 15% мошеннических строк сгенерированы из распределения легитимных транзакций (stealth fraud), что создаёт реалистичный нижний предел ошибки.
Измерения проводились на одном ядре CPU. LLM-латентность симулирована через калиброванное лог-нормальное распределение, а не через реальный API. Стоимость рассчитана по опубликованным ценам за токен на май 2026 года.
Вот ключевые цифры:
| Метрика | GBDT | LLM (gpt-4o-mini class) | LLM (Claude Sonnet 4.6) |
|---|---|---|---|
| p99 latency | 0,15 мс | ~1 200 мс (симуляция) | ~1 200 мс (симуляция) |
| Стоимость за 1 час при 50 000 tps | ~$54 | ~$16 200 | ~$351 000 |
| Различных скорингов на 500 вызовах | 1 | 498 | 498 |
Бюджет авторизации по стандарту ISO 8583 — примерно 100 мс. GBDT укладывается в него с запасом в 660 раз. LLM не укладывается даже при симуляции без учёта сетевой задержки.
Почему задержка решает всё на hot path
Синхронный путь авторизации — это момент, когда платёж проходит или отклоняется в реальном времени. Покупатель ждёт ответа, и банк-эквайер или платёжный шлюз не могут превысить лимит в ~100 мс. Если скоринг не успевает, транзакция либо уходит без проверки, либо отклоняется по таймауту.
GBDT на одном ядре CPU даёт p99 latency 0,15 мс. Это значит, что 99% транзакций получают скоринг за время, которое даже не видно на фоне сетевой задержки. LLM-скоринг с p99 около 1 200 мс превышает бюджет авторизации в 12 раз. Даже если использовать самую быструю модель, агентные рассуждения (цепочки мыслей, вызовы инструментов) только увеличат задержку.
Для команды это означает: если вы планируете заменить GBDT на LLM в синхронном скоринге, вам придётся либо жертвовать качеством (ставить таймаут и падать на fallback), либо перепроектировать архитектуру так, чтобы LLM работала асинхронно.
Стоимость: разница в сотни раз
При нагрузке 50 000 транзакций в секунду в течение часа GBDT обходится примерно в $54. Это стоимость аренды CPU-инстанса. LLM-скоринг на модели класса gpt-4o-mini стоит $16 200 за тот же час — в 300 раз дороже. Фронтьерная модель (Claude Sonnet 4.6) — $351 000, то есть в 6 500 раз дороже.
Важно: эти цифры предполагают «голый» скоринг без агентных рассуждений. Если LLM-агент начинает собирать доказательства, вызывать инструменты через MCP или писать цепочки рассуждений, стоимость умножается дополнительно.
Для бизнеса это означает, что замена GBDT на LLM в hot path — это не просто техническое решение, а финансовое: стоимость обработки одной транзакции вырастает на порядки. Если маржа по транзакции низкая, такая замена может сделать фрод-мониторинг убыточным.
Детерминизм: проблема для регулируемых решений
На 500 вызовах с бит-идентичным входом GBDT возвращает ровно один уникальный скоринг. LLM — 498 различных скорингов. Даже при температуре 0 hosted LLM остаются недетерминированными.
Для регулируемых платёжных решений это критично. Если аудитор или регулятор требует воспроизвести решение по конкретной транзакции, LLM-скоринг не даст гарантии, что результат будет тем же. Это создаёт риск для compliance и усложняет валидацию модели.
Команда, которая работает в регулируемой среде, должна учитывать: недетерминизм LLM — не баг, а архитектурное свойство. Его нельзя «починить» настройкой температуры. Для hot path, где каждое решение может быть оспорено, детерминизм GBDT — преимущество, а не ограничение.
Где LLM-агенты действительно приносят пользу
Автор бенчмарка не утверждает, что LLM бесполезны для фрод-команд. Напротив, он описывает три задачи на асинхронном cold path, где агенты работают эффективно:
- Составление SAR (Suspicious Activity Report) — агент собирает данные по транзакции, пишет черновик отчёта для регулятора.
- Сбор доказательств через MCP-типизированные инструменты — агент вызывает API, проверяет устройства, геолокацию, историю.
- Agent-as-a-judge — агент проверяет решение перед передачей человеку на подпись.
Все эти задачи не требуют ответа за 100 мс. Они могут работать асинхронно, в очереди, и их результат проверяется человеком. Здесь недетерминизм не критичен, а способность агента работать с неструктурированными данными и писать текст — преимущество.
Как построить гибридную архитектуру: что проверить на этой неделе
Бенчмарк предлагает конкретную архитектуру: GBDT на hot path, LLM-агенты на cold path. Вот что можно проверить за неделю без перестройки компании:
- Запустите бенчмарк локально. Репозиторий на GitHub не требует GPU, API-ключей или облачного аккаунта. Вы получите те же цифры latency, cost и determinism на своём оборудовании.
- Сравните со своим пайплайном. Если ваш текущий GBDT-скоринг даёт p99 latency выше 1 мс, проверьте, не вызвано ли это инженерными проблемами, а не моделью.
- Оцените стоимость на своей нагрузке. Умножьте свои tps на цены LLM за токен. Если стоимость скоринга превышает ожидаемые потери от фрода, замена не имеет смысла.
- Проверьте требования регулятора. Если ваш аудитор требует воспроизводимости решений, недетерминизм LLM может стать блокером.
- Выделите cold path для пилота. Выберите одну задачу — например, составление SAR — и запустите LLM-агента в асинхронном режиме. Измерьте время выполнения и качество результата.
Что может пойти не так
У бенчмарка есть ограничения, которые стоит учитывать:
- LLM-латентность симулирована. Реальные API могут давать другую задержку, особенно при пиковых нагрузках.
- Данные синтетические. На реальных данных распределение признаков может отличаться, что повлияет на качество скоринга.
- Цены на LLM указаны на май 2026 года. Они могут измениться, но разрыв в сотни раз вряд ли исчезнет.
- Автор — частное лицо. Возможна аффилированность с вендорами, хотя код открыт и проверяем.
Если ваша команда всё же решит тестировать LLM на hot path, начните с изоляции: поставьте GBDT как основной скоринг, а LLM — как параллельный эксперимент, результаты которого не влияют на авторизацию.
Источники
Генерация изображения
- Модель:
flux-schnell - Провайдер:
replicate
Темы журнала
Что почитать дальше
- Claude Tag в Slack: какой ИИ-агент можно пускать в общий канал и что проверить перед запуском
- 6 AI-инструментов для генерации текста в 2026: ChatGPT, Claude, Gemini, Jasper, Copy.ai, Writesonic — сравнение по 5
- Claude Code без Anthropic API: подключение китайских LLM GLM 5 и экономия
- Claude пишет 80% кода в Anthropic: почему ревью стало узким местом
- Clipia MCP для Claude Code, Cursor и Codex: генерация фото и видео через AI-агента вместо отдельного сервиса