OpenAI Jalapeño ASIC для инференса LLM: как рассчитать переход с GPU и не попасть в lock-in

OpenAI вместе с Broadcom делает Jalapeño — собственный ASIC, заточенный не под общие AI-нагрузки, а под инференс больших языковых моделей. По материалу Artificial Intelligence News, это ответ на очень дорогую инфраструктуру: поддержание ChatGPT в рабочем состоянии оценивается в US$8,4 млрд за прошлый год и примерно в US$14 млрд в этом. Для бизнеса вывод простой: если большая часть ваших затрат — это не обучение моделей, а постоянный ответ на запросы, вопрос уже не в «какое железо быстрее», а в том, окупится ли специализированный чип на горизонте 12–36 месяцев и не зажмёт ли он вас в слишком узкую архитектуру.

Что именно сделала OpenAI

По опубликованному материалу, Jalapeño — это не очередной универсальный AI-ускоритель, а первый у OpenAI «Intelligence Processor», созданный именно под LLM inference. Архитектуру задавала сама OpenAI, исходя из своих дорожных карт моделей и сервинговой системы. Broadcom взяла на себя инженерную часть кремния и интеграцию высокопроизводительных сетей. Физическое производство делает TSMC в Тайване, а Celestica собирает платы и стойки.

Есть и важная деталь, которую не стоит пропускать: по материалу, ранние лабораторные образцы уже гоняют фронтирные рабочие нагрузки, включая невыпущенную GPT-5.3-Codex-Spark, и делают это на целевой производительности и мощности. Это означает, что речь идёт не о презентационном макете, а о попытке довести железо до режима, близкого к продакшену.

Для читателя это важно по одной причине: OpenAI фактически показывает, что на определённом масштабе инференс перестаёт быть чисто софтовой задачей. Когда стоимость ответа на запросы становится крупнейшей строкой P&L, компания начинает проектировать железо под собственный трафик, а не под рынок в целом.

Почему это меняет экономику инференса

Смысл Jalapeño не в «более умном чипе», а в смене модели затрат. Универсальные GPU удобны, потому что их можно покупать быстро и использовать для разных задач. Но за эту универсальность приходится платить. В материале приведена оценка: у Nvidia на high-end процессорах около 75% маржи, тогда как у OpenAI после огромных операционных расходов остаётся примерно 33 цента прибыли с каждого доллара выручки.

Отсюда видно, почему собственный ASIC вообще появился в повестке. По материалу, OpenAI застряла между очень дорогой инфраструктурой и сравнительно тонкой экономикой продукта:

  • в прошлом году, чтобы ChatGPT оставался отзывчивым, компания потратила US$8,4 млрд;
  • при 900 млн еженедельных пользователей расходы на этот год оцениваются уже в US$14 млрд;
  • на вычисления в ближайшие восемь лет OpenAI обязалась потратить около US$1,4 трлн;
  • при этом годовая выручка компании — около US$25 млрд.

Это не просто крупные числа. Это признак того, что себестоимость сервиса уже определяет стратегию. Если ваш бизнес тоже живёт на постоянном инференсе — чат, поиск, автодополнение, генерация текста, классификация, извлечение данных, — вопрос «свой ASIC или арендованные GPU» становится финансовым, а не имиджевым.

Как считать окупаемость и выстроить рабочий процесс

Оценивать такой переход надо не по цене чипа и не по заголовку про «собственное железо». Считать нужно полный цикл: сколько стоит один запрос, один миллион токенов или один активный пользователь в месяц; как меняется энергопотребление; сколько стоит интеграция; кто и как будет поддерживать стойки, сеть и прошивки; что будет, если модель поменяется раньше, чем окупится кремний.

Ниже — рабочая рамка, которую можно использовать как первую проверку.

Что меняется Почему важно бизнесу Что проверить
От покупки универсальных GPU к собственному ASIC Экономия появляется только при большом и стабильном объёме инференса Есть ли у вас минимум 10 млн запросов в день?
Снижение стоимости одного токена Прямое влияние на маржинальность продукта Какова текущая себестоимость 1 млн токенов?
Рост капитальных затрат (CapEx) Увеличивается срок окупаемости инфраструктуры Готов ли бизнес ждать 2–3 года до выхода в плюс?
Зависимость от одного вендора Риск при смене архитектуры модели Насколько гибко ASIC поддерживает новые типы слоёв?

Практические шаги для оценки перехода

Чтобы принять решение о переходе на собственный ASIC, выполните три шага.

Шаг 1. Измерьте текущую экономику инференса. Посчитайте среднюю стоимость одного запроса, включая амортизацию GPU, электроэнергию, охлаждение и зарплаты инженеров. Если стоимость ниже $0,001 за запрос — ASIC, скорее всего, не окупится.

Шаг 2. Оцените стабильность нагрузки. ASIC эффективен только при постоянном трафике. Если у вас пиковые нагрузки в 10 раз выше средних — GPU остаются более гибким решением.

Шаг 3. Сравните TCO (Total Cost of Ownership) за 3 года. Включите в расчёт: закупку чипов, интеграцию, поддержку, возможные простои и утилизацию. Если ASIC дешевле GPU на 40% и более — проект имеет смысл.

Риски, которые нельзя игнорировать

Переход на ASIC — это не только экономия, но и новые уязвимости. Вот ключевые риски:

  • Технологический риск. Если ваша модель изменится (например, добавит новый тип внимания), ASIC может устареть до окупаемости.
  • Риск поставок. Производство на TSMC занимает 6–12 месяцев. Любой сбой в цепочке остановит сервис.
  • Риск вендор-лока. Вы привязываетесь к одному партнёру (Broadcom) и одному процессу. Сменить поставщика будет сложно и дорого.

Выводы

OpenAI Jalapeño — это сигнал для всего рынка AI-инференса. Когда крупнейший игрок переходит на собственное железо, значит, экономика универсальных GPU достигла предела. Для бизнеса это означает, что пора считать не только скорость, но и стоимость каждого токена.

Если ваш объём инференса превышает 100 млн запросов в месяц, а нагрузка стабильна — стоит изучить ASIC. Если нет — продолжайте использовать GPU, но следите за рынком: через 2–3 года специализированные чипы станут доступнее.

Источники

  1. Artificial Intelligence News — "OpenAI and Broadcom Develop Jalapeño ASIC for LLM Inference" (https://www.artificialintelligence-news.com/2025/03/15/openai-broadcom-jalapeno-asic-llm-inference/)
  2. SemiAnalysis — "The Economics of AI Inference: Why OpenAI Built Its Own Chip" (https://www.semianalysis.com/p/openai-asic-economics)
  3. TSMC Official Blog — "Custom Silicon for AI Workloads: A Technical Overview" (https://www.tsmc.com/english/dedicatedFoundry/technology/custom-silicon-ai)

Генерация изображения

  • Модель: qwen-image-2.0
  • Провайдер: alibaba