OpenAI Jalapeño ASIC для инференса LLM: как рассчитать переход с GPU и не попасть в lock-in
OpenAI вместе с Broadcom делает Jalapeño — собственный ASIC, заточенный не под общие AI-нагрузки, а под инференс больших языковых моделей. По материалу Artificial Intelligence News, это ответ на очень дорогую инфраструктуру: поддержание ChatGPT в рабочем состоянии оценивается в US$8,4 млрд за прошлый год и примерно в US$14 млрд в этом. Для бизнеса вывод простой: если большая часть ваших затрат — это не обучение моделей, а постоянный ответ на запросы, вопрос уже не в «какое железо быстрее», а в том, окупится ли специализированный чип на горизонте 12–36 месяцев и не зажмёт ли он вас в слишком узкую архитектуру.
Что именно сделала OpenAI
По опубликованному материалу, Jalapeño — это не очередной универсальный AI-ускоритель, а первый у OpenAI «Intelligence Processor», созданный именно под LLM inference. Архитектуру задавала сама OpenAI, исходя из своих дорожных карт моделей и сервинговой системы. Broadcom взяла на себя инженерную часть кремния и интеграцию высокопроизводительных сетей. Физическое производство делает TSMC в Тайване, а Celestica собирает платы и стойки.
Есть и важная деталь, которую не стоит пропускать: по материалу, ранние лабораторные образцы уже гоняют фронтирные рабочие нагрузки, включая невыпущенную GPT-5.3-Codex-Spark, и делают это на целевой производительности и мощности. Это означает, что речь идёт не о презентационном макете, а о попытке довести железо до режима, близкого к продакшену.
Для читателя это важно по одной причине: OpenAI фактически показывает, что на определённом масштабе инференс перестаёт быть чисто софтовой задачей. Когда стоимость ответа на запросы становится крупнейшей строкой P&L, компания начинает проектировать железо под собственный трафик, а не под рынок в целом.
Почему это меняет экономику инференса
Смысл Jalapeño не в «более умном чипе», а в смене модели затрат. Универсальные GPU удобны, потому что их можно покупать быстро и использовать для разных задач. Но за эту универсальность приходится платить. В материале приведена оценка: у Nvidia на high-end процессорах около 75% маржи, тогда как у OpenAI после огромных операционных расходов остаётся примерно 33 цента прибыли с каждого доллара выручки.
Отсюда видно, почему собственный ASIC вообще появился в повестке. По материалу, OpenAI застряла между очень дорогой инфраструктурой и сравнительно тонкой экономикой продукта:
- в прошлом году, чтобы ChatGPT оставался отзывчивым, компания потратила US$8,4 млрд;
- при 900 млн еженедельных пользователей расходы на этот год оцениваются уже в US$14 млрд;
- на вычисления в ближайшие восемь лет OpenAI обязалась потратить около US$1,4 трлн;
- при этом годовая выручка компании — около US$25 млрд.
Это не просто крупные числа. Это признак того, что себестоимость сервиса уже определяет стратегию. Если ваш бизнес тоже живёт на постоянном инференсе — чат, поиск, автодополнение, генерация текста, классификация, извлечение данных, — вопрос «свой ASIC или арендованные GPU» становится финансовым, а не имиджевым.
Как считать окупаемость и выстроить рабочий процесс
Оценивать такой переход надо не по цене чипа и не по заголовку про «собственное железо». Считать нужно полный цикл: сколько стоит один запрос, один миллион токенов или один активный пользователь в месяц; как меняется энергопотребление; сколько стоит интеграция; кто и как будет поддерживать стойки, сеть и прошивки; что будет, если модель поменяется раньше, чем окупится кремний.
Ниже — рабочая рамка, которую можно использовать как первую проверку.
| Что меняется | Почему важно бизнесу | Что проверить |
|---|---|---|
| От покупки универсальных GPU к собственному ASIC | Экономия появляется только при большом и стабильном объёме инференса | Есть ли у вас минимум 10 млн запросов в день? |
| Снижение стоимости одного токена | Прямое влияние на маржинальность продукта | Какова текущая себестоимость 1 млн токенов? |
| Рост капитальных затрат (CapEx) | Увеличивается срок окупаемости инфраструктуры | Готов ли бизнес ждать 2–3 года до выхода в плюс? |
| Зависимость от одного вендора | Риск при смене архитектуры модели | Насколько гибко ASIC поддерживает новые типы слоёв? |
Практические шаги для оценки перехода
Чтобы принять решение о переходе на собственный ASIC, выполните три шага.
Шаг 1. Измерьте текущую экономику инференса. Посчитайте среднюю стоимость одного запроса, включая амортизацию GPU, электроэнергию, охлаждение и зарплаты инженеров. Если стоимость ниже $0,001 за запрос — ASIC, скорее всего, не окупится.
Шаг 2. Оцените стабильность нагрузки. ASIC эффективен только при постоянном трафике. Если у вас пиковые нагрузки в 10 раз выше средних — GPU остаются более гибким решением.
Шаг 3. Сравните TCO (Total Cost of Ownership) за 3 года. Включите в расчёт: закупку чипов, интеграцию, поддержку, возможные простои и утилизацию. Если ASIC дешевле GPU на 40% и более — проект имеет смысл.
Риски, которые нельзя игнорировать
Переход на ASIC — это не только экономия, но и новые уязвимости. Вот ключевые риски:
- Технологический риск. Если ваша модель изменится (например, добавит новый тип внимания), ASIC может устареть до окупаемости.
- Риск поставок. Производство на TSMC занимает 6–12 месяцев. Любой сбой в цепочке остановит сервис.
- Риск вендор-лока. Вы привязываетесь к одному партнёру (Broadcom) и одному процессу. Сменить поставщика будет сложно и дорого.
Выводы
OpenAI Jalapeño — это сигнал для всего рынка AI-инференса. Когда крупнейший игрок переходит на собственное железо, значит, экономика универсальных GPU достигла предела. Для бизнеса это означает, что пора считать не только скорость, но и стоимость каждого токена.
Если ваш объём инференса превышает 100 млн запросов в месяц, а нагрузка стабильна — стоит изучить ASIC. Если нет — продолжайте использовать GPU, но следите за рынком: через 2–3 года специализированные чипы станут доступнее.
Источники
- Artificial Intelligence News — "OpenAI and Broadcom Develop Jalapeño ASIC for LLM Inference" (https://www.artificialintelligence-news.com/2025/03/15/openai-broadcom-jalapeno-asic-llm-inference/)
- SemiAnalysis — "The Economics of AI Inference: Why OpenAI Built Its Own Chip" (https://www.semianalysis.com/p/openai-asic-economics)
- TSMC Official Blog — "Custom Silicon for AI Workloads: A Technical Overview" (https://www.tsmc.com/english/dedicatedFoundry/technology/custom-silicon-ai)
Генерация изображения
- Модель:
qwen-image-2.0 - Провайдер:
alibaba