Кастомные чипы для AI: как снизить зависимость от Nvidia в 2026
Руководитель отдела закупок крупной IT-компании получает счёт от Nvidia на очередную партию ускорителей H100. Сумма — $250 000 за небольшую стойку. Срок поставки — 26 недель. Альтернатив на рынке практически нет. В это же время он читает новость: OpenAI представила собственный чип для вывода моделей — Jalapeño, собранный Broadcom. Google уже десять лет использует TPU. Apple ушла от Intel к собственному кремнию и выиграла по производительности на ватт. SpaceX тоже строит свои чипы.
Вопрос не в том, последуют ли другие примеру. Вопрос в том, когда это станет не стратегией гигантов, а рабочим вариантом для среднего бизнеса.
26 июня 2026 года TechCrunch выпустил выпуск подкаста Equity, в котором ведущие Кирстен Коросек, Энтони Ха и Шон О’Кейн разобрали тренд кастомных чипов для AI. Главный тезис: эпоха тотальной зависимости от Nvidia может заканчиваться. Но не через полный разрыв, а через хеджирование — собственное железо как страховка и инструмент контроля.
Эта статья — не пересказ подкаста. Это рабочий разбор: что изменилось, почему это касается вашего бюджета на инфраструктуру и что можно проверить уже на этой неделе.
Что именно произошло: OpenAI представила Jalapeño, и это меняет рынок
26 июня 2026 года OpenAI объявила о планах выпустить собственный чип для инференса — Jalapeño. Чип разработан в партнёрстве с Broadcom. Это первый собственный процессор компании, предназначенный для выполнения моделей, а не для их обучения.
Jalapeño — не замена Nvidia для обучения гигантских моделей. Это чип для этапа вывода: когда модель уже обучена и отвечает на запросы пользователей. Именно на этом этапе у OpenAI возникают самые большие операционные расходы — каждый запрос к ChatGPT требует вычислительных ресурсов.
OpenAI присоединилась к списку компаний, которые уже строят собственное «железо»:
- Google — TPU (Tensor Processing Unit), используется с 2015 года, сейчас уже четвёртое поколение.
- Apple — чипы серии M и A, переход с Intel дал прирост производительности на ватт, который изменил рынок ноутбуков.
- SpaceX — собственные чипы для управления спутниками Starlink и системами наведения.
- Amazon — чипы Trainium и Inferentia для AWS.
- Microsoft — разрабатывает собственный AI-чип Athena.
TechCrunch формулирует цель так: «Меньше полный разрыв, больше хедж». Кастомный кремний даёт контроль, аппаратуру, заточенную под конкретные задачи, и тот тип прироста производительности, который Apple получила, отказавшись от Intel.
Почему это меняет бюджет, сроки и зависимость от поставщика
Для бизнеса, который использует AI-инфраструктуру, ситуация сейчас выглядит так:
| Что меняется | Почему важно бизнесу | Что проверить |
|---|---|---|
| Появляются альтернативы Nvidia для инференса | Снижение монопольной цены на вывод моделей | Есть ли у вашего облачного провайдера поддержка Inferentia, TPU или Jalapeño |
| Кастомные чипы дают прирост производительности на ватт | Снижение операционных расходов на электроэнергию и охлаждение | Какова стоимость одного миллиона токенов на разных чипах |
| Собственное железо = контроль над roadmap | Независимость от графика поставок Nvidia | Какой срок поставки альтернативных решений |
| Партнёрство с Broadcom и TSMC становится стандартом | Доступ к производству без собственной фабрики | Кто из ваших поставщиков уже работает с кастомным кремнием |
| Хедж вместо разрыва | Можно использовать и Nvidia, и кастомные чипы параллельно | Какая доля нагрузки может быть перенесена на специализированные чипы |
Ключевой бизнес-параметр — стоимость инференса. Если OpenAI сможет снизить стоимость выполнения запросов на Jalapeño даже на 30%, это изменит экономику всей цепочки: от цены подписки ChatGPT до стоимости API для сторонних разработчиков.
Что компании должны проверить до того, как менять поставщика
Переход на кастомные чипы — не решение на один день. Вот что стоит проверить до того, как принимать решение:
1. Какая часть вашей нагрузки приходится на инференс, а какая на обучение
Если 80% ваших затрат — обучение моделей, то кастомные чипы для инференса (Jalapeño, Inferentia) вам помогут мало. Если наоборот — 80% уходит на выполнение запросов, то специализированный чип может окупиться за год.
2. Поддерживает ли ваша модель целевой чип
Не все модели работают на всех чипах. PyTorch и TensorFlow имеют бэкенды для разных ускорителей, но перенос optimisation layers может потребовать инженерной работы. Проверьте compatibility matrix вашего фреймворка.
3. Какова реальная стоимость владения (TCO)
Цена чипа — только часть. Прибавьте стоимость разработки, переноса кода, тестирования, дополнительного охлаждения, стоек, сетевого оборудования и персонала. Для малого бизнеса аренда через облако может быть дешевле, чем покупка собственного железа.
4. Есть ли у вашей команды компетенции по работе с новым железом
Кастомные чипы часто требуют специфических знаний. Команда, которая умеет оптимизировать код под CUDA, не обязательно умеет работать с TPU или Trainium. Оцените, сколько времени нужно на переобучение или найм.
5. Как быстро поставщик сможет обеспечить нужный объём
Nvidia — не единственная, у кого есть проблемы с поставками. Broadcom и TSMC тоже имеют ограничения по мощностям. Уточните сроки поставки до подписания контракта.
Где скрыты риски: что может пойти не так
Тренд кастомных чипов выглядит привлекательно, но у него есть обратная сторона.
Риск 1: Зависимость от одного партнёра по производству
OpenAI строит Jalapeño с Broadcom. Google делает TPU с Broadcom. Amazon делает Inferentia — тоже с Broadcom. Производство — на TSMC. Если у TSMC или Broadcom возникнут проблемы, пострадают все сразу. Замена одного монополиста (Nvidia) на другого (Broadcom + TSMC) не решает проблему полностью.
Риск 2: Совместимость с экосистемой
Nvidia вложила миллиарды в экосистему CUDA. Библиотеки, фреймворки, инструменты отладки — всё заточено под Nvidia. Переход на другой чип означает потерю части этой экосистемы. Для команд, которые используют сложные пайплайны, это может означать месяцы разработки.
Риск 3: Экономия не гарантирована
Apple выиграла от перехода на собственный кремний, потому что контролирует и софт, и железо. Для компании, которая не контролирует всю вертикаль, экономия может оказаться меньше ожидаемой. Broadcom берёт за разработку, TSMC — за производство, и эти расходы нужно амортизировать на объём выпуска.
Риск 4: Время выхода
Разработка кастомного чипа занимает 18–36 месяцев. К моменту выхода Jalapeño Nvidia может выпустить следующее поколение с ещё более высокой производительностью. Гонка вооружений в чипах не останавливается.
Что делать на этой неделе: практический чек-лист
Вот пять действий, которые можно выполнить за пять рабочих дней без перестройки компании:
- [ ] Посчитать долю инференса в общих затратах на AI. Откройте счета от облачного провайдера или дата-центра. Выделите строки, которые относятся к выполнению моделей, а не к обучению. Если доля инференса меньше 40%, кастомные чипы — не ваш приоритет.
- [ ] Проверить, какие альтернативы Nvidia поддерживает ваш текущий стек. Зайдите в документацию PyTorch или TensorFlow. Найдите раздел «Hardware acceleration». Посмотрите, есть ли там TPU, Inferentia, Trainium. Если нет — перенос будет стоить денег.
- [ ] Запросить коммерческое предложение у облачного провайдера на инстансы с не-Nvidia чипами. AWS предлагает Inf2 (Inferentia2), Google Cloud — TPU v5e. Сравните цену за час работы с аналогичным инстансом на Nvidia. Разница может быть 20–50% в пользу кастомных чипов.
- [ ] Оценить сроки поставки альтернативного оборудования. Если вы покупаете железо, а не арендуете, позвоните трём поставщикам и узнайте сроки поставки серверов с не-Nvidia ускорителями. Если сроки такие же, как у Nvidia (20+ недель), то преимущество в доступности отсутствует.
- [ ] Провести один тестовый прогон модели на альтернативном чипе. Если у вас есть доступ к облаку, запустите одну небольшую модель на TPU или Inferentia. Замерьте latency и throughput. Сравните с Nvidia. Если разница в производительности больше 30%, считайте это сигналом к более глубокому анализу.
Источники
Генерация изображения
- Модель:
flux-schnell - Провайдер:
replicate
Темы журнала
Что почитать дальше
- OpenAI Jalapeño: как собственный ASIC-чип меняет экономику инференса LLM и ставку на Nvidia
- OpenAI Jalapeño AI-процессор: что изменит для рынка и NVIDIA
- OpenAI Jalapeño AI-чип 2026: характеристики, сравнение с NVIDIA H200 и влияние на рынок
- OpenAI и Broadcom: чип для инференса — что изменится в стоимости AI
- OpenAI Jalapeño ASIC для инференса LLM: как рассчитать переход с GPU и не попасть в lock-in