Кастомные чипы для AI: как снизить зависимость от Nvidia в 2026

Руководитель отдела закупок крупной IT-компании получает счёт от Nvidia на очередную партию ускорителей H100. Сумма — $250 000 за небольшую стойку. Срок поставки — 26 недель. Альтернатив на рынке практически нет. В это же время он читает новость: OpenAI представила собственный чип для вывода моделей — Jalapeño, собранный Broadcom. Google уже десять лет использует TPU. Apple ушла от Intel к собственному кремнию и выиграла по производительности на ватт. SpaceX тоже строит свои чипы.

Вопрос не в том, последуют ли другие примеру. Вопрос в том, когда это станет не стратегией гигантов, а рабочим вариантом для среднего бизнеса.

26 июня 2026 года TechCrunch выпустил выпуск подкаста Equity, в котором ведущие Кирстен Коросек, Энтони Ха и Шон О’Кейн разобрали тренд кастомных чипов для AI. Главный тезис: эпоха тотальной зависимости от Nvidia может заканчиваться. Но не через полный разрыв, а через хеджирование — собственное железо как страховка и инструмент контроля.

Эта статья — не пересказ подкаста. Это рабочий разбор: что изменилось, почему это касается вашего бюджета на инфраструктуру и что можно проверить уже на этой неделе.

Что именно произошло: OpenAI представила Jalapeño, и это меняет рынок

26 июня 2026 года OpenAI объявила о планах выпустить собственный чип для инференса — Jalapeño. Чип разработан в партнёрстве с Broadcom. Это первый собственный процессор компании, предназначенный для выполнения моделей, а не для их обучения.

Jalapeño — не замена Nvidia для обучения гигантских моделей. Это чип для этапа вывода: когда модель уже обучена и отвечает на запросы пользователей. Именно на этом этапе у OpenAI возникают самые большие операционные расходы — каждый запрос к ChatGPT требует вычислительных ресурсов.

OpenAI присоединилась к списку компаний, которые уже строят собственное «железо»:

  • Google — TPU (Tensor Processing Unit), используется с 2015 года, сейчас уже четвёртое поколение.
  • Apple — чипы серии M и A, переход с Intel дал прирост производительности на ватт, который изменил рынок ноутбуков.
  • SpaceX — собственные чипы для управления спутниками Starlink и системами наведения.
  • Amazon — чипы Trainium и Inferentia для AWS.
  • Microsoft — разрабатывает собственный AI-чип Athena.

TechCrunch формулирует цель так: «Меньше полный разрыв, больше хедж». Кастомный кремний даёт контроль, аппаратуру, заточенную под конкретные задачи, и тот тип прироста производительности, который Apple получила, отказавшись от Intel.

Почему это меняет бюджет, сроки и зависимость от поставщика

Для бизнеса, который использует AI-инфраструктуру, ситуация сейчас выглядит так:

Что меняется Почему важно бизнесу Что проверить
Появляются альтернативы Nvidia для инференса Снижение монопольной цены на вывод моделей Есть ли у вашего облачного провайдера поддержка Inferentia, TPU или Jalapeño
Кастомные чипы дают прирост производительности на ватт Снижение операционных расходов на электроэнергию и охлаждение Какова стоимость одного миллиона токенов на разных чипах
Собственное железо = контроль над roadmap Независимость от графика поставок Nvidia Какой срок поставки альтернативных решений
Партнёрство с Broadcom и TSMC становится стандартом Доступ к производству без собственной фабрики Кто из ваших поставщиков уже работает с кастомным кремнием
Хедж вместо разрыва Можно использовать и Nvidia, и кастомные чипы параллельно Какая доля нагрузки может быть перенесена на специализированные чипы

Ключевой бизнес-параметр — стоимость инференса. Если OpenAI сможет снизить стоимость выполнения запросов на Jalapeño даже на 30%, это изменит экономику всей цепочки: от цены подписки ChatGPT до стоимости API для сторонних разработчиков.

Что компании должны проверить до того, как менять поставщика

Переход на кастомные чипы — не решение на один день. Вот что стоит проверить до того, как принимать решение:

1. Какая часть вашей нагрузки приходится на инференс, а какая на обучение

Если 80% ваших затрат — обучение моделей, то кастомные чипы для инференса (Jalapeño, Inferentia) вам помогут мало. Если наоборот — 80% уходит на выполнение запросов, то специализированный чип может окупиться за год.

2. Поддерживает ли ваша модель целевой чип

Не все модели работают на всех чипах. PyTorch и TensorFlow имеют бэкенды для разных ускорителей, но перенос optimisation layers может потребовать инженерной работы. Проверьте compatibility matrix вашего фреймворка.

3. Какова реальная стоимость владения (TCO)

Цена чипа — только часть. Прибавьте стоимость разработки, переноса кода, тестирования, дополнительного охлаждения, стоек, сетевого оборудования и персонала. Для малого бизнеса аренда через облако может быть дешевле, чем покупка собственного железа.

4. Есть ли у вашей команды компетенции по работе с новым железом

Кастомные чипы часто требуют специфических знаний. Команда, которая умеет оптимизировать код под CUDA, не обязательно умеет работать с TPU или Trainium. Оцените, сколько времени нужно на переобучение или найм.

5. Как быстро поставщик сможет обеспечить нужный объём

Nvidia — не единственная, у кого есть проблемы с поставками. Broadcom и TSMC тоже имеют ограничения по мощностям. Уточните сроки поставки до подписания контракта.

Где скрыты риски: что может пойти не так

Тренд кастомных чипов выглядит привлекательно, но у него есть обратная сторона.

Риск 1: Зависимость от одного партнёра по производству

OpenAI строит Jalapeño с Broadcom. Google делает TPU с Broadcom. Amazon делает Inferentia — тоже с Broadcom. Производство — на TSMC. Если у TSMC или Broadcom возникнут проблемы, пострадают все сразу. Замена одного монополиста (Nvidia) на другого (Broadcom + TSMC) не решает проблему полностью.

Риск 2: Совместимость с экосистемой

Nvidia вложила миллиарды в экосистему CUDA. Библиотеки, фреймворки, инструменты отладки — всё заточено под Nvidia. Переход на другой чип означает потерю части этой экосистемы. Для команд, которые используют сложные пайплайны, это может означать месяцы разработки.

Риск 3: Экономия не гарантирована

Apple выиграла от перехода на собственный кремний, потому что контролирует и софт, и железо. Для компании, которая не контролирует всю вертикаль, экономия может оказаться меньше ожидаемой. Broadcom берёт за разработку, TSMC — за производство, и эти расходы нужно амортизировать на объём выпуска.

Риск 4: Время выхода

Разработка кастомного чипа занимает 18–36 месяцев. К моменту выхода Jalapeño Nvidia может выпустить следующее поколение с ещё более высокой производительностью. Гонка вооружений в чипах не останавливается.

Что делать на этой неделе: практический чек-лист

Вот пять действий, которые можно выполнить за пять рабочих дней без перестройки компании:

  • [ ] Посчитать долю инференса в общих затратах на AI. Откройте счета от облачного провайдера или дата-центра. Выделите строки, которые относятся к выполнению моделей, а не к обучению. Если доля инференса меньше 40%, кастомные чипы — не ваш приоритет.
  • [ ] Проверить, какие альтернативы Nvidia поддерживает ваш текущий стек. Зайдите в документацию PyTorch или TensorFlow. Найдите раздел «Hardware acceleration». Посмотрите, есть ли там TPU, Inferentia, Trainium. Если нет — перенос будет стоить денег.
  • [ ] Запросить коммерческое предложение у облачного провайдера на инстансы с не-Nvidia чипами. AWS предлагает Inf2 (Inferentia2), Google Cloud — TPU v5e. Сравните цену за час работы с аналогичным инстансом на Nvidia. Разница может быть 20–50% в пользу кастомных чипов.
  • [ ] Оценить сроки поставки альтернативного оборудования. Если вы покупаете железо, а не арендуете, позвоните трём поставщикам и узнайте сроки поставки серверов с не-Nvidia ускорителями. Если сроки такие же, как у Nvidia (20+ недель), то преимущество в доступности отсутствует.
  • [ ] Провести один тестовый прогон модели на альтернативном чипе. Если у вас есть доступ к облаку, запустите одну небольшую модель на TPU или Inferentia. Замерьте latency и throughput. Сравните с Nvidia. Если разница в производительности больше 30%, считайте это сигналом к более глубокому анализу.

Источники

Генерация изображения

  • Модель: flux-schnell
  • Провайдер: replicate

Темы журнала

Что почитать дальше