Инженер в серверной с планшетом, на экране красный индикатор температуры GPU-стойки в AI-ready модульном дата-центре

45 кВт на стойку: почему старые правила не работают для ИИ-дата-центра

ИИ-инструменты 5 июля 2026 г.

Представьте: вы запускаете новый проект с искусственным интеллектом. Серверы работают на полную мощность, но через час система выдаёт предупреждение — температура в стойке приближается к критической. Если ничего не сделать, оборудование отключится, а работа встанет на несколько часов.

Это не гипотетическая ситуация. В современных дата-центрах, предназначенных для ИИ, одна стойка потребляет 32–45 кВт — в два-три раза больше, чем в обычном модульном центре (5–20 кВт). Такая нагрузка требует другого подхода к охлаждению, питанию и обслуживанию.

Что меняется при переходе к ИИ-готовому дата-центру

Обычный модульный дата-центр проектируют, исходя из количества серверов и требуемой мощности. Сколько стоек разместить, какую мощность подвести, какой мониторинг нужен.

ИИ-готовый дата-центр начинается с другого вопроса: сколько тепла будет выделять каждый сервер с графическими процессорами (GPU). От этого зависят:

Тепловой баланс. GPU-серверы выделяют в среднем 30–40 Вт на каждый графический процессор. В сумме это даёт 32–45 кВт на одну стойку. При росте количества карт тепловая нагрузка растёт линейно. Поэтому уже на этапе проектирования нужно рассчитать максимальную плотность мощности и определить зоны, которые потребуют усиленного охлаждения.

Охлаждение. Обычного воздушного охлаждения недостаточно. Нужно жидкостное — конденсаторы внутри стойки или система прямого контакта с чипом. Дополнительно требуется воздушное охлаждение для инженерных элементов. Жидкостные решения снижают разницу температур между процессорами и радиаторами до 5 °C, что позволяет удерживать энергоэффективность на уровне выше 0,9 PUE (чем ниже PUE, тем меньше энергии тратится на охлаждение).

Резервирование питания. Обязательно двойное резервирование: два независимых источника питания до каждой стойки и 2N-резервирование источников (каждый компонент дублирован). Это нужно, чтобы при отказе одной линии работа не прерывалась. Рекомендуется использовать системы бесперебойного питания с литий-ионными батареями, способными поддерживать работу в течение 10 минут без внешнего питания.

Сценарии отказов. Планируются автоматические переключения при перегреве, потере питания или протечке жидкости. Современные системы управления зданием интегрируют данные от датчиков температуры, влажности и давления в единую панель, позволяя администратору видеть причины и следствия в реальном времени.

Обслуживание. Доступ к стойкам усложняется из-за трубопроводов жидкостного контура. Нужно регулярно проверять состояние насосов, фильтров и датчиков. Поэтому в проекте вводятся запланированные окна обслуживания, когда нагрузка снижается до менее 20% и можно безопасно отключать отдельные модули без риска перегрева.

Таким образом, в ИИ-готовом дата-центре инженерная задача шире: сначала нужно спроектировать тепловой и энергетический баланс, а уже потом подбирать количество стоек.

Технологические детали жидкостных решений

Конденсаторы внутри стойки (например, NVIDIA HGX-B200) обычно работают в режиме прямого контакта с чипом и требуют отдельного блока подачи холодной жидкости с температурой около 10 °C. Такие блоки оснащаются встроенными датчиками потока и давления, которые сигнализируют о любой аномалии.

Поток жидкости может быть реализован через замкнутую систему, где тепло от GPU передаётся в теплообменник, а затем во внешнюю систему охлаждения (чиллер). В этом случае важен коэффициент эффективности чиллера — он должен быть не ниже 6, иначе затраты на электроэнергию резко возрастают.

Система рекуперации тепла позволяет использовать избыточное тепло для отопления офисных помещений или для горячего водоснабжения. Это повышает общую энергоэффективность дата-центра до более 1,1 PUE в холодных климатах.

Как сравнить обычный и ИИ-готовый модульный дата-центр

Параметр Обычный модульный дата-центр ИИ-готовый модульный дата-центр
Нагрузка на стойку 5–20 кВт 32–45 кВт
Охлаждение Воздушное (In-Row) Жидкостное (In-Rack/D2C) + воздушное
Резервирование питания A/B по желанию, 1N Обязательно A/B до стойки, 2N
Мониторинг Температура, питание Тепло, протечки, микроклимат, АКБ, PDU
Обслуживание Быстрый доступ к стойкам Доступ к трубопроводам, проверка насосов
Энергоэффективность (PUE) 1,2–1,5 0,9–1,1
Возможность рекуперации тепла Нет Да (отопление, горячая вода)

При выборе между двумя вариантами задайте себе три вопроса:

  1. Сколько мощности требуется для ваших GPU-нагрузок? Если планируется более 30 кВт на стойку, обычный модульный дата-центр уже не подходит.
  2. Есть ли у вас инфраструктура для жидкостного охлаждения? Установка конденсаторов внутри стойки требует отдельного пространства и обслуживания.
  3. Готовы ли вы инвестировать в двойное резервирование питания и расширенный мониторинг? Это повышает стоимость, но снижает риск простоя.

Где скрыты ограничения и риски

Стоимость оборудования. Жидкостные системы, двойные источники питания и дополнительные датчики могут увеличить капитальные затраты на 30–50%. При этом общая стоимость владения может снизиться за счёт более высокого PUE и снижения расходов на электроэнергию.

Сложность эксплуатации. Трубопроводы, насосы и фильтры требуют регулярного обслуживания. Простая замена сервера в стойке становится более трудоёмкой. Важно создать чёткие инструкции по обслуживанию и обучить персонал.

Зависимость от поставщика. Многие решения (например, конденсаторы внутри стойки) поставляются ограниченным числом вендоров, что может влиять на сроки поставки и поддержку. При выборе стоит обратить внимание на наличие локального сервисного партнёра.

Неопределённость нагрузки. Если в будущем планируется увеличение количества GPU, текущий проект может потребовать переоценки теплового баланса. Гибкие модульные конструкции позволяют добавить новые блоки без полной реконструкции, но только при условии, что система электропитания и охлаждения рассчитана с запасом.

Риски протечек. Жидкостные системы могут протекать, поэтому нужен постоянный мониторинг и быстрый доступ к системе отключения. Современные датчики протечки используют два уровня сенсоров (контактный и ёмкостный), что позволяет обнаружить небольшие капли ещё до того, как они достигнут электроники.

Что сделать уже на этой неделе

  1. Определите текущую и планируемую мощность GPU-серверов (кВт на стойку).
  2. Проверьте наличие места и возможностей для установки жидкостного охлаждения (конденсаторы внутри стойки, система прямого контакта с чипом).
  3. Убедитесь, что в проекте предусмотрено двойное резервирование питания — два независимых источника до каждой стойки и 2N-источники.
  4. Составьте список требуемых датчиков (температура, влажность, протечки) и проверьте их совместимость с вашей системой мониторинга.
  5. Запросите у поставщика информацию о сроках поставки и обслуживании жидкостных систем и резервных источников питания.
  6. Подготовьте план обслуживания: расписание проверки насосов, очистки фильтров и калибровки датчиков протечки.
  7. Оцените возможность рекуперации тепла: рассчитайте потенциальный экономический эффект от использования избыточного тепла в соседних офисных помещениях.

Перспективы развития ИИ-готовых дата-центров

Автономные модульные решения. Производители уже разрабатывают полностью автономные блоки с встроенными чиллерами, аккумуляторами и системами рекуперации. Такие модули могут быть развёрнуты в удалённых локациях без доступа к центральным системам охлаждения.

ИИ-управляемый мониторинг. Использование машинного обучения для предсказания отказов оборудования позволяет сократить время простоя до нескольких минут, автоматически переводя нагрузку на резервные линии.

Гиперконвергентные архитектуры. Комбинация GPU-ускорителей, NVMe-хранилищ и FPGA в одном модуле уменьшает количество межмодульных соединений, снижая тепловую нагрузку и упрощая охлаждение.

Экологически чистые хладагенты. Переход от традиционных HFC к HFO или даже к водяным системам с низким глобальным потенциалом воздействия становится обязательной практикой в ЕС и США, что уменьшает экологический след дата-центра.

Эти тенденции указывают на то, что ИИ-готовые модульные дата-центры станут стандартом для компаний, работающих с крупномасштабными моделями ИИ, и требуют глубокого понимания как инженерных, так и операционных аспектов.

Теги