Microsoft представила фабрики суперинтеллекта — архитектуру Fairwater
Microsoft рассказала про архитектуру Fairwater — нового типа датацентров Azure AI — и одновременно анонсировала строительство еще одного центра на площадке под Атлантой. Этот ДЦ планируется объединить с первым Fairwater в Висконсине и предыдущими ИИ-суперкомпьютерами Azure в "первую планетарную AI-суперфабрику", на которой компания будет тренировать ИИ-модели, существенно превосходящие все, что есть сейчас.
Главная идея Fairwater — уйти от существующей сейчас ситуации, когда внутри одного ДЦ "живут" разрозненные кластеры на разном железе и под разные задачи. Вместо этого компания строит "плоские" суперкомпьютеры на сотни тысяч GPU NVIDIA Blackwell (GB200 и GB300). Внутри датацентра все ускорители сводятся в единую сеть: новая архитектура позволяет интегрировать сотни тысяч GPU в кластер с минимальным числом переходов и задержками, которые подходят для тренировки моделей с триллионами параметров и для целой линейки задач — от претрейнинга до тонкой настройки, RL и генерации синтетических данных.
Чтобы достичь этого, датацентр строится двухэтажным — это сокращает длину кабелей между стойками и ускорителями. Для отвода тепла используется замкнутый контур прямого жидкостного охлаждения: воду один раз заливают в систему (объем сопоставим с годовым потреблением примерно 20 частных домов), после чего она многократно используется и рассчитана на срок более шести лет. Это дает до 140 кВт на стойку и примерно 1,36 МВт на ряд, позволяя максимально плотно упаковать вычислители и стабильно держать нагрузку крупных тренинговых задач. Microsoft подчеркивает, что Fairwater изначально проектировался с упором на fungibility — гибкость в том, какие типы ИИ-нагрузок можно на нем запускать и как ими заполнять кластер. Это должно упростить и
Читать на habr.com