



Коммерческий релиз Evolution Stack.ML: как собрать гибридный ML‑завод с on‑premise данными и GPU в облаке
Во многих компаниях своя инфраструктура, строгая безопасность и несколько команд, которые конкурируют за один GPU‑парк. Эксперименты запускают, но до стабильных ML‑сервисов в продакшене доходит немногое. Мы решили эти проблемы MLOps-платформой Evolution Stack.ML для обучения и тюнинга ИИ-моделей и разработки ИИ-приложений, которая на днях вышла в коммерческую эксплуатацию.
Теперь крупный бизнес может работать с ИИ в своем контуре и масштабироваться в облако. Ниже — подробнее о платформе и о том, как собрать на нашей платформе гибридный ML‑завод, в котором данные остаются в контуре, а тяжелое обучение и пики нагрузки переезжают в публичное облако.
На входе у нас были типичные запросы клиентов:
«У нас уже есть GPU, но их утилизация низкая, а инвестиций много».
«Данные по требованиям ИБ остаются только в контуре, но нам нужны мощные ресурсы и эксперименты».
«Несколько команд одновременно борются за один парк серверов».
«Мы бы хотели один понятный путь от кода до продакшена, а не отдельный проект под каждую новую модель».
В среднем, по внутренним замерам, до запуска платформы утилизация корпоративных GPU‑кластеров держалась на уровне порядка 30–35%. Evolution Stack.ML вместе с сервисом Evolution Distributed Train помогает поднять утилизацию до 80–90% и за счет этого окупить вложения в серверную инфраструктуру за несколько месяцев, а не лет.
Вместо отдельных сервисов и скриптов мы пошли от идеи ML‑завода: один конвейер, который ведет данные и модели от первых экспериментов до продакшена и может при этом жить и в локальном, и в облачном кластере.
Наша платформа собирает вокруг себя четыре очевидных, но обычно разорванных части: подачу данных, среду разработки, запуск задач и управляемый слой GPU‑ресурсов.
Над базовой инфраструктурой
Читать на habr.com