



Новый подход DeepSeek снижает потери ресурсов при обучении ИИ-моделей
В новой научной работе исследователи из DeepSeek предложили подход, который может частично снизить это давление. Метод получил название manifold-constrained hyperconnection (mHC) и нацелен на то, чтобы сделать обучение больших моделей более стабильным и предсказуемым. Вместо гонки за максимальными показателями производительности авторы сосредоточились на другой болевой точке — нестабильности в процессе обучения, из-за которой компании нередко вынуждены запускать дорогостоящие вычисления заново.
Говоря проще, многие современные ИИ-модели «падают» на середине обучения. В результате теряются недели работы, огромные объемы электроэнергии и тысячи часов вычислений на GPU. Подход DeepSeek призван снизить вероятность таких сбоев, удерживая поведение модели в более контролируемых рамках по мере роста ее размеров.
Это особенно важно на фоне того, что обучение ИИ уже сейчас потребляет гигантские объемы энергии. Метод mHC не делает сами видеоускорители более экономичными, однако позволяет сократить потери энергии за счет того, что обучение с большей вероятностью завершается успешно и не требует повторных запусков.
Дополнительным плюсом становится эффективность при масштабировании. Более стабильный процесс обучения снижает необходимость в «лобовых» решениях — использовании большего числа GPU, дополнительной памяти или чрезмерно длинных циклов обучения лишь для того, чтобы модель вообще смогла обучиться. В итоге суммарное энергопотребление на весь процесс может оказаться ниже.
В DeepSeek не утверждают, что их разработка мгновенно решит проблемы дефицита оборудования или энергозатрат. Речь идет скорее о менее заметном, но важном шаге вперед — более рациональном использовании уже доступных ресурсов. Со временем подобные методы могут помочь
Читать на ilenta.com