




DeepSeek: обучение модели R1 обошлось всего в $294 тысяч
Китайская компания в сфере искусственного интеллекта DeepSeek отчиталась, что потратила $294 тыс. на обучение своей модели R1 — это значительно меньше расходов, которые озвучили американские конкуренты по поводу своих разработок. Для этого DeepSeek задействовала 512 ускорителей Nvidia H800.
Релиз DeepSeek-R1 состоялся в январе этого года, а её успех побудил инвесторов по всему миру избавляться от акций технологических компаний, что привело к падению капитализации лидеров в разработке ИИ, включая Nvidia. С тех пор DeepSeek несколько раз обновила модель.
Расходы на обучение ИИ-моделей обусловлены использованием кластера мощных чипов в течение недель или месяцев для обработки крупных объёмов текста и кода.
В 2023 году генеральный директор OpenAI Сэм Альтман заявил, что обучение базовых моделей его компании обошлось в $100 млн, хотя разработчик не предоставил подробные данные ни по одному из своих релизов.
DeepSeek использовала ускоритель H800, который разработали специально для китайского рынка, ограничив поставки в КНР более мощных H100 и A100. Однако в июне американские официальные лица сообщили, что DeepSeek имеет доступ к значительным объёмам H100, закупленным после введения экспортного контроля США. Nvidia же настаивает, что DeepSeek применяла H800, а не H100.
Также DeepSeek впервые признала, что владеет A100. Она использовала эти ускорители «для подготовки к экспериментам с меньшей моделью». После этого этапа R1 обучалась в общей сложности 80 часов.
В своей статье на Nature DeepSeek впервые отреагировала на утверждения советника Белого дома и представителей американской индустрии ИИ, которые сделали в январе. Последние обвинили китайскую компанию в намеренном дистиллировании модели OpenAI для создания своей.
Читать на habr.com