Deepseek показывает пример: как создать мощный AI с минимальными затратами
В последние недели китайский стартап AI Deepseek показал, что передовые разработки AI не требуют огромных бюджетов, что оказывает давление на существующие лаборатории AI. Генеральный директор Meta* Марк Цукерберг удваивает инвестиции в AI.
Последняя модель Deepseek показывает, насколько эффективной может быть разработка AI. Их языковая модель Deepseek-V3 работает наравне с ведущими мировыми системами AI, но ее обучение обошлось всего в 5,6 млн долларов — ничтожная доля того, что обычно тратят крупные компании.
Deepseek-V3 потребовалось всего 2,78 миллиона часов GPU-обучения, в то время как меньшей модели Llama-3 от Meta* (с 405 миллиардами параметров) потребовалось примерно в одиннадцать раз больше. Затем компания выпустила Deepseek-R1 , модель рассуждений, которая соответствует o1 от OpenAI — то, что Meta* еще даже не выпустила.
Недавно Цукерберг вышел на Facebook , чтобы рассказать об ответе своей компании. В 2025 году Meta планирует разработать помощника AI, который сможет обслуживать более миллиарда человек, модернизировать Llama 4, чтобы он мог конкурировать с лучшими доступными моделями, и создать «инженера AI», который поможет в исследованиях и разработках. «Это будет определяющий год для AI», — написал Цукерберг.
Для достижения этих целей Meta строит огромный центр обработки данных, который будет потреблять более двух гигаватт энергии. Компания планирует вывести в сеть около одного гигаватта вычислительной мощности и более 1,3 миллиона графических процессоров только в 2025 году, подкрепленный инвестициями в размере 60-65 миллиардов долларов и значительным расширением команды.
Главный исследователь AI компании Meta Ян Лекун рассматривает успех Deepseek как победу открытого исходного кода, а не как признак доминирования
Читать на habr.com
