Роль модели DeepSeek в изменении подходов к разработке ИИ
Сфера ИИ продолжает стремительно развиваться, и последние достижения бросают вызов устоявшимся парадигмам. В начале 2025 года китайская лаборатория ИИ DeepSeek представила новую модель, которая произвела фурор в индустрии ИИ и привела к 17-процентному падению акций Nvidia, а также других акций, связанных со спросом на центры обработки данных ИИ. Эта реакция рынка, как сообщалось в многочисленных публикациях, была вызвана очевидной способностью DeepSeek создавать высокопроизводительные модели по цене, значительно меньшей, чем у конкурентов в США, что вызвало дискуссию о последствиях для центров обработки данных ИИ.
Чтобы понять, что именно привнёс DeepSeek, надо рассмотреть более широкий сдвиг в сфере ИИ, вызванный нехваткой дополнительных обучающих данных. Поскольку основные лаборатории ИИ уже обучили свои модели на большей части доступных общедоступных данных в интернете, нехватка данных замедляет дальнейшее совершенствование предварительного обучения.
В результате поставщики моделей стремятся к «вычислениям во время тестирования» (TTC), при которых модели-рассуждения (например, серия моделей «o» от OpenAI) «размышляют» перед тем, как ответить на вопрос во время логического вывода, в качестве альтернативного метода повышения общей производительности модели.
В настоящее время считается, что TTC может демонстрировать улучшения по закону масштабирования, аналогичные тем, которые когда-то обеспечили предварительное обучение, потенциально открывая путь к следующей волне революционных достижений в области ИИ.
Эти события указывают на два важных изменения: во-первых, лаборатории, работающие с меньшими (по сравнению с заявленными) бюджетами, теперь способны выпускать самые современные модели. Во-вторых, TTC становится следующим
Читать на habr.com