Nvidia призывает ИИ-индустрию переосмыслить агентный подход в пользу компактных моделей
По мнению специалистов Nvidia, индустрия слишком увлеклась крупными языковыми моделями (LLM) для работы агентов — подходом, который, как они утверждают, экономически и экологически нежизнеспособен.
В недавней научной статье они предлагают пересмотреть стратегию: большинство агентов, уверены авторы, могут работать не хуже, если использовать компактные языковые модели (SLM), и призывают компании изменить подход.
В 2024 году рынок API LLM для агентных систем оценивался в 5,6 млрд $, но расходы на облачную инфраструктуру для их работы достигли 57 млрд $ — разрыв 10 к 1. «Эта операционная модель так глубоко вросла в индустрию, что стала фундаментом для масштабных капитальных ставок», — пишут исследователи.
SLM, которые в Nvidia определяют как модели с числом параметров менее 10 млрд, «по сути, обладают достаточной мощностью», «изначально лучше подходят для практического применения» и «неизбежно экономичнее» для большинства агентных задач.
Исследователи утверждают, что компактные модели нередко способны работать наравне с куда более массивными. Они приводят пример Phi 2 от Microsoft, которая, по их словам, сопоставима с LLM на 30 млрд параметров в задачах логики и программирования, но при этом работает в 15 раз быстрее. Модели Nemotron H от Nvidia — до 9 млрд параметров — демонстрируют аналогичную точность, что и LLM на 30 млрд параметров, при гораздо меньших затратах вычислительных ресурсов. В их перечень попали и Deepseek R1 Distill Qwen 7B, и RETRO от DeepMind, которые, по заявлению авторов, на ключевых задачах не уступают более крупным закрытым аналогам.
По расчётам Nvidia, арифметика явно играет в пользу SLM: запуск модели на 7 млрд параметров обходится в 10–30 раз дешевле, чем работа LLM на 70–175 млрд параметров, если
Читать на habr.com