Гибридные модели ИИ от Deep Cogito: баланс между скоростью и рассуждением
Новая компания Deep Cogito появилась из ниоткуда с семейством общедоступных моделей ИИ, которые можно переключать между «рассуждающим» и «нерассуждающим» режимами.
Модели рассуждения, подобные o1 от OpenAI, показали большие перспективы в таких областях, как математика и физика, благодаря их способности эффективно проверять факты, шаг за шагом решая сложные задачи.
Однако за такое рассуждение приходится расплачиваться более высокими вычислительными затратами и задержкой. Вот почему лаборатории, такие как Anthropic, разрабатывают «гибридные» архитектуры моделей, которые сочетают компоненты для рассуждений со стандартными, нерассуждающими элементами. Гибридные модели могут быстро отвечать на простые вопросы, затрачивая дополнительное время на рассмотрение более сложных запросов.
Все модели Deep Cogito, называемые Cogito 1, являются гибридными моделями. Компания Cogito утверждает, что они превосходят лучшие открытые модели того же размера, в том числе модели Meta* и китайского стартапа DeepSeek.
«Каждая модель может отвечать напрямую […] или проводить самоанализ перед ответом (как модели-рассуждения)», — пояснила компания в своём блоге. «Все модели были разработаны небольшой командой примерно за 75 дней».
Модели Cogito 1 имеют от 3 до 70 миллиардов параметров, и Cogito заявляет, что в ближайшие недели и месяцы к ним присоединятся модели с 671 миллиардом параметров. Количество параметров примерно соответствует навыкам модели в решении задач, и чем их больше, тем лучше.
Cogito 1 не разрабатывался с нуля. Deep Cogito создан на основе открытых моделей Meta Llama и Alibaba Qwen. Компания заявляет, что применила новые подходы к обучению, чтобы повысить производительность базовых моделей и обеспечить возможность переключения между
Читать на habr.com