DeepSeek утверждает, что его модель рассуждений превосходит o1 от OpenAI по некоторым показателям
Китайская лаборатория искусственного интеллекта DeepSeek выпустила открытую версию DeepSeek-R1, своей так называемой модели рассуждений, которая, по её утверждению, работает так же хорошо, как o1 от OpenAI в определённых тестах AI.
R1 доступен на платформе для разработки AI Hugging Face по лицензии MIT, что означает, что его можно использовать в коммерческих целях без ограничений. По данным DeepSeek, R1 превосходит o1 в тестах AIME, MATH-500 и SWE-bench Verified. AIME использует другие модели для оценки производительности модели, а MATH-500 представляет собой набор текстовых задач. SWE-bench Verified, в свою очередь, ориентирован на задачи программирования.
Ознакомится с моделью и попробовать в действии можно на нашем сайте.
Будучи моделью рассуждений, R1 эффективно проверяет факты, что помогает ей избежать некоторых ошибок, которые обычно приводят к сбоям в работе моделей. Модели рассуждений требуют немного больше времени, обычно от нескольких секунд до нескольких минут для поиска решений по сравнению с типичной моделью. Преимущество в том, что они, как правило, более надёжны в таких областях, как физика, наука и математика.
R1 содержит 671 миллиардов параметров, как сообщает DeepSeek в техническом отчёте. Параметры примерно соответствуют навыкам модели в решении задач, и модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.
671 миллиардов параметров - это очень много, но DeepSeek также выпустила «облегчённые» версии R1 размером от 1,5 миллиардов параметров до 70 миллиардов параметров. Самая маленькая версия может работать на ноутбуке. Что касается полной версии R1, то для неё требуется более мощное оборудование, но она доступна через API DeepSeek по цене на 90–95% ниже,
Читать на habr.com
