Вышла Qwen2.5-Coder 32B. Открытая локальная модель для кода небольшого размера конкурирующая с GPT-4o
После выхода Qwen2.5, которая подняла LLM небольших размеров на новый уровень, так как при размере всего 72B и, особенно, 32B - она показывала очень хорошие качество размышления и следования инструкциям, все начали с нетерпением ждать выхода Coder 32B модели, так как ожидали от неё уровня близкого к GPT-4o.
И вот, наконец-то, Qwen представила эту коллекцию моделей для кода размерами: 0.5B, 1.5B, 3B, 7B, 14B и 32B. Размер контекста 128k, лицензия Apache 2.0 (кроме модели 3B).
До текущего момента самой популярной локальной моделью для программирования была Codestral 22b, новая же модель в бенчмарке McEval на 40 языках программирования показывает результаты лучше чем она, и по некоторым языкам обгоняет GPT-4o.
Падение качества от модели к модели с уменьшением размера B можно оценить из этой таблицы. B - показатель в млрд количества параметров у модели.
В бенчмарке Aider 32B показывает себя хорошо, также на уровне GPT-4o, набирая 73.7%. Более легковесная 14B выдает результат 69.2%, в то время как Codestal 22B всего 51.1%.
Главное отличие Code моделей об обычных в том, что такие модели обучались с FIM (Fill in the Middle) - специальное обучение сосредоточенное на дополнение кода, поэтому такие модели лучше справляются с autocomplete.
Для моделей 14B и 32B доступен размер контекста в 128k при использовании не gguf моделей, для gguf размер будет 32k.
Для запуска 32B модели в формате gguf с квантованием Q4_K_M потребуется около 18гб vram для модели и еще 8гб для контекста в 32k. Снизить это требование можно включив квантование кэша контекста: cache_8bit, тогда потребуется 4гб, или cache_4bit, тогда 2гб, но немного снизится качество, для сложного кода это может быть заметно. Модель на 14B работает с приемлемой скоростью на CPU only, на
Читать на habr.com