JetBrains выпускает Mellum, открытую модель кодирования AI
Компания JetBrains, стоящая за рядом популярных инструментов разработки приложений, выпустила свою первую открытую модель AI для программирования. В среду JetBrains сделала Mellum, модель генерации кода, которую компания выпустила для своих различных пакетов разработки ПО в прошлом году, общедоступной на платформе разработки AI Hugging Face. Mellum, обученный на более чем 4 триллионах токенов, весит 4 миллиарда параметров и разработан специально для автодополнения кода (т. е. завершения фрагментов кода на основе окружающего контекста).
Параметры примерно соответствуют навыкам решения проблем модели, тогда как токены — это сырые биты данных, которые обрабатывает модель. Миллион токенов эквивалентен ~30 000 строк кода.
«Mellum разработан для интеграции в профессиональные инструменты разработчика (например, интеллектуальные предложения кода в интегрированных средах разработки), помощников по кодированию на базе искусственного интеллекта и исследований в области понимания и генерации кода. Он также хорошо подходит для образовательных приложений и экспериментов по тонкой настройке», — поясняет JetBrains в техническом отчете.
JetBrains сообщает, что обучала Mellum, лицензированный Apache 2.0, на наборе наборов данных, включая разрешенный лицензированный код из GitHub и статьи Wikipedia на английском языке. Обучение заняло около 20 дней на кластере из 256 графических процессоров H200 Nvidia.
Mellum требует некоторой работы, чтобы запуститься. Базовую модель нельзя использовать из коробки; сначала ее нужно настроить. Хотя JetBrians предоставила несколько моделей Mellum, настроенных для Python, компания предупреждает, что они предназначены для «оценки потенциальных возможностей», а не для развертывания в производственной среде.
Код,
Читать на habr.com