OLMo 2 32B устанавливает новый стандарт для моделей LLM с открытым исходным кодом
Новая языковая модель с открытым исходным кодом достигла производительности, сопоставимой с ведущими коммерческими системами, при сохранении полной прозрачности. Институт искусственного интеллекта Аллена (Ai2) объявил , что его модель OLMo 2 32B превосходит как GPT-3 .5-Turbo, так и GPT-4o mini, а также сделал ее код, данные обучения и технические подробности общедоступными.
Модель выделяется своей эффективностью, потребляя всего треть вычислительных ресурсов, необходимых аналогичным моделям, таким как Qwen2.5-32B . Это делает ее особенно доступной для исследователей и разработчиков, работающих с ограниченными ресурсами.
Команда разработчиков использовала трехфазный подход к обучению. Сначала модель изучила базовые языковые шаблоны из 3,9 триллионов токенов, затем изучила высококачественные документы и академический контент и, наконец, освоила следование инструкциям с использованием фреймворка Tulu 3.1, который сочетает в себе контролируемые и подкрепляемые методы обучения.
Для управления процессом команда создала OLMo-core, новую программную платформу, которая эффективно координирует несколько компьютеров, сохраняя при этом прогресс обучения. Фактическое обучение проходило на Augusta AI, суперкомпьютерной сети из 160 машин, оснащенных графическими процессорами H100, достигая скорости обработки более 1800 токенов в секунду на графический процессор.
В то время как многие проекты AI, такие как Llama от Meta , заявляют о статусе с открытым исходным кодом, OLMo 2 соответствует всем трем основным критериям: публичный код модели, веса и данные обучения. Команда опубликовала все, включая набор данных обучения Dolmino , что обеспечивает полную воспроизводимость и анализ.
«С небольшим прогрессом каждый сможет проводить
Читать на habr.com