Вышла ACE-Step 1.5 — обновлённая модель для локальной генерации музыки
Разработчики ACE-Step совместно со StepFun выпустили обновление открытой модели ACE-Step для генерации музыки локально. Для запуска младшей версии нейросети надо менее 6 ГБ VRAM.
Модель ACE-Step перешла на гибридную архитектуру. Теперь есть отдельный LM-модуль, который берёт на себя роль планирования музыкальной композиции. Он из короткого запроса создаёт структуру трека, слова и метаданные. После в дело вступает DiT (Diffusion Transformer) для синтеза аудио.
ACE-Step может создавать композиции продолжительностью от 10 секунд до 10 минут. Одновременно модель обрабатывать до 8 треков. Среди сценариев использования есть не только режим text-to-music. Например, модель генерирует каверы, редактирует отдельные фрагменты, создаёт аккомпанемент под вокал и управляет тональностью произведения.
Разработчики опубликовали сразу семейство моделей под разное железо:
Объём VRAM
Рекомендуемый LM-модуль
Бэкенд
Примечание
до 6 ГБ
Только DiT
—
LM-модуль по умолчанию отключён
6-8 ГБ
acestep-5Hz-lm-0.6B
pt
Легковесный LM-модуль с бэкендом на PyTorch
8-16 ГБ
acestep-5Hz-lm-0.6B или acestep-5Hz-lm-1.7B
vllm
Для 8-12 ГБ — модель на 0.6B параметров, для 12-16 ГБ — 1.7B параметров
16-24 ГБ
acestep-5Hz-lm-1.7B
vllm
Модель 4B доступна для 20 ГБ и более
более 24 ГБ
acestep-5Hz-lm-4B
vllm
Лучшее качество
Модели доступны на Hugging Face и GitHub. Примеры сгенерированных треков опубликовали на официальной странице проекта. Протестировать нейросеть можно на сайте ACEMusic.
Читать на habr.com