Stability AI опубликовала Stable Diffusion 3.5 Large — модель text-to-image с 8 млрд. параметров
В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:
🟢 OpenCLIP-ViT/G;
🟢 CLIP-ViT/L;
🟢 T5-xxl.
OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.
Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.
Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.
⚠️ Инференс квантованной NF4-версии на ограниченных VRAM
⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.
В целом, модель выглядит лучше 3-й версии. Местами лучше FLUX, метсами хуже. Подтянули эстетику и фотореализм, но согласованность в анатомии все еще не очень. Но самое главное, что далии возможность тренить Лоры, они все исправят.
▶️Локальный запуск инференса на Diffusers:
📌 Лицензирование:
🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.
🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.
У себя в канале о машинном обучении, я публикую разбор свежих ml моделей, присоединяйтесь, если любите ml.
🟡Страница проекта
🟡Arxiv
🟡Модель
#AI #ML #Diffusion #SDL #StabilityAI
Читать на habr.com
