

Яндекс представил новую линейку диффузионных моделей YandexART 2.5
Привет, Хабр! Сегодня наша команда компьютерного зрения представляет две новые модели. Базовая модель YandexART 2.5 уже доступна всем пользователям Шедеврума и в Чате с Алисой. Более мощную Pro-версию можно попробовать в новой подписке Шедеврум Про. Модели научились самостоятельно подбирать подходящие стиль и оформление изображения и стали лучше генерировать надписи на латинице. Новые возможности будут полезны, например, для создания книжных обложек, логотипов или художественных иллюстраций.
Чуть подробнее о том, что мы изменили в процессе обучения, расскажу под катом. Ну а в конце новости вас ждут наглядные примеры наиболее заметных улучшений.
По результатам SbS-тестирования, обновлённая линейка превосходит Midjourney 6.1 по всем нашим критериям, а также выигрывает в сравнениях или находится в паритете с такими мировыми лидерами, как Ideogram, Dall-E 3 и Flux.
Кратко подсвечу основные изменения, которые и привели к столь значимым для нас и пользователей результатам.
Прежде всего, мы расширили обучающий датасет, приблизив его к 1 млрд пар картинок и описаний к ним. Описания к изображениям подготовила разработанная в Яндексе визуально-языковая модель (VLM). Она умеет распознавать даже незначительные объекты на изображении, за счёт чего её тексты получаются подробными и детализированными. Благодаря обучению на таких данных YandexART удаётся точнее следовать промпту. Кроме того, VLM впервые применили и для оценки качества работы нейросети. Визуально-лингвистическая модель проверяла множество изображений на соответствие заданным промптам. Например, действительно ли на картинке присутствовали все указанные пользователем элементы.
Также заменили автокодировщик VAE с 4-канального на 16-канальный. То есть увеличили в 4 раза размер
Читать на habr.com