Яндекс представил диффузионную нейросеть YandexART 2.0 — в её основе новая гибридная архитектура
Привет, Хабр! На связи Евгений Ляпустин из команды компьютерного зрения Яндекса. Сегодня вместе с коллегами из Yandex Research мы представляем новое поколение нашей диффузионной нейросети — YandexART 2.0. Она уже применяется в Алисе, а также доступна всем желающим через API в Yandex Cloud.
Новая модель умеет создавать надписи прямо на изображениях, придерживаться нескольких стилей на одной картинке, располагать объекты в пространстве и относительно друг друга более естественно и учитывать при генерации больше деталей из текстового запроса.
Под катом — не только новость, но и краткий рассказ о том, как устроена модель на техническом уровне и какие возможности это открывает перед нашими пользователями.
Раньше для нашей модели мы использовали классический вариант свёрточной архитектуры U-Net, которая знакома многим по таким нейросетям, как DALL-E 2 и Imagen. Несмотря на неплохие результаты, она явно требовала переосмысления. Мы попробовали перейти на трансформеры, о применении которых рассказывали создатели Stable Diffusion 3 и FLUX, но не увидели значимого улучшения в качестве. Хотя у подхода с трансформерами есть очевидные достоинства. Например, трансформеры позволяют учитывать длинный контекст, а значит, точнее следовать сложным промптам. Мы не стали выбирать и собрали свой гибрид свёрточной и трансформерной архитектур, который объединил сильные стороны обоих подходов. Теперь YandexART умеет придерживаться нескольких стилей в одном изображении и может, например, сгенерировать фотореалистичную банку лимонада, на этикетке которой будет аниме-персонаж. Более подробно об этом решении планируем рассказать на Хабре в отдельной статье.
YandexART обучалась на сотнях миллионов пар картинок и текстовых описаний к ним. Чтобы
Читать на habr.com
