




OmniGen 2 сочетает в себе генерацию изображений и текста, как GPT-4o, но имеет открытый исходный код
Исследователи из Пекинской академии искусственного интеллекта выпустили OmniGen 2 — систему с открытым исходным кодом для преобразования текста в изображение, редактирования изображений и создания контекстных изображений.
В отличие от оригинальной модели OmniGen, выпущенной в ноябре 2024 года, OmniGen 2 использует два отдельных пути декодирования: один для текста, другой для изображений, каждый со своими параметрами и отдельным токенизатором изображений. По словам команды разработчиков, такая настройка позволяет модели опираться на существующие мультимодальные языковые модели, не жертвуя при этом их основными навыками генерации текста.
В основе лежит мультимодальная большая языковая модель (MLLM) на базе трансформера Qwen2.5-VL-3B. Для создания изображений OmniGen 2 использует собственный диффузионный трансформер с примерно четырьмя миллиардами параметров. Модель переключается с написания текста на создание изображений, когда встречает специальный токен «<|img|>».
Для обучения использовалось около 140 миллионов изображений из наборов данных с открытым исходным кодом, а также из собственных коллекций. Исследователи также разработали новые методы, использующие видео для извлечения похожих кадров — например, лица с улыбкой и без неё — и создания соответствующих инструкций по редактированию с помощью языковой модели.
Для создания контекстных изображений OmniGen 2 отслеживает людей или объекты на нескольких кадрах видео, помогая модели понять, как один и тот же объект выглядит в разных ситуациях.
Команда представила новое встраивание позиции «Omni-RoPE», которое разделяет информацию о позиции тремя способами: последовательность и идентификатор модальности для различения изображений, а также двумерные координаты для каждого
Читать на habr.com