Alibaba запустила Qwen-Image-2.0 — нейросеть для презентаций, инфографики и комиксов
Компания Alibaba представила Qwen-Image-2.0 - модель нового поколения для работы с изображениями. Это универсальная омни-нейросеть, которая в одной архитектуре объединяет генерацию с нуля и редактирование готовых картинок и сразу работает в нативном 2K-разрешении.
Модель уже доступна в Qwen Chat - в веб-версии и приложениях для iOS/Android, macOS и Windows. Для разработчиков доступ через API. Подробности в материале Postium.
Qwen-Image-2.0 умеет понимать сложные визуальные сцены и длинные текстовые инструкции одновременно. Ключевая особенность - поддержка промптов длиной до 1 000 токенов. Это позволяет нейросети не просто «рисовать картинки», а полноценно верстать макеты: презентационные слайды, инфографику с таблицами и диаграммами, рекламные постеры и страницы комиксов с диалогами.
Модель получила облегчённую архитектуру, за счёт чего генерация стала быстрее, а детализация - выше. Она корректно отрисовывает текстуры кожи, тканей и материалов и точно воспроизводит текст на сложных поверхностях: стеклянных досках, одежде, обложках журналов.
Отдельный фокус - типографика. Вместо случайных символов модель стабильно рендерит длинные абзацы, мелкий шрифт, вертикальный текст и каллиграфию. Можно задать структуру документа, точные данные для графиков или текст для «пузырей» в комиксах - всё отрисовывается без искажений и автоматически вписывается в композицию.
Важная часть обновления - работа с композицией и выравниванием. Qwen-Image-2.0 корректно собирает сложные макеты: таймлайны, сетки календарей, комикс-панели, схемы и инфографику. Текстовые и графические блоки выровнены между собой без ручной доводки. При этом улучшен и фотореализм в сценах без текста: люди, природа и архитектура выглядят детальнее, со сложным светом и мелкими
Читать на habr.com