Об этом же в других СМИ

habr.com / 11 месяцев назад

Qwen Image Edit — новый шаг к умному и смысловому редактированию фото

habr.com / 11 месяцев назад

X-Omni от Tencent бросает вызов GPT-4o в генерации изображений, опираясь на опенсорс

habr.com / 11 месяцев назад

Microsoft добавила в Bing Image Creator бесплатный доступ к GPT-4o

habr.com / 11 месяцев назад

Baidu до конца месяца выпустит новую ризонинг-модель

habr.com / 11 месяцев назад

Xiaomi выложила в опенсорс SOTA-модель для универсального понимания аудио

Больше по теме

07.08.2025 - 14:03 / habr.com

X-Omni от Tencent: авторегрессионная text-to-image модель с RL

X-Omni — методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.

X-Omni построена на гибридной, но при этом унифицированной архитектуре.

Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev.

Уникальность метода - в смеси RL по GRPO и комплексной reward-системе

Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR.

Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов.

Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста.

И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали

На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o.

В задачах общей генерации по тексту X-Omni

связь общество самит крипто токен Tencent mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Qwen выпустил генератор изображений с открытым кодом Qwen‑Image habr.com / 11 месяцев назад

Cohere выпустила новую мультимодальную модель Command A Vision habr.com / 11 месяцев назад

Nvidia представит на SIGGRAPH 2025 ИИ-модель Queen для создания 3D-видео habr.com / 11 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

27.07 / 19:36

Samsung технологии происшествия СМИ Складные смартфоны Galaxy TriFold вернется в 2027 году: Samsung готовит новую модель своего передового гаджета

Неожиданная новость от корейских СМИ: Samsung не похоронила идею выпуска собственных смартфонов формата TriFold! Напомним, первый такой гаджет вышел в декабре 2025 года по цене $2420 (в США) и хотя все 30 тыс экземпляров были быстро распроданы, девайс оказался коммерчески невыгодным и уже в марте был снят с производства.

27.07 / 18:41

технологии курс reddit В Python появятся стековые корутины в стиле Go за счет библиотеки Runloom

Сообщество независимых разработчиков представило открытую библиотеку Runloom. Проект внедряет стековые корутины в стиле языка Go в режим free-threaded Python 3.13t+ с отключенной глобальной блокировкой интерпретатора (GIL). Над инструментом работают пользователи GitHub, Reddit и Lobsters, однако к проекту уже проявили интерес инженеры из крупных технологических компаний, включая Cloudflare, Vercel и Hugging Face.

27.07 / 18:41

бизнес связь промышленность общество самит BI: GM незаметно превращается в автокомпанию, работающую по подписке

Американская General Motors незаметно превращается в автокомпанию, работающую по подписке, пишет Business Insider. Автопроизводитель активно развивает свой бизнес в сфере программного обеспечения и подписки. Руководители GM отметили стремительный рост двух самых популярных программных сервисов компании: OnStar и Super Cruise.

27.07 / 18:10

продукты Samsung технологии финансы криптовалюта Samsung Wallet получит поддержку стейблкоинов: Galaxy-смартфоны станут ближе к цифровым финансам

Если планы будут реализованы в полном объеме, Samsung станет одним из первых крупных производителей смартфонов, предложивших встроенную поддержку стейблкоинов непосредственно на мобильных устройствах без необходимости использовать сторонние приложения.

27.07 / 17:42

деньги бюджет intel HP Z1 Tower G1i: Компактная рабочая станция с Core Ultra 5 и военной защитой

HP продолжает развивать свою линейку профессиональных решений, представив новую конфигурацию рабочей станции Z1 Tower G1i. Это устройство для тех, кому обычного офисного системника уже мало, а полноценная серверная стойка под столом пока не входит в планы. Новинка сочетает в себе свежую архитектуру Intel и выносливый корпус, который соответствует строгим стандартам.

27.07 / 17:12

технологии экономика общество самит Microsoft усиливает защиту Windows: популярный способ нелегальной активации может перестать работать

Нововведение в первую очередь касается корпоративного сегмента, однако его последствия могут затронуть и пользователей, которые используют неофициальные инструменты активации Windows. Информация является официальной и опубликована Microsoft.

27.07 / 17:12

происшествия соцсети мода здоровье общество Опасная мода в TikTok: почему нельзя подстригать ресницы

Врачи развеяли популярный миф о пользе подобной стрижки. Ресницы от этого абсолютно не становятся ни гуще, ни длиннее, ни крепче.

27.07 / 17:11

технологии Apple СМИ самит планшеты Новый iPad mini не боится воды — модель 2026 года получит полную водозащиту благодаря переработанным динамикам

В СМИ продолжает появляться информация о новой модели iPad mini, которая, как ранее сообщал Марк Гурман, выйдет в октябре, получит самое масштабное обновление за пять лет, а ее главной особенностью станет OLED-экран.

27.07 / 16:59

евро Philips представила зубную щётку с ИИ‑помощником, который даёт советы по чистке зубов

Philips представила электрическую зубную щётку Sonicare Next‑Generation DiamondClean 9900 Prestige — первую модель компании со встроенным искусственным интеллектом, который работает непосредственно на устройстве. Щётка анализирует процесс чистки в режиме реального времени и подсказывает пользователю, какие участки требуют дополнительного внимания.

27.07 / 16:51

Apple здоровье журналист интересное Не ждите многого от новых Apple Watch: мощные чипы повысят производительность, но дизайн останется прежним

Марк Гурман и ряд других авторитетных журналистов неоднократно отмечали, что под руководством Тима Кука Apple уделяет гораздо меньше внимания изменению дизайна своих гаджетов, чем этого хотел Стив Джобс. Среди таких устройств называют часы Apple Watch и, к сожалению, в этом году не следует надеяться на их глобальное переосмысление.

Лента новостей

На главную страницу