Seedream 3.0: новая модель преобразования текста в изображение от ByteDance
ByteDance представляет Seedream 3.0 — новую модель преобразования текста в изображение. Тесты показывают, что она превосходит GPT-4o и Midjourney по скорости, точности и качеству изображения.
Модель была обучена на вдвое большем объёме данных по сравнению с Seedream 2.0. Сюда входят изображения, которые ранее исключались из обучения из-за визуальных дефектов, которые теперь маскируются во время предварительной обработки. Новые методы обучения, такие как выборка с учётом разрешения и обучение со смешанным разрешением, направлены на повышение точности вывода при разных размерах изображений. Seedream 3.0 поддерживает исходное разрешение 2K и может сгенерировать изображение с разрешением 1K примерно за три секунды.
В таких тестах, как Artificial Analysis Arena, где пользователи сравнивают результаты работы разных моделей, Seedream 3.0 изначально занимал первое место на момент публикации статьи. Сейчас он отстаёт от GPT-4 всего на одно очко (Arena ELO 1156 против 1157). Модель особенно хорошо справляется с заданиями, содержащими много текста, достигая 94% точности при переводе на английский и китайский языки даже при плотной типографике.
Чтобы добиться таких результатов, модель обучалась на наборах данных с подробными эстетическими и стилистическими описаниями. По словам ByteDance, результаты не только превосходят GPT-4o, но и могут превзойти ориентированные на дизайн платформы, такие как Canva, в таких задачах, как создание плакатов и стикеров. Эти сравнения касаются качества типографики и интеграции текста в изображения.
В области фотореалистичных портретов ByteDance утверждает, что Seedream 3.0 также превосходит Midjourney v6.1. По словам компании, модель создаёт более реалистичные текстуры кожи и более мелкие детали, включая
Читать на habr.com