



LongCat-Image доказывает, что 6 миллиардов параметров могут превзойти более крупные модели с лучшей обработкой данных
Китайская технологическая компания Meituan выпустила LongCat-Image, новую модель обработки изображений с открытым исходным кодом, которая бросает вызов распространенному в отрасли принципу «чем больше, тем лучше». Сообщается, что модель, имеющая всего 6 миллиардов параметров, значительно превосходит более крупных конкурентов как по фотореализму, так и по рендерингу текста, благодаря строгой обработке данных и продуманному подходу к обработке текста.
В то время как конкуренты, такие как Tencent и Alibaba, продолжают создавать всё более крупные модели - Hunyuan3.0 вмещает до 80 миллиардов параметров - Meituan пошла в противоположном направлении. Команда утверждает, что масштабирование методом грубой силы тратит ресурсы оборудования, не улучшая при этом качество изображений. Вместо этого LongCat-Image использует архитектуру, аналогичную популярной Flux.1-dev, построенную на гибридном многомодальном диффузионном трансформаторе (MM-DiT).
Система обрабатывает данные изображения и текста через два отдельных пути внимания на начальных уровнях, прежде чем объединить их позже. Это обеспечивает текстовой подсказке более жесткий контроль над генерацией изображения без увеличения вычислительной нагрузки.
По мнению исследователей, одной из самых больших проблем современных систем искусственного интеллекта для обработки изображений является загрязнение обучающих данных. Когда модели обучаются на изображениях, созданных другими системами ИИ, они перенимают пластиковую или жирную текстуру. Модель учится использовать упрощенные подходы вместо понимания реальной сложности.
Решение команды было простым, но радикальным: они удалили весь контент, сгенерированный ИИ, из своего набора данных на этапах предварительного и промежуточного обучения.
Читать на habr.com
