Текстовые ИИ-данные иссякают. Meta⚹ предлагает переключиться на неразмеченное видео
Исследовательская группа из Meta FAIR⚹ и Нью-Йоркского университета систематически изучила, как можно обучать мультимодальные модели ИИ с нуля. Их выводы ставят под сомнение сразу несколько широко распространённых представлений о том, как вообще следует строить такие модели.
Модели языка во многом определили эпоху так называемых foundation-моделей. Однако, как утверждают авторы работы “Beyond language modeling”, текст в конечном счёте представляет собой лишь сжатое и неизбежно неполное отражение реальности. Обращаясь к платоновской аллегории пещеры, исследователи замечают: языковые модели научились описывать тени на стене, ни разу не увидев предметов, которые эти тени отбрасывают. К тому же существует и вполне практическая проблема: качественные текстовые данные ограничены – и их запасы стремительно истощаются.
Исследование, в котором принимал участие Янн ЛеКун, посвящено обучению единой модели, созданной полностью с нуля. Для языка в ней используется привычное пословное предсказание, а для визуальных данных – диффузионный метод flow matching. Модель обучается сразу на нескольких типах данных: тексте, видео, парах “изображение – текст”, а также на видеороликах, содержащих действия. Поскольку исследователи не опираются на уже обученную языковую модель, их результаты не искажаются знаниями, усвоенными ранее.
В предыдущих подходах – таких, как Janus или BAGEL, – обычно используются раздельные визуальные энкодеры: один отвечает за понимание изображений, другой – за их генерацию. Однако исследователи Meta⚹ обнаружили, что подобное разделение на самом деле излишне.
Согласно результатам работы, автоэнкодер представлений (RAE), построенный на базе модели изображений SigLIP 2, превосходит традиционные VAE-энкодеры и в генерации
Читать на habr.com