Новая система Meta* MILS обучает LLM работать с мультимедийными данными без специальной подготовки
Исследователи Meta AI и их академические партнёры разработали систему, которая обучает большие языковые модели работе с изображениями, видео и аудио без специальной подготовки.
Система под названием MILS (Multimodal Iterative LLM Solver) опирается на естественные способности моделей к решению задач, а не на обширную подготовку данных.
MILS работает в паре с двумя моделями AI: «генератором», который предлагает решения задач, и «оценщиком», который оценивает эффективность этих решений. Обратная связь от «оценщика» помогает «генератору» шаг за шагом улучшать свои ответы, пока не будет достигнут удовлетворительный результат.
Система особенно хорошо справляется с описанием изображений. Используя Llama-3.1-8B в качестве генератора и CLIP в качестве оценщика, MILS создаёт подробные описания изображений, которые соответствуют или превосходят современные передовые методы, даже несмотря на то, что CLIP не был специально обучен для выполнения этой задачи.
MILS также способствует улучшению процесса создания изображений из текста благодаря точной настройке текстовых инструкций. Кроме того, система может выполнять задачи по редактированию изображений, такие как перенос стиля, комбинируя подсказки, созданные искусственным интеллектом, с инструментами обработки изображений.
Возможности системы распространяются также на видео и аудио. В тестах с использованием набора данных о видео MSR-VTT система MILS показала лучшие результаты, чем существующие модели, при описании видеоконтента.
Поскольку MILS не изменяет параметры модели во время работы, он может преобразовывать различные типы данных в читаемый текст. Это позволяет создавать новые приложения, например, объединять информацию из нескольких источников, таких как изображения и аудио,
Читать на habr.com