



AIRI выложил мультимодальную модель искусственного интеллекта OmniFusion в открытый доступ
Институт искусственного интеллекта (ИИ) AIRI представил открытую версию модели OmniFusion 1.1. По словам разработчиков, OmniFusion представляет собой первую в России мультимодальную языковую модель, способную поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, а в перспективе — по аудио, 3D и видеоконтенту. Open source код для обучения и веса модели доступны к использованию.
Как утверждают разработчики, модель распознаёт и описывает изображения. С её помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения, узнать, как собрать устройство по фото отдельных его частей, или проанализировать медицинское изображение и указать проблему. Но для последнего модель необходимо дополнительно обучать на профильных дата‑сетах с привлечением экспертов из медицины.
Качество модели в разных вариантах её архитектуры оценили при помощи 8 известных бенчмарков. Среди них, например, были проведены тесты TextVQA (бенчмарк для оценки качества ответов на вопросы по изображениям, содержащим какой‑то текст), POPE (бенчмарк для оценки галлюцинаций, когда модель начинает выдумывать несуществующие данные в ответах) и ScienceQA (бенчмарк с вопросами, основанными на лекциях и вопросах на различные научные темы).
В основе архитектуры модели лежит методика совмещения предварительно обученной большой языковой модели и визуальных энкодеров, позволяющих кодировать информацию на изображении в числовой вектор, называемый эмбеддингом. Подробнее о модели читайте в статье на Хабре.
Читать на habr.com