Moonshot AI представляет Kimi-VL: мощную модель ИИ для обработки текста, изображений и видео
Новая модель ИИ с открытым исходным кодом от китайского стартапа Moonshot AI обрабатывает изображения, текст и видео с удивительной эффективностью. Модель Kimi-VL отличается способностью обрабатывать длинные документы, сложные рассуждения и понимать пользовательский интерфейс.
По данным Moonshot AI, Kimi-VL использует архитектуру «смесь экспертов», активируя только часть модели для каждой задачи. Имея всего 2,8 миллиарда активных параметров — гораздо меньше, чем у многих крупных моделей, — Kimi-VL показывает результаты, сопоставимые с результатами гораздо более крупных систем в различных тестах.
Модель может обрабатывать до 128 000 токенов в максимальном контексте, чего достаточно для обработки целой книги или длинной расшифровки видео. Moonshot AI сообщает, что Kimi-VL стабильно показывает высокие результаты в таких тестах, как LongVideoBench и MMLongBench-Doc.
Возможности Kimi-VL по обработке изображений примечательны. В отличие от некоторых систем, она может анализировать скриншоты или сложную графику, не разбивая их на более мелкие фрагменты. Модель также обрабатывает математические задачи с изображениями и рукописные заметки. В ходе одного теста он проанализировал рукопись, написанную от руки, выявил ссылки на Альберта Эйнштейна и объяснил их актуальность.
Система также функционирует как программный помощник, интерпретируя графические пользовательские интерфейсы и автоматизируя цифровые задачи. Компания Moonshot AI утверждает, что в тестах, в которых модель перемещалась по меню браузера или меняла настройки, она превзошла многие другие системы, включая GPT-4o.
По сравнению с другими моделями с открытым исходным кодом, такими как Qwen2.5-VL-7B и Gemma-3-12B-IT, Kimi-VL выглядит более эффективной. По данным Moonshot AI,
Читать на habr.com