«Агент не может ждать секунды»: NVIDIA представила открытую omni-модель Nemotron 3 Nano
NVIDIA выпустила Nemotron 3 Nano Omni — открытую мультимодальную модель, которая объединяет работу с видео, аудио, изображениями и текстом в одной архитектуре. По заявлению компании, ее пропускная способность в 9 раз выше, чем у других открытых omni-моделей при той же интерактивности, а предназначена она в первую очередь для агентных систем. Модель доступна на Hugging Face, OpenRouter и build.nvidia.com (в виде NIM-микросервиса), а также на fal.ai.
В основе — гибридная схема Mamba-Transformer с MoE-архитектурой ("смесь экспертов"): из 30 млрд параметров активны только около 3 млрд, модель подключает нужного эксперта под конкретную задачу и модальность. Контекст — до 256 тысяч токенов, чего хватает для длинных агентных циклов и работы с видео или несколькими документами без дробления на фрагменты. Поддерживаются квантование FP8 и NVFP4, движки vLLM и TensorRT-LLM; есть оптимизация под архитектуры Ampere, Hopper и Blackwell.
Главный аргумент NVIDIA — агентные системы сегодня собирают стек восприятия из отдельных компонентов: одна модель для зрения, другая для звука, третья для текста. Это дает лишние вычислительные шаги, усложняет оркестрацию и повышает стоимость. Omni сводит весь этот конвейер в одну модель. "Чтобы строить полезных агентов, нельзя ждать секунды, пока модель интерпретирует экран", — комментирует глава H Company Готье Клуа, чьи агенты на Omni научились разбирать запись экрана в Full HD в реальном времени. На графиках NVIDIA видно, что по сравнению с предыдущей Nemotron Nano VL V2 у Omni также выросла точность на ряде отраслевых мультимодальных бенчмарков.
Omni позиционируется не как самостоятельная флагманская модель, а как субагент восприятия в составе более крупных агентных архитектур — рядом с Nemotron 3
Читать на habr.com