Alibaba выпустила VimRAG – не просто RAG, а агент с графом памяти
Исследовательская группа Alibaba-NLP представила два взаимосвязанных фреймворка – VimRAG и VRAG-RL, которые меняют подход к мультимодальному retrieval-augmented generation (RAG). В arXiv-препринтах 2602.12735 и 2505.22019 авторы предлагают отказаться от линейных историй в пользу динамического ориентированного ациклического графа (DAG) и обучения с подкреплением.
Основная идея VimRAG – побороть так называемую “слепоту состояний” (state blindness) в мультимодальных RAG-системах. Вместо того чтобы перебирать запросы и дублировать поиск, фреймворк строит multimodal memory graph – структуру, где каждый узел отвечает за определённый фрагмент информации (текст, изображение, видео), а рёбра показывают, как агент переходит от одного куска знаний к другому. В процессе рассуждения граф динамически обрезается с помощью graph-guided policy optimization (GGPO) – это позволяет точно назначать “кредиты” за полезные действия и ускорять сходимость обучения.
Для работы с тяжёлыми визуальными данными инженеры Alibaba внедрили graph-modulated visual memory encoding – механизм адаптивного выделения токенов, который не тратит ресурсы на второстепенные детали. А чисто визуальный агент VRAG (отдельный режим в том же фреймворке) учится собирать информацию постепенно – от общего плана к мелким элементам, имитируя то, как человек рассматривает сложную сцену.
На практике VimRAG можно запустить двумя способами:
Через DashScope API (рекомендуется для быстрого старта) – используется модель qwen3.5-plus, не нужна локальная GPU. Просто ставите export DASHSCOPE_API_KEY=... и выполняете ./run_demo.sh vimrag. Откроется Streamlit-демо с визуализацией DAG в реальном времени, потоковой выдачей и режимом расширенного мышления.
Локально – для этого нужен A100 80 ГБ,
Читать на habr.com