Alibaba представила Qwen-Robot Suite — набор AI-моделей для роботов и физических агентов
Инженеры Alibaba представили Qwen-Robot Suite — набор из трёх фундаментальных AI-моделей для роботов и агентов, которые не только понимают текст и изображения, но и могут действовать в физическом мире.
В набор вошли три модели:
Qwen-RobotNav— модель, объединяющая в себе сразу несколько навигационных сценариев: следование инструкциям, движение к заданной точке, поиск объектов, отслеживание цели и автономное вождение. Авторы описывают её как базовую модель для навигации агентских систем. Например, внешний планировщик может разбить большую задачу на серию небольших заданий и переключать режимы модели по мере выполнения.
У модели можно настроить протокол наблюдения, чтобы система в процессе меняла то, как она обрабатывает визуальный контекст. Например, можно регулировать объём токенов или вес разных камер. Инженеры обучали модель на 15,6 млн примеров и масштабировали размер от 2 до 8 млрд параметров для улучшения результата.
Qwen-RobotManip — vision-language-action-модель на базе Qwen-VL, отвечающая за физическое взаимодействие с объектами. Она решает проблему разнородности робототехнических данных, связанную с тем, что у роботов разные конструкции, датчики и способы управления.
Для решения этой проблемы в Qwen-RobotManip используют механизм выравнивания представлений, движений и поведения. Благодаря этому разработчикам должно быть проще переносить навыки между роботами. Саму модель обучали на корпусе из 38 тыс. видео, робототехнических и синтетических данных.
Qwen-RobotWorld — модель мира, которая по наблюдениям в реальном времени и текстовым инструкциям «предсказывает», как будет развиваться физическая среда. Если говорить проще, то модель генерирует будущие визуальные траектории для разных сценариев.
Все модели из набора
Читать на habr.com
