Модель MolmoAct от Ai2, мыслящая в 3D, бросает вызов Nvidia и Google
Физический ИИ — область, где сходятся робототехника и базовые модели, — стремительно набирает обороты. Крупнейшие компании, такие как Nvidia, Google и Meta, уже ведут исследования и экспериментируют с объединением больших языковых моделей (LLM) и роботов.
Свежая разработка Института искусственного интеллекта Аллена (Allen Institute for AI, Ai2) стремится потеснить Nvidia и Google в этой области. Речь идёт о MolmoAct 7B — новой открытой модели, способной «мыслить в пространстве». Она основана на открытом проекте Ai2 Molmo и работает с трёхмерным восприятием. Вместе с моделью разработчики публикуют и обучающие данные. Лицензия на MolmoAct — Apache 2.0, на датасеты — CC BY-4.0.
В Ai2 относят MolmoAct к классу action reasoning model — моделей, которые анализируют и выстраивают действия в физическом, трёхмерном пространстве. Иными словами, MolmoAct способна воспринимать окружающий мир, продумывать, как расположиться в нём и совершить действие.
«MolmoAct умеет рассуждать в 3D‑пространстве, в отличие от традиционных моделей VLA (vision‑language‑action), — пояснили в Ai2. — Большинство таких систем не думают о пространстве, но MolmoAct это умеет, что делает её более универсальной и эффективной с архитектурной точки зрения».
Поскольку роботы действуют в реальном, осязаемом мире, в Ai2 утверждают: MolmoAct помогает им лучше воспринимать окружение и принимать более взвешенные решения о взаимодействии с ним.
«MolmoAct можно применять везде, где машине нужно анализировать физическую обстановку, — говорят разработчики. — Мы чаще всего думаем о бытовых сценариях, потому что именно там роботы сталкиваются с наибольшими трудностями: обстановка непостоянна, всё меняется. Но возможностей для применения — гораздо больше».
MolmoAct интерпретирует
Читать на habr.com