Google Deepmind представляет новые модели AI для управления роботами
Google Deepmind разработала две новые модели AI, которые улучшают взаимодействие роботов с физическим миром. Обе системы основаны на возможностях Gemini 2.0. Первая модель, Gemini Robotics, функционирует как усовершенствованная модель Vision-Language-Action (VLA), разработанная специально для прямого управления роботами. Созданная на основе Gemini 2.0, она обрабатывает и отвечает на команды на естественном языке на нескольких языках.
Система преодолевает разрыв между цифровыми возможностями AI и взаимодействием с физическим миром. В ходе тестирования Gemini Robotics показала, что может справляться с совершенно незнакомыми ситуациями, объектами и окружением, не включенными в ее обучающие данные.
Система непрерывно контролирует окружающую среду, мгновенно корректируя ее при возникновении проблем — выскальзывает ли объект из ее рук или кто-то переставляет предметы в ее рабочем пространстве. В ходе прямого тестирования с ведущими моделями Google Deepmind сообщает, что Gemini Robotics более чем вдвое увеличила производительность в задачах обобщения. Система демонстрирует сложный контроль при выполнении сложных задач, таких как складывание оригами и упаковка закусок в пакеты Ziploc.
Хотя система освоила большую часть своих навыков на платформе двурукого робота ALOHA 2, она может управлять различными типами роботов, включая системы рук Franka, обычно используемые в академических исследовательских лабораториях.
Вторая модель, Gemini Robotics-ER, расширяет эти возможности за счет расширенного пространственного понимания. Она объединяет пространственное восприятие с навыками программирования для создания новых функций в реальном времени. Например, при столкновении с кофейной кружкой система может точно рассчитать, как схватить
Читать на habr.com