Google DeepMind прокачала мозги роботов. Встречаем Gemini Robotics-ER 1.6
Google DeepMind выпустила крупное обновление своей модели воплощенного интеллекта — Gemini Robotics-ER 1.6. Это не просто софт, а полноценный центр управления для робототехники, который отвечает за пространственное понимание, планирование задач и детекцию успеха, фактически выступая в роли «стратега». Важно понимать, что версия ER не управляет приводами напрямую — за моторные команды по-прежнему отвечает отдельная модель Gemini Robotics 1.5, в то время как новинка подсказывает ей последовательность действий и при необходимости вызывает внешние инструменты, включая Google Search.
Одной из ключевых инноваций стала совместная работа с Boston Dynamics, в рамках которой модель научили интерпретировать аналоговые приборы. Теперь роботы, такие как Spot, могут обходить промышленные объекты и самостоятельно считывать данные с манометров, уровнемеров и цифровых табло. Это нетривиальная задача: модель сначала зумирует нужный участок снимка, затем расставляет точки по ключевым элементам шкалы и через код высчитывает пропорции, что позволяет достичь точности в 93% (против 86% без использования ризонинга).
Кроме того, разработчики значительно подтянули базовые навыки: указание пиксельных координат стало точнее, улучшилась обработка отношений «от-до» и построение траекторий захвата. Модель стала гораздо эффективнее работать в мультикамерных сетапах, лучше сопоставляя виды с обзорной камеры и камеры на манипуляторе. Это критично для динамичных сцен: без надежной детекции завершения шага агент не понимает, нужно ли повторять попытку или можно переходить к следующему этапу плана.
По части безопасности DeepMind заявляет о лучшем результате в линейке: новая Gemini на 10% точнее распознает травмоопасные ситуации на видео по сравнению с
Читать на habr.com