




DeepMind планирует наделить роботов «внутренним голосом»
Google DeepMind разрабатывает систему, которая обеспечит ИИ-агентов «внутренним голосом», чтобы помочь им более эффективно изучать задачи и в итоге стать «умнее».
В патентной заявке лаборатория описала метод под названием «Внутриагентная речь для облегчения обучения задачам», где роботы наблюдают за задачами через изображения или видео, а затем генерируют их описания на естественном языке.
По словам исследователей, такой «внутренний монолог» помогает связать визуальный ввод с действиями, позволяя агентам взаимодействовать с незнакомыми объектами без предварительного обучения и понимать их, также снижая требования к памяти и вычислениям.
Например, робот может смотреть видео, на котором кто-то поднимает чашку, одновременно внутренне обрабатывая фразу «человек поднимает чашку». Это позволит агенту «вспоминать» правильные действия, которые следует предпринять при столкновении с похожими объектами. В итоге робот сможет принимать более обоснованные решения и эффективнее адаптироваться к новым ситуациям в динамичных реальных средах.
Техника поддерживает так называемое обучение «с нуля», то есть робот сможет выполнять задачи, связанные с незнакомыми объектами, без предварительного обучения. DeepMind отмечает, что такой подход снизит требования к памяти и вычислительной мощности, необходимым для обучения роботизированных систем.
Инициатива основана на более широких усилиях DeepMind в области робототехники. В июне компания представила «Gemini Robotics On-Device», которая предназначена для работы без доступа к облаку. Google утверждает, что модель компактна и достаточно эффективна, чтобы работать непосредственно внутри робота.
Gemini Robotics On-Device — это версия модели Gemini Robotics Vision-Language, созданная для работы с роботами
Читать на habr.com