Курсор с мозгами: как Google DeepMind превращает мышь в «умную» указку
Последние полвека мы взаимодействуем с компьютером по принципам, заложенным еще в эпоху Xerox PARC. Курсор для операционной системы — это всего лишь набор координат X и Y, стрелка, щелкающая по пикселям. Исследователи из подразделения Google DeepMind решили, что пришло время наделить этот инструмент интеллектом. Концепция AI-enabled pointer обещает превратить обычное наведение мыши в полноценный диалог с машиной, где вместо длинных текстовых объяснений достаточно просто указать пальцем (или стрелкой) и сказать: «Сделай что-нибудь с этим».
Основная проблема современного ИИ — это так называемые «интерфейсные барьеры». Сегодня, чтобы заставить нейросеть работать, нужно скопировать текст, сделать скриншот или загрузить файл в отдельное окно чат-бота. Это напоминает работу с посредником, которому нужно разжевать каждую задачу. Google хочет убрать это лишнее звено, сделав искусственный интеллект частью самого курсора. Система должна понимать не только положение указателя, но и семантическое содержание объекта под ним.
Новый подход основан на том, как люди общаются друг с другом в реальном мире. Мы постоянно комбинируем язык и жесты: «подвинь ту коробку», «попробуй это». Собеседник понимает нас благодаря визуальному контексту. Мультимодальные модели вроде Gemini уже научились видеть и слышать, поэтому перенос этой механики в интерфейс ПК выглядит логичным шагом. Например, вы наводите курсор на сложную таблицу в PDF-файле и просто говорите: «Построй по этому график». Система сама распознает границы таблицы, данные внутри и выполнит команду.
Google выделяет четыре столпа, на которых будет держаться будущий интерфейс:
Первые ростки этой «магии» уже прорастают в браузере Chrome. Пользователи могут вызвать Gemini поверх веб-страницы,
Читать на gagadget.com