Google представила ИИ-модель Gemini 2.5 Computer Use
Модель уже доступна в публичной предварительной версии через Gemini API в Google AI Studio и Vertex AI. Gemini 2.5 Computer Use основана на возможностях визуального восприятия и логического анализа модели Gemini 2.5 Pro. Она способна выполнять широкий спектр действий в браузере — нажимать кнопки, вводить текст, прокручивать страницы, наводить курсор, открывать выпадающие меню и переходить по ссылкам.
По словам Google, новая модель превосходит конкурирующие решения в тестах Online-Mind2Web, WebVoyager и AndroidWorld, при этом обеспечивая меньшую задержку отклика.
В отличие от традиционных ИИ-моделей, которые работают через API, Gemini 2.5 Computer Use анализирует скриншоты веб-интерфейсов и на их основе генерирует конкретные действия в пользовательском интерфейсе. Агент получает задачу в виде текстового запроса, снимок экрана и историю последних действий. После анализа интерфейса он выбирает подходящее действие — например, клик по кнопке или ввод текста в поле. Действие выполняется на стороне клиента, затем создаётся новый скриншот, и процесс продолжается циклически.
На демонстрации Google показала, как агент сортирует стикеры на цифровой доске и переносит данные о питомцах с одного сайта в CRM-систему. Видеопримеры были ускорены, чтобы показать процесс в реальном времени.
На данный момент модель поддерживает 13 типов действий и оптимизирована для работы в браузере. Поддержка задач на уровне настольных операционных систем пока не реализована, однако модель уже показывает хорошие результаты на мобильных тестах.
Для предотвращения злоупотреблений Google внедрила многоуровневую систему безопасности: каждое действие, предложенное моделью, проходит проверку службой безопасности перед выполнением. Разработчики могут ограничивать
Читать на ilenta.com