Gemini 2.5 от Google теперь поддерживает «разговорную сегментацию изображений»
Компания Google представила новую функцию для ИИ-модели Gemini 2.5. Теперь пользователи могут анализировать и выделять объекты на изображениях с помощью запросов на естественном языке.
Эта «разговорная сегментация изображений» выходит за рамки традиционной сегментации изображений, которая обычно предполагает идентификацию объектов с использованием фиксированных категорий, таких как «собака», «машина» или «стул». Теперь Gemini может понимать более сложные формулировки и применять их к конкретным частям изображения.
Модель обрабатывает реляционные запросы, такие как «человек с зонтом», логические инструкции, например «все люди, которые не сидят», и даже абстрактные понятия, такие как «беспорядок» или «повреждение», которые не имеют четких визуальных границ.
Gemini также может распознавать элементы изображения, для идентификации которых требуется чтение текста на экране, например «фисташковая пахлава» в витрине, благодаря встроенному распознаванию текста.
По данным Google, эту технологию можно использовать в самых разных областях. Например, при редактировании изображений дизайнерам больше не нужно использовать мышь или инструменты выделения. Они могут просто сказать, что именно они хотят выделить, например: «Выделите тень здания».
Для обеспечения безопасности на рабочем месте Gemini может сканировать фотографии или видео на предмет нарушений, например «все люди на строительной площадке без касок».
Эта функция также полезна в сфере страхования: специалист по урегулированию убытков может ввести команду вроде «выделить все дома, пострадавшие от урагана», чтобы автоматически пометить поврежденные здания на аэрофотоснимках. Это экономит время по сравнению с проверкой каждого объекта вручную.
Разработчики могут получить доступ к этой
Читать на habr.com