Google представила Agentic Vision в Gemini 3 Flash для более глубокого анализа изображений
- ИИ-модель Gemini 3 Flash получила новую функцию Agentic Vision.
- Так Gemini научилась «думать и действовать» с изображениями через выполнение кода.
- В дальнейшем планируют интегрировать, например, веб-поиск изображений.
Компания Google представила новую возможность для своей ИИ-модели Gemini 3 Flash — Agentic Vision, которая существенно расширяет способность системы анализировать сложные изображения, включая мелкие детали вроде серийных номеров или текста на сложных схемах.
Обновление усиливает направление развития агентных моделей, которые не только генерируют ответы, но и выполняют промежуточные действия для достижения более точного результата.
В Google назвали это «новым рубежом возможностей ИИ». Agentic Vision внедряет визуальный цикл Think, Act, Observe («Думай, действуй, наблюдай») в задачи понимания изображений:
- think (думай) — модель анализирует запрос пользователя и исходное изображение, формируя многошаговый план;
- oct (действуй) — Gemini генерирует и выполняет Python-код для активной работы с изображением (кадрирование, поворот, аннотации) или его анализа (вычисления, подсчет объектов и т. п.);
- Observe (наблюдай) — измененное изображение добавляется в контекст модели, что позволяет еи повторно оценить данные перед финальным ответом.
Благодаря этому Gemini 3 Flash лучше работает с детализированными визуальными данными. Среди ключевых механик:
- планирование — создание пошаговой стратегии анализа изображения;
- зумирование — автоматическое приближение к мелким элементам;
- аннотации — возможность размечать изображение для «заземления» логики модели;
- визуальная математика и построение графиков — разбор плотных таблиц и выполнение Python-кода для визуализации результатов.
Функция уже используется через API и
Читать на incrypted.com