Google добавляет собственную генерацию изображений в языковые модели Gemini
Мультимодальное обучение Gemini обеспечивает прямую генерацию изображений, потенциально предлагая более точные результаты по сравнению с традиционными моделями изображений.Google включила собственные возможности генерации изображений в своей языковой модели Gemini 2.0 Flash для разработчиков.
Согласно сообщению в блоге компании, разработчики теперь могут тестировать эту функцию через Google AI Studio и API Gemini во всех поддерживаемых регионах. Процесс интеграции требует минимального кода, а Google предоставляет экспериментальную версию Gemini 2.0 Flash (gemini-2.0-flash-exp) для тестирования.
Генерация изображений Gemini отличается своей мультимодальной основой. Большая мультимодальная модель (LML) объединяет понимание текста, улучшенное рассуждение и мультимодальную обработку входных данных для генерации более точных изображений, чем традиционные модели генерации изображений.
Google утверждает, что модель может создавать последовательные визуальные повествования, объединяя текст и изображения, сохраняя согласованность персонажей и настроек на нескольких изображениях. Она также позволяет редактировать изображения в режиме разговора с помощью нескольких шагов диалога, что делает ее особенно полезной для итеративных улучшений, сохраняя контекст на протяжении всего разговора.
Встроенные в модель знания мира помогают создавать реалистичные и точные изображения, хотя Google отмечает, что эти знания, хотя и обширные, не абсолютны. Система также отлично справляется с включением текста в изображения, внутренние тесты показывают превосходную интеграцию текста по сравнению с ведущими моделями конкурентов.
OpenAI уже продемонстрировала возможности в этой области с помощью своей модели GPT-4o еще в мае 2024 года. Как и Gemini, GPT-4o
Читать на habr.com