



Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио
Google выпустила Gemini Embedding 2 - новую модель на базе архитектуры Gemini. Это не генеративная нейросеть и не чат-бот. Ее задача - переводить данные разных типов в числовые представления, чтобы системы могли находить и сопоставлять информацию по смыслу.
Модель работает с текстом, изображениями, видео, аудио и документами. Она переводит весь этот контент в единое embedding-пространство - набор числовых векторов, где близость объектов означает сходство их смысла.
Ранее Google предлагала embedding-модели в основном для текста. Gemini Embedding 2 расширяет эту концепцию: embeddings становятся мультимодальными, и модель может работать одновременно с визуальными, аудио- и текстовыми данными.
Gemini Embedding 2 уже доступна в формате Public Preview через Gemini API и Vertex AI.
Embedding-модели используют для семантического поиска и анализа данных. Они не генерируют ответы, а преобразуют информацию в числовые векторы. Эти векторы можно сравнивать: если данные близки по смыслу, их embeddings располагаются рядом.
Gemini Embedding 2 делает это сразу для нескольких типов контента. Текст, изображения, аудио, видео и PDF-документы переводятся в единое пространство смыслов.
Это позволяет напрямую сопоставлять разные форматы. Например, искать изображения по текстовому запросу или находить фрагмент видео по его описанию.
Модель поддерживает более 100 языков и может принимать смешанные входные данные. В одном запросе можно передать несколько типов контента - например текст вместе с изображением.
Технические ограничения модели:
текст - до 8192 входных токенов
изображения - до 6 файлов PNG или JPEG в одном запросе
видео - до 120 секунд в формате MP4 или MOV
аудио - принимается напрямую, без обязательной транскрибации
документы - PDF до 6 страниц
Мо
Читать на habr.com