Модель Google Gemini 2.5 Pro превосходит модель OpenAI o3 в обработке сложных и длинных текстов
В настоящее время Google Gemini 2.5 Pro лидирует в тесте Fiction.Live на обработку сложных и длинных текстов. Тест измеряет, насколько хорошо языковые модели могут понимать и точно воспроизводить сложные истории и контексты — задачи, которые выходят далеко за рамки простых функций поиска, таких как те, что оцениваются в популярном тесте «Иголка в стоге сена».
По данным Fiction.Live, модель o3 от OpenAI обеспечивает такую же производительность, как и Gemini 2.5 Pro, до контекстного окна в 128 000 токенов (около 96 000 слов). Но при 192 000 токенов (примерно 144 000 слов) производительность o3 резко падает. Июньский предварительный просмотр Gemini 2.5 Pro (preview-06-05) остается стабильным при этой длине.
Тем не менее, протестированные размеры контекста намного меньше миллиона токенов, которые Google рекламирует как максимальный размер контекста для Gemini 2.5 Pro. По мере увеличения размера контекста точность Gemini, скорее всего, будет снижаться. Для сравнения, модель o3 от OpenAI в настоящее время имеет максимальный размер контекста в 200 000 токенов.
Meta*, например, предлагает контекстное окно размером до десяти миллионов токенов для Llama 4 Maverick. На практике модель с трудом справляется со сложными задачами с длинным контекстом, игнорируя слишком много информации, которая могла бы быть полезной.
Более крупные контекстные окна, даже если модели используют их более эффективно, не всегда автоматически дают лучшие результаты. Как недавно отметил Николай Савинов из Google DeepMind, языковые модели сталкиваются с базовой проблемой «вложил — вынул» при работе с большим количеством токенов.
По словам Савинова, уделяя больше внимания одному токену, вы неизбежно уделяете меньше внимания другим, что приводит к проблемам с
Читать на habr.com