Google обновляет Gemini 2.5 Pro, добавляя новый режим Deep Think для расширенных логических возможностей
Google тестирует новый экспериментальный режим для Gemini 2.5 Pro, который расширяет возможности анализа и обеспечивает вывод звука. Новый режим под названием «Deep Think» призван помочь модели оценить несколько гипотез, прежде чем отвечать на запрос. По словам Google, он основан на новых методах исследования и в настоящее время тестируется на ограниченной группе пользователей Gemini API.
Google сообщает, что Gemini 2.5 Pro с Deep Think превосходит модель o3 от OpenAI в нескольких задачах, включая математический тест USAMO 2025, тест на программирование LiveCodeBench и MMMU — тест на мультимодальное мышление.
Google также обновил свою модель 2.5 Flash, которая оптимизирована для повышения скорости и эффективности. Последняя версия лучше справляется с логическими, мультимодальными задачами и генерацией кода, при этом используя на 20–30% меньше токенов для получения того же результата.
Gemini 2.5 Flash теперь доступен в Google AI Studio, Vertex AI и приложении Gemini. Ожидается, что он станет доступен для производственного использования в начале июня.
И Gemini 2.5 Pro, и Flash теперь поддерживают преобразование текста в речь с использованием нескольких профилей динамиков. Голосовой вывод может воспроизводить такие тонкие эффекты, как шёпот и эмоциональный тон, и поддерживает более 24 языков. Разработчики могут управлять акцентом, тоном и стилем речи с помощью Live API.
Две новые функции — «Affective Dialogue» и «Proactive Audio» — призваны сделать голосовое взаимодействие более естественным. Affective Dialogue позволяет модели распознавать эмоции в голосе пользователя и реагировать соответствующим образом — нейтрально, сочувственно или весело. Proactive Audio помогает отфильтровывать фоновые разговоры, поэтому ИИ реагирует
Читать на habr.com