OpenAI представила первую голосовую модель с интеллектом GPT-5
OpenAI выпустила GPT-Realtime-2 — первую голосовую модель компании с уровнем рассуждений GPT-5. На бенчмарке Big Bench Audio (тест на способность аудиомоделей рассуждать) она показала 96,6% против 81,4% у предыдущей версии gpt-realtime-1.5 — прирост в 15,2 пункта. Параллельно с ней OpenAI представила еще две специализированные модели: GPT-Realtime-Translate для синхронного перевода с 70+ языков на 13 и GPT-Realtime-Whisper для потоковой транскрипции.
Главное изменение в GPT-Realtime-2 — режим рассуждений, повышающий точность модели в задачах на логику, математику и поиск сложных ответов. Сама OpenAI оценивает производительность в этом режиме на уровне прошлогодней GPT-5 — отличный результат для голосовой модели. Так как работа режима рассуждений занимает время, то модель обучена говорить о том, чем занята. Появились преамбулы ("секунду, проверяю"), параллельные вызовы инструментов с озвучкой действия ("смотрю в твоем календаре"), и более мягкое восстановление при сбое — вместо молчания модель скажет "у меня сейчас проблема с этим". Контекст вырос с 32 тысяч токенов до 128 тысяч — четырехкратный рост, нужный для длинных агентских сценариев.
Разработчику доступны пять уровней глубины рассуждений: minimal, low, medium, high и xhigh. Для бронирования столика хватит minimal, для разбора жалобы клиента можно поднять до high. Преамбулы и параллельные вызовы инструментов с озвучкой как раз закрывают разрыв: пока модель думает, она проговаривает, чем занята, и пользователь не сидит в тишине.
Цифры партнеров выглядят сильно. Zillow прогнали модель через стресс-тест с каверзными запросами и получили долю успешных диалогов в 95% против 69% у предыдущей модели — рост на 26 пунктов. По словам Джоша Вайсберга, главы AI-направления
Читать на habr.com