OpenAI готовит к релизу двунаправленную аудиомодель
Компания OpenAI ведет разработку инновационной двунаправленной (BiDi) аудиомодели, которая сделает диалог с искусственным интеллектом максимально похожим на человеческий. В отличие от текущих систем, новая технология позволяет ИИ обрабатывать речь непрерывно и мгновенно реагировать на изменения в ходе беседы.
Суть новой двунаправленной (BiDi) обработки звука заключается в непрерывном анализе входящего аудиопотока. В отличие от существующих пошаговых систем, где искусственный интеллект ожидает окончания фразы пользователя, BiDi-модель адаптируется к изменениям в режиме реального времени. Подобная архитектура позволяет алгоритму мгновенно корректировать ответ, если собеседник перебивает его или меняет тему разговора. Исследователи OpenAI отмечают, что текущие аудиомодели уступают текстовым решениям в точности и скорости, из-за чего большинство пользователей ChatGPT предпочитает текстовый интерфейс голосовому.
В ходе тестирования прототипов инженеры столкнулись с техническими сбоями: модель начинает работать некорректно спустя несколько минут диалога. По этой причине запуск технологии перенесли с первого квартала 2026 года на второй квартал или более поздний срок. Данная задержка продолжает историю сложностей OpenAI с аудиопродуктами. Ранее внедрение режима Advanced Voice Mode для GPT-4o откладывалось для доработки инфраструктуры и систем безопасности. В ходе ранних тестов специалисты фиксировали ошибки, включая имитацию голоса пользователя и неожиданные выкрики системы. В настоящее время разработчики сосредоточены на способности модели обнаруживать и отклонять нежелательный контент.
Разработка новой модели является частью стратегии OpenAI по выходу на рынок потребительской электроники. Компания планирует представить
Читать на habr.com


