«Яндекс» разрабатывает единую нейросеть для речи и текста
«Яндекс» работает над ещё не анонсированной нейросетевой моделью SpeechGPT и нанимает в соответствующую команду инженера в области машинного обучения, говорится в разделе вакансий компании. На это обратил внимание «Ъ». Речь идёт о мультимодальной модели (то есть способной обрабатывать разные виды вводных данных), которая «умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука».
В «Яндексе» пояснили, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах. На вопрос о модели SpeechGPT в компании не ответили.
Некоторые нейросетевые сервисы «Яндекса» уже позволяют принимать вводные данные разных видов. С ассистентом «Алиса» можно общаться как голосом, так и текстом; в декабре 2023 года компания сделала отдельный подраздел сайта с текстовым чатом. В последних числах мая «Яндекс» схожим образом расширил функциональность сервиса Yandex SpeechSense: изначально созданный для анализа работы кол‑центров сервис получил возможность обрабатывать и текстовые сообщения. Возможность обрабатывать одновременно текст и картинки есть в сервисе «Нейро».
Но между мультимодальным пользовательским опытом и мультимодальностью самой модели есть разница, объясняет сооснователь Just AI Кирилл Петров. В первом случае зачастую происходит перевод данных из одного вида в другой: «Например, в случае с голосовым ассистентом речь сначала одной моделью преобразовывается в текст, этот текст анализируется другой моделью, а третья модель преобразовывает текст ответа в речь. На каждом шаге происходит упрощение, а ещё вся обработка занимает больше времени». Мультимодальные же модели вроде GPT-4o от OpenAI позволяют учитывать весь контент, причём без задержек.
Мультимодальные модели с поддержкой
Читать на habr.com