Thinking Machines создаёт слушающий и говорящий ИИ
ИИ-стартап Thinking Machines Lab, основанный бывшим техническим директором OpenAI Мирой Мурати, анонсировал выпуск моделей взаимодействия. Они будут способны как слушать, так и говорить.
Все современные модели работают по одинаковому принципу: они выслушивают запрос, а потом отвечают. Thinking Machines пытается изменить это, создав модель, которая обрабатывает пользовательский ввод и одновременно генерирует ответ, так что это больше напоминает диалог.
Включение интерактивности в модель открывает множество возможностей, как обещает компания, в том числе:
бесперебойное управление диалогом. Модель неявно отслеживает, думает ли говорящий, уступает ли он, корректирует ли свою речь или приглашает к ответу;
вербальные и визуальные вставки. Модель вмешивается по мере необходимости в зависимости от контекста, а не только когда пользователь заканчивает говорить;
одновременную речь. Пользователь и модель могут говорить одновременно (например, перевод в реальном времени);
осведомлённость о времени. Модель напрямую ощущает прошедшее время;
одновременный вызов инструментов, поиск и генерация пользовательского интерфейса. Во время разговора и прослушивания пользователя модель может одновременно искать информацию, просматривать веб-страницы или генерировать пользовательский интерфейс, вплетая результаты в разговор по мере необходимости.
Компания называет подход «полнодуплексным» и утверждает, что её модель TML-Interaction-Small отвечает за 0,40 секунды, что примерно соответствует скорости естественного человеческого разговора и значительно быстрее, чем скорость ответа сопоставимых моделей от OpenAI и Google.
Пока это предварительная версия для исследований, а не готовый продукт, и компания не собирается выпускать её в открытый доступ.
Читать на habr.com
