

ИИ, который не тупит: стартап Миры Мурати показал первый крупный проект
Thinking Machines Lab, стартап бывшего технического директора OpenAI Миры Мурати, показал первое демо новой модели, которая работает с пользователем в режиме живого разговора — слышит, видит и говорит одновременно, без классической схемы "сначала вопрос, потом ответ". Задержка между репликой пользователя и реакцией модели — 0,4 секунды против 1,18 у GPT-realtime-2.0 и 0,57 у Gemini-3.1-flash-live.
В блог-посте команда объясняет, почему стандартные модели плохо подходят для живого диалога. Обычный чатбот работает по очереди: пока пользователь не закончил печатать или говорить, модель ждет — никакого восприятия, что вообще происходит. Пока модель отвечает, она ничего не слышит и не видит сама. Аналогия из самого поста: будто решать серьезный конфликт по электронной почте, а не лицом к лицу. Пользователи к этому подстроились — стали формулировать запросы как письма и батчить мысли, потому что прерывания и угуканье ("ага", "понял") живого разговора чатбот не тянет.
Архитектурно Thinking Machines выкинула турн-режим (вопрос-ответ) и заменила его на потоковую обработку. Модель режет вход и выход на куски по 200 миллисекунд — и параллельно слушает входящие 200 мс аудио или видео и генерирует следующие 200 мс собственного ответа. Эти куски авторы называют "микро-турнами". Параллельно убрали тяжелые отдельные энкодеры — обычно аудио прогоняют через модель типа Whisper, видео через свой энкодер, и только потом скармливают результат основной модели. Здесь сырой сигнал идет прямо в трансформер через легкий слой векторных представлений (embedding), что заметно срезает задержку.
Сама модель устроена как связка из двух частей. TML-Interaction-Small держит реальное время — слышит, отвечает, реагирует на жесты и интонации. Если задача
Читать на habr.com