Не LLM, а видеомодель: ИИ научили работать в Blender и водить машину без единого слова
Стартап Standard Intelligence представил FDM-1 — модель, которая управляет компьютером не через текст и скриншоты, как это делают агенты на базе языковых моделей, а напрямую через видео со скоростью 30 кадров в секунду. Модель обучена на 11 млн часов экранных записей и обходится без chain-of-thought, без tool use и без единого текстового токена на выходе — только нажатия клавиш и движения мыши.
До сих пор использование компьютеров ИИ строили по следующей схеме: берем языковую модель со зрением, дообучаем на размеченных скриншотах, строим среду для каждой задачи отдельно. Проблема — такие агенты не умеют работать с длинными сценариями. Крупнейший открытый датасет для обучения — менее 20 часов видео. FDM-1 тренируется на объеме в полмиллиона раз больше, потому что команда научилась автоматически размечать любое видео из интернета с помощью модели обратной динамики: она восстанавливает действия пользователя по изменениям на экране.
Ключевое техническое достижение — видеокодировщик, который сжимает почти 2 часа видео в 1 млн токенов. Для сравнения: в окне на 200 000 токенов кодировщик OpenAI помещает около 240 кадров, Gemini — 775, а FDM-1 — порядка 36 000. Это в 50 раз эффективнее лучших существующих решений и позволяет модели удерживать контекст длиной в десятки минут, что критично для задач вроде 3D-моделирования или работы с финансовыми приложениями.
На демо FDM-1 выдавливает грани n-гона в Blender, чтобы собрать шестеренку, — с непрерывными движениями мыши по сложным траекториям. После менее часа дообучения на данных реального вождения модель управляет автомобилем через веб-интерфейс, проезжая повороты по кварталу в реальном Сан-Франциско. Третья демонстрация — фаззинг: модель исследует банковское приложение и находит баг,
Читать на habr.com
