GLM-5V-Turbo от Zhipu AI преобразует макеты дизайна непосредственно в исполняемый код для фронтенда
Китайская компания Zhipu AI, специализирующаяся на искусственном интеллекте, выпустила GLM-5V-Turbo, свою первую многомодальную базовую модель кодирования. Она обрабатывает изображения, видео и текст и разработана специально для рабочих процессов агентов.
С помощью GLM-5V-Turbo стартап стремится сократить разрыв между визуальным пониманием и генерацией кода. Вместо работы только с текстом, модель анализирует макеты дизайна и генерирует исполняемый код непосредственно на их основе. По словам компании, она напрямую интегрируется с такими агентами, как Claude Code и OpenClaw, охватывая полный цикл «понимание среды → планирование действий → выполнение задач».
Окно контекста обрабатывает 200 000 токенов, при этом максимальный объем выводимых данных составляет 128 000 токенов. Функции включают режим обдумывания, потоковый вывод, вызов функций и кэширование контекста.
По данным Z.AI, высокая производительность GLM-5V-Turbo обусловлена улучшениями в четырех областях: архитектура модели, методы обучения, построение данных и инструментарий.
Модель учится обрабатывать изображения и текст вместе с самого начала обучения, а не добавляет отдельный модуль распознавания изображений к готовой языковой модели постфактум. Для этого Z.AI разработала новый кодировщик изображений под названием CogViT. Модель также предсказывает несколько токенов одновременно во время вывода, что должно ускорить обработку результатов.
Обучение с подкреплением оптимизирует модель для более чем 30 типов задач, включая STEM-дисциплины, основы, видео, агентов с графическим интерфейсом пользователя и агентов программирования, стремясь к более надежному восприятию, рассуждению и выполнению задач агентами.
Для решения проблемы нехватки данных для обучения агентов
Читать на habr.com