Composer тренирует Composer: Cursor использовал старую модель для обучения новой
Cursor рассказал в блоге о механизме autoinstall, который помог поднять собственную модель Composer 2 на бенчмарке Terminal-Bench с 47,9% до 61,7%. Главная идея: предыдущая версия модели, Composer 1.5, автоматически готовила рабочие окружения, на которых потом обучалась Composer 2.
Чтобы тренировать модель для программирования через обучение с подкреплением (RL), нужны рабочие программные проекты: репозиторий должен запускаться, зависимости — устанавливаться, тесты — проходить. Если окружение сломано на старте, модель тратит токены и вычисления не на решение задачи, а на отладку установки. Иногда задача и вовсе становится нерешаемой, и обучающий сигнал теряется. То есть проблема не в том, чтобы научить модель писать код, а в том, чтобы каждая учебная задача была корректной и работающей.
Autoinstall устроен в две стадии. На первой стадии агент получает голую копию репозитория, изучает README, makefile, документацию проекта и предлагает десять команд, которые должны успешно выполниться при правильной настройке: установка пакетов, тесты, запуск исполняемых частей. На второй стадии — еще один экземпляр Composer берет три команды из этого списка и доводит проект до состояния, в котором они успешно выполняются. Если итоговая проверка не срабатывает, стадию перезапускают; после пяти неудачных попыток окружение отбрасывают.
Объем работы шире обычного "поставь пакет — запусти тест". По описанию Cursor, autoinstall может создавать недостающие файлы и изображения-заглушки, мокать таблицы базы данных и S3-папки, поднимать конфигурации MinIO и контейнеры Docker, писать стартовые скрипты для долгоживущих процессов. В качестве иллюстрации компания приводит работу с celo-org/celo-monorepo — большим блокчейн-проектом с неполной
Читать на habr.com