



CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA
Исследовательская команда DeepReinforce представила систему CUDA L2, которая автоматически генерирует GPU код для матричного умножения и делает это так эффективно, что созданные ею HGEMM ядра обгоняют cuBLAS и cuBLASLt в среднем на 10–30 процентов. Эти библиотеки создаются вручную специалистами NVIDIA и считаются эталоном оптимизации, поэтому такой результат вызвал серьёзный интерес в индустрии.
CUDA L2 полностью меняет привычный подход к оптимизации. Вместо применения фиксированных шаблонов и небольших корректировок параметров, система использует связку большой языковой модели и обучения с подкреплением. LLM пишет CUDA ядро с нуля под конкретный размер матрицы, а цикл RL выполняет сгенерированный код на реальном железе, измеряет скорость и корректность, затем обновляет модель. Процесс повторяется до тех пор, пока LLM не находит максимально производительный вариант. За счёт этого итоговый код не привязан к человеческим шаблонам и свободно меняет глубинные аспекты ядра: стратегию тайлинга, структуру циклов, схему паддинга и даже свизл паттерны.
В роли генератора использовалась DeepSeek 671B, прошедшая дополнительное обучение на массиве CUDA ядер и высококачественном коде из PyTorch, ATen, CUTLASS и примеров NVIDIA. Отдельное преимущество состоит в том, что CUDA L2 обрабатывает около тысячи реальных конфигураций матриц, а не несколько типовых размеров, поэтому ускорение распространяется на большее количество практических сценариев.
Тесты подтверждают результат. В оффлайн режиме система в среднем на 17–22 процентов быстрее torch.matmul, cuBLAS и cuBLASLt. Даже расширенное автотюнинг решение cuBLASLt AutoTuning уступило примерно на 11 процентов. В серверном сценарии, который лучше отражает реальные условия инференса, ускорение
Читать на habr.com
