Об этом же в других СМИ

habr.com / 6 месяцев назад

Стартап Groq обещал чипы дешевле и быстрее GPU Nvidia. Хуанг купил его команду за $20 млрд

habr.com / 6 месяцев назад

Linux Foundation в 2025 года выделила на разработку ядра Linux $8,4 млн, что на $1,6 млн больше, чем в 2024 году

habr.com / 6 месяцев назад

OpenAI представляет GPT-5.2-Codex — продвинутый инструмент для программной инженерии

gagadget.com / 6 месяцев назад

NVIDIA может сократить поставки видеокарт GeForce RTX 50 в первой половине 2026 года — первыми ограничения затронут модели 5070 Ti и 5060 Ti

cursorinfo.co.il / 6 месяцев назад

Что добавить в яичницу, чтобы быстрее избавиться от жира на животе

Больше по теме

09.12.2025 - 10:39 / habr.com

CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA

Исследовательская команда DeepReinforce представила систему CUDA L2, которая автоматически генерирует GPU код для матричного умножения и делает это так эффективно, что созданные ею HGEMM ядра обгоняют cuBLAS и cuBLASLt в среднем на 10–30 процентов. Эти библиотеки создаются вручную специалистами NVIDIA и считаются эталоном оптимизации, поэтому такой результат вызвал серьёзный интерес в индустрии.

CUDA L2 полностью меняет привычный подход к оптимизации. Вместо применения фиксированных шаблонов и небольших корректировок параметров, система использует связку большой языковой модели и обучения с подкреплением. LLM пишет CUDA ядро с нуля под конкретный размер матрицы, а цикл RL выполняет сгенерированный код на реальном железе, измеряет скорость и корректность, затем обновляет модель. Процесс повторяется до тех пор, пока LLM не находит максимально производительный вариант. За счёт этого итоговый код не привязан к человеческим шаблонам и свободно меняет глубинные аспекты ядра: стратегию тайлинга, структуру циклов, схему паддинга и даже свизл паттерны.

В роли генератора использовалась DeepSeek 671B, прошедшая дополнительное обучение на массиве CUDA ядер и высококачественном коде из PyTorch, ATen, CUTLASS и примеров NVIDIA. Отдельное преимущество состоит в том, что CUDA L2 обрабатывает около тысячи реальных конфигураций матриц, а не несколько типовых размеров, поэтому ускорение распространяется на большее количество практических сценариев.

Тесты подтверждают результат. В оффлайн режиме система в среднем на 17–22 процентов быстрее torch.matmul, cuBLAS и cuBLASLt. Даже расширенное автотюнинг решение cuBLASLt AutoTuning уступило примерно на 11 процентов. В серверном сценарии, который лучше отражает реальные условия инференса, ускорение

технологии Nvidia крипто cognitronn

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Росавиация: в российских самолётах может появиться доступ к спутниковому интернету от «Бюро 1440» habr.com / 6 месяцев назад

Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой habr.com / 7 месяцев назад

OpenAI набрала обязательств на $1.4 трлн при выручке $20 млрд. Что может пойти не так? habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 10:26

экономика деньги автомобили электромобиль стартап Chip Motors LUV: Электромобиль за $15 000, который можно мыть из шланга и отдать под опеку «аватару»

Пока индустрия соревнуется в количестве лошадиных сил и гигантских экранах, американский стартап Chip Motors решил пойти другим путем. Компания представила свой взгляд на городскую мобильность — устройство класса Life Utility Vehicle (LUV). Это нечто среднее между гольф-каром на стероидах и минималистичным кроссовером, который не пытается казаться быстрее, чем он есть на самом деле.

16.07 / 10:26

Samsung технологии СМИ Qualcomm Складные смартфоны Инсайдер раскрыл полные характеристики и цены складных флагманов Samsung Galaxy Z Fold 8 и Z Fold 8 Ultra

Незадолго до официальной презентации новых флагманских складных смартфонов Samsung в сеть утекли полные технические характеристики моделей Galaxy Z Fold 8 и Galaxy Z Fold 8 Ultra. Этой информацией поделился немецкий инсайдер Роланд Квандт (Roland Quandt), а его репутация не позволяет сомневаться в подлинности утечки.

16.07 / 10:26

технологии роды google Впервые на экране: Google показала LED-подсветку Pixel Glow, которую получат смартфоны серии Pixel 11

Google продолжает тизерить смартфоны серии Pixel 11, которые будут представлены 12 августа на ивенте в Нью-Йорке. На странице в Google Store компания опубликовала короткий тизер, который не только впервые подтвердил название серии (хотя оно было очевидно), но и показал новую особенность гаджетов — Pixel Glow.

16.07 / 10:18

люди общество смерть конгресс мозг Что чувствуют люди перед смертью - ученые шокировали ответом

Нередко люди, которые были близки к смерти, говорят, что ощущали выход из физического тела, эйфорию, их посещали мистические видения. Но так ли это?

16.07 / 10:18

продукты ученые здоровье общество Здоровье и красота Продукты, которые уменьшают биологический возраст - список от ученых

В ходе эксперимента группа женщин в среднем смогла снизить на пять лет свой биологический возраст.

16.07 / 10:11

технологии происшествия Telegram общество предприятия Telegram перешёл с t.me на telegram.me в своих приложениях после ограничения работы домена t.me

Мессенджер Telegram перешёл с t.me на telegram.me в своих приложениях после ограничения работы домена t.me. Согласно данным сервиса WHOIS, домен t.me полностью удалён из зоны DNS администрацией реестра доменов .me. На данный момент точные причины инцидента остаются неизвестными. Спустя несколько часов работа домена коротких ссылок t.me была восстановлена реестром .me.

16.07 / 10:11

связь технологии Apple закон общество Apple: экс-сотрудник использовал «редкую» ошибку для загрузки конфиденциальных файлов после ухода в OpenAI

Apple после подачи иска против OpenAI в связи с предполагаемой кражей коммерческой тайны сообщила, что один из бывших сотрудников, предположительно, скачал большой объём конфиденциальных файлов из общих сетевых папок компании уже через несколько недель после перехода на работу к конкуренту.

16.07 / 10:11

технологии музыкант Релиз открытого кроссплатформенного метронома IronTick 1.0

Разработчик olegkapitonov представил первый стабильный релиз метронома IronTick. Исходный код проекта написан на C++ и опубликован на GitHub под лицензией.

16.07 / 10:11

промышленность общество школы курс аномалия От сырых логов к цифровым двойникам: открываем Школу анализа инженерных данных

ЦИТМ «Экспонента» запускает Школу анализа инженерных данных . Старт 24 августа.

16.07 / 10:11

связь технологии экспорт общество Вышло обновление RapidRAW 1.5.9 — открытого редактора изображений RAW

В середине июля 2026 года состоялся выпуск обновления открытого мультиплатформенного редактора изображений RapidRAW 1.5.9. Проект предлагает простой способ обработки изображений RAW с помощью GPU. Решение использует лёгкую (~30 МБ) и эффективную кодовую базу, созданную на основе Rust, React и Tauri.

Лента новостей

На главную страницу