Проблемы с программным обеспечением у AMD оставляют Nvidia без конкурентов на рынке чипов для AI
Расследование, проводимое SemiAnalysis на протяжении пяти месяцев, выявило, что новые чипы искусственного интеллекта AMD MI300X сталкиваются с серьезными программными проблемами, что мешает им реализовать свой потенциал и оставляет Nvidia лидером на рынке. В ходе исследования выяснилось, что программное обеспечение AMD имеет множество ошибок, из-за которых обучение моделей AI становится практически невозможным без значительной отладки. Пока AMD старается улучшить качество и удобство использования, Nvidia продолжает расширять свое доминирование, добавляя новые функции и улучшая производительность.
Аналитики провели обширные тесты, включая бенчмарки GEMM и обучение на одном узле, но обнаружили, что AMD не может преодолеть значительное программное преимущество Nvidia, известное как "пропасть CUDA". На бумаге MI300X выглядит впечатляюще, предлагая 1307 ТераФЛОПС при вычислениях FP16 и 192 ГБ памяти HBM3, что сопоставимо с Nvidia H100 и его 989 терафлопсами и 80 ГБ памяти. Однако на практике эти характеристики теряют свою значимость. SemiAnalysis сравнивают это с оценкой камер по количеству мегапикселей, указывая на то, что AMD больше ориентируется на числовые показатели, чем на реальную производительность.
Аналитики вынуждены были тесно сотрудничать с инженерами AMD для устранения многочисленных ошибок, чтобы получить пригодные для тестирования результаты, в то время как системы Nvidia работали без проблем сразу после распаковки.
"Работать с интерфейсом AMD чрезвычайно сложно, и чтобы сделать его пригодным для использования, требуется много терпения и усилий", - отмечают они.
Кроме того, SemiAnalysis подчеркнул, что Tensorwave, крупнейший облачный провайдер графических процессоров AMD, был вынужден предоставить команде AMD
Читать на habr.com

