Воспроизводимая ошибка NVIDIA RTX 5090 и PRO 6000 ведет к перезагрузке серверов — назначено вознаграждение за решение
Поставщик облачных вычислений на графических процессорах CloudRift обнаружил навязчивую ошибку видеокарт NVIDIA RTX 5090 и PRO 6000. Также о ней сообщают другие пользователи.
Если коротко, при некоторых воспроизводимых обстоятельствах, связанных с виртуализацией, видеокарты перестают распознаваться в системе до перезагрузки компьютера. Нетрудно представить, насколько это неприятно для поставщика серверных услуг. CloudRift предлагает $1000 за решение проблемы — не слишком много.
Проблема возникает, когда видеокарта подключается к виртуальной машине с помощью KVM и VFIO. При отключении гостевой системы или переназначении GPU хост пытается выполнить сброс на уровне PCIe. Вместо того, чтобы вернуться в рабочее состояние, видеокарта не отвечает, что вызывает ошибку ядра вроде «не готов 65535 мс после FLR; отказ». В этот момент устройство больше не может быть обнаружено, и единственным способом восстановления является полная перезагрузка.
CloudRift поделилась журналами, которые демонстрируют проблему на нескольких видеокартах RTX 5090 и RTX PRO 6000. По словам компании, альтернативные методы восстановления, такие как повторное сканирование PCI и перепривязка драйверов, не работают. В то же время более старые GPU, такие как RTX 4090 или NVIDIA H100 и B200, не воспроизводят эту ошибку. CloudRift предлагает вознаграждение в размере $1000 за исправление ошибки сброса настроек.
Ранее пользователи форумов Proxmox и Level1Techs сообщали о подобных случаях. В одном из них зависание произошло после завершения работы гостевой системы Windows, при этом графический процессор не смог инициализироваться даже после перезагрузки ОС. Другой пользователь описал программную блокировку процессора хоста после тайм-аутов FLR во время завершения
Читать на itc.ua