Avem un nou Supermicro Server AS-4124GS-TNR echipat cu opt NVIDIA RTX A6000. Sistemul de operare este Ubuntu 20.04.2, versiunea driverului NVIDIA este 460.73.01 (nu este utilizat driver Nouveau), versiunea CUDA este 11.2.
Am efectuat câteva teste de lungă durată pe GPU-uri și sistemul a fost stabil. Cu toate acestea, după ce GPU-ul a rămas inactiv, sistemul s-a prăbușit în mod repetat.
Presupunem că GpuPowerMizerMode
trebuie setat la 1 pentru a preveni blocările în timpul inactivării GPU-ului (o presupunere susținută de alte rapoarte ale utilizatorilor găsite pe internet).
Singura modalitate de a face acest lucru pe care o cunoaștem este să porniți X (de exemplu, pornind gdm) și apoi să setați valoarea în consecință prin setările nvidia
(alergare setările nvidia
fără X/gdm duce la "Nu se poate iniția serverul: Nu s-a putut conecta: Conexiunea a fost refuzată."). Dar la oprirea X/gdm, GpuPowerMizerMode
valoarea este resetată automat la 2. Din păcate, menținerea rulării X/gdm nu este o opțiune, deoarece aceasta duce și la instabilitatea sistemului.
Deci, problema noastră pare să fie următoarea:
- GPU inactiv +
GpuPowerMizerMode
!= 1 poate duce la înghețarea sistemului. GpuPowerMizerMode
poate fi setat doar prin setările nvidia
conectat la un X/dm(?) care rulează. Pentru a seta constant valoarea la 1 X/dm(?), trebuie să continue să ruleze.
- Un X/gdm care rulează poate provoca o blocare a sistemului.
Sunt corecte presupunerile noastre? / Se confruntă și alții aceste probleme specifice?
Cum putem rezolva problema înghețului în timpul inactivității GPU-ului?