Puncte:1

Serverul GPU se blochează în timpul inactivității GPU-ului

drapel ar

Avem un nou Supermicro Server AS-4124GS-TNR echipat cu opt NVIDIA RTX A6000. Sistemul de operare este Ubuntu 20.04.2, versiunea driverului NVIDIA este 460.73.01 (nu este utilizat driver Nouveau), versiunea CUDA este 11.2.

Am efectuat câteva teste de lungă durată pe GPU-uri și sistemul a fost stabil. Cu toate acestea, după ce GPU-ul a rămas inactiv, sistemul s-a prăbușit în mod repetat.

Presupunem că GpuPowerMizerMode trebuie setat la 1 pentru a preveni blocările în timpul inactivării GPU-ului (o presupunere susținută de alte rapoarte ale utilizatorilor găsite pe internet).

Singura modalitate de a face acest lucru pe care o cunoaștem este să porniți X (de exemplu, pornind gdm) și apoi să setați valoarea în consecință prin setările nvidia (alergare setările nvidia fără X/gdm duce la "Nu se poate iniția serverul: Nu s-a putut conecta: Conexiunea a fost refuzată."). Dar la oprirea X/gdm, GpuPowerMizerMode valoarea este resetată automat la 2. Din păcate, menținerea rulării X/gdm nu este o opțiune, deoarece aceasta duce și la instabilitatea sistemului.

Deci, problema noastră pare să fie următoarea:

  1. GPU inactiv + GpuPowerMizerMode != 1 poate duce la înghețarea sistemului. GpuPowerMizerMode poate fi setat doar prin setările nvidia conectat la un X/dm(?) care rulează. Pentru a seta constant valoarea la 1 X/dm(?), trebuie să continue să ruleze.
  2. Un X/gdm care rulează poate provoca o blocare a sistemului.

Sunt corecte presupunerile noastre? / Se confruntă și alții aceste probleme specifice?

Cum putem rezolva problema înghețului în timpul inactivității GPU-ului?

Puncte:1
drapel cz

Nu ar trebui să fie necesar să porniți o sesiune GUI (sau chiar să aveți una instalată!) pentru a modifica setări precum aceasta; setările nvidia ar trebui să funcționeze bine din consola framebuffer sau chiar într-un script pe care îl scrieți și care rulează la pornire.

Verificați pentru a fi sigur:

# nvidia-settings -q GpuPowerMizerMode

  Atributul „GPUPowerMizerMode” (blacktemple:1[gpu:0]): 1.
    Valorile valide pentru „GPUPowerMizerMode” sunt: ​​0, 1 și 2.
    „GPUPowerMizerMode” poate folosi următoarele tipuri țintă: GPU.

Pentru opt GPU-uri doar scrieți un script simplu, ceva de genul:

pentru n în $(seq 0 7); do
    nvidia-settings -a „[gpu:$n]/GpuPowerMizerMode=1”
Terminat

și rulați-l la pornire în orice mod considerați convenabil.


Nu pot spune dacă blocările dvs. se datorează rulării cu GpuPowerMizerMode!=1. Dacă acesta este cazul, atunci probabil că aveți un fel de hardware defect pe care ar trebui să îl găsiți și să îl înlocuiți.

user776206 avatar
drapel ar
Rularea setărilor nvidia fără a rula și utilizarea X/gdm duce la „Imposibil de inițiat serverul: Nu s-a putut conecta: Conexiune refuzată”.
Michael Hampton avatar
drapel cz
@user776206 Hm, este neașteptat. Mă duc să mă joc cu ea puțin mai târziu.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.