Puncte:1

De ce nu pot comunica GPU-urile pe un server multi-GPU?

drapel us

Acesta este un server Dell PowerEdge r750xa cu 4 GPU-uri Nvidia A40, destinat aplicațiilor AI. În timp ce GPU-urile funcționează bine individual, sarcinile de instruire cu mai multe GPU sau într-adevăr orice sarcină de lucru computațională cu mai multe GPU eșuează atunci când cel puțin 2 GPU-uri trebuie să facă schimb de informații, inclusiv simpluIPC si conjugateGradientMultiDeviceCG Mostre CUDA (primul arată rezultate nepotrivite, al doilea doar se blochează).

Am vazut discutii online (1, 2, 3), susținând că ceva numit IOMMU trebuie oprit. Am încercat să setez iommu=off și intel_iommu=off Nucleul Linux semnalează, dar nu a ajutat. Am verificat setările BIOS, dar nu există nicio opțiune de a dezactiva IOMMU în BIOS.

Puncte:1
drapel us

Deși nu există o setare explicită „IOMMU off” în această aromă de BIOS, problema este încă cu configurația BIOS.

În BIOS, accesați „Dispozitive integrate” și schimbați „Baza I/O mapată cu memorie” setarea de la „56TB” implicit la "12TB". Acest lucru va rezolva problema. Nu este nevoie să adăugați parametri suplimentari de kernel.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.