De ce nu pot comunica GPU-urile pe un server multi-GPU?

isarandi

10.03.2023, 00:35

Acesta este un server Dell PowerEdge r750xa cu 4 GPU-uri Nvidia A40, destinat aplicațiilor AI. În timp ce GPU-urile funcționează bine individual, sarcinile de instruire cu mai multe GPU sau într-adevăr orice sarcină de lucru computațională cu mai multe GPU eșuează atunci când cel puțin 2 GPU-uri trebuie să facă schimb de informații, inclusiv simpluIPC si conjugateGradientMultiDeviceCG Mostre CUDA (primul arată rezultate nepotrivite, al doilea doar se blochează).

Am vazut discutii online (1, 2, 3), susținând că ceva numit IOMMU trebuie oprit. Am încercat să setez iommu=off și intel_iommu=off Nucleul Linux semnalează, dar nu a ajutat. Am verificat setările BIOS, dar nu există nicio opțiune de a dezactiva IOMMU în BIOS.

0 + 0

linux

bios

dell-poweredge

hpc

GPU

Puncte:1

Server

isarandi

10.03.2023, 00:35

Deși nu există o setare explicită „IOMMU off” în această aromă de BIOS, problema este încă cu configurația BIOS.

În BIOS, accesați „Dispozitive integrate” și schimbați „Baza I/O mapată cu memorie” setarea de la „56TB” implicit la "12TB". Acest lucru va rezolva problema. Nu este nevoie să adăugați parametri suplimentari de kernel.

0 + 0

SEF 777

întrebarea această in alte limbi:

EN: Why can't the GPUs communicate in a multi-GPU server?

TH: เหตุใด GPU จึงไม่สามารถสื่อสารในเซิร์ฟเวอร์หลาย GPU ได้

RO: De ce nu pot comunica GPU-urile pe un server multi-GPU?

RU: Почему графические процессоры не могут обмениваться данными на сервере с несколькими графическими процессорами?

VI: Tại sao GPU không thể giao tiếp trong máy chủ đa GPU?

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.