Puncte:0

contabilizarea timpului de calcul al GPU pe clustere HPC

drapel kr

Cum țineți cont de timpul de calcul al GPU pe clusterele dvs. HPC?

Am o partiție GPU în creștere și destul de eterogenă (SXM4 A100s, PCIe A100s, NVlinked V100s, PCIe V100s, T4s, plăci AMD care sosesc în curând etc...), partiție GPU pe un cluster HPC (servere Debian cu hardware mixt care rulează planificator OAR).

În mod tradițional, am considerat timpul de calcul ca secunde per nucleu per job. În ciuda variabilității CPU și a memoriei între noduri (noduri grase, noduri de mare viteză, noduri standard), diferența a fost suficient de mică încât să nu aibă un impact semnificativ asupra contabilității, mai ales într-un cadru universitar mic.

Pe GPU, lucrurile se schimbă destul de mult.Diferența de performanță și cost între un nod SXM4 A100 și un T4 este destul de semnificativă și modelul nostru actual probabil că nu o va reduce, mai mult, deoarece parteneriatele universitare în creștere impun că găzduim tot mai multe proiecte din sectorul privat, de care va trebui să luăm în considerare. pentru tocmai.

Explorez cum să fac această contabilitate cu infrastructura noastră actuală, dar mă întrebam și ce metode folosesc alte persoane care operează clustere GPU HPC. Dacă aveți vreun sfat despre cum să faceți acest lucru sau despre ce strategie/instrumente ați folosit, aș fi foarte dispus să le aud!

Mulțumiri!

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.