Cum țineți cont de timpul de calcul al GPU pe clusterele dvs. HPC?
Am o partiție GPU în creștere și destul de eterogenă (SXM4 A100s, PCIe A100s, NVlinked V100s, PCIe V100s, T4s, plăci AMD care sosesc în curând etc...), partiție GPU pe un cluster HPC (servere Debian cu hardware mixt care rulează planificator OAR).
În mod tradițional, am considerat timpul de calcul ca secunde per nucleu per job. În ciuda variabilității CPU și a memoriei între noduri (noduri grase, noduri de mare viteză, noduri standard), diferența a fost suficient de mică încât să nu aibă un impact semnificativ asupra contabilității, mai ales într-un cadru universitar mic.
Pe GPU, lucrurile se schimbă destul de mult.Diferența de performanță și cost între un nod SXM4 A100 și un T4 este destul de semnificativă și modelul nostru actual probabil că nu o va reduce, mai mult, deoarece parteneriatele universitare în creștere impun că găzduim tot mai multe proiecte din sectorul privat, de care va trebui să luăm în considerare. pentru tocmai.
Explorez cum să fac această contabilitate cu infrastructura noastră actuală, dar mă întrebam și ce metode folosesc alte persoane care operează clustere GPU HPC. Dacă aveți vreun sfat despre cum să faceți acest lucru sau despre ce strategie/instrumente ați folosit, aș fi foarte dispus să le aud!
Mulțumiri!