Puncte:1

Server

Slurm srun nu poate aloca resurse pentru GPU - Specificație generică de resurse invalidă

user324810

06.04.2023, 14:47

Pot lansa o lucrare pe un server GPU în mod tradițional (folosind CPU și MEM ca consumabile):

~ srun -c 1 --mem 1M -w serverGpu1 nume gazdă
serverGpu1

dar încercarea de a utiliza GPU-urile va da o eroare:

~ srun -c 1 --mem 1M --gres=gpu:1 hostname
srun: eroare: Imposibil de alocat resurse: specificație de resurse generice (gres) nevalidă

Am verificat asta întrebare dar nu ajuta in cazul meu.

Slurm.conf

Pe toate nodurile

SlurmctldHost=vinz
SlurmctldHost=strălucitor
GresTypes=gpu
MpiDefault=niciunul
ProctrackType=proctrack/cgroup
ReturnToService=1
SlurmctldPidFile=/media/Slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
StateSaveLocation=/media/Slurm
SwitchType=comutator/niciunul
TaskPlugin=sarcină/cgroup

InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Timp de așteptare=0
DefMemPerCPU=1
SchedulerType=programat/reumplere
SelectType=select/cons_tres
SelectTypeParameters=CR_CPU_Memory
AccountingStorageType=accounting_storage/none
AccountingStoreJobComment=DA
ClusterName=cluster
JobCompLoc=/media/Slurm/job_completion.txt
JobCompType=jobcomp/filetxt
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/cgroup
SlurmctldDebug=info
SlurmctldLogFile=/media/Slurm/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log
MaxArraySize=10001
NodeName=docker1 CPU=144 Boards=1 RealMemory=300000 Sockets=4 CoresPerSocket=18 ThreadsPerCore=2 Greutate=100 Stare=NECUNOSCUT
NodeName=serverGpu1 CPU=96 RealMemory=550000 Boards=1 SocketsPerBoard=2 CoresPerSocket=24 Gres=gpu:nvidia_tesla_t4:4 ThreadsPerCore=2 Weight=500 State=NECUNOSCUT

PartitionName=Cluster Nodes=docker1,serverGpu1 Implicit=DA MaxTime=INFINITE State=UP

cgroup.conf

Pe toate nodurile

CgroupAutomount=da 
CgroupReleaseAgentDir="/etc/slurm-llnl/cgroup" 

ConstrainCores=da 
ConstrainDevices=da
ConstrainRAMSpace=da

gres.conf

Doar pe serverele GPU

AutoDetect=nvml

În ceea ce privește jurnalul serverului GPU:

[2021-12-06T12:22:52.800] gpu/nvml: _get_system_gpu_list_nvml: 4 dispozitiv(e) de sistem GPU detectat(e)
[2021-12-06T12:22:52.801] Setarea frecvenței CPU nu este configurată pentru acest nod
[2021-12-06T12:22:52.803] slurmd a început versiunea 20.11.2
[2021-12-06T12:22:52.803] uciderea bătrânului slurmd[42176]
[2021-12-06T12:22:52.805] slurmd a început pe Luni, 06 Dec 2021 12:22:52 +0100
[2021-12-06T12:22:52.805] Finalizarea opririi Slurmd
[2021-12-06T12:22:52.805] CPU-uri=96 plăci=1 socket=2 nuclee=24 fire=2 memorie=772654 TmpDisk=1798171 Uptime=8097222 CPUSpecList=(null) Features=null)Active=nullAvail)

Aș dori niște îndrumări despre cum să rezolv această problemă, vă rog.

Editări: Așa cum a solicitat @Gerald Schneider

~ sinfo -N -o "%N %G"
NODELIST GRES
docker1 (null)
serverGpu1 (null)

518

0 + 0

slurm

GPU

Gerald Schneider

06.04.2023, 14:56

puteți adăuga, vă rog, rezultatul `sinfo -N -o "%N %G"`?

Răspunde

user324810

06.04.2023, 14:58

@GeraldSchneider gata!

Răspunde

Gerald Schneider

06.04.2023, 15:00

Încercați să adăugați GPU-urile la gres.conf pe nod direct, în loc să îl setați la AutoDetect. Obțin definițiile corecte de GPU în coloana %G cu sinfo pe nodurile mele.

Răspunde

user324810

06.04.2023, 15:06

Am eliminat `AutoDetect=nvml` și am setat în `gres.conf` următoarea linie: `Name=gpu File=/dev/nvidia[0-3]` și în slurm.conf, am schimbat NodeName al GPU prin modificarea la `Gres=gpu`. În jurnal, am primit `[2021-12-06T16:05:47.604] AVERTISMENT: O linie în gres.conf pentru GRES GPU are 3 mai configurate decât se aștepta în slurm.conf. Ignorând extra GRES.`

Răspunde

Gerald Schneider

07.04.2023, 09:05

Configurația mea seamănă foarte mult cu a ta. Singura diferență pe care o văd este că am AccountingStorage activat și am setat `AccountingStorageTRES=gres/gpu,gres/gpu:tesla`, dar nu cred că ar trebui să fie necesar. De asemenea, am un `Type=` setat în gres.conf, ați putea încerca să îl setați la `nvidia_tesla_t4`, astfel încât să se potrivească cu definiția dvs. în slurm.conf.

Răspunde

Gerald Schneider

07.04.2023, 09:05

Fișierele slurm.conf sunt identice pe nodurile dvs.? Încercați să setați `DebugFlags=gres` și vedeți dacă apare ceva util în jurnalele.

Răspunde

SEF 777

întrebarea această in alte limbi:

EN: Slurm srun cannot allocate ressources for GPUs - Invalid generic resource specification

TH: Slurm srun ไม่สามารถจัดสรรทรัพยากรสำหรับ GPU - ข้อกำหนดทรัพยากรทั่วไปไม่ถูกต้อง

RO: Slurm srun nu poate aloca resurse pentru GPU - Specificație generică de resurse invalidă

RU: Slurm srun не может выделить ресурсы для графических процессоров — неверная общая спецификация ресурсов

VI: Slurm srun không thể phân bổ nguồn tài nguyên cho GPU - Đặc tả tài nguyên chung không hợp lệ

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.