Puncte:1

Slurm srun nu poate aloca resurse pentru GPU - Specificație generică de resurse invalidă

drapel ca

Pot lansa o lucrare pe un server GPU în mod tradițional (folosind CPU și MEM ca consumabile):

~ srun -c 1 --mem 1M -w serverGpu1 nume gazdă
serverGpu1

dar încercarea de a utiliza GPU-urile va da o eroare:

~ srun -c 1 --mem 1M --gres=gpu:1 hostname
srun: eroare: Imposibil de alocat resurse: specificație de resurse generice (gres) nevalidă

Am verificat asta întrebare dar nu ajuta in cazul meu.

Slurm.conf

Pe toate nodurile

SlurmctldHost=vinz
SlurmctldHost=strălucitor
GresTypes=gpu
MpiDefault=niciunul
ProctrackType=proctrack/cgroup
ReturnToService=1
SlurmctldPidFile=/media/Slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
StateSaveLocation=/media/Slurm
SwitchType=comutator/niciunul
TaskPlugin=sarcină/cgroup

InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Timp de așteptare=0
DefMemPerCPU=1
SchedulerType=programat/reumplere
SelectType=select/cons_tres
SelectTypeParameters=CR_CPU_Memory
AccountingStorageType=accounting_storage/none
AccountingStoreJobComment=DA
ClusterName=cluster
JobCompLoc=/media/Slurm/job_completion.txt
JobCompType=jobcomp/filetxt
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/cgroup
SlurmctldDebug=info
SlurmctldLogFile=/media/Slurm/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log
MaxArraySize=10001
NodeName=docker1 CPU=144 Boards=1 RealMemory=300000 Sockets=4 CoresPerSocket=18 ThreadsPerCore=2 Greutate=100 Stare=NECUNOSCUT
NodeName=serverGpu1 CPU=96 RealMemory=550000 Boards=1 SocketsPerBoard=2 CoresPerSocket=24 Gres=gpu:nvidia_tesla_t4:4 ThreadsPerCore=2 Weight=500 State=NECUNOSCUT

PartitionName=Cluster Nodes=docker1,serverGpu1 Implicit=DA MaxTime=INFINITE State=UP

cgroup.conf

Pe toate nodurile

CgroupAutomount=da 
CgroupReleaseAgentDir="/etc/slurm-llnl/cgroup" 

ConstrainCores=da 
ConstrainDevices=da
ConstrainRAMSpace=da

gres.conf

Doar pe serverele GPU

AutoDetect=nvml

În ceea ce privește jurnalul serverului GPU:

[2021-12-06T12:22:52.800] gpu/nvml: _get_system_gpu_list_nvml: 4 dispozitiv(e) de sistem GPU detectat(e)
[2021-12-06T12:22:52.801] Setarea frecvenței CPU nu este configurată pentru acest nod
[2021-12-06T12:22:52.803] slurmd a început versiunea 20.11.2
[2021-12-06T12:22:52.803] uciderea bătrânului slurmd[42176]
[2021-12-06T12:22:52.805] slurmd a început pe Luni, 06 Dec 2021 12:22:52 +0100
[2021-12-06T12:22:52.805] Finalizarea opririi Slurmd
[2021-12-06T12:22:52.805] CPU-uri=96 plăci=1 socket=2 nuclee=24 fire=2 memorie=772654 TmpDisk=1798171 Uptime=8097222 CPUSpecList=(null) Features=null)Active=nullAvail)

Aș dori niște îndrumări despre cum să rezolv această problemă, vă rog.

Editări: Așa cum a solicitat @Gerald Schneider

~ sinfo -N -o "%N %G"
NODELIST GRES
docker1 (null)
serverGpu1 (null)
drapel in
puteți adăuga, vă rog, rezultatul `sinfo -N -o "%N %G"`?
user324810 avatar
drapel ca
@GeraldSchneider gata!
drapel in
Încercați să adăugați GPU-urile la gres.conf pe nod direct, în loc să îl setați la AutoDetect. Obțin definițiile corecte de GPU în coloana %G cu sinfo pe nodurile mele.
user324810 avatar
drapel ca
Am eliminat `AutoDetect=nvml` și am setat în `gres.conf` următoarea linie: `Name=gpu File=/dev/nvidia[0-3]` și în slurm.conf, am schimbat NodeName al GPU prin modificarea la `Gres=gpu`. În jurnal, am primit `[2021-12-06T16:05:47.604] AVERTISMENT: O linie în gres.conf pentru GRES GPU are 3 mai configurate decât se aștepta în slurm.conf. Ignorând extra GRES.`
drapel in
Configurația mea seamănă foarte mult cu a ta. Singura diferență pe care o văd este că am AccountingStorage activat și am setat `AccountingStorageTRES=gres/gpu,gres/gpu:tesla`, dar nu cred că ar trebui să fie necesar. De asemenea, am un `Type=` setat în gres.conf, ați putea încerca să îl setați la `nvidia_tesla_t4`, astfel încât să se potrivească cu definiția dvs. în slurm.conf.
drapel in
Fișierele slurm.conf sunt identice pe nodurile dvs.? Încercați să setați `DebugFlags=gres` și vedeți dacă apare ceva util în jurnalele.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.