Pot lansa o lucrare pe un server GPU în mod tradițional (folosind CPU și MEM ca consumabile):
~ srun -c 1 --mem 1M -w serverGpu1 nume gazdă
serverGpu1
dar încercarea de a utiliza GPU-urile va da o eroare:
~ srun -c 1 --mem 1M --gres=gpu:1 hostname
srun: eroare: Imposibil de alocat resurse: specificație de resurse generice (gres) nevalidă
Am verificat asta întrebare dar nu ajuta in cazul meu.
Slurm.conf
Pe toate nodurile
SlurmctldHost=vinz
SlurmctldHost=strălucitor
GresTypes=gpu
MpiDefault=niciunul
ProctrackType=proctrack/cgroup
ReturnToService=1
SlurmctldPidFile=/media/Slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
StateSaveLocation=/media/Slurm
SwitchType=comutator/niciunul
TaskPlugin=sarcină/cgroup
InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Timp de așteptare=0
DefMemPerCPU=1
SchedulerType=programat/reumplere
SelectType=select/cons_tres
SelectTypeParameters=CR_CPU_Memory
AccountingStorageType=accounting_storage/none
AccountingStoreJobComment=DA
ClusterName=cluster
JobCompLoc=/media/Slurm/job_completion.txt
JobCompType=jobcomp/filetxt
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/cgroup
SlurmctldDebug=info
SlurmctldLogFile=/media/Slurm/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log
MaxArraySize=10001
NodeName=docker1 CPU=144 Boards=1 RealMemory=300000 Sockets=4 CoresPerSocket=18 ThreadsPerCore=2 Greutate=100 Stare=NECUNOSCUT
NodeName=serverGpu1 CPU=96 RealMemory=550000 Boards=1 SocketsPerBoard=2 CoresPerSocket=24 Gres=gpu:nvidia_tesla_t4:4 ThreadsPerCore=2 Weight=500 State=NECUNOSCUT
PartitionName=Cluster Nodes=docker1,serverGpu1 Implicit=DA MaxTime=INFINITE State=UP
cgroup.conf
Pe toate nodurile
CgroupAutomount=da
CgroupReleaseAgentDir="/etc/slurm-llnl/cgroup"
ConstrainCores=da
ConstrainDevices=da
ConstrainRAMSpace=da
gres.conf
Doar pe serverele GPU
AutoDetect=nvml
În ceea ce privește jurnalul serverului GPU:
[2021-12-06T12:22:52.800] gpu/nvml: _get_system_gpu_list_nvml: 4 dispozitiv(e) de sistem GPU detectat(e)
[2021-12-06T12:22:52.801] Setarea frecvenței CPU nu este configurată pentru acest nod
[2021-12-06T12:22:52.803] slurmd a început versiunea 20.11.2
[2021-12-06T12:22:52.803] uciderea bătrânului slurmd[42176]
[2021-12-06T12:22:52.805] slurmd a început pe Luni, 06 Dec 2021 12:22:52 +0100
[2021-12-06T12:22:52.805] Finalizarea opririi Slurmd
[2021-12-06T12:22:52.805] CPU-uri=96 plăci=1 socket=2 nuclee=24 fire=2 memorie=772654 TmpDisk=1798171 Uptime=8097222 CPUSpecList=(null) Features=null)Active=nullAvail)
Aș dori niște îndrumări despre cum să rezolv această problemă, vă rog.
Editări:
Așa cum a solicitat @Gerald Schneider
~ sinfo -N -o "%N %G"
NODELIST GRES
docker1 (null)
serverGpu1 (null)