Am urmat asta tutorial oficial pentru a permite unui cluster k8s bare-metal să aibă acces GPU. Cu toate acestea, am primit erori în timp ce făceam asta.
Kubernetes 1.21 containered 1.4.11 și Ubuntu 20.04.3 LTS (GNU/Linux 5.4.0-91-generic x86_64).
Driverul Nvidia este preinstalat pe sistemul de operare cu versiunea 495 Headless
După ce lipiți următoarea configurație în interior /etc/containerd/config.toml
și efectuați repornirea serviciului, containerd nu ar putea începe cu iesirea 1
.
Containerd Config.toml
jurnal de sistem Aici.
# locație persistentă a datelor
root = "/var/lib/containerd"
# informații despre starea de rulare
stare = "/run/containerd"
# Kubernetes nu folosește managerul de repornire în container.
disabled_plugins = ["reporniți"]
# CONFIG NVIDIA ÎNCEPE AICI
versiunea = 2
[pluginuri]
[plugins."io.containerd.grpc.v1.cri"]
[pluginuri."io.containerd.grpc.v1.cri".containerd]
default_runtime_name = "nvidia"
[pluginuri."io.containerd.grpc.v1.cri".containerd.runtimes]
[pluginuri."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
privileged_without_host_devices = false
runtime_engine = ""
runtime_root = ""
runtime_type = „io.containerd.runc.v2”
[pluginuri."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
BinaryName = „/usr/bin/nvidia-container-runtime”
# CONFIGURARE NVIDIA SE Termină AICI
[depanare]
nivel = ""
[grpc]
max_recv_message_size = 16777216
max_send_message_size = 16777216
[plugins.linux]
shim = "/usr/bin/containerd-shim"
runtime = "/usr/bin/runc"
Pot confirma că driverul Nvidia detectează GPU-ul (Nvidia GTX 750Ti) rulând nvidia-smi
și a primit următoarea ieșire
+--------------------------------------------- ----------------------------+
| Versiunea driverului NVIDIA-SMI 495.44: 495.44 Versiune CUDA: 11.5 |
|-------------------------------+------------------ -----+----------------------+
| Persistența numelui GPU-M| Autobuz-Id Disp.A | Volatil Uncorr. ECC |
| Fan Temp Perf Pwr:Utilizare/Cap| Utilizarea memoriei | GPU-Util Compute M. |
| | | MIG M. |
|================================+================== =====+=======================|
| 0 NVIDIA GeForce ... Oprit | 00000000:02:00.0 Dezactivat | N/A |
| 34% 34C P8 1W / 38W | 0MiB / 2000MiB | 0% Implicit |
| | | N/A |
+-------------------------------+----------------- -----+----------------------+
+--------------------------------------------- ----------------------------+
| Procese: |
| GPU GI CI Tip PID Nume proces Memorie GPU |
| ID ID Utilizare |
|=================================================== =============================|
| Nu s-au găsit procese care rulează |
+--------------------------------------------- ----------------------------+
modificat config.toml asta a pus-o la treaba.