Am încercat toată ziua să fac acest GPU (v100) să funcționeze pe o nouă mașină virtuală ubuntu. Am încercat să instalez driverele și să repornesc și, de asemenea, să șterg/dezinstalez tot ce are de-a face cu nvidia, dar niciunul dintre aceste lucruri nu pare să funcționeze.
În special, am rulat asta în mod specific:
actualizare apt;
apt install build-essential;
sudo add-apt-repository ppa:graphics-drivers
sudo apt install ubuntu-drivers-common
dispozitive ubuntu-driver
sudo apt-get install nvidia-driver-460
sudo reporniți acum
Apoi, uneori, se pare că nvidia-smi funcționează (în momentul scrierii acestei întrebări nu a fost așa că nu am putut să copiez și lipiți ceea ce se spune când funcționează), dar când nu funcționează, spune asta:
(sinteză) miranda9@miranda9:~$ nvidia-smi
Nu se poate determina mânerul dispozitivului pentru GPU 0000:00:06.0: Eroare necunoscută
orice ajutor este apreciat.
Rețineți că, de asemenea, nu am acces la fișierul VMs vmx, așa că această întrebare și răspunsurile sunt inutile/nesens pentru mine: https://forums.developer.nvidia.com/t/nvidia-smi-reports-unable-to-determine-the-device-handle-for-gpu/46835
În plus, am încercat să dezinstalez totul din nivida și să-l reinstalez cu:
sudo apt-get --purge elimina "*nvidia*"
sudo /usr/bin/nvidia-uninstall
atunci
actualizare apt;
apt install build-essential;
sudo add-apt-repository ppa:graphics-drivers
sudo apt install ubuntu-drivers-common
dispozitive ubuntu-driver
sudo apt-get install nvidia-driver-460
sudo reporniți acum
dar asta nu pare să funcționeze
Mai multe informații în cazul în care vă ajută:
(sinteză) miranda9@miranda9:~$ lsb_release -a
Nu sunt disponibile module LSB.
ID distribuitor: Ubuntu
Descriere: Ubuntu 20.04.2 LTS
Lansare: 20.04
Nume de cod: focal
de asemenea:
(sinteză) miranda9@miranda9:~$ python
Python 3.9.5 (implicit, 4 iunie 2021, 12:28:51)
[GCC 7.5.0] :: Anaconda, Inc. pe Linux
Tastați „ajutor”, „drept de autor”, „credite” sau „licență” pentru mai multe informații.
>>> import lanternă
>>> torch.cuda.is_available()
/home/miranda9/miniconda3/envs/synthesis/lib/python3.9/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA initialization: Eroare neașteptată de la cudaGetDeviceCount(). Ați rulat câteva funcții cuda înainte de a apela NumCudaDevices() care ar putea fi setat deja o eroare? Eroare 101: ordinal dispozitiv nevalid (declanșat intern la /opt/conda/conda-bld/pytorch_1623448238472/work/c10/cuda/CUDAFunctions.cpp:115.)
return torch._C._cuda_getDeviceCount() > 0
Fals
După cum se solicită prin comentariu:
# lspci
00:00.0 Punte gazdă: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)
00:01.0 ISA bridge: Intel Corporation 82371SB PIIX3 ISA [Natoma/Triton II]
00:01.1 Interfață IDE: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
00:01.2 Controler USB: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (rev 01)
00:01.3 Bridge: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 01)
00:02.0 Controler compatibil VGA: Cirrus Logic GD 5446
00:03.0 Controler de stocare SCSI: XenSource, Inc. Xen Platform Device (rev 01)
00:05.0 Periferic de sistem: XenSource, Inc. Citrix XenServer PCI Device for Windows Update (rev 01)
00:06.0 Controler 3D: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
alt vm:
$ lspci
00:00.0 Punte gazdă: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)
00:01.0 ISA bridge: Intel Corporation 82371SB PIIX3 ISA [Natoma/Triton II]
00:01.1 Interfață IDE: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
00:01.2 Controler USB: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (rev 01)
00:01.3 Bridge: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 01)
00:02.0 Controler compatibil VGA: Cirrus Logic GD 5446
00:03.0 Controler de stocare SCSI: XenSource, Inc. Xen Platform Device (rev 01)
00:05.0 Periferic de sistem: XenSource, Inc. Citrix XenServer PCI Device for Windows Update (rev 01)
00:06.0 Controler 3D: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
Resurse pe care le-am căutat ajutor: