Puncte:1

nvidia-smi a încetat să funcționeze după instalarea cuda-toolkit

drapel sa

TLDR

Încerc să ajung nvidia-smi backup, care a funcționat bine până când am instalat cuda-toolkit. Dezinstalarea cuda-toolkit nu a ajutat. Cum pot restabili nvidia-smi ieșire?

NVIDIA-SMI a eșuat deoarece nu a putut comunica cu NVIDIA conducător auto. Asigurați-vă că este instalat cel mai recent driver NVIDIA și alergare.


Mai multe detalii

Am GEFORCE RTX 2070 pe laptopul meu care rulează Ubuntu 18.04 și am instalat cu succes driverul său din fișierul de rulare oficial NVIDIA-Linux-x86_64-470.63.01.run. Aici este rezultatul lui nvidia-smi din acea instalatie:

introduceți descrierea imaginii aici

Apoi, am instalat cuda-toolkit din fișierul de rulare oficial cuda_11.4.2_470.57.02_linux.run, asigurându-vă că deselectează instalarea driverului. Iată fereastra terminalului imediat după finalizarea instalării:

introduceți descrierea imaginii aici

Imediat după, când am făcut-o nvidia-smi, Eu iau:

NVIDIA-SMI a eșuat deoarece nu a putut comunica cu NVIDIA conducător auto. Asigurați-vă că este instalat cel mai recent driver NVIDIA și alergare.

Din moment ce instalarea cuda-toolkit a fost cea care probabil s-a „rupt” nvidia-smi, am dezinstalat cuda-toolkit (prin rularea cuda-uninstaller gasit in /usr/local/cuda-11.4/bin, după cum se precizează în textul generat după instalare).

Din păcate, asta nu ajută și nvidia-smi este încă corupt. Motivul pentru care instalez din fișierele de execuție oficiale NVIDIA este că anterior am avut probleme la instalarea driverului din depozitele Ubuntu, dar l-am putut face să funcționeze cu driverul oficial. Așa că m-am gândit că aș încerca același lucru cu cuda-toolkit.

Cum pot să mă întorc nvidia-smi?

Ieșiri ale unor comenzi, dacă este cazul

  • care nvidia-smi : /usr/bin/nvidia-smi
  • mokutil --sb-state : SecureBoot dezactivat
  • setările nvidia :
    • EROARE: driverul NVIDIA nu este încărcat
    • EROARE: Nu se pot încărca informațiile din niciun sistem disponibil
  • ls /sys/firmware/efi/ :
    • config_table efivars esrt fw_platform_size fw_vendor runtime runtime-map systab vars
  • lspci -k | grep -EA2 „VGA|3D” :

00:02.0 Controler compatibil VGA: Intel Corporation CometLake-H GT2 [Grafica UHD] (rev 05)
Subsistem: Micro-Star International Co., Ltd. [MSI] Dispozitiv 12ae
Driver kernel în uz: i915

01:00.0 Controler compatibil VGA: NVIDIA Corporation TU106M [GeForce RTX 2070 Mobile / > Max-Q Refresh] (rev. a1)
Subsistem: Micro-Star International Co., Ltd. [MSI] Dispozitiv 12ae
Module kernel: nvidiafb, nouveau

  • cat /etc/modprobe.d/blacklist-nouveau.conf :

lista neagră nouveau
lista neagră vga16b
lista neagră rivafb
lista neagră nvidiafb
lista neagră rivatv
lista neagră amd76_edac
alias nouveau dezactivat
alias lbm-nouveau off
opțiuni nouveau modeset=0

  • cat /proc/version :

    • Linux versiunea 5.4.0-84-generic (buildd@lcy01-amd64-007) (gcc versiunea 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)) #94~18.04.1-Ubuntu SMP joi 26 august 23:17 :46 UTC 2021
  • sudo lshw -c video : (Afișajul NVIDIA este „nerevendicat”, dar asa este ar trebui să fie)

introduceți descrierea imaginii aici

  • starea dkms : fără ieșire
  • lsmod | grep nvidia :
    • i2c_nvidia_gpu 16384 0
  • echo $XDG_SESSION_TYPE : x11
  • unde este nvidia :
    • nvidia: /usr/lib/x86_64-linux-gnu/nvidia /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-470.63.01/nvidia
  • grep nvidia /etc/modprobe.d/* /lib/modprobe.d/*:

/etc/modprobe.d/blacklist-framebuffer.conf:blacklist nvidiafb
/etc/modprobe.d/blacklist-nouveau.conf:blacklist nvidiafb
/etc/modprobe.d/nvidia-installer-disable-nouveau.conf:# generat de nvidia-installer
/lib/modprobe.d/nvidia-runtimepm.conf:options nvidia „NVreg_DynamicPowerManagement=0x02”

Postări/Întrebări la care m-am uitat deja:

drapel cc
Sistemul dvs. /usr/bin/gcc --version ar trebui să fie 9.3.0, iar dacă v-ați modificat PATH, poate că gcc --version ar putea fi o altă versiune, dar nu 7.5. Când modificați versiunea gcc pentru CUDA, nu modificați implicit sistemul (nu utilizați niciodată /etc/alternatives pentru gcc!!!!). Manipulați gcc-ul CUDA prin cuda/bin care are legături (sau executabile) către versiunea necesară. Numărul driverului Nvidia din repozițiile standard este 470.63.01, așa că l-aș folosi după curățarea tuturor pachetelor Nvidia existente.
MorganStark47 avatar
drapel sa
Bine, deci `gcc --version` a fost într-adevăr 7.5.Pentru a face upgrade la 9 (care era deja instalat) am folosit `sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 9` și `sudo update-alternatives --install /usr/bin /g++ g++ /usr/bin/g++-9 9` deci acum `/usr/bin/gcc --version` și `/usr/bin/g++ --version` returnează 9.4.0. Eroarea cu nvidia-smi rămâne totuși. Driverul necesită o reinstalare? Instalarea driverului nu este un proces rapid și ușor - cel puțin pentru mine - așa că este ceva ce aș face numai dacă trebuie să
drapel cc
Confuzia mea, nucleul tău m-a făcut să mă gândesc la 20.04 cu gcc 9.3 implicit. Am adăugat etichetele HWE și 18.04. Nu folosesc niciun HWE, deci nu sunt sigur cum funcționează --, solicitând o versiune implicită a compilatorului pentru nucleu/module (9.3) și alta pentru restul sistemului (7.5?). Nu sunt sigur de unde provine versiunea dvs. gcc 9.4 decât dacă este pentru un HWE pentru 21.04 (dar atunci de ce nu s-a actualizat kernel-ul?). Presupun că ar fi posibil să folosiți alternativele de actualizare 9.3 pentru gcc, --reconfigurați pachetul nvidia-driver-470 pentru a se recompila, apoi treceți înapoi la 7.5 gcc pentru restul sistemului.
MorganStark47 avatar
drapel sa
Mulțumesc pentru adăugarea etichetelor. „reconfigurează nvidia-driver-470 pentru a se recompila” -- hm, deoarece „nvidia-settings” nu funcționează (ieșire inclusă în întrebare), nu sunt sigur cum aș face asta.
Puncte:1
drapel sa

Am curățat toate chestiile Nvidia și apoi am încercat sudo ubuntu-drivers autoinstall urmat de sudo reboot după care nvidia-smi Merge bine.

introduceți descrierea imaginii aici

Deci, cred că soluția a fost reinstalarea driverelor NVIDIA.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.