Eu folosesc 2080Ti, iată ce am făcut:
1: Am instalat un xubuntu 20.04 curat de la zero.
2: Am observat că driverul implicit este driverul xorg, așa că am instalat nvidia-driver-470 de la
software și actualizare > driver suplimentar > folosind driverul NVIDIA
metapachetul de la nvidia-driver-470 (proprietar, testat)
, iar instalarea a reușit, am văzut frumoasa masă ieșită din comandă nvidia -smi.
3: apoi mi-am dat seama că am nevoie și de CUDA 11.3, așa că tocmai am făcut următoarele comenzi conform site-ului oficial CUDA:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda-repo-ubuntu2004-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo apt-key add /var/cuda-repo-ubuntu2004-11-3-local/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda
Și de acolo, totul s-a rupt, în cazul în care am pierdut rezoluția afișajului la 800*600 după repornire. Și nvidia -smi nu a mai scos tabelul acela frumos. Mesajul de eroare este un avertisment pe două rânduri, pe care am uitat să îl salvez.
4: Mi-am dat seama că nu am curățat ștergerea nvidia înainte de a instala CUDA, deoarece CUDA a inclus driverul nvidia. asa ca am facut urmatoarele:
sudo apt-get --purge -y elimina „*nvidia*”
sudo apt-get --purge -y remove '*cuda*'
sudo apt-get update
sudo apt-get upgrade
sudo apt autoremove -y
după repornire, rezultatul nvidia -smi este:
nvidia: comanda nu a fost găsită
5: se pare că epurarea a reușit și apoi am făcut din nou pasul 3. Dar nu funcționează.
6: apoi am făcut din nou pasul de curățare 4 și apoi am încercat să folosesc ppa în loc de dpkg pentru a instala din nou CUDA:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
sudo apt-get update
sudo apt-get -y install cuda
Nu funcționează. indiferent de nvidia -smi sau nvcc -V. arătând comanda nu a fost găsită.
7: Apoi, când repornesc, am văzut că devine alegerea de încărcare sigură ubuntu linux 5.14 -oem, cândva era generic, acum este oem. Nu știu exact când s-a întâmplat această schimbare. Mi-am dat seama că poate imaginea de încărcare Linux este deteriorată. Am folosit capul mai vechi 5.10 generic pentru a încărca, iar apoi step4-step6 instalez CUDA. Rezultate: nu funcționează.
8: Apoi am curățat (pasul 4) din nou și am upgrade Linux-ul de la 20.04 la 20.10. și apoi purge a instalat lucrurile din nou. Și nu funcționează.
Chiar am rămas fără metode. Deci intrebarea mea este:
1: Dacă reinstalez xubuntu 20.04 și folosesc pasul 3 pentru a oferi o instalare CUDA curată, ar funcționa? Cred ca da.
2: Dacă reinstalez sistemul, ar trebui să folosesc ppa(step6) pentru a instala CUDA sau să folosesc dpkg(step3) pentru a face asta, care este mai bine? Având în vedere că metoda dpkg poate limita versiunea la 11.3, fără a fi nevoie să vă faceți griji cu privire la actualizările nedorite. Dar am auzit că pot folosi comanda sudo apt-mark hold <nume-pachet> pentru a preveni actualizarea, ceea ce nu am încercat niciodată.
3: Chiar nu vreau să reinstalez sistemul, cum pot să pornească CUDA și driverul în funcție de condițiile actuale?
4: gândindu-mă în continuare, deoarece CUDA este doar un lucru HPC și este legat doar de dezvoltare pentru mine, ar trebui să instalez driverul nvidia doar pe mașina mea și să instalez CUDA în docker și să-l las să ruleze acolo? Poate funcționa fără CUDA instalat în mașina reală?
5: gândire mai departe, cum ar putea meniul de încărcare să devină linux 5.14 -oem? ce a făcut Nvidia nucleului ireversibil?
Mulțumesc mult!