Puncte:0

Ecran negru după instalarea CUDA, UBUNTU 20.04

drapel us

salut ma poate ajuta cineva va rog? Am un ecran negru după ce am instalat driverele nvidia cuda.

UBUNTU 20.04, kernel 5.8.0-55-generic

NVIDIA-SMI 465.27
Versiunea driverului: 465.27
Versiunea CUDA: 11.3

20 GB RAM, 2 GB Nvidia mx150, Intel Core i7-8550U.

De asemenea, primesc acest mesaj când încerc să rulez un model: „RuntimeError: CUDA epuizată din memorie. Am încercat să aloce 20,00 MiB (GPU 0; 1,96 GiB capacitate totală; 2,00 MiB deja alocați; 9,50 MiB liberi; 4,00 MiB rezervați în total) de PyTorch)"

Bit dintr-un FIȘIER Jurnal:

[29319.635864] NVRM: Rutina de sondă NVIDIA a eșuat pentru 1 dispozitiv(e).

[29319.000029] NVRM: Niciunul dintre dispozitivele NVIDIA nu a fost inițializat.

[29319.002993] nvidia-nvlink: Nvlink Core a fost neînregistrat, numărul de dispozitiv major 234

[29319.635059] nvidia-nvlink: Nvlink Core este inițializat, numărul de dispozitiv major 234

[29319.635823] NVRM: Acesta este un BAR pe 64 de biți mapat peste 4 GB de către sistem

[29319.635823] NVRM: BIOS sau kernel-ul Linux, dar puntea PCI

[29319.635823] NVRM: imediat în amonte de acest GPU nu definește ecranul negru după-
install-of-nvidia-driver-ubuntu/109312

[29319.635823] NVRM: o fereastră de memorie preîncărcabilă care se potrivește.
[29319.635824] NVRM: Acest lucru se poate datora unei erori cunoscute de kernel Linux. Vă rog

[29319.635824] NVRM: consultați secțiunea README despre BAR-uri pe 64 de biți pentru informații suplimentare

[29319.635824] NVRM: informații.

**************************************************** ********

dmesg |grep -i pod
[ 0.303414] PCI: Utilizarea ferestrelor de punte gazdă de la ACPI; dacă este necesar, utilizați „pci=nocrs” și raportați o eroare
[ 0.339965] ACPI: PCI Root Bridge [PCI0] (domeniu 0000 [bus 00-fe])
[ 0.347519] Podul gazdă PCI către magistrala 0000:00
[ 0.368977] pci 0000:00:1c.0: puntea PCI la [bus 01]
[ 0.368980] pci 0000:00:1c.0: fereastra pod [io 0x4000-0x4fff]
[ 0.368984] pci 0000:00:1c.0: fereastra pod [mem 0x93000000-0x93ffffff]
[ 0.368989] pci 0000:00:1c.0: fereastra bridge [mem 0x80000000-0x91ffffff 64bit pref]
[ 0.369455] pci 0000:00:1c.4: punte PCI la [bus 02]
[ 0.369458] pci 0000:00:1c.4: fereastra pod [io 0x3000-0x3fff]
[ 0.369461] pci 0000:00:1c.4: fereastra pod [mem 0x94100000-0x941fffff]
[ 0.374209] pci 0000:00:1c.5: puntea PCI la [bus 03]
[ 0.374214] pci 0000:00:1c.5: fereastra pod [mem 0x94000000-0x940fffff]
[ 0.379452] pci 0000:00:02.0: vgaarb: controlul podului posibil
[ 0.441100] pci 0000:01:00.0: nu pot revendica BAR 6 [mem 0xfff80000-0xffffffff pref]: nicio fereastră de pod compatibilă
[ 0.441116] pci 0000:00:1c.0: puntea PCI la [bus 01]
[ 0.441119] pci 0000:00:1c.0: fereastra pod [io 0x4000-0x4fff]
[ 0.441124] pci 0000:00:1c.0: fereastra pod [mem 0x93000000-0x93ffffff]
[ 0.441127] pci 0000:00:1c.0: fereastra bridge [mem 0x80000000-0x91ffffff 64bit pref]
[ 0.441133] pci 0000:00:1c.4: punte PCI la [bus 02]
[ 0.441135] pci 0000:00:1c.4: fereastra pod [io 0x3000-0x3fff]
[ 0.441139] pci 0000:00:1c.4: fereastra pod [mem 0x94100000-0x941fffff]
[ 0.441146] pci 0000:00:1c.5: punte PCI la [bus 03]
[ 0.441150] pci 0000:00:1c.5: fereastra pod [mem 0x94000000-0x940fffff]
[ 8.398806] bridge: filtrarea prin arp/ip/ip6tables nu mai este disponibilă implicit. Actualizați-vă scripturile pentru a încărca br_netfilter dacă aveți nevoie de acest lucru.


****************
dmesg |grep BAR
[ 0.348927] pci 0000:00:02.0: BAR 2: atribuit efifb
[ 0.441100] pci 0000:01:00.0: nu pot revendica BAR 6 [mem 0xfff80000-0xffffffff pref]: nicio fereastră de pod compatibilă
[ 0.441113] pci 0000:01:00.0: BAR 6: nu există spațiu pentru [mem size 0x00080000 pref]
[ 0.441114] pci 0000:01:00.0: BAR 6: nu s-a putut atribui [mem size 0x00080000 pref]

*************

sudo lshw -c memorie

*-memorie NERECLAIMED
       descriere: controler de memorie
       produs: Sunrise Point-LP PMC
       furnizor: Intel Corporation
       id fizic: 1f.2
       info autobuz: pci@0000:00:1f.2
       versiunea: 21
       lățime: 32 biți
       ceas: 33 MHz (30,3 ns)
       capabilități: bus_master
       configurație: latență=0
       resurse: memorie:942ac000-942affff
drapel cc
Ați scanat dmesg |grep -i bridge pentru orice mesaje pentru utilizarea pci=nocrs cum ar fi PCI: Utilizarea ferestrelor bridge gazdă de la ACPI; dacă este necesar, utilizați „pci=nocrs” și raportați o eroare? S-ar putea să întâmpinați probleme cu prea multă memorie pe cardul video și cu spațiu insuficient în cei 4 GB inferioare de memorie de sistem pentru utilizarea PCI (problema TOLUD). Ai avut driverele Nvidia să funcționeze înainte de a încerca să instalezi CUDA? Ce hardware și câtă memorie aveți?
drapel cc
Vă rugăm să adăugați informații la postarea inițială, astfel încât să puteți utiliza etichete de cod și să obțineți o formatare rezonabilă pentru lizibilitate. Mesajele pci au atribuit vreodată cu succes BAR6 (ca poate la [mem 0xf1080000-0xf10fffff pref] așa cum face sistemul meu)?
TonyKutunio avatar
drapel us
Nu prea știu ce înseamnă asta: „Mesajele pci au atribuit vreodată cu succes BAR6 (cum ar fi poate la [mem 0xf1080000-0xf10fffff pref] așa cum face sistemul meu)”
drapel cc
Unul dintre comentariile dvs. a avut eșecul: „...nu pot revendica BAR 6 [mem 0xffff80000-0xffffffff pref]: nicio fereastră de pod compatibilă”, dar nu am văzut niciun mesaj ulterior despre BAR 6 în ceea ce ați postat. Încercați dmesg |grep BAR și vedeți dacă toate BAR-urile vor fi în cele din urmă atribuite.
TonyKutunio avatar
drapel us
Oh, da, văd... ieșirea dmesg |grep BAR spune: BAR 6: nu există spațiu pentru [mem size 0x00080000 pref] BAR 6: nu s-a putut atribui [mem size 0x00080000 pref]
drapel cc
Iată o posibilă soluție: https://www.linuxquestions.org/questions/linux-kernel-70/kernel-fails-to-assign-memory-to-pcie-device-4175487043/
TonyKutunio avatar
drapel us
dintr-un motiv oarecare spune: bash: /sys/bus/pci/devices/0000:00:01.1/remove: Nu există un astfel de fișier sau director bash: /sys/bus/pci/rescan: Permisiune refuzată
TonyKutunio avatar
drapel us
Este modul de a executa comanda „sudo echo 1 > /sys/bus/pci/devices/0000\:00\:1c.5/remove " Dacă ieșirea lspci este: 00:1c.5 Punte PCI: Intel Corporation Sunrise Point-LP PCI Express Root Port #6 (rev f1)
drapel cc
Da, acea comandă pare OK. Ar putea fi modelul tău tocmai a rămas fără memorie? Am configurat driverul Nvidia pe care îl doresc (de obicei cel mai recent din repozițiile standard) și instalez CUDA din fișierul .run, omitând oferta de drivere Nvidia. Evită multe probleme atunci când apar actualizări de sistem/video.
TonyKutunio avatar
drapel us
se pare că nu am probleme cu ecranul negru după comenzile de mai sus... Dar încă primim acea eroare: RuntimeError: CUDA din memorie.. Nu știu dacă modelul a rămas fără memorie
TonyKutunio avatar
drapel us
am crezut că ecranul negru și rămânerea fără memorie sunt legate

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.