Puncte:1

Ecran negru, PCIe-Error cu GPU AMD și placa de bază pentru server

drapel cn

Avem o stație de lucru în grupul nostru care are o placă de bază KNPA-U16 și un GPU AMD RX560 care funcționează de cele mai multe ori. Sistemul de operare este Kubuntu 20.04 și versiunea de kernel 5.8.0-59.

Acum problema apare atunci când nu folosim stația de lucru de ceva timp și apoi încercăm să o accesăm în fața ei. Comportamentul este după cum urmează: Ecranul apare pentru o perioadă scurtă de timp (variază între ~0-10s) și apoi devine negru. După cum s-a spus, timpul variază, odată am putut chiar să mă autent înainte ca ecranul să se întunece. Nu mai există posibilitatea de a-l trezi după acel eveniment. Totuși, este accesibil prin ssh.

Jurnalul kernelului arată următoarele:

09:27:51 Nucleu PC3: [165861.461855] {1}[Eroare hardware]: Eroare hardware de la APEI Sursa eroare hardware generică: 4  
09:27:51 Nucleu PC3: [165861.461858] {1}[Eroare hardware]: gravitatea evenimentului: informații  
09:27:51 Nucleu PC3: [165861.461860] {1}[Eroare hardware]: Eroare 0, tip: fatal  
09:27:51 Nucleu PC3: [165861.461861] {1}[Eroare hardware]: fru_text: PcieError  
09:27:51 Nucleu PC3: [165861.461862] {1}[Eroare hardware]: tip_secțiune: eroare PCIe  
09:27:51 Nucleu PC3: [165861.461863] {1}[Eroare hardware]: port_type: 4, port root  
09:27:51 Nucleu PC3: [165861.461864] {1}[Eroare hardware]: versiunea: 0.2  
09:27:51 Nucleu PC3: [165861.461866] {1}[Eroare hardware]: comandă: 0x0407, stare: 0x0010  
09:27:51 Nucleu PC3: [165861.461867] {1}[Eroare hardware]: device_id: 0000:20:03.1  
09:27:51 Nucleu PC3: [165861.461868] {1}[Eroare hardware]: slot: 7  
09:27:51 Nucleu PC3: [165861.461868] {1}[Eroare hardware]: magistrală_secundară: 0x23  
09:27:51 Nucleu PC3: [165861.461869] {1}[Eroare hardware]: vendor_id: 0x1022, device_id: 0x1453  
09:27:51 Nucleu PC3: [165861.461870] {1}[Eroare hardware]: cod_clasă: 060400  
09:27:51 Nucleu PC3: [165861.461871] {1}[Eroare hardware]: bridge: secondary_status: 0x2000, control: 0x001a  
09:27:51 Nucleu PC3: [165861.461872] {1}[Eroare hardware]: aer_uncor_status: 0x00000000, aer_uncor_mask: 0x04500000  
09:27:51 Nucleu PC3: [165861.461873] {1}[Eroare hardware]: aer_uncor_severity: 0x004e2030  
09:27:51 Nucleu PC3: [165861.461874] {1}[Eroare hardware]: Antet TLP: 00000000 00000000 00000000 00000000  
09:27:51 Nucleu PC3: [165861.461933] pcieport 0000:20:03.1: AER: aer_status: 0x00000000, aer_mask: 0x04500000  
09:27:51 Nucleu PC3: [165861.461939] pcieport 0000:20:03.1: AER: aer_layer=Layer de tranzacție, aer_agent=ID receptor  
09:27:51 Nucleu PC3: [165861.461941] pcieport 0000:20:03.1: AER: aer_uncor_severity: 0x004e2030  
09:27:51 Nucleu PC3: [165861.461945] amdgpu 0000:23:00.0: AER: nu se poate recupera (fără apel invers detectat)  
09:27:51 Nucleu PC3: [165861.461947] snd_hda_intel 0000:23:00.1: AER: nu se poate recupera (fără apel returnat error_detected)  
09:27:52 Nucleu PC3: [165862.485806] pcieport 0000:20:03.1: AER: Legătura la portul rădăcină a fost resetată  
09:27:52 Nucleu PC3: [165862.485854] pcieport 0000:20:03.1: AER: recuperarea dispozitivului cu succes   
09:28:02 Nucleu PC3: [165866.837702] [drm:amdgpu_dm_commit_planes.constprop.0 [amdgpu]] *EROARE* Se așteaptă intervalul de timp expirat!  
09:28:02 Nucleu PC3: [165872.219438] [drm:amdgpu_job_timedout [amdgpu]] *EROARE* ring gfx timeout, semnalat seq=841906, emised seq=841908  
09:28:02 Nucleu PC3: [165872.219526] [drm:amdgpu_job_timedout [amdgpu]] *EROARE* Informații despre proces: proces sddm-greeter pid 88965 thread sddm-greet:cs0 pid 88969  
09:28:02 Nucleu PC3: [165872.219534] amdgpu 0000:23:00.0: amdgpu: începe resetarea GPU!  
09:28:02 Nucleu PC3: [165872.219865] amdgpu:   
09:28:02 Nucleul PC3: [165872.219865] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219870] amdgpu:   
09:28:02 Nucleul PC3: [165872.219870] nu a reușit să trimită mesajul 281 ret este 65535   
09:28:02 Nucleu PC3: [165872.219879] amdgpu:   
09:28:02 Nucleul PC3: [165872.219879] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219883] amdgpu:   
09:28:02 Nucleul PC3: [165872.219883] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219887] amdgpu:   
09:28:02 Nucleul PC3: [165872.219887] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219890] amdgpu:   
09:28:02 Nucleul PC3: [165872.219890] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219894] amdgpu:   
09:28:02 Nucleul PC3: [165872.219894] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219897] amdgpu:   
09:28:02 Nucleul PC3: [165872.219897] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219901] amdgpu:   
09:28:02 Nucleul PC3: [165872.219901] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219905] amdgpu:   
09:28:02 Nucleul PC3: [165872.219905] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219909] amdgpu:   
09:28:02 Nucleul PC3: [165872.219909] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219912] amdgpu:   
09:28:02 Nucleul PC3: [165872.219912] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219916] amdgpu:   
09:28:02 Nucleul PC3: [165872.219916] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219919] amdgpu:   
09:28:02 Nucleul PC3: [165872.219919] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219923] amdgpu:   
09:28:02 Nucleul PC3: [165872.219923] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219926] amdgpu:   
09:28:02 Nucleul PC3: [165872.219926] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219930] amdgpu:   
09:28:02 Nucleu PC3: [165872.219930] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219933] amdgpu:   
09:28:02 Nucleul PC3: [165872.219933] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219937] amdgpu:   
09:28:02 Nucleul PC3: [165872.219937] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219940] amdgpu:   
09:28:02 Nucleul PC3: [165872.219940] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219944] amdgpu:   
09:28:02 Nucleul PC3: [165872.219944] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219947] amdgpu:   
09:28:02 Nucleul PC3: [165872.219947] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219951] amdgpu:   
09:28:02 Nucleul PC3: [165872.219951] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219954] amdgpu:   
09:28:02 Nucleul PC3: [165872.219954] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219958] amdgpu: 
09:28:02 Nucleul PC3: [165872.219958] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219961] amdgpu:   
09:28:02 Nucleul PC3: [165872.219961] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219965] amdgpu:   
09:28:02 Nucleu PC3: [165872.219965] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219968] amdgpu:   
09:28:02 Nucleul PC3: [165872.219968] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219972] amdgpu:   
09:28:02 Nucleul PC3: [165872.219972] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219975] amdgpu:   
09:28:02 Nucleul PC3: [165872.219975] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219978] amdgpu:   
09:28:02 Nucleul PC3: [165872.219978] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219981] amdgpu:   
09:28:02 Nucleul PC3: [165872.219981] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219985] amdgpu:   
09:28:02 Nucleul PC3: [165872.219985] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219988] amdgpu:   
09:28:02 Nucleul PC3: [165872.219988] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.219992] amdgpu:   
09:28:02 Nucleul PC3: [165872.219992] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.219995] amdgpu:   
09:28:02 Nucleul PC3: [165872.219995] nu a reușit să trimită mesajul 261 ret este 65535   
09:28:02 Nucleu PC3: [165872.220169] amdgpu:   
09:28:02 Nucleul PC3: [165872.220169] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.220173] amdgpu:   
09:28:02 Nucleul PC3: [165872.220173] nu a reușit să trimită mesajul 306 ret este 65535   
09:28:02 Nucleu PC3: [165872.220175] amdgpu:   
09:28:02 Nucleul PC3: [165872.220175] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.220179] amdgpu:   
09:28:02 Nucleul PC3: [165872.220179] nu a reușit să trimită mesajul 5e ret este 65535   
09:28:02 Nucleu PC3: [165872.220183] amdgpu:   
09:28:02 Nucleul PC3: [165872.220183] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.220186] amdgpu:   
09:28:02 Nucleul PC3: [165872.220186] nu a reușit să trimită mesajul 145 ret este 65535   
09:28:02 Nucleu PC3: [165872.220190] amdgpu:   
09:28:02 Nucleul PC3: [165872.220190] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.220195] amdgpu:   
09:28:02 Nucleul PC3: [165872.220195] nu a reușit să trimită mesajul 146 ret este 65535   
09:28:02 Nucleu PC3: [165872.220200] amdgpu:   
09:28:02 Nucleul PC3: [165872.220200] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.220203] amdgpu:   
09:28:02 Nucleul PC3: [165872.220203] nu a reușit să trimită mesajul 148 ret este 65535   
09:28:02 Nucleu PC3: [165872.220207] amdgpu:   
09:28:02 Nucleul PC3: [165872.220207] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.220210] amdgpu:   
09:28:02 Nucleul PC3: [165872.220210] nu a reușit să trimită mesajul 145 ret este 65535   
09:28:02 Nucleu PC3: [165872.220215] amdgpu:   
09:28:02 Nucleul PC3: [165872.220215] ultimul mesaj a eșuat ret este 65535  
09:28:02 Nucleu PC3: [165872.220219] amdgpu:   
09:28:02 Nucleul PC3: [165872.220219] nu a reușit să trimită mesajul 146 ret este 65535   
09:28:22 Nucleu PC3: [165892.248439] [drm:atom_op_jump [amdgpu]] *EROARE* atombios blocat în buclă pentru mai mult de 20 de secunde de anulare  
09:28:22 Nucleu PC3: [165892.248505] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *EROARE* atombios blocat la executarea D8DE (len 824, WS 0, PS 0) @ 0xDA5E  
09:28:22 Nucleu PC3: [165892.248569] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *EROARE* atombios blocat la executarea D798 (len 326, WS 0, PS 0) @ 0xD888  
09:28:22 Nucleu PC3: [165892.248664] [drm:dce110_link_encoder_disable_output [amdgpu]] *EROARE* dce110_link_encoder_disable_output: Nu s-a executat tabelul de comenzi VBIOS!  

Am avut problema de mult timp (~ 1 an, vizibil în jurnalul de evenimente SMBIOS) și am încercat câteva lucruri:

  • Scoateți placa grafică din slotul PCIe și conectați-o din nou
  • Instalarea unui nucleu nou
  • Instalarea driverelor proprietare amdgpu
  • Dezactivând toate setările de somn din Kubuntu am putut găsi
  • Folosind pcie_aspm=off
  • Utilizarea unui alt ecran (DVI / portul de afișare)
  • Modificarea unor setări BIOS legate de PCIe

Totuși, nimic din ceea ce facem pare să schimbe ceva. Ceea ce face ca această problemă să fie atât de greu de rezolvat este că apare doar dacă PC-ul nu este folosit de ceva timp. Deci este într-adevăr o durere să testezi ceva.

Are cineva idee care ar putea fi eroarea sau unde am putea începe să căutăm pe baza jurnalului?


Actualizare am testat placa grafică pe un alt computer cu Windows și a funcționat bine. Apoi am instalat Win 10 pe același PC și funcționează, de asemenea, fără probleme. Deci pare a fi combinația GPU + placa de bază + KDE neon. Linux pare să permită o stare de economisire a energiei care nu merge bine cu placa de bază. Cu toate acestea, am căutat mult și nu am găsit nicio opțiune de hibernare pe care nu am dezactivat-o.

nobody avatar
drapel gh
`lspci -nn | grep 1453` va rog.este într-adevăr una dintre plăcile tale grafice? Vă rugăm să încercați opțiunea de pornire `mce=off` #Dezactivați verificarea mașinii, dar numai dacă computerul este rulat fără eroare de utilizare. pentru securitate verifica-ti ram.
amh23 avatar
drapel cn
mulțumesc, aceasta este rezultatul: `00:03.1 PCI bridge [0604]: Advanced Micro Devices, Inc. [AMD] Family 17h (Modele 00h-0fh) PCIe GPP Bridge [1022:1453] 20:01.2 PCI bridge [0604]: Advanced Micro Devices, Inc. [AMD] Family 17h (Modele 00h-0fh) PCIe GPP Bridge [1022:1453] 20:03.1 PCI bridge [0604]: Advanced Micro Devices, Inc. [AMD] Family 17h (Modele 00h-0fh) PCIe GPP Bridge [1022:1453] 60:01.1 PCI bridge [0604]: Advanced Micro Devices, Inc. [AMD] Family 17h (Modele 00h-0fh) PCIe GPP Bridge [1022:1453]` Totuși, din câte știm din celelalte ID-uri implicate, acesta este PCIe-Bridge-ul GPU-ului
amh23 avatar
drapel cn
Avem ECC-Ram și recent am verificat că este în regulă cu edac-util . De ce crezi că `mce=off` ar putea ajuta? Din câte am înțeles, aceasta este o setare legată de procesor. Crezi că ar putea avea legătură cu căldura?

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.