Avem o stație de lucru în grupul nostru care are o placă de bază KNPA-U16 și un GPU AMD RX560 care funcționează de cele mai multe ori. Sistemul de operare este Kubuntu 20.04 și versiunea de kernel 5.8.0-59.
Acum problema apare atunci când nu folosim stația de lucru de ceva timp și apoi încercăm să o accesăm în fața ei. Comportamentul este după cum urmează:
Ecranul apare pentru o perioadă scurtă de timp (variază între ~0-10s) și apoi devine negru. După cum s-a spus, timpul variază, odată am putut chiar să mă autent înainte ca ecranul să se întunece. Nu mai există posibilitatea de a-l trezi după acel eveniment. Totuși, este accesibil prin ssh.
Jurnalul kernelului arată următoarele:
09:27:51 Nucleu PC3: [165861.461855] {1}[Eroare hardware]: Eroare hardware de la APEI Sursa eroare hardware generică: 4
09:27:51 Nucleu PC3: [165861.461858] {1}[Eroare hardware]: gravitatea evenimentului: informații
09:27:51 Nucleu PC3: [165861.461860] {1}[Eroare hardware]: Eroare 0, tip: fatal
09:27:51 Nucleu PC3: [165861.461861] {1}[Eroare hardware]: fru_text: PcieError
09:27:51 Nucleu PC3: [165861.461862] {1}[Eroare hardware]: tip_secțiune: eroare PCIe
09:27:51 Nucleu PC3: [165861.461863] {1}[Eroare hardware]: port_type: 4, port root
09:27:51 Nucleu PC3: [165861.461864] {1}[Eroare hardware]: versiunea: 0.2
09:27:51 Nucleu PC3: [165861.461866] {1}[Eroare hardware]: comandă: 0x0407, stare: 0x0010
09:27:51 Nucleu PC3: [165861.461867] {1}[Eroare hardware]: device_id: 0000:20:03.1
09:27:51 Nucleu PC3: [165861.461868] {1}[Eroare hardware]: slot: 7
09:27:51 Nucleu PC3: [165861.461868] {1}[Eroare hardware]: magistrală_secundară: 0x23
09:27:51 Nucleu PC3: [165861.461869] {1}[Eroare hardware]: vendor_id: 0x1022, device_id: 0x1453
09:27:51 Nucleu PC3: [165861.461870] {1}[Eroare hardware]: cod_clasă: 060400
09:27:51 Nucleu PC3: [165861.461871] {1}[Eroare hardware]: bridge: secondary_status: 0x2000, control: 0x001a
09:27:51 Nucleu PC3: [165861.461872] {1}[Eroare hardware]: aer_uncor_status: 0x00000000, aer_uncor_mask: 0x04500000
09:27:51 Nucleu PC3: [165861.461873] {1}[Eroare hardware]: aer_uncor_severity: 0x004e2030
09:27:51 Nucleu PC3: [165861.461874] {1}[Eroare hardware]: Antet TLP: 00000000 00000000 00000000 00000000
09:27:51 Nucleu PC3: [165861.461933] pcieport 0000:20:03.1: AER: aer_status: 0x00000000, aer_mask: 0x04500000
09:27:51 Nucleu PC3: [165861.461939] pcieport 0000:20:03.1: AER: aer_layer=Layer de tranzacție, aer_agent=ID receptor
09:27:51 Nucleu PC3: [165861.461941] pcieport 0000:20:03.1: AER: aer_uncor_severity: 0x004e2030
09:27:51 Nucleu PC3: [165861.461945] amdgpu 0000:23:00.0: AER: nu se poate recupera (fără apel invers detectat)
09:27:51 Nucleu PC3: [165861.461947] snd_hda_intel 0000:23:00.1: AER: nu se poate recupera (fără apel returnat error_detected)
09:27:52 Nucleu PC3: [165862.485806] pcieport 0000:20:03.1: AER: Legătura la portul rădăcină a fost resetată
09:27:52 Nucleu PC3: [165862.485854] pcieport 0000:20:03.1: AER: recuperarea dispozitivului cu succes
09:28:02 Nucleu PC3: [165866.837702] [drm:amdgpu_dm_commit_planes.constprop.0 [amdgpu]] *EROARE* Se așteaptă intervalul de timp expirat!
09:28:02 Nucleu PC3: [165872.219438] [drm:amdgpu_job_timedout [amdgpu]] *EROARE* ring gfx timeout, semnalat seq=841906, emised seq=841908
09:28:02 Nucleu PC3: [165872.219526] [drm:amdgpu_job_timedout [amdgpu]] *EROARE* Informații despre proces: proces sddm-greeter pid 88965 thread sddm-greet:cs0 pid 88969
09:28:02 Nucleu PC3: [165872.219534] amdgpu 0000:23:00.0: amdgpu: începe resetarea GPU!
09:28:02 Nucleu PC3: [165872.219865] amdgpu:
09:28:02 Nucleul PC3: [165872.219865] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219870] amdgpu:
09:28:02 Nucleul PC3: [165872.219870] nu a reușit să trimită mesajul 281 ret este 65535
09:28:02 Nucleu PC3: [165872.219879] amdgpu:
09:28:02 Nucleul PC3: [165872.219879] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219883] amdgpu:
09:28:02 Nucleul PC3: [165872.219883] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219887] amdgpu:
09:28:02 Nucleul PC3: [165872.219887] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219890] amdgpu:
09:28:02 Nucleul PC3: [165872.219890] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219894] amdgpu:
09:28:02 Nucleul PC3: [165872.219894] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219897] amdgpu:
09:28:02 Nucleul PC3: [165872.219897] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219901] amdgpu:
09:28:02 Nucleul PC3: [165872.219901] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219905] amdgpu:
09:28:02 Nucleul PC3: [165872.219905] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219909] amdgpu:
09:28:02 Nucleul PC3: [165872.219909] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219912] amdgpu:
09:28:02 Nucleul PC3: [165872.219912] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219916] amdgpu:
09:28:02 Nucleul PC3: [165872.219916] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219919] amdgpu:
09:28:02 Nucleul PC3: [165872.219919] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219923] amdgpu:
09:28:02 Nucleul PC3: [165872.219923] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219926] amdgpu:
09:28:02 Nucleul PC3: [165872.219926] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219930] amdgpu:
09:28:02 Nucleu PC3: [165872.219930] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219933] amdgpu:
09:28:02 Nucleul PC3: [165872.219933] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219937] amdgpu:
09:28:02 Nucleul PC3: [165872.219937] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219940] amdgpu:
09:28:02 Nucleul PC3: [165872.219940] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219944] amdgpu:
09:28:02 Nucleul PC3: [165872.219944] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219947] amdgpu:
09:28:02 Nucleul PC3: [165872.219947] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219951] amdgpu:
09:28:02 Nucleul PC3: [165872.219951] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219954] amdgpu:
09:28:02 Nucleul PC3: [165872.219954] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219958] amdgpu:
09:28:02 Nucleul PC3: [165872.219958] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219961] amdgpu:
09:28:02 Nucleul PC3: [165872.219961] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219965] amdgpu:
09:28:02 Nucleu PC3: [165872.219965] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219968] amdgpu:
09:28:02 Nucleul PC3: [165872.219968] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219972] amdgpu:
09:28:02 Nucleul PC3: [165872.219972] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219975] amdgpu:
09:28:02 Nucleul PC3: [165872.219975] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219978] amdgpu:
09:28:02 Nucleul PC3: [165872.219978] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219981] amdgpu:
09:28:02 Nucleul PC3: [165872.219981] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219985] amdgpu:
09:28:02 Nucleul PC3: [165872.219985] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219988] amdgpu:
09:28:02 Nucleul PC3: [165872.219988] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.219992] amdgpu:
09:28:02 Nucleul PC3: [165872.219992] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.219995] amdgpu:
09:28:02 Nucleul PC3: [165872.219995] nu a reușit să trimită mesajul 261 ret este 65535
09:28:02 Nucleu PC3: [165872.220169] amdgpu:
09:28:02 Nucleul PC3: [165872.220169] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.220173] amdgpu:
09:28:02 Nucleul PC3: [165872.220173] nu a reușit să trimită mesajul 306 ret este 65535
09:28:02 Nucleu PC3: [165872.220175] amdgpu:
09:28:02 Nucleul PC3: [165872.220175] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.220179] amdgpu:
09:28:02 Nucleul PC3: [165872.220179] nu a reușit să trimită mesajul 5e ret este 65535
09:28:02 Nucleu PC3: [165872.220183] amdgpu:
09:28:02 Nucleul PC3: [165872.220183] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.220186] amdgpu:
09:28:02 Nucleul PC3: [165872.220186] nu a reușit să trimită mesajul 145 ret este 65535
09:28:02 Nucleu PC3: [165872.220190] amdgpu:
09:28:02 Nucleul PC3: [165872.220190] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.220195] amdgpu:
09:28:02 Nucleul PC3: [165872.220195] nu a reușit să trimită mesajul 146 ret este 65535
09:28:02 Nucleu PC3: [165872.220200] amdgpu:
09:28:02 Nucleul PC3: [165872.220200] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.220203] amdgpu:
09:28:02 Nucleul PC3: [165872.220203] nu a reușit să trimită mesajul 148 ret este 65535
09:28:02 Nucleu PC3: [165872.220207] amdgpu:
09:28:02 Nucleul PC3: [165872.220207] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.220210] amdgpu:
09:28:02 Nucleul PC3: [165872.220210] nu a reușit să trimită mesajul 145 ret este 65535
09:28:02 Nucleu PC3: [165872.220215] amdgpu:
09:28:02 Nucleul PC3: [165872.220215] ultimul mesaj a eșuat ret este 65535
09:28:02 Nucleu PC3: [165872.220219] amdgpu:
09:28:02 Nucleul PC3: [165872.220219] nu a reușit să trimită mesajul 146 ret este 65535
09:28:22 Nucleu PC3: [165892.248439] [drm:atom_op_jump [amdgpu]] *EROARE* atombios blocat în buclă pentru mai mult de 20 de secunde de anulare
09:28:22 Nucleu PC3: [165892.248505] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *EROARE* atombios blocat la executarea D8DE (len 824, WS 0, PS 0) @ 0xDA5E
09:28:22 Nucleu PC3: [165892.248569] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *EROARE* atombios blocat la executarea D798 (len 326, WS 0, PS 0) @ 0xD888
09:28:22 Nucleu PC3: [165892.248664] [drm:dce110_link_encoder_disable_output [amdgpu]] *EROARE* dce110_link_encoder_disable_output: Nu s-a executat tabelul de comenzi VBIOS!
Am avut problema de mult timp (~ 1 an, vizibil în jurnalul de evenimente SMBIOS) și am încercat câteva lucruri:
- Scoateți placa grafică din slotul PCIe și conectați-o din nou
- Instalarea unui nucleu nou
- Instalarea driverelor proprietare amdgpu
- Dezactivând toate setările de somn din Kubuntu am putut găsi
- Folosind pcie_aspm=off
- Utilizarea unui alt ecran (DVI / portul de afișare)
- Modificarea unor setări BIOS legate de PCIe
Totuși, nimic din ceea ce facem pare să schimbe ceva. Ceea ce face ca această problemă să fie atât de greu de rezolvat este că apare doar dacă PC-ul nu este folosit de ceva timp. Deci este într-adevăr o durere să testezi ceva.
Are cineva idee care ar putea fi eroarea sau unde am putea începe să căutăm pe baza jurnalului?
Actualizare am testat placa grafică pe un alt computer cu Windows și a funcționat bine. Apoi am instalat Win 10 pe același PC și funcționează, de asemenea, fără probleme. Deci pare a fi combinația GPU + placa de bază + KDE neon. Linux pare să permită o stare de economisire a energiei care nu merge bine cu placa de bază. Cu toate acestea, am căutat mult și nu am găsit nicio opțiune de hibernare pe care nu am dezactivat-o.