Am un sistem instabil (repornește la întâmplare) și încerc să determin cauza repornirilor. Întrebarea mea este dacă aceste MCE sunt erori grave care ar putea duce la reporniri. Dacă da, ar trebui să mă conducă să-mi înlocuiesc procesorul sau memoria RAM?
După fiecare repornire (aleatorie sau inițiată de sudo reboot
) sunt produse următoarele MCE:
14:50:45 kernel: [ 0.778792] mce: [Eroare hardware]: evenimente de verificare a mașinii înregistrate
14:50:45 kernel: [ 0.778793] mce: [Eroare hardware]: CPU 0: Verificare mașină: 0 Banca 17: ee2000000004017a
14:50:45 kernel: [ 0.778795] mce: [Eroare hardware]: TSC 0 ADDR 5f000000 MISC 8cf00031e0000086
14:50:45 kernel: [ 0.778797] mce: [Eroare hardware]: PROCESOR 0:306f2 TIME 1639083036 SOCKET 0 APIC 0 microcod 46
14:50:45 kernel: [ 0.778798] mce: [Eroare hardware]: evenimente de verificare a mașinii înregistrate
14:50:45 kernel: [ 0.778799] mce: [Eroare hardware]: CPU 0: Verificare mașină: 0 Banca 18: ee2000000004017a
14:50:45 kernel: [ 0.778799] mce: [Eroare hardware]: TSC 0 ADDR 5f100040 MISC 1cf00031e0000086
14:50:45 kernel: [ 0.778801] mce: [Eroare hardware]: PROCESOR 0:306f2 TIME 1639083036 SOCKET 0 APIC 0 microcod 46
14:50:45 kernel: [ 0.778802] mce: [Eroare hardware]: CPU 0: Verificare mașină: 0 Banca 19: ee2000000004017a
14:50:45 kernel: [ 0.778802] mce: [Eroare hardware]: TSC 0 ADDR 5f100000 MISC 54f00031e0000086
14:50:45 kernel: [ 0.778804] mce: [Eroare hardware]: PROCESOR 0:306f2 TIME 1639083036 SOCKET 0 APIC 0 microcod 46
Din păcate, aceste mesaje sunt farfurie fără rasdaemon
sau mcelog
pentru a le interpreta. De asemenea, din păcate, nu arată rasdaemon
începe până după ce mesajul a fost înregistrat (eroarea nu apare în ras-mc-ctl --rezumat
). Observați marcajele de timp:
14:50:50 rasdaemon[1023]: rasdaemon: evenimentul ras:mc_event activat
14:50:50 rasdaemon[1023]: rasdaemon: eveniment activat ras:mc_event
14:50:50 rasdaemon[1023]: rasdaemon: evenimentul ras:aer_event activat
14:50:50 rasdaemon[1023]: rasdaemon: eveniment activat ras:aer_event
14:50:50 rasdaemon[1023]: rasdaemon: Avertisment: CPU 0 offline?, imc_log nu este setat
14:50:50 rasdaemon[1023]: rasdaemon: mce:mce_record eveniment activat
14:50:50 rasdaemon[1023]: rasdaemon: eveniment activat mce:mce_record
14:50:50 rasdaemon[1023]: rasdaemon: evenimentul ras:extlog_mem_event activat
14:50:50 rasdaemon[1023]: rasdaemon: eveniment activat ras:extlog_mem_event
14:50:50 rasdaemon[1023]: rasdaemon: Ascultarea evenimentelor pentru CPU de la 0 la 15
14:50:50 rasdaemon[1025]: rasdaemon: evenimentul ras:mc_event activat
14:50:50 rasdaemon[1025]: rasdaemon: evenimentul ras:aer_event activat
14:50:50 rasdaemon[1025]: rasdaemon: mce:mce_record eveniment activat
14:50:50 rasdaemon[1025]: rasdaemon: evenimentul ras:extlog_mem_event activat
Există o modalitate mai bună de a rezolva această problemă? Actualizarea la 20.04 ar ajuta cu adevărat, așa cum se sugerează în acest raspuns?