Am un server care rulează CentOS 8, nucleul s-a prăbușit într-o zi și am găsit următoarele trei fișiere în /var/crash
: vmcore
, vmcore-dmesg.txt
, și kexec-dmesg.log
.
M-am uitat prima oară vmcore-dmesg.txt
, care îmi oferă următoarele informații la sfârșit
[291071.552140] {2}[Eroare hardware]: Eroare hardware de la APEI Generic Hardware Error Sursa: 1
[291071.552141] {2}[Eroare hardware]: gravitatea evenimentului: fatal
[291071.552141] {2}[Eroare hardware]: Eroare 0, tip: fatal
[291071.552142] {2}[Eroare hardware]: tip_secțiune: eroare PCIe
[291071.552142] {2}[Eroare hardware]: tip_port: 4, port rădăcină
[291071.552142] {2}[Eroare hardware]: versiunea: 3.0
[291071.552143] {2}[Eroare hardware]: comandă: 0x0547, stare: 0x4010
[291071.552143] {2}[Eroare hardware]: device_id: 0000:16:01.0
[291071.552143] {2}[Eroare hardware]: slot: 82
[291071.552144] {2}[Eroare hardware]: magistrală_secundară: 0x18
[291071.552144] {2}[Eroare hardware]: vendor_id: 0x8086, device_id: 0x2031
[291071.552145] {2}[Eroare hardware]: cod_clasă: 000406
[291071.552145] {2}[Eroare hardware]: bridge: secondary_status: 0x0000, control: 0x0013
[291071.552145] {2}[Eroare hardware]: aer_uncor_status: 0x00000020, aer_uncor_mask: 0x00100000
[291071.552146] {2}[Eroare hardware]: aer_uncor_severity: 0x00062030
[291071.552146] {2}[Eroare hardware]: Antet TLP: 00000000 00000000 00000000 00000000
[291071.552146] Panică kernel - nu se sincronizează: eroare hardware fatală!
[291071.552147] CPU: 0 PID: 0 Comm: swapper/0 Kdump: încărcat Necontaminat 4.18.0-305.3.1.el8.x86_64 #1
[291071.552147] Nume hardware: To Be Filled By O.E.M.De completat de O.E.M./EPC621D8A, BIOS P2.10 04.03.2019
[291071.552148] Urmărire apel:
[291071.552148] <NMI>
[291071.552148] dump_stack+0x5c/0x80
[291071.552149] panica+0xe7/0x2a9
[291071.552149] __ghes_panic.cold.32+0x21/0x21
[291071.552149] ghes_notify_nmi+0x273/0x310
[291071.552149] nmi_handle+0x63/0x110
[291071.552150] default_do_nmi+0x49/0x100
[291071.552150] do_nmi+0x17e/0x1e0
[291071.552150] end_repeat_nmi+0x16/0x6f
[291071.552151] RIP: 0010:intel_idle+0x6b/0xb0
[291071.552151] Cod: 40 5c 01 00 48 89 d1 0f 01 c8 48 8b 00 a8 08 75 19 e9 07 00 00 00 0f 00 0 0 2d 1e 01 1 9 0 0 5 0 5 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 48 8b 04 25 40 5c 01 00 f0 80 60 02 df f0 83 44 24 fc 00 48 8b
[291071.552152] RSP: 0018:ffffffff8fe03e40 EFLAGS: 00000002
[291071.552152] RAX: 0000000000000020 RBX: ffffffff8ff30ba8 RCX: 0000000000000001
[291071.552153] RDX: 00000000000000000 RSI: 0000000000000020 RDI: 0000000000000003
[291071.552153] RBP: ffff9e4a20835ad8 R08: 0000000000000002 R09: 0000000000029700
[291071.552154] R10: 0002cd7f37820a74 R11: ffff9e4a20828be4 R12: ffffffff8ff30a40
[291071.552154] R13: 0000000000000003 R14: 0000000000000003 R15: 0000000000000003
[291071.552154] ? intel_idle+0x6b/0xb0
[291071.552154] ? intel_idle+0x6b/0xb0
[291071.552155] </NMI>
[291071.552155] cpuidle_enter_state+0x87/0x3c0
[291071.552155] cpuidle_enter+0x2c/0x40
[291071.552156] do_idle+0x234/0x260
[291071.552156] cpu_startup_entry+0x6f/0x80
[291071.552156] start_kernel+0x518/0x538
[291071.552157] secondary_startup_64_no_verify+0xc2/0xcb
Folosind lspci
, Pot sa gasesc 0000:16.01.0
este
16:01.0 Punte PCI: Intel Corporation Sky Lake-E PCI Express Root Port B (rev. 02)
, care pare a fi rădăcina PCI-E.
și
lspci -s 16:01.0 -tvv
0000:16:01.0-[18-1b]----00.0-[19-1b]----03.0-[1a-1b]--+-00.0 Intel Corporation Ethernet Connection X722 for 1GbE
+-00,1 Intel Corporation Ethernet Connection X722 pentru 1GbE
+-00,2 Intel Corporation Ethernet Connection X722 pentru 1GbE
\-00.3 Intel Corporation Ethernet Connection X722 pentru 1GbE
Apoi m-am uitat la kexec-dmesg.log
dosar, care spune
[Joi, 10 iunie 20:02:45 2021] Managerul de memorie nu este curățat în timpul demontării.
[Joi 10 iunie 20:02:45 2021] AVERTISMENT: CPU: 0 PID: 399 la drivers/gpu/drm/drm_mm.c:999 drm_mm_takedown+0x1f/0x30 [drm]
[Thu Jun 10 20:02:45 2021] Modules linked in: amdgpu(+) sd_mod t10_pi sg iommu_v2 gpu_sched i2c_algo_bit ttm drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops crc32c_intel drm ahci libahci uas libata usb_storage dm_mirror dm_region_hash dm_log dm_mod fuse overlay squashfs loop
[Joi Jun 10 20:02:45 2021] CPU: 0 PID: 399 Comm: systemd-udevd Tainted: G W --------- - - 4.18.0-305.3.1.el8.x86_64 #1
[Thu Jun 10 20:02:45 2021] Nume hardware: To Be Filled By O.E.M. De completat de O.E.M./EPC621D8A, BIOS P2.10 04.03.2019
[Joi, 10 iunie, 20:02:45 2021] RIP: 0010:drm_mm_takedown+0x1f/0x30 [drm]
[Joi 10 iunie 20:02:45 2021] Cod: f6 c3 48 8d 41 c0 eb bb 0f 1f 00 0f 1f 44 00 00 48 8b 47 38 48 83 c7 38 48 48 83 c7 38 48 48 48 5 7 5 7 5 7 5 7 7 5 7 5 7 e8 da b6 f6 c0 <0f> 0b c3 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 00 0f 1f 44 00 00
[Joi 10 iunie 20:02:45 2021] RSP: 0018:ffffc90000747a10 EFLAGS: 00010282
[Joi 10 iunie 20:02:45 2021] RAX: 0000000000000000 RBX: ffff88805d44caf0 RCX: ffffffff8265f1c8
[Joi 10 iunie 20:02:45 2021] RDX: 0000000000000001 RSI: 0000000000000096 RDI: 0000000000000246
[Joi 10 iunie 20:02:45 2021] RBP: ffff888050e65030 R08: 00000000000005e6 R09: 0000000000aaaaaa
[Joi 10 iunie 20:02:45 2021] R10: 0000000000000000 R11: ffffc900009e0320 R12: ffff88805d44ca00
[Joi 10 iunie 20:02:45 2021] R13: ffff888050e64f68 R14: 0000000000000000 R15: 0000000000000000
[Joi 10 iunie 20:02:45 2021] FS: 00007f16a3901180(0000) GS:ffff88805ea00000(0000) knlGS:0000000000000000
[Joi 10 iunie 20:02:45 2021] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[joi 10 iunie 20:02:45 2021] CR2: 0000564d0235b008 CR3: 000000005d5b6002 CR4: 00000000007706b0
[Joi 10 iunie 20:02:45 2021] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[Joi 10 iunie 20:02:45 2021] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
[Joi 10 iunie 20:02:45 2021] PKRU: 55555554
[Joi 10 iunie 20:02:45 2021] Urmărire apel:
[Joi, 10 iunie 20:02:45 2021] amdgpu_gtt_mgr_fini+0x2d/0x80 [amdgpu]
[Joi 10 iunie 20:02:45 2021] ttm_bo_clean_mm+0xa8/0xc0 [ttm]
[Joi 10 iunie 20:02:45 2021] amdgpu_ttm_fini+0x98/0xe0 [amdgpu]
[Joi 10 iunie 20:02:45 2021] amdgpu_bo_fini+0xe/0x30 [amdgpu]
[Joi, 10 iunie 20:02:45 2021] gmc_v9_0_sw_fini+0x59/0xa0 [amdgpu]
[Joi 10 iunie 20:02:45 2021] amdgpu_device_fini+0x297/0x4af [amdgpu]
[Joi, 10 iunie, 20:02:45 2021] amdgpu_driver_unload_kms+0x3e/0x70 [amdgpu]
[Joi, 10 iunie, 20:02:45 2021] amdgpu_driver_load_kms+0x122/0x2a0 [amdgpu]
[Joi, 10 iunie, 20:02:45 2021] amdgpu_pci_probe+0xd1/0x150 [amdgpu]
[Joi, 10 iunie 20:02:45 2021] local_pci_probe+0x41/0x90
[Joi, 10 iunie 20:02:45 2021] pci_device_probe+0x105/0x1c0
[Joi, 10 iunie 20:02:45 2021] really_probe+0x255/0x4a0
[Joi, 10 iunie 20:02:45 2021] driver_probe_device+0x49/0xc0
[Joi, 10 iunie 20:02:45 2021] device_driver_attach+0x50/0x60
[Joi, 10 iunie 20:02:45 2021] __driver_attach+0x61/0x130
[joi 10 iunie 20:02:45 2021] ? device_driver_attach+0x60/0x60
[Joi, 10 iunie 20:02:45 2021] bus_for_each_dev+0x77/0xc0
[joi 10 iunie 20:02:45 2021] ? klist_add_tail+0x3b/0x70
[Joi, 10 iunie 20:02:45 2021] bus_add_driver+0x14d/0x1e0
[joi 10 iunie 20:02:45 2021] ? 0xffffffffc07d3000
[Joi, 10 iunie 20:02:45 2021] driver_register+0x6b/0xb0
[joi 10 iunie 20:02:45 2021] ? 0xffffffffc07d3000
[Joi, 10 iunie 20:02:45 2021] do_one_initcall+0x46/0x1c3
[joi 10 iunie 20:02:45 2021] ? do_init_module+0x22/0x220
[joi 10 iunie 20:02:45 2021] ? kmem_cache_alloc_trace+0x131/0x270
[Joi 10 iunie 20:02:45 2021] do_init_module+0x5a/0x220
[Joi, 10 iunie 20:02:45 2021] load_module+0x14c5/0x17f0
[joi 10 iunie 20:02:45 2021] ? __switch_to_asm+0x35/0x70
[joi 10 iunie 20:02:45 2021] ? __switch_to_asm+0x41/0x70
[joi 10 iunie 20:02:45 2021] ? __switch_to_asm+0x35/0x70
[joi 10 iunie 20:02:45 2021] ? __switch_to_asm+0x41/0x70
[joi 10 iunie 20:02:45 2021] ? apic_timer_interrupt+0xa/0x20
[joi 10 iunie 20:02:45 2021] ? __do_sys_init_module+0x13b/0x180
[Joi, 10 iunie 20:02:45 2021] __do_sys_init_module+0x13b/0x180
[Joi, 10 iunie 20:02:45 2021] do_syscall_64+0x5b/0x1a0
[Joi, 10 iunie 20:02:45 2021] entry_SYSCALL_64_after_hwframe+0x65/0xca
[Joi 10 iunie 20:02:45 2021] RIP: 0033:0x7f16a24df80e
[Joi Iun 10 20:02:45 2021] Cod: 48 8b 0d 7d 16 2c 00 f7 d8 64 89 01 48 83 c8 ff c3 66 2e 0f 1f 84 00 00 00 0f 9 0 f 8 9 0 0 9 00 00 00 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d 4a 16 2c 00 f7 d8 64 89 01 48
[Joi 10 iunie 20:02:45 2021] RSP: 002b:00007ffc5a383dd8 EFLAGS: 00000246 ORIG_RAX: 00000000000000af
[Joi 10 iunie 20:02:45 2021] RAX: ffffffffffffffda RBX: 0000558aa33c7ee0 RCX: 00007f16a24df80e
[Joi 10 iunie 20:02:45 2021] RDX: 0000558aa33c85e0 RSI: 00000000009621ec RDI: 0000558aa3def1a0
[Joi 10 iunie 20:02:45 2021] RBP: 0000558aa33c85e0 R08: 0000558aa33c301a R09: 0000000000000003
[Joi 10 iunie 20:02:45 2021] R10: 0000558aa33c3010 R11: 000000000000246 R12: 0000558aa3def1a0
[Joi 10 iunie 20:02:45 2021] R13: 0000558aa33dabf0 R14: 000000000020000 R15: 0000000000000000
[Joi, 10 iunie, 20:02:45 2021] ---[ final trace 0950097d77ca3e03 ]---
Ceea ce mi se pare legat de driverul GPU.
După înțelegerea mea, când nucleul se blochează, kdump
încearcă să pornească un alt nucleu folosind kexec
pentru a arunca nucleul prăbușit. Apoi jurnalul mi se pare că se întâmplă o eroare hardware PCI-E care face ca nucleul principal să se blocheze, iar când kdump
pornește nucleul, s-a prăbușit din nou din cauza unei erori de driver GPU. Am înțeles corect asta? Sau au apărut jurnalele kexec-dmesg.log
este de fapt urma stivei a nucleului principal?
A doua mea întrebare este atunci cum să înțeleg aceste mesaje de eroare. Deoarece se pare că numai NIC este conectată la rădăcina PCI-E, este ceva în neregulă cu placa de bază/CPU sau problema este probabil la kernel?
O informație secundară, am găsit-o în /var/log
că se întâmplă adesea următoarea eroare care nu blochează nucleul
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: Eroare hardware de la APEI Sursa eroare hardware generică: 0
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: a fost corectat de h/w și nu necesită acțiuni suplimentare
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: gravitatea evenimentului: corectat
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: Eroare 0, tip: corectat
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: tip_secțiune: eroare PCIe
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: port_type: 5, port switch upstream
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: versiunea: 3.0
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: comandă: 0x0147, stare: 0x0010
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: device_id: 0000:18:00.0
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: slot: 82
7 iunie 11:12:20 localhost kernel: {1}[Eroare hardware]: secondary_bus: 0x19
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: vendor_id: 0x8086, device_id: 0x37c0
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: cod_clasă: 000406
7 iunie 11:12:20 kernel localhost: {1}[Eroare hardware]: bridge: secondary_status: 0x2000, control: 0x0013
7 iunie 11:12:20 localhost kernel: pcieport 0000:18:00.0: aer_status: 0x00003000, aer_mask: 0x00002000
7 iunie 11:12:20 localhost kernel: pcieport 0000:18:00.0: [12] Timeout
7 iunie 11:12:20 localhost kernel: pcieport 0000:18:00.0: aer_layer=Data Link Layer, aer_agent=ID-ul transmițătorului
Unde 18:00.0
este o punte PCI 18:00.0 bridge PCI: Intel Corporation Device 37c0 (rev 09)
și
lspci -s 18:00.0 -tvv
0000:18:00.0-[19-1b]----03.0-[1a-1b]--+-00.0 Intel Corporation Ethernet Connection X722 for 1GbE
+-00,1 Intel Corporation Ethernet Connection X722 pentru 1GbE
+-00,2 Intel Corporation Ethernet Connection X722 pentru 1GbE
\-00.3 Intel Corporation Ethernet Connection X722 pentru 1GbE
Orice ajutor va fi foarte apreciat.