Puncte:1

DELL R320, Xeon E5-2450 v1, Oracle Linux 8 marchează sursa ceasului „tsc” ca fiind instabile, blocări aleatorii sub sarcină

drapel cn

Am achizitionat recent folosit Dell R320 cu Xeon E5-2450 v1, toate firmware-urile sunt actualizate la cele mai recente versiuni folosind Controler ciclului de viață. La boot dmesg rapoarte:

microcod: microcod actualizat mai devreme la revizuirea 0x71a, data = 2020-03-24 [ 12.384040] clocksource: watchdog de menținere a timpului pe CPU9: Se marchează clocksource „tsc” ca instabilă, deoarece distorsiunea este prea mare: [  
12.395572] clocksource:                       'hpet' wd_now: 3b1bb82 wd_last: 2e247ff mask: ffffffff [   12.413476] clocksource:            'tsc' cs_now: 1c62267fd4b cs_last: 1c30b8dcf7f mask: ffffffffffffffff [   12.425567] tsc: Marking TSC unstable due to clocksource watchdog [
12.431666] TSC a fost găsit instabil după pornire, cel mai probabil din cauza BIOS-ului spart. Utilizați „tsc=unstable”.

Atunci dacă fug phoronix-test-suite stress-run stress-ng sistem dupa aprox. un minut devin fără răspuns.

În timpul testului, văd evenimente watchdog de la adaptorul de rețea:

[ 705.412997] NETDEV WATCHDOG: eno1 (tg3): coada de transmitere 0 a expirat
[ 705.412997] AVERTISMENT: CPU: 9 PID: 6812 la net/sched/sch_generic.c:473 dev_watchdog+0x27d/0x281
[  705.412997] Modules linked in: xt_CHECKSUM ipt_REJECT nf_nat_tftp nft_objref nf_conntrack_tftp nft_fib_inet nft_fib_ipv4 nft_fib_ipv6 nft_fib nft_reject_inet nf_reject_ipv4 nf_reject_ipv6 nft_reject nft_ct nf_tables_set tun rfkill scsi_transport_iscsi ip_set xt_conntrack xt_multiport xt_nat xt_addrtype xt_mark xt_MASQUERADE nft_counter xt_comment nft_compat nft_chain_nat nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 veth sunrpc iTCO_wdt intel_rapl_msr iTCO_vendor_support dcdbas intel_rapl_common sb_edac x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel vfat fat kvm irqbypass crct10dif_pclmul crc32_pclmul mgag200 ghash_clmulni_intel drm_vram_helper aesni_intel ttm crypto_simd cryptd glue_helper drm_kms_helper pcspkr drm syscopyarea sysfillrect sysimgblt fb_sys_fops lpc_ich i2c_algo_bit zfs(POE) joydev zunicode(POE) zzstd(OE) zlua(OE) mei_me zavl(POE) mei icp( POE) zcommon(POE) znvpair(POE) ipmi_ssif spl(OE) ioatdma dca ipmi_si ipmi_devintf ipmi_msghandler acpi_power_meter
[ 705.412997] sch_fq_codel ip_tables xfs libcrc32c sd_mod sg ahci libahci libata mpt3sas tg3 raid_class scsi_transport_sas wmi fuse
[ 705.412997] CPU: 9 PID: 6812 Comm: stress-ng Kdump: încărcat Viciat: P OE 5.4.17-2136.300.7.el8uek.x86_64 #2
[ 705.412997] Nume hardware: Dell Inc. PowerEdge R320/0KM5PX, BIOS 2.4.2 29.01.2015
[ 705.412997] RIP: 0010:dev_watchdog+0x27d/0x281
[ 705.412997] Cod: 48 85 c0 75 e6 eb a0 4c 89 e7 c6 05 9b 59 17 01 01 e8 c7 a9 fa ff 89 d9 4c 89 e6 48 c7 c7 c7 68 3b 8 8 8 9 1 c 2 8 8 8 8 8 9 0b eb 82 0f 1f 44 00 00 66 2e 0f 1f 84 00 00 00 00 00 66 66 66
[ 705.412997] RSP: 0000:ffffac6d003d0e50 EFLAGS: 00010282
[ 705.412997] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000006
[ 705.412997] RDX: 0000000000000007 RSI: 0000000000000092 RDI: ffff9e853f457d00
[ 705.412997] RBP: ffffac6d003d0e80 R08: 0000000000000514 R09: 00000000ffffffff
[ 705.412997] R10: 0000000000000000 R11: ffff9e851d84f3d0 R12: ffff9e850d8e4000
[ 705.412997] R13: 0000000000000005 R14: ffff9e850d8e4480 R15: ffff9e8537d377c0
[ 705.412997] FS: 00007fa4baba5740(0000) GS:ffff9e853f440000(0000) knlGS:00000000000000000
[ 705.412997] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[ 705.412997] CR2: 00007f54983fad0c CR3: 0000000b99992006 CR4: 00000000000606e0
[ 705.412997] Urmărire apel:
[705,412997] <IRQ>
[ 705,412997] ? pfifo_fast_enqueue+0x160/0x151
[ 705.412997] call_timer_fn+0x32/0x12c
[ 705.412997] run_timer_softirq+0x1a5/0x42e
[ 705.412997] __do_softirq+0xe1/0x2e7
[ 705,412997] ? hrtimer_interrupt+0x12a/0x222
[ 705.412997] irq_exit+0xf3/0xf8
[ 705.412997] smp_apic_timer_interrupt+0x79/0x130
[ 705.412997] apic_timer_interrupt+0xf/0x14
[705,412997] </IRQ>

Daca adaug mitigations = off la parametrii liniei de comandă a nucleului la pornire, phoronix durează de la 4 la 7 minute, iar sistemul nu mai răspunde. Același lucru se întâmplă și cu oaspeții KVM, încercați să se instaleze Debian 11 De 5 ori, instalați înghețați fie în timpul instalării inițiale a pachetului, fie în timpul despachetării nucleului.

ecranul de înghețare a mesajelor: https://ibb.co/k2Jk4QG

A avut cineva probleme similare? Mulțumiri !

P.S.: nucleul actual 5.4.17-2136.300.7.el8uek.x86_64, incercat si cu 4.18.0-305.19.1.el8_4.x86_64 fara nici o diferenta

John Greene avatar
drapel cn
ai adaugat si pachetul de microcod Intel?
valc avatar
drapel cn
Da am avut. Chiar mai mult - am verificat cu toate microcodurile anterioare găsite pe [forumul win-raid](https://www.win-raid.com/t5709f47-OFFER-Intel-CPU-Microcode-Archives.html). btw acum am trecut la Debian 11, sistemul a devenit puțin mai stabil, testul phoronix încă poate să blocheze sistemul, dar după 15 minute... Am comandat Xeon E5-2470v2, sper că va rezolva problema. Voi adăuga rezultate mai târziu
John Greene avatar
drapel cn
Văd o problemă de blocare a vitezei pentru nivelul de planificare în timpul stării de întrerupere. este punctul de blocare consecvent între fiecare încercare eșuată?
John Greene avatar
drapel cn
De asemenea, am observat un sysvec_acpi în ieșirea de blocare și Dell BIOS-ul este în jurul anului 2015, așa că aș încerca să elimin niște ACPI la linia de kernel.
valc avatar
drapel cn
multumesc pentru raspuns. Da, punctul de accident a fost constant între teste. Ce tabele ACPI ați recomanda să renunțați?
John Greene avatar
drapel cn
puteți face un `dmidecode` pentru versiunea BIOS a mobo-ului și dacă firmware-ul mobo Dell este cel mai recent?
John Greene avatar
drapel cn
Din punct de vedere istoric, memtest ar descoperi orice biți ciudat și asta este gândirea mea actuală. Aș face următoarele: porniți o distro CD mai veche și văd cum merge. dacă eșuează, atunci este o problemă hardware. în orice caz, primul schimb de HW ar fi reducerea DIMM-ului de memorie, depopularea acestuia la minimum și încercați din nou. dacă nu reușește, schimbați-l până trece.
valc avatar
drapel cn
Bună, vă rugăm să găsiți [dmidecode](https://gist.github.com/ValentinChirikov/f5c3d3fc2cee63c240dcddda4cc50d6a#file-gistfile1-txt)
valc avatar
drapel cn
în prezent, aștept pachetul cu E5-2470v2, cu siguranță voi face memtest înainte de schimbarea procesorului și voi posta rezultatele aici, mulțumesc!
John Greene avatar
drapel cn
Încă cred că ar trebui să depopulați MemChips și să obțineți un rezultat de trecere înainte de schimbarea CPU.
valc avatar
drapel cn
În cele din urmă, am primit CPU E5-2470v2 comutat - și toate problemele au dispărut, fără înghețare, nicio problemă cu TSC, phoronix stress-run stress-ng trece fără probleme. Multumesc pentru angajament, inchid problema.
John Greene avatar
drapel cn
Felicitări! Ești al doilea cu o problemă cu CPU pe care îl cunosc cu Xeon. Sună ca un condensator spart în interiorul procesorului.
valc avatar
drapel cn
Mulțumiri ! Inițial, cazul comutării CPU a fost performanța, dar de fapt se pare că matrița procesorului a fost cu adevărat deteriorată.
Puncte:0
drapel cn

Comutarea procesorului la E5-2470v2 a rezolvat problema, se pare că procesorul anterior a fost cumva stricat.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.