Puncte:0

Erori hardware fie în CPU, fie în RAM, ce să faci?

drapel cn

Am un server care, din când în când, raportează erori hardware către sistemul de operare, dar în rest rulează fără probleme vizibile.

Astăzi am găsit asta în timp ce mă plimbam pe lângă monitorul atașat la el.introduceți descrierea imaginii aici

Imi poate spune cineva ce inseamna asta? Este ceva pentru care trebuie să-mi fac griji? Există fișiere jurnal în care să pot căuta mai profund? Cu câteva săptămâni înainte, am observat, că unul dintre stick-urile RAM nu a fost detectat de sistem, raporta doar 112 GB în loc de 128 GB. Acum se vede totusi corect.

Pentru mai multe informații, acest server are următoarele componente principale:

  • Supermicro MBD-H11DSi-NT-B
  • 2x AMD Epyc 7301
  • 128 GB de Kingston Server Premier KSM26RD8/16HAI DDR4-2666 regECC
  • Unraid ca OS
Puncte:5
drapel cn

Imi poate spune cineva ce inseamna asta?

Aveți o problemă hardware care trebuie rezolvată - probabil memoria. tastare MC15_STATUS[Over|CE în google, al doilea hit este de la forumuri neraid care mi-ar putea fi de ajutor.

Este ceva pentru care trebuie să-mi fac griji?

Absolut! Ignorați erorile hardware pe riscul dvs. (datele). Aș scoate acel sistem din producție fără să petrec timp întrebând pe internet dacă aceasta este o problemă pentru care trebuia să-mi fac griji.

Utilizați ceva de genul memtest86 pentru a testa și diagnostica locația problemei.

drapel cn
Ei bine, nu există un alt server de „producție”. Deci da. Trebuie să aștept până după Crăciun până îl pot închide și îl pot testa.
Puncte:3
drapel za

În cazul dvs., aș citi jurnalul de evenimente IPMI BMC, de ex. cu ipmiutil sel. Ar trebui să arate detaliile despre erori, în cazul meu a arătat chiar și locația specială a slotului de memorie în care se află modulul defect.

drapel cn
Am doar IPMITool care, pentru mine, nu listează niciun eveniment legat de memorie.
Nikita Kipriyanov avatar
drapel za
Există IPMITool de pe site-ul web Supermicro, care este foarte puțin funcțional. Păcat că nici măcar nu știe cum să se conecteze la *local* IPMI BMC prin SMBus.Există și [`ipmitool` package](https://github.com/ipmitool/ipmitool), care interpretează incorect mesajele din jurnalul de evenimente (nu le decodifică complet sau chiar decodifică greșit). Cele mai corecte informații despre PSU și alte evenimente de sănătate hardware le-am putut obține numai de la [`ipmiutil`](http://ipmiutil.sourceforge.net/) (dar, trebuie să recunosc, ipmitool este mai ușor de utilizat).

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.