Puncte:0

Mai multe erori ECC necorectabile pe mai multe DIMM-uri

drapel cn

Am un sistem Supermicro X8DT6 care a dezvoltat brusc o rată mare de erori ECC necorectabile. Sistemul rula fără erori până acum câteva zile, iar acum se confruntă cu erori ECC necorectabile (și reporniri spontane asociate) de multe ori pe zi. Erorile nu sunt izolate la un singur DIMM.

Detalii sistem: un singur procesor X5650, 48G DDR3 ram @1333Mhz în 6 DIMM-uri. Rulează Debian Linux.

Din câte îmi pot da seama, NU sunt detectate erori ECC corectabile (rasdaemon nu arată nimic, iar jurnalul de evenimente ipmi arată doar elemente necorectabile).

Problema a apărut pentru prima dată în urmă cu câteva zile și puteți vedea din acest jurnal că inițial părea să fie limitată la un singur DIMM:

  3f | 13.09.2021 | 18:13:02 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  40 | 14.09.2021 | 03:30:49 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  41 | 14.09.2021 | 04:10:28 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  42 | 14.09.2021 | 04:11:42 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  43 | 14.09.2021 | 04:19:31 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  44 | 14.09.2021 | 04:27:06 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  45 | 14.09.2021 | 04:28:39 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  46 | 14.09.2021 | 04:32:42 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  47 | 14.09.2021 | 04:35:48 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  48 | 14.09.2021 | 04:39:51 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  49 | 14.09.2021 | 04:41:29 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  4a | 14.09.2021 | 04:48:16 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  4b | 14.09.2021 | 04:53:43 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  4c | 14.09.2021 | 04:54:52 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  4d | 14.09.2021 | 05:09:41 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  4e | 14.09.2021 | 05:12:04 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  4f | 14.09.2021 | 05:20:51 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  50 | 14.09.2021 | 05:23:42 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  51 | 14.09.2021 | 05:34:12 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  52 | 14.09.2021 | 05:39:44 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  53 | 14.09.2021 | 05:41:24 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  54 | 14.09.2021 | 05:47:19 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  55 | 14.09.2021 | 05:55:46 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  56 | 14.09.2021 | 12:05:32 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  57 | 14.09.2021 | 16:18:36 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  58 | 14.09.2021 | 17:31:57 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  59 | 14.09.2021 | 17:59:21 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  5a | 14.09.2021 | 18:09:04 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  5b | 14.09.2021 | 18:10:59 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  5c | 14.09.2021 | 18:41:11 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  5d | 14.09.2021 | 18:43:32 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  5e | 14.09.2021 | 18:49:21 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  5f | 14.09.2021 | 21:39:45 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  60 | 14.09.2021 | 21:43:26 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  61 | 14.09.2021 | 21:47:11 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
  62 | 14.09.2021 | 22:35:41 | Securitate fizică #0xaa | Intruziune generală în șasiu () | Afirmat

Apoi am scos DIMM-ul 1B și am alimentat sistemul de rezervă cu doar 5 DIMM-uri instalate. Cred că aceasta este o configurație validă - există trei canale de memorie și fiecare poate funcționa cu 1 sau 2 DIMM-uri.

Inițial, acest lucru părea să rezolve problema, dar după cum puteți vedea, a făcut lucrurile și mai confuze:

  63 | 15.09.2021 | 12:21:05 | Memorie | ECC necorectabil (@DIMM1A(CPU1)) | Afirmat
  64 | 15.09.2021 | 14:15:46 | Memorie | ECC necorectabil (@DIMM1A(CPU1)) | Afirmat
  65 | 15.09.2021 | 14:22:07 | Memorie | ECC necorectabil (@DIMM2A(CPU1)) | Afirmat
  66 | 15.09.2021 | 14:31:22 | Memorie | ECC necorectabil (@DIMM2B(CPU1)) | Afirmat
  67 | 16.09.2021 | 05:02:38 | Memorie | ECC necorectabil (@DIMM2A(CPU1)) | Afirmat
  68 | 16.09.2021 | 10:58:01 | Memorie | ECC necorectabil (@DIMM1A(CPU1)) | Afirmat
  69 | 16.09.2021 | 11:17:37 | Memorie | ECC necorectabil (@DIMM2A(CPU1)) | Afirmat

Toate celelalte răspunsuri sau articole pe care le pot găsi se concentrează pe erori rare sau pe scenarii în care un singur DIMM sau slot este în mod clar defect. Are cineva idee ce ar putea cauza o serie atât de răspândită de defecțiuni într-o mașină care funcționa anterior? Intenționez să reașez totul, dar având în vedere multiplele puncte de eșec, nu am mari speranțe în asta.

Zac67 avatar
drapel ru
Alte surse posibile de probleme sunt CPU, PSU, placa de bază. Testați fiecare în alt sistem pentru a verifica funcționarea corectă.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.