Am un sistem Supermicro X8DT6 care a dezvoltat brusc o rată mare de erori ECC necorectabile. Sistemul rula fără erori până acum câteva zile, iar acum se confruntă cu erori ECC necorectabile (și reporniri spontane asociate) de multe ori pe zi. Erorile nu sunt izolate la un singur DIMM.
Detalii sistem: un singur procesor X5650, 48G DDR3 ram @1333Mhz în 6 DIMM-uri. Rulează Debian Linux.
Din câte îmi pot da seama, NU sunt detectate erori ECC corectabile (rasdaemon nu arată nimic, iar jurnalul de evenimente ipmi arată doar elemente necorectabile).
Problema a apărut pentru prima dată în urmă cu câteva zile și puteți vedea din acest jurnal că inițial părea să fie limitată la un singur DIMM:
3f | 13.09.2021 | 18:13:02 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
40 | 14.09.2021 | 03:30:49 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
41 | 14.09.2021 | 04:10:28 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
42 | 14.09.2021 | 04:11:42 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
43 | 14.09.2021 | 04:19:31 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
44 | 14.09.2021 | 04:27:06 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
45 | 14.09.2021 | 04:28:39 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
46 | 14.09.2021 | 04:32:42 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
47 | 14.09.2021 | 04:35:48 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
48 | 14.09.2021 | 04:39:51 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
49 | 14.09.2021 | 04:41:29 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
4a | 14.09.2021 | 04:48:16 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
4b | 14.09.2021 | 04:53:43 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
4c | 14.09.2021 | 04:54:52 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
4d | 14.09.2021 | 05:09:41 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
4e | 14.09.2021 | 05:12:04 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
4f | 14.09.2021 | 05:20:51 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
50 | 14.09.2021 | 05:23:42 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
51 | 14.09.2021 | 05:34:12 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
52 | 14.09.2021 | 05:39:44 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
53 | 14.09.2021 | 05:41:24 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
54 | 14.09.2021 | 05:47:19 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
55 | 14.09.2021 | 05:55:46 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
56 | 14.09.2021 | 12:05:32 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
57 | 14.09.2021 | 16:18:36 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
58 | 14.09.2021 | 17:31:57 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
59 | 14.09.2021 | 17:59:21 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
5a | 14.09.2021 | 18:09:04 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
5b | 14.09.2021 | 18:10:59 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
5c | 14.09.2021 | 18:41:11 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
5d | 14.09.2021 | 18:43:32 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
5e | 14.09.2021 | 18:49:21 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
5f | 14.09.2021 | 21:39:45 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
60 | 14.09.2021 | 21:43:26 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
61 | 14.09.2021 | 21:47:11 | Memorie | ECC necorectabil (@DIMM1B(CPU1)) | Afirmat
62 | 14.09.2021 | 22:35:41 | Securitate fizică #0xaa | Intruziune generală în șasiu () | Afirmat
Apoi am scos DIMM-ul 1B și am alimentat sistemul de rezervă cu doar 5 DIMM-uri instalate. Cred că aceasta este o configurație validă - există trei canale de memorie și fiecare poate funcționa cu 1 sau 2 DIMM-uri.
Inițial, acest lucru părea să rezolve problema, dar după cum puteți vedea, a făcut lucrurile și mai confuze:
63 | 15.09.2021 | 12:21:05 | Memorie | ECC necorectabil (@DIMM1A(CPU1)) | Afirmat
64 | 15.09.2021 | 14:15:46 | Memorie | ECC necorectabil (@DIMM1A(CPU1)) | Afirmat
65 | 15.09.2021 | 14:22:07 | Memorie | ECC necorectabil (@DIMM2A(CPU1)) | Afirmat
66 | 15.09.2021 | 14:31:22 | Memorie | ECC necorectabil (@DIMM2B(CPU1)) | Afirmat
67 | 16.09.2021 | 05:02:38 | Memorie | ECC necorectabil (@DIMM2A(CPU1)) | Afirmat
68 | 16.09.2021 | 10:58:01 | Memorie | ECC necorectabil (@DIMM1A(CPU1)) | Afirmat
69 | 16.09.2021 | 11:17:37 | Memorie | ECC necorectabil (@DIMM2A(CPU1)) | Afirmat
Toate celelalte răspunsuri sau articole pe care le pot găsi se concentrează pe erori rare sau pe scenarii în care un singur DIMM sau slot este în mod clar defect. Are cineva idee ce ar putea cauza o serie atât de răspândită de defecțiuni într-o mașină care funcționa anterior? Intenționez să reașez totul, dar având în vedere multiplele puncte de eșec, nu am mari speranțe în asta.