Matricea RAID spune „eroare critică de mediu”, dar smartctl spune că discul este sănătos - ce să faci în continuare?

Question

Puncte:2

Ubuntu

Matricea RAID spune „eroare critică de mediu”, dar smartctl spune că discul este sănătos - ce să faci în continuare?

DanB

30.04.2023, 19:18

Am o gamă RAID-1 de SSD-uri (Samsung 970 EVO Plus), iar erorile apar în /var/log/syslog, dar smartctl raportează că unitatea este sănătoasă. Am făcut o grămadă de diagnostice (mai jos) și mă întreb dacă mai pot face ceva. Există sau nu o problemă și, dacă da, care este cel mai bun curs de acțiune? (Pe Kubuntu 18.04.6 LTS.)

Iată matricea:

$ cat /proc/mdstat
md1: raid1 activ nvme0n1p3[0] nvme1n1p3[2]
      1919724608 blocuri super 1.2 [2/2] [UU]
      bitmap: 5/15 pagini [20KB], bucată de 65536KB

Pare sănătos, conform mdadm:

$ sudo mdadm --detail /dev/md1
/dev/md1:
           Versiune: 1.2
     Ora creării: sâmbătă, 29 februarie 12:33:09 2020
        Nivelul raid: raid1
        Dimensiunea matricei: 1919724608 (1830,79 GiB 1965,80 GB)
     Dimensiune Dev folosită: 1919724608 (1830,79 GiB 1965,80 GB)
      Dispozitive raid: 2
     Total dispozitive: 2
       Persistență: Superblocul este persistent

     Bitmap intenție: intern

       Ora actualizării: vineri, 31 decembrie 14:04:55 2021
             Stare: curat 
    Dispozitive active: 2
   Dispozitive de lucru: 2
    Dispozitive eșuate: 0
     Dispozitive de rezervă: 0

Politica de consistență: bitmap

              Nume: kubuntu:1
              UUID: 7c84adca:31e96bad:b1be03ae:d7d0349d
            Evenimente: 41087

    Număr Major Minor Raid Starea dispozitivului
       0 259 3 0 sincronizare activă /dev/nvme0n1p3
       2 259 7 1 sincronizare activă /dev/nvme1n1p3

Cu toate acestea, unele erori de citire au început să apară în /var/log/syslog, în triple:

31 decembrie 12:32:56 kernel: [662973.969218] blk_update_request: eroare medie critică, dev nvme1n1, sector 2769948928 op 0x0:(READ) flags 0x0 phys_seg 9 prio class 0
Dec 31 12:32:56 kernel: [662973.969222] md/raid1:md1: nvme1n1p3: reprogramare sector 2702369024
31 decembrie 12:32:56 kernel: [662973.978792] md/raid1:md1: redirecționarea sectorului 2702369024 către altă oglindă: nvme0n1p3

31 decembrie 12:43:11 kernel: [663588.474940] blk_update_request: eroare medie critică, dev nvme0n1, sector 1815443200 op 0x0:(READ) flags 0x0 phys_seg 33 prio class 0
Dec 31 12:43:11 kernel: [663588.474943] md/raid1:md1: nvme0n1p3: reprogramare sector 1747863296
31 decembrie 12:43:11 kernel: [663588.499466] md/raid1:md1: redirecționarea sectorului 1747863296 către altă oglindă: nvme0n1p3

uneori urmată de:

kernel: [313519.337578] md/raid1:md1: eroare de citire corectată (8 sectoare la 1367197592 pe nvme1n1p3)

am fugit smartctl pentru a căuta probleme. Indică faptul că s-au întâmplat erori în trecut, dar mai spune „Rezultatul testului de autoevaluare a sănătății generale SMART: A TRUS."

Pentru /dev/nvme0n1:

$ sudo smartctl -a /dev/nvme0n1
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.4.0-91-generic] (build local)
Drepturi de autor (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== ÎNCEPE SECȚIUNEA DE INFORMAȚII ===
Număr model: Samsung SSD 970 EVO 2TB
Număr de serie: S464NB0M406242D
Versiunea de firmware: 2B2QEXE7
ID furnizor/subsistem PCI: 0x144d
Identificator IEEE OUI: 0x002538
Capacitate totală NVM: 2.000.398.934.016 [2,00 TB]
Capacitate NVM nealocată: 0
ID controler: 4
Număr de spații de nume: 1
Dimensiunea/capacitatea spațiului de nume 1: 2.000.398.934.016 [2,00 TB]
Utilizare spațiu de nume 1: 1.017.558.851.584 [1,01 TB]
Spațiul de nume 1 Format LBA Dimensiune: 512
Ora locală este: vineri, 31 decembrie, 14:01:33 2021 EST
Actualizări de firmware (0x16): 3 sloturi, nu este necesară resetarea
Comenzi opționale de administrare (0x0017): Format de securitate Frmw_DL *Altele*
Comenzi opționale NVM (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Other*
Dimensiunea maximă de transfer de date: 512 pagini
Avertisment Comp. Temp. Prag: 82 Celsius
Critic Comp. Temp. Prag: 82 Celsius

State de putere acceptate
St Op Max Activ Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20 W - - 0 0 0 0 0 0
 1 + 4,30 W - - 1 1 1 1 0 0
 2 + 2,10 W - - 2 2 2 2 0 0
 3 - 0,0400 W - - 3 3 3 3 210 1200
 4 - 0,0050 W - - 4 4 4 4 2000 8000

Dimensiuni LBA acceptate (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
 0 + 512 0 0

=== ÎNCEPEREA SECȚIUNII DE DATE INTELIGENTE ===
Rezultatul testului de autoevaluare a sănătății generale SMART: A TRUS

Informații SMART/Sănătate (NVMe Log 0x02, NSID 0x1)
Avertisment critic: 0x00
Temperatura: 46 Celsius
Rezervă disponibilă: 73%
Pragul de rezervă disponibil: 10%
Procent utilizat: 0%
Unități de date citite: 232.548.547 [119 TB]
Unități de date scrise: 58.761.625 [30,0 TB]
Comenzi de citire gazdă: 1.144.416.417
Comenzi de scriere gazdă: 1.551.430.546
Timp ocupat controler: 7.250
Cicluri de alimentare: 114
Ore de pornire: 6.365
Opriri nesigure: 73
Erori de integritate media și date: 694
Intrări din jurnal de informații despre eroare: 926
Avertisment Comp. Timp de temperatură: 0
Critic Comp. Timp de temperatură: 0
Senzor de temperatură 1: 46 Celsius
Senzor de temperatură 2: 50 Celsius

Informații despre eroare (NVMe Log 0x01, max 64 intrări)
Num ErrCount SQId CmdId Stare PELoc LBA NSID VS
  0 926 28 0x0370 0xc502 0x000 3738332404 1 -
  1 925 6 0x015b 0xc502 0x000 2503721366 1 -
  2 924 22 0x0000 0xc502 0x000 1963251598 1 -
  3 923 11 0x038a 0xc502 0x000 1862557082 1 -
  4 922 16 0x00d1 0xc502 0x000 1862557082 1 -
  5 921 6 0x0141 0xc502 0x000 1826459600 1 -
  6 920 20 0x03b5 0xc502 0x000 1815443442 1 -
  7 919 8 0x034d 0xc502 0x000 2588273810 1 -
  8 918 11 0x0315 0xc502 0x000 2583041964 1 -
  9 917 9 0x02e3 0xc502 0x000 2583041964 1 -
 10 916 11 0x030e 0xc502 0x000 2583023500 1 -
 11 915 11 0x0308 0xc502 0x000 2583023468 1 -
 12 914 11 0x033a 0xc502 0x000 2583023500 1 -
 13 913 9 0x02ec 0xc502 0x000 2583023468 1 -
 14 912 14 0x03d2 0xc502 0x000 2472005420 1 -
 15 911 23 0x00cd 0xc502 0x000 2444721868 1 -
... (32 de intrări nu sunt afișate)

/dev/nvme1n1:

$ sudo smartctl -a /dev/nvme1n1
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.4.0-91-generic] (build local)
Drepturi de autor (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== ÎNCEPE SECȚIUNEA DE INFORMAȚII ===
Număr model: Samsung SSD 970 EVO 2TB
Număr de serie: S464NB0M403333H
Versiunea de firmware: 2B2QEXE7
ID furnizor/subsistem PCI: 0x144d
Identificator IEEE OUI: 0x002538
Capacitate totală NVM: 2.000.398.934.016 [2,00 TB]
Capacitate NVM nealocată: 0
ID controler: 4
Număr de spații de nume: 1
Dimensiunea/capacitatea spațiului de nume 1: 2.000.398.934.016 [2,00 TB]
Utilizare spațiu de nume 1: 1.044.938.612.736 [1,04 TB]
Spațiul de nume 1 Format LBA Dimensiune: 512
Ora locală este: vineri, 31 decembrie, 14:03:07 2021 EST
Actualizări de firmware (0x16): 3 sloturi, nu este necesară resetarea
Comenzi opționale de administrare (0x0017): Format de securitate Frmw_DL *Altele*
Comenzi opționale NVM (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Other*
Dimensiunea maximă de transfer de date: 512 pagini
Avertisment Comp. Temp. Prag: 82 Celsius
Critic Comp. Temp. Prag: 82 Celsius

State de putere acceptate
St Op Max Activ Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20 W - - 0 0 0 0 0 0
 1 + 4,30 W - - 1 1 1 1 0 0
 2 + 2,10 W - - 2 2 2 2 0 0
 3 - 0,0400 W - - 3 3 3 3 210 1200
 4 - 0,0050 W - - 4 4 4 4 2000 8000

Dimensiuni LBA acceptate (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
 0 + 512 0 0

=== ÎNCEPEREA SECȚIUNII DE DATE INTELIGENTE ===
Rezultatul testului de autoevaluare a sănătății generale SMART: A TRUS

Informații SMART/Sănătate (NVMe Log 0x02, NSID 0x1)
Avertisment critic: 0x00
Temperatura: 45 Celsius
Rezervă disponibilă: 81%
Pragul de rezervă disponibil: 10%
Procent utilizat: 1%
Unități de date citite: 180.057.901 [92,1 TB]
Unități de date scrise: 77.700.415 [39,7 TB]
Comenzi de citire gazdă: 801.630.346
Comenzi de scriere gazdă: 1.566.190.001
Timp ocupat controler: 6.925
Cicluri de alimentare: 156
Ore de pornire: 6.260
Opriri nesigure: 86
Erori de integritate media și date: 721
Intrări în jurnal de informații despre eroare: 1.015
Avertisment Comp. Timp de temperatură: 0
Critic Comp. Timp de temperatură: 0
Senzor de temperatură 1: 45 Celsius
Senzor de temperatură 2: 52 Celsius

Informații despre eroare (NVMe Log 0x01, max 64 intrări)
Num ErrCount SQId CmdId Stare PELoc LBA NSID VS
  0 1015 22 0x0178 0xc502 0x000 2395920012 1 -
  1 1014 31 0x02d6 0xc502 0x000 2065018576 1 -
  2 1013 10 0x004e 0xc502 0x000 1928508102 1 -
  3 1012 6 0x02aa 0xc502 0x000 2769949126 1 -
  4 1011 27 0x0204 0xc502 0x000 2180665946 1 -
  5 1010 27 0x023b 0xc502 0x000 2180598396 1 -
  6 1009 14 0x00ee 0xc502 0x000 2562333810 1 -
  7 1008 13 0x0075 0xc502 0x000 2423243572 1 -
  8 1007 30 0x03bb 0xc502 0x000 2326927278 1 -
  9 1006 24 0x03e6 0xc502 0x000 1775468746 1 -
 10 1005 16 0x0066 0xc502 0x000 1775468746 1 -
 11 1004 23 0x0148 0xc502 0x000 2813092280 1 -
 12 1003 26 0x02fa 0xc502 0x000 2452856518 1 -
 13 1002 5 0x03b1 0xc502 0x000 2119789206 1 -
 14 1001 27 0x009b 0xc502 0x000 3047371772 1 -
 15 1000 5 0x036c 0xc502 0x000 3047371772 1 -
... (5 intrări nu sunt afișate)

Cele două unități nu par să accepte autotestări (smartctl -c nu listează deloc autotestări).

$ sudo smartctl -c /dev/nvme0n1
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.4.0-91-generic] (build local)
Drepturi de autor (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== ÎNCEPE SECȚIUNEA DE INFORMAȚII ===
Actualizări de firmware (0x16): 3 sloturi, nu este necesară resetarea
Comenzi opționale de administrare (0x0017): Format de securitate Frmw_DL *Altele*
Comenzi opționale NVM (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Other*
Dimensiunea maximă de transfer de date: 512 pagini
Avertisment Comp. Temp.Prag: 82 Celsius
Critic Comp. Temp. Prag: 82 Celsius

State de putere acceptate
St Op Max Activ Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20 W - - 0 0 0 0 0 0
 1 + 4,30 W - - 1 1 1 1 0 0
 2 + 2,10 W - - 2 2 2 2 0 0
 3 - 0,0400 W - - 3 3 3 3 210 1200
 4 - 0,0050 W - - 4 4 4 4 2000 8000

Dimensiuni LBA acceptate (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
 0 + 512 0 0

Îmi actualizez întrebarea:

Unele dintre erori par să fie atribuite script checkarray care rulează o dată pe lună, deoarece erorile încep „în prima duminică a fiecărei luni, la 01:06 dimineața”. „man md” adaugă:

[Activat] RAID1 este posibil ca problemele software să cauzeze raportarea unei nepotriviri [între cele două discuri]. Acest lucru nu înseamnă neapărat că datele din matrice sunt corupte. S-ar putea să fie pur și simplu că sistemului nu îi pasă de ce este stocat în acea parte a matricei - este spațiu neutilizat. Cauza cea mai probabilă pentru o nepotrivire neașteptată a RAID1 sau RAID10 apare dacă o partiție de schimb sau un fișier de schimb este stocat pe matrice.

Ce trebuie să fac în continuare? Mulțumesc foarte mult.

215

0 + 0

raid

mdadm

hard disk

inteligent

18.04

Answer 1

0

Răspunde

Answer 2

0

Răspunde

Answer 3

1

Răspunde

Answer 4

0

Răspunde

Answer 5

1

Răspunde

Answer 6

0

Răspunde

Answer 7

0

Răspunde

Answer 8

0

Răspunde

Matricea RAID spune „eroare critică de mediu”, dar smartctl spune că discul este sănătos - ce să faci în continuare?

Postează un răspuns