Puncte:0

nepotrivire mdstat cnt blocuri nesincronizate

drapel us

Ambele servere ale noastre suferă

nepotrivire mdstat cnt blocuri nesincronizate

La fiecare început de lună am primit această eroare și trebuie să reparăm raid-ul folosind

echo 'repair' >/sys/block/<md id>/md/sync_action

Această verificare este cauzată de mdcheck_start.timer.service dacă nu mă înșel.
Durează în jur de 5 ore să-l repare, după acel timp se repară singur, sau cel puțin așa cred.

Întrebarea este dacă aceasta este o modalitate corectă de a remedia blocurile nesincronizate ale raidului? Ce o cauzează și cum pot spune dacă este o eroare hardware/disc? Mulțumesc!

EDITARE: /etc/fstab conține:

# /etc/fstab: informații statice despre sistemul de fișiere.

# / a fost pe /dev/md2p1 în timpul instalării curtin
/dev/disk/by-id/md-uuid-b0b68adb:353b70e8:fa806910:a78761e9-part1 / ext4 valori implicite 0 0

# /vol/data a fost pe /dev/md3p1 în timpul instalării curtin
/dev/disk/by-id/md-uuid-2360fc63:991922f4:33aae17f:12f23590-part1 /vol/data ext4 valori implicite 0 0

# /boot a fost pe /dev/md0p1 în timpul instalării curtin
/dev/disk/by-id/md-uuid-a76428ff:270597e7:70ed6c91:026d2441-part1 /boot ext4 implicite 0 0

UUID="5c389b41-007d-4893-b81c-5560cb2d6ff9" /vol/backup ext4 valori implicite 0 0

172.30.0.199:/vol/shared /vol/shared nfs implicite 0 0

Ieșire din lsblk --renunțați:

NUME DISC-ALN DISC-GRAN DISC-MAX DISC-ZERO
buclă0 0 4K 4G 0
bucla1 0 4K 4G 0
bucla2 0 4K 4G 0
bucla3 0 4K 4G 0
bucla4 0 4K 4G 0
buclă5 0 4K 4G 0
bucla6 0 4K 4G 0
buclă7 0 4K 4G 0
buclă8 0 4K 4G 0
sda 0 4K 2G 0
ââsda1 0 4K 2G 0
ââsda2 0 4K 2G 0
â ââmd0 0 4K 2G 0
â ââmd0p1 0 4K 2G 0
ââsda3 0 4K 2G 0
â ââmd1 0 4K 2G 0
â ââmd1p1 0 4K 2G 0
ââsda4 0 4K 2G 0
  ââmd2 0 4K 2G 0
    ââmd2p1 0 4K 2G 0
sdb 0 4K 2G 0
ââsdb1 0 4K 2G 0
ââsdb2 0 4K 2G 0
â ââmd0 0 4K 2G 0
â ââmd0p1 0 4K 2G 0
ââsdb3 0 4K 2G 0
â ââmd1 0 4K 2G 0
â ââmd1p1 0 4K 2G 0
ââsdb4 0 4K 2G 0
  ââmd2 0 4K 2G 0
    ââmd2p1 0 4K 2G 0
sdc 0 0B 0B 0
ââsdc1 0 0B 0B 0
nvme1n1 0 512B 2T 0
ââmd3 0 512B 2T 0
  ââmd3p1 0 512B 2T 0
nvme0n1 0 512B 2T 0
ââmd3 0 512B 2T 0
  ââmd3p1 0 512B 2T 0

Ieșire din smartctl -i /dev/sd[ab]:

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-92-generic] (build local)
Drepturi de autor (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== ÎNCEPE SECȚIUNEA DE INFORMAȚII ===
Familie de modele: SSD-uri din seria Intel S4510/S4610/S4500/S4600
Model de dispozitiv: INTEL SSDSC2KG960G8
Număr de serie: BTYG024601ZC960CGN
ID dispozitiv LU WWN: 5 5cd2e4 152b3fddf
Versiune de firmware: XCV10120
Capacitate utilizator: 960.197.124.096 octeți [960 GB]
Dimensiuni sector: 512 octeți logic, 4096 octeți fizic
Rata de rotație: Dispozitiv cu stare solidă
Factor de formă: 2,5 inchi
Dispozitivul este: În baza de date smartctl [pentru detalii utilizați: -P show]
Versiunea ATA este: ACS-3 T13/2161-D revizuirea 5
Versiunea SATA este: SATA 3.2, 6.0 Gb/s (actual: 6.0 Gb/s)
Ora locală este: miercuri, 2 februarie, 07:43:15 2022 CET
Suportul SMART este: Disponibil - dispozitivul are capacitate SMART.
Suportul SMART este: Activat

Ieșire din mdadm --detail /dev/md2:

/dev/md2:
           Versiune: 1.2
     Ora creării: marți 24 noiembrie 21:02:34 2020
        Nivelul raid: raid1
        Dimensiune matrice: 919731200 (877,12 GiB 941,80 GB)
     Dimensiune Dev folosită: 919731200 (877,12 GiB 941,80 GB)
      Dispozitive raid: 2
     Total dispozitive: 2
       Persistență: Superblocul este persistent

     Bitmap intenție: intern

       Ora actualizării: miercuri 2 februarie 07:43:33 2022
             Stare: activ
    Dispozitive active: 2
   Dispozitive de lucru: 2
    Dispozitive eșuate: 0
     Dispozitive de rezervă: 0

Politica de consistență: bitmap

              Nume: ubuntu-server:2
              UUID: b0b68adb:353b70e8:fa806910:a78761e9
            Evenimente: 24281

    Număr Major Minor Raid Starea dispozitivului
       0 8 4 0 sincronizare activă /dev/sda4
       1 8 20 1 sincronizare activă /dev/sdb4

Ieșire din smartctl -A -l eroare /dev/sda:

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-92-generic] (build local)
Drepturi de autor (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== ÎNCEPEREA SECȚIUNII DE CITIRE DE DATE INTELIGENTE ===
Numărul de revizuire al structurii datelor SMART Atributes: 1
Atribute SMART specifice furnizorului cu praguri:
ID# ATTRIBUTE_NAME VALOAREA STRAPHIEI CEL MAI RĂU TIP DE PRAG ACTUALIZAT WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
  9 Power_On_Hours 0x0032 100 100 000 Bătrânețe Întotdeauna - 10469
 12 Power_Cycle_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 8
170 Available_Reservd_Space 0x0033 100 100 010 Pre-fail Always - 0
171 Program_Fail_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
172 Erase_Fail_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 7
175 Power_Loss_Cap_Test 0x0033 100 100 010 Pre-fail Always - 2591 (8 65535)
183 SATA_Downshift_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
184 End-to-End_Error_Count 0x0033 100 100 090 Pre-fail Always - 0
187 Uncorectable_Error_Cnt 0x0032 100 100 000 Bătrânețea Întotdeauna - 0
190 Drive_Temperature 0x0022 079 075 000 Bătrânețe Întotdeauna - 21 (Min/Max 12/27)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 7
194 Temperature_Celsius 0x0022 100 100 000 Bătrânețe Întotdeauna - 21
197 Pending_Sector_Count 0x0012 100 100 000 Bătrânețe Întotdeauna - 0
199 CRC_Error_Count 0x003e 100 100 000 Bătrânețe Întotdeauna - 0
225 Host_Writes_32MiB 0x0032 100 100 000 Bătrânețe întotdeauna - 1006057
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Bătrânețe Întotdeauna - 419
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Bătrânețe Întotdeauna - 52
228 Workload_Minutes 0x0032 100 100 000 Bătrânețe Întotdeauna - 628023
232 Available_Reservd_Space 0x0033 100 100 010 Pre-fail Always - 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
234 Thermal_Throttle_Status 0x0032 100 100 000 Bătrânețe Întotdeauna - 0/0
235 Power_Loss_Cap_Test 0x0033 100 100 010 Pre-fail Always - 2591 (8 65535)
241 Host_Writes_32MiB 0x0032 100 100 000 Bătrânețe întotdeauna - 1006057
242 Host_Reads_32MiB 0x0032 100 100 000 Bătrânețe întotdeauna - 1112548
243 NAND_Writes_32MiB 0x0032 100 100 000 Bătrânețe întotdeauna - 1730576

Versiunea jurnalului de erori SMART: 1
Nu au fost înregistrate erori

Ieșire din smartctl -A -l eroare /dev/sdb:

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-92-generic] (build local)
Drepturi de autor (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== ÎNCEPEREA SECȚIUNII DE CITIRE DE DATE INTELIGENTE ===
Numărul de revizuire al structurii datelor SMART Atributes: 1
Atribute SMART specifice furnizorului cu praguri:
ID# ATTRIBUTE_NAME VALOAREA STRAPHIEI CEL MAI RĂU TIP DE PRAG ACTUALIZAT WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
  9 Power_On_Hours 0x0032 100 100 000 Bătrânețe Întotdeauna - 10469
 12 Power_Cycle_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 8
170 Available_Reservd_Space 0x0033 100 100 010 Pre-fail Always - 0
171 Program_Fail_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
172 Erase_Fail_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 7
175 Power_Loss_Cap_Test 0x0033 100 100 010 Pre-fail Always - 2479 (8 65535)
183 SATA_Downshift_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
184 End-to-End_Error_Count 0x0033 100 100 090 Pre-fail Always - 0
187 Uncorectable_Error_Cnt 0x0032 100 100 000 Bătrânețea Întotdeauna - 0
190 Drive_Temperature 0x0022 078 073 000 Bătrânețe Întotdeauna - 22 (Min/Max 12/29)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 7
194 Temperature_Celsius 0x0022 100 100 000 Bătrânețe Întotdeauna - 22
197 Pending_Sector_Count 0x0012 100 100 000 Bătrânețe Întotdeauna - 0
199 CRC_Error_Count 0x003e 100 100 000 Bătrânețe Întotdeauna - 0
225 Host_Writes_32MiB 0x0032 100 100 000 Bătrânețe întotdeauna - 1064411
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Bătrânețe Întotdeauna - 440
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Bătrânețe Întotdeauna - 45
228 Workload_Minutes 0x0032 100 100 000 Bătrânețe Întotdeauna - 628005
232 Available_Reservd_Space 0x0033 100 100 010 Pre-fail Always - 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
234 Thermal_Throttle_Status 0x0032 100 100 000 Bătrânețe Întotdeauna - 0/0
235 Power_Loss_Cap_Test 0x0033 100 100 010 Pre-fail Always - 2479 (8 65535)
241 Host_Writes_32MiB 0x0032 100 100 000 Bătrânețe întotdeauna - 1064411
242 Host_Reads_32MiB 0x0032 100 100 000 Bătrânețe întotdeauna - 876800
243 NAND_Writes_32MiB 0x0032 100 100 000 Bătrânețe întotdeauna - 1801020

Versiunea jurnalului de erori SMART: 1
Nu au fost înregistrate erori
David Pivoňka avatar
drapel us
Versiunea @anx Kernel este 5.4.0-92-generic. Nu sunt sigur dacă sistemul de fișiere folosește caracteristica de eliminare, cum pot spune? Nu am setat așa ceva în timpul instalării. EDITARE: S-a adăugat conținut /etc/fstab la postare.
Nikita Kipriyanov avatar
drapel za
arată `lsblk --discard`
David Pivoňka avatar
drapel us
@NikitaKipriyanov a adăugat la postarea principală
Nikita Kipriyanov avatar
drapel za
deci care arată acest comportament?
David Pivoňka avatar
drapel us
Îl reparăm folosind `echo 'repair' >/sys/block/md2/md/sync_action`. Deci ar trebui să fie `md2: active raid1 sdb4[1] sda4[0]` conform `cat /proc/mdstat`
Nikita Kipriyanov avatar
drapel za
Din păcate, acești indici MD nu sunt stabili. Acestea se pot schimba după repornire. Totuși, md2 este în prezent pe sda ​​și sdb - care sunt acele dispozitive? Vă rog, arătați `smartctl` pentru ei. De asemenea, vă rugăm să afișați `mdadm --detail /dev/md2`.
David Pivoňka avatar
drapel us
Adăugat.Mai trebuie sa mentionez ca avem un server secundar care este identic cu acesta si problema apare si acolo.
Nikita Kipriyanov avatar
drapel za
Mă bucur să văd informații despre SSD. Dar ai postat două ieșiri identice, doar seriale diferă. Este suficient să păstrezi un singur exemplar. Am vrut să văd atributele și jurnalul de erori, `smartctl -A -l error /dev/sd[ab]`. // Mă tem că MD RAID nu este cea mai bună tehnologie de utilizat pe aceste SSD-uri. Acesta este cazul când sistemul de fișiere cu management integrat al volumului ar putea fi mai potrivit, de exemplu, zfs sau btrfs..
David Pivoňka avatar
drapel us
S-a adăugat rezultatul erorii smartctl. Deci spui că ar putea ajuta să înlocuiești MD RAID cu un fel de raid hardware?
Nikita Kipriyanov avatar
drapel za
Am spus literalmente că ar putea fi mai bine să înlocuim RAID la nivel de bloc cu RAID la nivel de sistem de fișiere. Mă aștept ca HW RAID să arate simptome similare sau chiar mai ciudate. // Am întâlnit această problemă astăzi cu SSD-uri similare, seria S4610. Deci acum am chiar și o problemă ca a ta. Dar în cazul meu există Windows care nu are astfel de sisteme de fișiere. deci explorăm.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.