Folosesc un hardware raid50 cu controler PERC810 pe serverul meu și am întâlnit recent o măsurătoare despre care nu sunt sigur.Până acum, am folosit o metrică smartctl „Elemente în lista de defecte crescute” ca un indiciu că unitatea eșuează și ar trebui eliminată, dar dacă folosesc perccli (sau storcli/megacli), unitatea afișează și o metrică numită „Media număr de erori.”
Problema pe care o am cu aceasta este că, din ceea ce am citit despre aceste valori, ele sunt practic același lucru - ambele arată sectoare realocate sau defecte fizice pe un disc.
Dar unele dintre hdd-urile mele afișează un număr mai mare decât zero la Elementele din lista de defecte crescute, dar o valoare zero la numărul de erori media și invers.
De exemplu acest disc:
perccli /c0/e37/s7 arată toate
Versiunea CLI = 007.1327.0000.0000 27 iulie 2020
Sistem de operare = Linux 4.19.0-0.bpo.9-amd64
Controler = 0
Stare = Succes
Descriere = Afișare informații despre unitatea reușită.
Drive /c0/e37/s7 :
=================
--------------------------------------------- --------------------------
EID:Slt DID Stare DG Dimensiune Intf Med SED PI SeSz Model Sp Tip
--------------------------------------------- --------------------------
37:7 72 Onln 1 3,637 TB SAS HDD N N 512B WD4001FYYG-01SL3 U -
--------------------------------------------- --------------------------
EID=ID dispozitiv carcasă|Slt=Nr. slot|DID=ID dispozitiv|DG=DriveGroup
DHS=Dedicat Hot Spare|UGood=Neconfigurat Bun|GHS=Global Hotspare
UBad=Neconfigurat greșit|Sntze=Sanitize|Onln=Online|Offln=Offline|Intf=Interfață
Med=Tip media|SED=Unitate cu autocriptare|PI=Informații de protecție
SeSz=Dimensiunea sectorului|Sp=Spun|U=Sus|D=Jos|T=Tranziție|F=Străin
UGUnsp=UGood Unsupported|UGShld=UGBun ecranat|HSPShld=Hotspare ecranat
CFShld=Ecranat configurat|Cpybck=CopyBack|CBShld=Ecranat împotriva copierii
UBUnsp=UBad neacceptat|Rbld=Reconstruire
Drive /c0/e37/s7 - Informații detaliate:
========================================
Drive /c0/e37/s7 Stare:
=======================
Contor scut = 0
Număr de erori media = 38
Alte erori = 118063
Temperatura drive = 41C (105,80 F)
Număr de erori predictive = 0
Alertă S.M.A.R.T marcată de unitate = Nu
Drive /c0/e37/s7 Atributele dispozitivului:
===================================
SN = WMC1F0D41KD5
Id-ul producătorului = WD
Număr de model = WD4001FYYG-01SL3
Furnizor NAND = NA
WWN = 50000C0F01F55DD1
Revizuire firmware = VR08
Număr de lansare a firmware-ului = N/A
Dimensiune brută = 3,638 TB [0x1d1c0beb0 Sectors]
Dimensiune forțată = 3,637 TB [0x1d1b00000 Sectore]
Dimensiune fără forță = 3,637 TB [0x1d1b0beb0 Sectors]
Viteza dispozitivului = 6,0 Gb/s
Viteza conexiunii = 6,0 Gb/s
Cache de scriere = N/A
Dimensiunea sectorului logic = 512B
Dimensiunea sectorului fizic = 512B
Nume conector = 01
Care arată Număr de erori media = 3
, dar când folosesc smartctl pentru același disc:
smartctl -a -d megaraid,72 /dev/sdg
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-4.19.0-0.bpo.9-amd64] (build local)
Drepturi de autor (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== ÎNCEPE SECȚIUNEA DE INFORMAȚII ===
Furnizor: WD
Produs: WD4001FYYG-01SL3
Revizie: VR08
Conformitate: SPC-4
Capacitate utilizator: 4.000.787.030.016 octeți [4,00 TB]
Dimensiunea blocului logic: 512 octeți
Rata de rotatie: 7200 rpm
Factor de formă: 3,5 inchi
ID unitate logică: 0x50000c0f01f55dd0
Număr de serie: WMC1F0D41KD5
Tip dispozitiv: disc
Protocol de transport: SAS (SPL-3)
Ora locală este: vineri, 28 ianuarie, 14:14:51 2022 CET
Suportul SMART este: Disponibil - dispozitivul are capacitate SMART.
Suportul SMART este: Activat
Avertisment de temperatură: activat
=== ÎNCEPEREA SECȚIUNII DE CITIRE DE DATE INTELIGENTE ===
Stare de sănătate SMART: OK
Temperatura curentă a conducerii: 41 C
Temperatura de călătorie: 40 C
Timp de pornire a puterii acumulate, ore:minute 60298:10
Fabricat în săptămâna 46 a anului 2014
Număr de cicluri specificat pe durata de viață a dispozitivului: 1048576
Cicluri pornire-oprire acumulate: 18
Număr specificat de încărcare-descărcare pe durata de viață a dispozitivului: 1114112
Cicluri de încărcare-descărcare acumulate: 118
Elemente din lista de defecte crescute: 0
Jurnal contor erori:
Erori corectate prin corecție totală Total gigaocteți
Algoritmul de recitiri/erori ECC a fost procesat necorectat
rapid | erori întârziate de rescriere a invocațiilor corectate [10^9 octeți].
citeste: 2538437 9298 76289 2547735 9392 215124.761 94
scrie: 5550372 5405661 5407707 10956033 5405661 571404.363 0
verifica: 184 0 0 184 0 352.277 0
Număr de erori non-medii: 202249
Jurnal de autotestare SMART
Num Test Stare segment Durată de viață LBA_first_err [SK ASC ASQ]
Număr de descriere (ore)
# 1 Fundal lung Finalizat - 11 - [- - -]
Durată lungă (prelungită) a autotestării: 31120 secunde [518,7 minute]
Se vede Elemente din lista de defecte crescute: 0
Iată un alt exemplu pe același server, doar un hdd diferit:
perccli /c0/e37/s4 arată toate
Versiunea CLI = 007.1327.0000.0000 27 iulie 2020
Sistem de operare = Linux 4.19.0-0.bpo.9-amd64
Controler = 0
Stare = Succes
Descriere = Afișare informații despre unitatea reușită.
Drive /c0/e37/s4 :
=================
--------------------------------------------- --------------------------
EID:Slt DID Stare DG Dimensiune Intf Med SED PI SeSz Model Sp Tip
--------------------------------------------- --------------------------
37:4 63 Onln 1 3,637 TB SAS HDD N N 512B WD4001FYYG-01SL3 U -
--------------------------------------------- --------------------------
EID=ID dispozitiv carcasă|Slt=Nr. slot|DID=ID dispozitiv|DG=DriveGroup
DHS=Dedicat Hot Spare|UGood=Neconfigurat Bun|GHS=Global Hotspare
UBad=Neconfigurat greșit|Sntze=Sanitize|Onln=Online|Offln=Offline|Intf=Interfață
Med=Tip media|SED=Unitate cu autocriptare|PI=Informații de protecție
SeSz=Dimensiunea sectorului|Sp=Spun|U=Sus|D=Jos|T=Tranziție|F=Străin
UGUnsp=UGood Unsupported|UGShld=UGBun ecranat|HSPShld=Hotspare ecranat
CFShld=Ecranat configurat|Cpybck=CopyBack|CBShld=Ecranat împotriva copierii
UBUnsp=UBad neacceptat|Rbld=Reconstruire
Drive /c0/e37/s4 - Informații detaliate:
========================================
Drive /c0/e37/s4 Stare:
=======================
Contor scut = 0
Număr de erori media = 0
Alte erori = 118060
Temperatura drive = 35C (95.00 F)
Număr de erori predictive = 0
Alertă S.M.A.R.T marcată de unitate = Nu
Drive /c0/e37/s4 Atributele dispozitivului:
===================================
SN = WMC1F0D222KF
Id-ul producătorului = WD
Număr de model = WD4001FYYG-01SL3
Furnizor NAND = NA
WWN = 50000C0F01352C35
Revizuire firmware = VR08
Număr de lansare a firmware-ului = N/A
Dimensiune brută = 3,638 TB [0x1d1c0beb0 Sectors]
Dimensiune forțată = 3,637 TB [0x1d1b00000 Sectore]
Dimensiune fără forță = 3,637 TB [0x1d1b0beb0 Sectors]
Viteza dispozitivului = 6,0 Gb/s
Viteza conexiunii = 6,0 Gb/s
Cache de scriere = N/A
Dimensiunea sectorului logic = 512B
Dimensiunea sectorului fizic = 512B
Nume conector = 01
Drive /c0/e37/s4 Politici/Setări:
===================================
Poziția conducerii = DriveGroup:1, Span:1, Row:0
Poziția incintei = 0
Numărul portului conectat = 0(cale0)
Numărul secvenței = 2
Rezervă comandată = Nr
Rezervă de urgență = Nu
Numărul secvenței ultimului eveniment de eșec predictiv = 0
Diagnosticare finalizată cu succes pe = N/A
Tip FDE = Nici unul
Capabil SED = Nu
SED activat = Nu
Securizat = Nu
Capacitate de ștergere criptografică = Nu
Sanitize Support = Nu este acceptat
Blocat = Nu
Necesită atenție EKM = Nu
Eligibil PI = Nu
Certificat = Nr
Port larg capabil = Nu
Informații despre port:
=================
------------------------------------------
Port Stare Adresă SAS Linkspeed
------------------------------------------
0 activ 6,0 Gb/s 0x50000c0f01352c36
1 activ necunoscut 0x0
------------------------------------------
Date de anchetă =
00 00 06 12 5b 01 10 02 57 44 20 20 20 20 20 20
57 44 34 30 30 31 46 59 59 47 2d 30 31 53 4c 33
56 52 30 38 57 44 2d 57 4d 43 31 46 30 44 32 32
32 4b 46 20 20 20 20 20 00 00 00 a0 0c 40 20 c0
04 60 04 c0 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
Unde Număr de erori media = 0
, dar smartctl:
smartctl -a -d megaraid,63 /dev/sdg
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-4.19.0-0.bpo.9-amd64] (build local)
Drepturi de autor (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== ÎNCEPE SECȚIUNEA DE INFORMAȚII ===
Furnizor: WD
Produs: WD4001FYYG-01SL3
Revizie: VR08
Conformitate: SPC-4
Capacitate utilizator: 4.000.787.030.016 octeți [4,00 TB]
Dimensiunea blocului logic: 512 octeți
Rata de rotatie: 7200 rpm
Factor de formă: 3,5 inchi
ID unitate logică: 0x50000c0f01352c34
Număr de serie: WMC1F0D222KF
Tip dispozitiv: disc
Protocol de transport: SAS (SPL-3)
Ora locală este: vineri, 28 ianuarie, 14:39:52 2022 CET
Suportul SMART este: Disponibil - dispozitivul are capacitate SMART.
Suportul SMART este: Activat
Avertisment de temperatură: activat
=== ÎNCEPEREA SECȚIUNII DE CITIRE DE DATE INTELIGENTE ===
Stare de sănătate SMART: OK
Temperatura curentă a conducerii: 35 C
Temperatura de călătorie: 40 C
Timp de pornire a puterii acumulate, ore:minute 60299:24
Fabricat în săptămâna 46 a anului 2014
Număr de cicluri specificat pe durata de viață a dispozitivului: 1048576
Cicluri pornire-oprire acumulate: 18
Număr specificat de încărcare-descărcare pe durata de viață a dispozitivului: 1114112
Cicluri de încărcare-descărcare acumulate: 118
Elemente din lista de defecte crescute: 44
Jurnal contor erori:
Erori corectate prin corecție totală Total gigaocteți
Algoritmul de recitiri/erori ECC a fost procesat necorectat
rapid | erori întârziate de rescriere a invocațiilor corectate [10^9 octeți].
citeste: 4899063 1 1 4899064 1 215489.217 0
scrie: 6593514 494 496 6594008 499 571584.348 0
verifica: 345 0 0 345 0 349.197 0
Număr de erori non-medii: 202287
Jurnal de autotestare SMART
Num Test Stare segment Durată de viață LBA_first_err [SK ASC ASQ]
Număr de descriere (ore)
# 1 Fundal lung Finalizat - 11 - [- - -]
Durată lungă (prelungită) a autotestării: 31120 secunde [518,7 minute]
Spectacole Elemente din lista de defecte crescute: 44
Vă rugăm să explicați diferența dintre aceste două valori și pe care să urmați pentru a determina o unitate defectă?
Mulțumesc.