Puncte:0

Server

Cum se monitorizează sănătatea HDD-ului Segate sub Linux?

Nicola Mori

04.06.2023, 08:23

Ar trebui să monitorizez starea mai multor HDD-uri Seagate ST16000NM002G SAS găzduite pe un server de discuri care rulează CentOS 7. Din câte am înțeles, discurile Seagate nu expun S.M.A.R.T. atribute datorate unei decizii precise de management (vezi această pagină), iar compania sugerează să folosească software-ul SeaTool care, potrivit acestora, este mai fiabil decât S.M.A.R.T. Din păcate, se pare că doar versiunea SSD a SeaTool este disponibilă pentru Linux (vezi această pagină).

Deoarece aș spune că Segate+Linux ar trebui să fie un caz destul de comun în centrele de date moderne, sunt destul de sigur că un instrument de monitorizare de încredere pentru discurile Seagate trebuie să fie disponibil pentru Linux. Poate cineva să ofere o perspectivă, vă rog?

Edit: iată ce primesc cu smartctl pentru discurile Seagate:

$ sudo smartctl -A /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.53.1.el7.x86_64] (build local)
Drepturi de autor (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== ÎNCEPEREA SECȚIUNII DE CITIRE DE DATE INTELIGENTE ===
Temperatura curentă a conducerii: 33 C
Temperatura de călătorie: 60 C

Fabricat în săptămâna 42 a anului 2020
Număr de cicluri specificat pe durata de viață a dispozitivului: 50000
Cicluri pornire-oprire acumulate: 20
Număr specificat de încărcare-descărcare pe durata de viață a dispozitivului: 600000
Cicluri de încărcare-descărcare acumulate: 3324
Elemente din lista de defecte crescute: 0

în timp ce pentru un HDD Toshiba pe o altă mașină:

$ sudo smartctl -A /dev/sdb
smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-348.12.2.el8_5.x86_64] (build local)
Drepturi de autor (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== ÎNCEPEREA SECȚIUNII DE CITIRE DE DATE INTELIGENTE ===
Numărul de revizuire al structurii datelor SMART Atribute: 16
Atribute SMART specifice furnizorului cu praguri:
ID# ATTRIBUTE_NAME VALOAREA STRAPHIEI CEL MAI RĂU TIP DE PRAG ACTUALIZAT WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-eșec Întotdeauna - 0
  2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0
  3 Spin_Up_Time 0x0027 100 100 001 Pre-fail Always - 7019
  4 Start_Stop_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 34
  5 Reallocated_Sector_Ct 0x0033 100 100 050 Pre-fail Always - 0
  7 Seek_Error_Rate 0x000b 100 100 050 Pre-eșec Întotdeauna - 0
  8 Seek_Time_Performance 0x0005 100 100 050 Pre-fail Offline - 0
  9 Power_On_Hours 0x0032 062 062 000 Bătrânețea Întotdeauna - 15428
 10 Spin_Retry_Count 0x0033 100 100 030 Pre-fail Always - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 34
191 G-Sense_Error_Rate 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 32
193 Load_Cycle_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 39
194 Temperature_Celsius 0x0022 100 100 000 Bătrânețe Întotdeauna - 31 (Min/Max 15/39)
196 Reallocated_Event_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
197 Current_Pending_Sector 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
198 Offline_Uncorectable 0x0030 100 100 000 Bătrânețe Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Bătrânețe întotdeauna - 0
220 Disk_Shift 0x0002 100 100 000 Bătrânețe Întotdeauna - 0
222 Loaded_Hours 0x0032 062 062 000 Bătrânețe Întotdeauna - 15427
223 Load_Retry_Count 0x0032 100 100 000 Bătrânețe Întotdeauna - 0
224 Load_Friction 0x0022 100 100 000 Bătrânețe Întotdeauna - 0
226 Load-in_Time 0x0026 100 100 000 Bătrânețe Întotdeauna - 648
240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail Offline - 0

M-aș aștepta la ceva de genul acesta din urmă pentru a putea configura o monitorizare adecvată (chiar dacă nu este exactă sau de încredere).

0 + 0

linux

software-raid

seagate

Puncte:0

Server

Simon Richter

04.06.2023, 09:08

Acest articol spune că ele expun atributele SMART în mod normal, dar din motive de ondulare, numai SeaTool știe cum să le interpreteze dincolo de trecere/eșec.

Într-o oarecare măsură, acest lucru este valabil pentru atributele SMART ale oricărui disc, deoarece numai valoarea calculată poate fi citită de mașină, iar interpretarea valorii „brute” este oarecum nedefinită. Temperatura_Celsius este evident, dar timpul de integrare pentru diferitele atribute „rata de eroare” depinde de furnizor, la fel și pragurile. SeaTools știe să interpreteze valorile brute, practic asta este.

Mă îndoiesc că ar vinde multe harddisk-uri dacă suportul SMART lipsea sau era inexact, marea majoritate a discurilor de server merg în matrice RAID unde SMART este singurul standard de monitorizare disponibil.

Ei ar putea fi capabili să-și stivuească propriul software de analiză deasupra unui controler RAID, dar dacă nu se integrează cu un efort minim în soluțiile de monitorizare existente care oferă un tablou de bord pentru întregul centru de date, va fi o soluție de nișă pentru piața pasionaților. .

Acesta este un exemplu al clasei de probleme pe care o numesc probleme „de vârf a lanțului alimentar”, în care mai multe componente software sunt scrise pentru a fi interfața principală cu utilizatorul, în timp ce utilizatorul solicită ca acestea să fie integrate într-un sistem mai mare.

0 + 0

Nicola Mori

04.06.2023, 09:15

Înțeleg, dar smartctl -A nu raportează atribute specifice furnizorului cu valorile cele mai slabe și prag; raportează doar temperaturile curente și de declanșare și unele cifre, cum ar fi ciclurile acumulate de pornire-oprire și ciclurile acumulate de încărcare-descărcare fără niciun interval de referință. Deci, cum poate S.M.A.R.T. deduceți ceva (chiar nu precis) despre starea de sănătate a discului? Cu alte cuvinte, mi-e teamă că înființarea unui sistem automatizat de verificare a stării de sănătate bazat pe S.M.A.R.T. ar putea fi inutil, deoarece discurile nu oferă suficiente informații.

Răspunde

Simon Richter

04.06.2023, 14:25

@NicolaMori, SMART exprimă intervalul de referință prin normalizarea valorilor, așa că pentru monitorizarea independentă de furnizor, tot ce trebuie să verificați este dacă valorile actuale și cele mai slabe sunt peste prag și dacă se îndreaptă spre acesta și cât de repede.

Răspunde

Simon Richter

04.06.2023, 14:29

FWIW, nu mă deranjez cu cea mai mare parte a monitorizării dincolo de desenarea unor grafice frumoase. Am mai multe discuri care au fost scoase din RAID-ul meu pentru că nu rețin date, dar care arată absolut bine în SMART.Tot ce primești de la SMART este un avertisment prealabil, uneori.

Răspunde

Nicola Mori

04.06.2023, 14:58

Problema este doar că cu smartctl -A nu primesc nicio valoare, doar temperatura, așa că nu e nimic de monitorizat. Vezi editarea postării mele originale. Discul S.M.A.R.T. asistența este anunțată ca fiind disponibilă și activată.

Răspunde

Simon Richter

04.06.2023, 16:57

@NicolaMori, am cercetat un pic mai mult -- dump-ul atributului „-A” este specific ATA/SATA și nu va funcționa pentru unitățile SAS. Dump-ul extins `-x` ar trebui să arate puțin mai multe informații, dar funcționează puțin diferit acolo. Pagina de manual `smartctl` are câteva comentarii unde scrie `[ATA]` sau `[SCSI]` pentru a evidenția diferențele.

Răspunde

Nicola Mori

04.06.2023, 17:28

Multumesc foarte mult pentru ajutorul tau. Am încercat cu `-x` și, de asemenea, cu `-d scsi`, dar până la urmă nu sunt mai multe informații tipărite în SECȚIUNEA SMART DATA. Bănuiesc că smart pur și simplu se comportă diferit pentru unitățile SAS și că singurele valori disponibile sunt ciclurile de pornire-oprire, ciclurile de încărcare-descărcare și elementele din lista de defecte, așa cum este raportat în postarea mea inițială. Bănuiesc că mă voi uita pur și simplu la starea de sănătate sintetică (smartctl -H), se pare că rezultatul nu merită efortul de aici. Multumesc din nou!

Răspunde