Am un pool ZFS în starea curentă:
[root@SERVER-abc ~]# stare zpool -v DATAPOOL
pool: DATAPOOL
stare: DEGRADAT
stare: unul sau mai multe dispozitive au întâmpinat o eroare care a dus la date
corupţie. Aplicațiile pot fi afectate.
acțiune: restaurați fișierul în cauză, dacă este posibil. În caz contrar, restaurați
întregul pool de la backup.
vezi: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
scanare: 18,5 milioane resinvered în 00:00:01 cu 0 erori în miercuri 5 ianuarie 19:10:50 2022
config:`
NUME STAT CITEȘTE SCRIE CKSUM
DATAPOOL DEGRADAT 0 0 0
raidz2-0 DEGRADAT 0 0 0
gptid/14c707c6-f16c-11e8-b117-0cc47a2ba44e DEGRADAT 0 0 17 prea multe erori
spare-1 ONLINE 0 0 17
gptid/168342c5-f16c-11e8-b117-0cc47a2ba44e ONLINE 0 0 0
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e ONLINE 0 0 0
gptid/1875501a-f16c-11e8-b117-0cc47a2ba44e ONLINE 0 0 30
gptid/1a16d37c-f16c-11e8-b117-0cc47a2ba44e ONLINE 0 0 29
piese de schimb
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e INUSE utilizat în prezent
erori: au fost detectate erori permanente în următoarele fișiere:
DATAPOOL/VMS/ubuntu_1804_LTS_ustrich-m6i87@auto-2022-01-04_11-41:<0x1>
<0x1080a>:<0x1>
<0x182a>:<0x1>
DATAPOOL/VMS/ubuntu_1804_LTS_ustrich-m6i87:<0x1>
<0x16fa>:<0x1>
Acesta este un zpool cu 4 + 1 unități de rezervă. Ceva s-a întâmplat și brusc unitatea de rezervă se împerechează automat cu cealaltă unitate ca rezervă-1.
Acest lucru este neașteptat pentru mine, deoarece:
- De ce nu a înlocuit unitatea de rezervă degradată?
- Cum să afli de ce rezervele a sărit la rezerve-1?
- Este posibil (sau chiar recomandat/posibil) să recuperați unitatea de rezervă și apoi să înlocuiți unitatea degradată?
Scopul este de a salva piscina fără a fi nevoie să obțin tone de date din backup, dar în esență vreau să înțeleg ce s-a întâmplat și de ce. Și cum să faceți față acestor situații ca în „cele mai bune practici”.
Rezervoare o grămadă! :)
Sistemul este: SuperMicro, TrueNAS-12.0-U4.1, zfs-2.0.4-3
Editare: Ieșirea a fost schimbată de la starea zpool -x la starea zpool -v DATAPOOL
Edit2: Începând de acum am înțeles că primul 168342c5 pare să aibă o eroare, iar cel de rezervă (1bfaa607) a sărit. După aceea, 14c707c6 s-a degradat, de asemenea.
Edit3, întrebare suplimentară: deoarece toate unitățile (cu excepția celei de rezervă-1) par să aibă erori CKSUM - ce indică asta? Cablare? HBA? Toate unitățile mor simultan?
Ultima actualizare, după zpool clar
și zpool scrub DATAPOOL
pare clar că s-au întâmplat multe și nu există nicio modalitate de a salva piscina:
pool: DATAPOOL
stare: DEGRADAT
stare: unul sau mai multe dispozitive sunt în curs de reactivare. Piscina va
continuă să funcționeze, eventual într-o stare degradată.
acțiune: Așteptați până se finalizează resilver.
scanare: resilver în desfășurare din joi 6 ianuarie 16:18:05 2022
1.82T scanat la 1.55G/s, 204G emis la 174M/s, 7.82T total
40,8G resilvered, 2,55% gata, 12:44:33 până la final
config:
NUME STAT CITEȘTE SCRIE CKSUM
DATAPOOL DEGRADAT 0 0 0
raidz2-0 DEGRADAT 0 0 0
gptid/14c707c6-f16c-11e8-b117-0cc47a2ba44e DEGRADAT 0 0 156 prea multe erori
de rezervă-1 DEGRADAT 0 0 0
gptid/168342c5-f16c-11e8-b117-0cc47a2ba44e DEGRADAT 0 0 236 prea multe erori
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e ONLINE 0 0 0 (resilvering)
gptid/1875501a-f16c-11e8-b117-0cc47a2ba44e DEGRADAT 0 0 182 prea multe erori
gptid/1a16d37c-f16c-11e8-b117-0cc47a2ba44e DEGRADAT 0 0 179 prea multe erori
piese de schimb
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e INUSE utilizat în prezent
Voi verifica acum toate statisticile inteligente.