Un coleg de casă mi-a sugerat că ar trebui să folosesc btrfs în loc de ceea ce am făcut până acum, adică să folosesc mdadm cu unități clonate și să adaug o unitate suplimentară în matrice pentru a „clona” o copie de rezervă. Sistemul are trei unități, toate modele diferite din punct de vedere fizic:
- /dev/sda: TOSHIBA HDWQ140
- /dev/sdb: HGST HUS724040AL
- /dev/sdc: WDC WDS250G2B0B
Ei bine, am instalat btrfs, dar acum funcționează de aproape un an și aflu că ar fi trebuit să ruleze un cron săptămânal pentru a-l „scrub”.Am început să încerc să configurez un script pentru asta, deși pare un sistem prostesc de bricolaj care vă cere să căutați un script pe google (cel mai bun hit pe care l-am găsit a fost din 2014) și să îl instalați pentru a vă menține sistemul de fișiere în funcțiune.
În timp ce făceam toate aceste chestii de administrare, am găsit câteva fișiere care trebuiau mutate... Voi sări peste detaliile sângeroase, dar mutarea fișierelor de la un sistem de fișiere btrfs la altul și înapoi a generat tot felul de „input/output” erori" (niciodată nu am văzut asta cu ext4), și chiar această bijuterie:
4 ianuarie 21:19:19 kernel gazdă: [9771285.171522] încercare de a accesa dincolo de sfârșitul dispozitivului
4 ianuarie 21:19:19 kernel gazdă: [9771285.171522] sda1: rw=1, want=70370535518208, limit=7814035087
4 ianuarie 21:19:19 kernel gazdă: [9771285.171529] Eroare BTRFS (dispozitiv sda1): bdev /dev/sda1 erori: wr 1, rd 0, flush 0, corupt 5, gen 0
Presupun că acestea sunt legate. Dar aici este adevărata prostie. Primesc erori de sumă de verificare nu doar pe fișierele care au rămas de un an, ci și pe fișierele pe care le-am copiat literalmente cu doar câteva ore în urmă pe o unitate fizică diferită. De asemenea, aproape toate sunt pe fișiere enorme (lucruri precum imagini ISO DVD), dacă asta indică ceva?
Așa că da, aș putea vedea o defecțiune simultană a triplei unități sau btrf-urile pur și simplu îmi corupă fișierele pentru mine?
De asemenea, fiecare postare de la oamenii cunoscători ai btrfs include un mic drăguț „ei bine, ar trebui să îl restaurați din copii de rezervă... do ai copii de rezervă, nu-i așa". Așa că spuneți-mi, oameni buni, ce folosiți exact pentru a face backup la un hard disk de 4 TB? Pentru că nu pot exact, știți, să-l scriu pe un DVD și dacă hard disk-urile sunt atât de nesigure atunci la ce servesc backup-urile pe hard disk?
Întrebări atât de serioase:
- Sunt aceste erori de sumă de control cu adevărat normale și așteptate?
- De ce le văd pe fișiere care au fost copiate doar astăzi?
- Vor fi suficiente scrub-urile obișnuite pentru a proteja împotriva acestui lucru?
- Ar trebui să cumpăr noi hard disk-uri și să le arunc pe toate cele aflate în prezent în mașină pentru că într-adevăr eșuează?
- Cum do recomandați să faceți copii de rezervă pentru unități de date de mai mulți terabyte?
Actualizare 2022-01-07: Am alergat smartctl pe toate unitățile și acestea nu raportează deloc probleme. UDMA_CRC_Error_Count brut este 0 pentru toate unitățile. Am încercat să restaurăm fișierele corupte... fișierul tar copiat pe mașină a eșuat după câteva fișiere cu o eroare I/O. Chiar nu habar ce se întâmplă aici:
- Dacă unitățile sau cablurile ar fi proaste, aceasta ar apărea în SMART, nu?
- Dacă procesorul sau memoria ar fi proaste, sistemul nu ar funcționa impecabil? (În prezent, 115 zile fără probleme evidente)?
- Dacă aceasta ar fi o eroare generală cu btrfs, nu ar fi tot pe internet?
Deci unde ar putea fi de fapt problema?