Puncte:0

Utilizator novice btrfs: eșecuri ale sumei de control și erori de intrare/ieșire din belșug

drapel nl

Un coleg de casă mi-a sugerat că ar trebui să folosesc btrfs în loc de ceea ce am făcut până acum, adică să folosesc mdadm cu unități clonate și să adaug o unitate suplimentară în matrice pentru a „clona” o copie de rezervă. Sistemul are trei unități, toate modele diferite din punct de vedere fizic:

  • /dev/sda: TOSHIBA HDWQ140
  • /dev/sdb: HGST HUS724040AL
  • /dev/sdc: WDC WDS250G2B0B

Ei bine, am instalat btrfs, dar acum funcționează de aproape un an și aflu că ar fi trebuit să ruleze un cron săptămânal pentru a-l „scrub”.Am început să încerc să configurez un script pentru asta, deși pare un sistem prostesc de bricolaj care vă cere să căutați un script pe google (cel mai bun hit pe care l-am găsit a fost din 2014) și să îl instalați pentru a vă menține sistemul de fișiere în funcțiune.

În timp ce făceam toate aceste chestii de administrare, am găsit câteva fișiere care trebuiau mutate... Voi sări peste detaliile sângeroase, dar mutarea fișierelor de la un sistem de fișiere btrfs la altul și înapoi a generat tot felul de „input/output” erori" (niciodată nu am văzut asta cu ext4), și chiar această bijuterie:

4 ianuarie 21:19:19 kernel gazdă: [9771285.171522] încercare de a accesa dincolo de sfârșitul dispozitivului
4 ianuarie 21:19:19 kernel gazdă: [9771285.171522] sda1: rw=1, want=70370535518208, limit=7814035087
4 ianuarie 21:19:19 kernel gazdă: [9771285.171529] Eroare BTRFS (dispozitiv sda1): bdev /dev/sda1 erori: wr 1, rd 0, flush 0, corupt 5, gen 0

Presupun că acestea sunt legate. Dar aici este adevărata prostie. Primesc erori de sumă de verificare nu doar pe fișierele care au rămas de un an, ci și pe fișierele pe care le-am copiat literalmente cu doar câteva ore în urmă pe o unitate fizică diferită. De asemenea, aproape toate sunt pe fișiere enorme (lucruri precum imagini ISO DVD), dacă asta indică ceva?

Așa că da, aș putea vedea o defecțiune simultană a triplei unități sau btrf-urile pur și simplu îmi corupă fișierele pentru mine?

De asemenea, fiecare postare de la oamenii cunoscători ai btrfs include un mic drăguț „ei bine, ar trebui să îl restaurați din copii de rezervă... do ai copii de rezervă, nu-i așa". Așa că spuneți-mi, oameni buni, ce folosiți exact pentru a face backup la un hard disk de 4 TB? Pentru că nu pot exact, știți, să-l scriu pe un DVD și dacă hard disk-urile sunt atât de nesigure atunci la ce servesc backup-urile pe hard disk?

Întrebări atât de serioase:

  1. Sunt aceste erori de sumă de control cu ​​adevărat normale și așteptate?
  2. De ce le văd pe fișiere care au fost copiate doar astăzi?
  3. Vor fi suficiente scrub-urile obișnuite pentru a proteja împotriva acestui lucru?
  4. Ar trebui să cumpăr noi hard disk-uri și să le arunc pe toate cele aflate în prezent în mașină pentru că într-adevăr eșuează?
  5. Cum do recomandați să faceți copii de rezervă pentru unități de date de mai mulți terabyte?

Actualizare 2022-01-07: Am alergat smartctl pe toate unitățile și acestea nu raportează deloc probleme. UDMA_CRC_Error_Count brut este 0 pentru toate unitățile. Am încercat să restaurăm fișierele corupte... fișierul tar copiat pe mașină a eșuat după câteva fișiere cu o eroare I/O. Chiar nu habar ce se întâmplă aici:

  • Dacă unitățile sau cablurile ar fi proaste, aceasta ar apărea în SMART, nu?
  • Dacă procesorul sau memoria ar fi proaste, sistemul nu ar funcționa impecabil? (În prezent, 115 zile fără probleme evidente)?
  • Dacă aceasta ar fi o eroare generală cu btrfs, nu ar fi tot pe internet?

Deci unde ar putea fi de fapt problema?

drapel in
Ei bine, există un motiv pentru care toate distribuțiile serioase care au încercat btrfs s-au întors de la el. Pur și simplu nu este suficient de stabil pentru a-l folosi în producție.
djdomi avatar
drapel za
iar cineva a preferat ZFS și alții din nou nu ;)
drapel in
Referitor la: „Cum faci copii de rezervă pentru 4TB”: 4TB nu înseamnă nimic. Obțineți asta într-un computer obișnuit de consum în zilele noastre. Faceți backup pe un alt disc de 4 TB (sau mai mult într-un RAID redundant) sau, de preferință, pe o matrice de discuri mai mare, care vă permite să faceți copii de rezervă incrementale. Depinde într-adevăr de modelul tău de amenințare cum faci backup, dacă vrei să te protejezi doar împotriva defecțiunilor hardware (un singur disc este suficient) sau împotriva altor pierderi de date (cripto troian, ștergeri accidentale etc.)
Puncte:0
drapel nl

Răspund la întrebarea mea pentru că cred că este ceva interesant și ar putea fi de folos cuiva.

TL;DR Cauza principală a problemelor raportate pare să fi fost defectarea DRAM-ului, nu a hard disk-urilor.

  1. Nu, aceste sume de control nu sunt normale și de așteptat. Un alt sistem care rula aceeași versiune btrfs funcționa perfect. Ele indică ceva greșit, dar nu neapărat cu discurile. Vezi articolul următor.
  2. Ele apar pe datele nou copiate, deoarece există o defecțiune majoră a DRAM-ului în sistem, confirmată de X86MemTest. Doar unul dintre cele două stick-uri era prost și s-a întâmplat să fie stick-ul mapat la memorie mai mare, așa că numai atunci când memoria scăzută a fost folosită toată (rar, dar mai frecvent pentru fișiere mai mari) s-au mușcat eșecurile. Acesta este motivul pentru care nu au afectat nucleul.
  3. Scruburile regulate ar fi putut detecta problema mai devreme. Scruburile obișnuite nu ajută atunci când aveți o unitate (de exemplu, /dev/sdc) care nu face parte dintr-o oglindă, deoarece, deși poate vedea o eroare de sumă de control, nu are nicio speranță să o corecteze - acest este în mod fundamental o limitare a btrfs, în care ar fi putut alege o funcție de sumă de control cu ​​o distanță de hamming mai mare, dar, în schimb, ar fi ales una care a fost mai rapid de calculat (cred).
  4. Am cumpărat hard disk-uri noi, care pot servi drept copii de rezervă, dar diverse teste SMART și alte eforturi sugerează că unitățile actuale sunt probabil OK. „Defectarea tuturor unităților deodată” este probabil un indiciu bun că problema nu este hard disk-urile.
  5. După cum s-a menționat, unitățile mari au devenit ieftine... și având în vedere că unitățile în sine nu par a fi punctul de eșec, ideea de a folosi hard disk-uri pentru backup pare să aibă valabilitate continuă.
Spooler avatar
drapel us
Acesta este unul dintre motivele pentru care memoria ECC este *foarte recomandată pe sistemul BTRFS (și sistemele ZFS). Aceste sisteme de gestionare a datelor fac o treabă grozavă în gestionarea problemelor în stocarea secundară/terțiară, dar erorile de stocare primară vor distruge cele mai mari matrice.
Spooler avatar
drapel us
De asemenea, puteți lua în considerare gruparea pentru a rezolva această problemă, efectuând sume de control în trei sisteme independente pentru a stabili un consens privind integritatea datelor și a preveni orice defecțiune a unui sistem pentru distrugerea datelor. Aceasta nu este mai ieftină decât RAM ECC, dar în unele cazuri poate avea sens să se formeze un cluster, mai degrabă decât să investească mai mult în noduri individuale (dacă hardware-ul necesar pentru consumator este deja acolo, de exemplu). Niciunul dintre aceste sisteme de fișiere nu se poate grupa pe noduri pe cont propriu, așa că ceea ce sugerez ar trebui făcut folosind ceva de genul GlusterFS sau DRBD (ceea ce sugerez, de asemenea, nu este simplu).
Greg Nelson avatar
drapel nl
Mulțumesc @Spooler. *M-am gândit* că placa mea de bază (Gigabyte Aorus B450) acceptă RAM ECC, dar pe literă mică scrie „în modul non-ECC”. Pentru a fi clar, acesta este un server de acasă, așa că nu am prea mult spațiu pentru a configura un cluster de mașini.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.