Puncte:0

Raid 5 cu hot spare (17+1) a devenit cumva Raid 5 fără hot spare (18 + 0)? (Dell Poweredge T640)

drapel es

Deci recent am avut probleme ciudate cu serverul de stocare RAID. Cea mai recentă problemă nu am idee ce s-ar putea întâmpla.

config este Raid 5; 17 + 1 (17 volum de disc + 1 de rezervă dedicată)

Un disc s-a marcat ca „eliminat”. Deoarece avem un buget extrem în acest moment, încercăm să reașezăm toate unitățile înainte de a le înlocui, cu condiția să fie doar o unitate care a fost semnalată în orice moment (ideea este că ne putem permite asta + un alt disc. să eșueze din cauza config. 17+1). Serverele sunt abia utilizate în ceea ce privește nevoile reale de protecție a datelor, spațiul fiind folosit într-un fel de funcție temporară de bloc de schițe de procesare, mai degrabă decât pentru arhivarea lucrurilor importante. Deci nu este sfârșitul lumii, dar totuși am dori să avem bufferul raid 5, plus bufferul suplimentar al rezervă dedicată.

Am reinstalat discul și, în loc ca serverul să revină la configurația 17+1, a apărut în mod bizar ca fiind acum un volum de 18 disk raid 5. În trecut, resetarea a readus serverul la 17+1, așa cum era de așteptat. Uneori, +1 revine ca străin sau nu este atribuit automat ca rezervă dedicată, dar revine întotdeauna separat de cele 17 discuri în uz. Fie hot-spare-ul este cel care a fost scos, fie unul dintre cele 17 a fost cel care a fost „demontat”, iar hot-spare-ul a luat automat locul celui de-al 17-lea disc din volumul raid 5, astfel încât discul care este reinstalat este în plus față de cele 17 discuri care alcătuiesc noul set de 17.

Ce fac? Probabil că nu pot micșora volumul la 17, apoi reatribui discul ca unitate de rezervă dedicată, deoarece volumul raid este acum de 18 discuri. Dar dacă este așa, nu mai avem o configurație care să ne ofere posibilitatea de a ne recupera după 2 unități pierdute, deoarece nu există al 19-lea slot pentru a instala un hot spare dedicat.

Puncte:4
drapel ru

Un RAID5 cu 18 discuri este o epavă de tren care așteaptă să se întâmple... Sper că aveți o copie de rezervă bună.

Serios, trebuie să utilizați RAID6 pentru orice depășește maximum 5 discuri sau discuri mai mari de 1 TB.

Deoarece nu aveți opțiunea de a micșora matricea, va trebui să adăugați discuri pentru a putea migra la RAID6, cu sau fără hot spare. Cu 18 discuri, aș sugera în mod serios să folosiți un RAID60 cu subbary de nouă discuri (thx @Nikita).

nu mai avem o configurație care să ne ofere posibilitatea de a ne recupera după 2 unități pierdute

Nu ai avut niciodată. RAID5 cu gazdă de rezervă se poate recupera de la unu s-a pierdut unitatea și dupa reconstruire se poate recupera de la o alta unitate pierdută. Dacă se întâmplă ceva în timpul reconstrucției - ceea ce nu este neobișnuit - matricea se pierde.

nu există al 19-lea slot pentru a instala o rezervă dedicată.

Dacă nu puteți adăuga unități, oricum ați rămas aproape fără spațiu. Fie testați schema de backup și recuperare, ștergând și creând un RAID6 sau mai bine - RAID60 de data aceasta, sau luați în considerare migrarea la un nou server.

Dacă nu există buget și nici o fereastră de întreținere pentru recrearea matricei, nu aveți mai multe opțiuni. Asigurați-vă că există și de încredere bine testat copie de rezervă (două instanțe de rezervă, pe medii diferite, testare, inclusiv recuperarea completă), rulați o curățare regulată (reducerea semnificativă a șanselor de a înregistra erori de date învechite în timpul reconstrucției), opriți practica de reașezare (care v-ar fi putut duce în această problemă în primul loc) și ține-ți degetele mari. Fugi de fum.

Apropo, ați estimat costul și scenariul în care matricea eșuează cu totul?

Nikita Kipriyanov avatar
drapel za
Un singur RAID6 din 18 dispozitive este aproape la fel de prost ca RAID5. Aș sugera RAID60, două grupuri de 9 discuri.
Zac67 avatar
drapel ru
@NikitaKipriyanov Punct corect - un singur RAID5 mare este mult mai rău decât un singur RAID6 mare.
drapel es
Mulțumiri! Acesta este primul meu sistem mare de depozitare modern. Încerc să găsesc cel mai bun mod de a o gestiona. A fost proiectat de un comp. om de știință care este „vechi școală”. Inteligență, dar nu axată pe afaceri/cost/performanță. Costul pierderii nu este zero, dar nu este deosebit de mare. Luăm discuri și încercăm să extragem informații utile din ele, fie date reale ale fișierului, fie metadate/relații. Datele reale generate sunt de multe ori mai mari decât dimensiunea unității sursă, dar probabil 99,9% sunt eliminate odată ce au fost raportate/colatate. Principalul lucru care mi s-a părut ciudat este de ce volumul raid 5 s-a schimbat automat de la 17 discuri la 18.
drapel es
Scrieți comentariul despre toleranța la eșec: Cred că înțeleg ce vrei să spui. Exista 2 posibilitati A) 0000h = 17 folosit | 0 reconstruire | 1 rezerva | 0 mort; 0100h = 16 folosit | 1 reconstruire | 0 de rezervă | 1 mort; 0300h = 15 folosit | 1 reconstruire | 0 de rezervă | 2 morți; 0400h = a doua moare înainte de reconstrucțiile de rezervă, 15/17 nu se poate recupera. B) 0000h = 17 folosit | 0 reconstruire | 1 rezerva | 0 mort; 0100h = 16 folosit | 1 reconstruire | 0 de rezervă | 1 mort; 0300h = 17 folosit | 0 reconstruire | 0 de rezervă | 1 mort; acum o a doua moarte, dar raidul a fost reconstruit deja; 0400h = 16 folosit | 0 reconstruire | 0 de rezervă | 2 morți |
Puncte:1
drapel co

Raid6 este mult mai bun decât R5 + hot spare, deoarece de două ori mai multe discuri au permisiunea de a eșua simultan. De fapt, este o groază cu atât de multe drive-uri oricum, dar mai puțină groază decât ar fi R5 ;)

Acum aveți R5 pe 18 discuri, așa că, dacă ceva eșuează, vă bazați pe citirea corectă a tuturor sectoarelor de pe 17 discuri (datorită modului în care funcționează sumele CRC, controlerul trebuie să citească toate sectoarele goale și toate cele utilizate). În plus, unele dintre aceste discuri sunt instabile și poate au eșuat deja.

De obicei, unitatea este scoasă din RAID, deoarece este nevoie de mai mult timp decât de obicei pentru a citi datele. Mai mult timp decât de obicei este de obicei un semn că unitatea dvs. este în pragul eșecului și poate apărea sau nu în SMART. Și acestea sunt probabil „problemele ciudate” cu unitățile defectuoase care pot fi ulterior reatașate la matrice.

Reașezarea unei unități sau utilizarea acesteia este poate o idee bună pe Raid 1/Raid10, nu într-o configurare în care nu aveți marjă. Într-un astfel de caz ca al tău, aș presupune că matricea este deja moartă, dacă nu, probabil se va întâmpla foarte curând.

Deci, IMO, soluția ar fi - folosiți R10 cu aceste unități de rahat, defecte și limitați cumva utilizarea resurselor SAU faceți R6 cu o rezervă, astfel încât să fie reconstruit instantaneu după ce o unitate este pierdută. Este mai bine să aveți o anumită reținere și să ștergeți datele istorice dacă aveți buget decât să pierdeți totul.

Probabil că trebuie să începi să-l repari cât de curând. Vorbește cu șeful și comunică-i că acest aspect al raidului este inadecvat și că există 3 opțiuni:

  • Continuați în R5 și pierdeți totul într-un viitor nu atât de îndepărtat
  • Reconstrucție în R10 și limitarea datelor stocate
  • R6 + rezervă, care este probabil o idee foarte proastă, dar poate ați putea face R6 fără rezervă pentru această procesare temporară și R1 pentru toate lucrurile importante (în acest fel nu veți sacrifica prea mult spațiu de stocare)

De fapt, ești foarte norocos că asta încă funcționează...

drapel es
Mulțumiri. Da, probabil că suntem norocoși să rulăm pe acest set de date. Voi citi câteva despre alte modele. etc. Când mi-am făcut educația formală în IT, tehnologia de stocare nu era la fel de avansată ca în zilele noastre (nu epoca de piatră, ci de mult acum), așa că cu siguranță mai am multe de făcut. Designerul sistemului (șeful meu) este, de asemenea, mai mult un expert în știință/cercetare decât un expert în stocarea datelor.Este perfect deschis la idei noi, dar constrângerile bugetare sunt intense și nu există o teamă mare de pierdere de date. Este mai mult ceea ce învățăm din procesare decât construirea unei moșteniri/arhive.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.