Lucrez într-un mediu cu un cluster NVMeoF de înaltă disponibilitate încorporat și am nevoie ca acest cluster să fie disponibil în câteva minute de la pornirea la rece a tuturor nodurilor și încercând să configurez un RAID-10 pe acest cluster.
Infrastructura moștenită cu care lucrez se bazează pe GFS2 și LVM2. Din păcate, opțiunea raid-10 pentru LVM pare să permită doar un jurnal pentru GFS2, atunci când am nevoie de mai multe. Am început să lucrez pe calea instalării manuale a unei serii de matrice RAID-1 cu DRBD peste care să pot configura un RAID-0 cu LVM2. Am reușit să configurez acest lucru fără prea multe probleme. Cu toate acestea, în acest moment, mă întâlnesc cu o problemă: cum închid și pornesc o copie de rezervă a nodurilor pentru o tranziție fără probleme a datelor?
Încercările mele inițiale, de bază, au dus la pornirea fiecărei plăci într-o stare cu sincronizare la 0% și durează ore până se resincronizează. Am folosit următoarele comenzi pe fiecare dintre cele patru noduri pentru a încerca să o închid în mod curat:
vgchange -a n g1 #g1 este volumul logic așezat deasupra volumelor fizice ale lui r0 și r1
vgchange --lockstop
drbdadm down r0 #drbd resursă configurată ca volum fizic
drbdadm down r1 #drbd resursă configurată ca volum fizic
Apoi, fiecare placă este oprită și încerc să pornesc înapoi cu următoarele comenzi:
drbdadm sus r0
drbdadm sus r1
if [ `hostname` = "gazdă-adecvată"]; apoi drbdadm primar --force r0; fi
if [ `hostname` = "corespunzător-gazdă2" ]; apoi drbdadm primar --force r1; fi
vgchange --lockstart
vgchange -asy g1
Am observat că uneori, acest lucru funcționează. Alteori, mi se spune că metadatele mele sunt invalide și va trebui să le recreez. După rularea drbdadm create-md r0 sau r1, sincronizarea prin drbd are loc de la un punct de pornire 0%, ceea ce durează ore, pe care efortul meu nu îl poate susține. Nu sunt sigur dacă o anumită secvență de pornire/oprire îmi poate permite să evit în mod fiabil problemele legate de sincronizare; dacă există o modalitate de a forța DRBD să accelereze eforturile de resincronizare; dacă trecerea la o configurație RAID-01 în care DRBD este suprapus peste două volume logice ar putea asigura o configurație de pornire mai fiabilă, care poate sări peste sincronizarea inițială; sau dacă folosesc instrumente complet greșite pentru treabă.
Are ServerOverflow vreo perspectivă care să mă ajute să-mi instrumentez configurația pentru porniri și opriri fiabile și curate? Orice ajutor ar fi foarte apreciat!