Puncte:3

Raid 10 Probleme de performanță

drapel dk

Sunt în curs de a configura un sistem de stocare în oglindă pentru afacerea noastră.

Nu avem bugetul pentru preconstrucții, așa că încerc să fac tot ce pot pentru a obține cel mai bun profit pentru banii noștri. Iată defalcarea noastră hardware:

San1 și San2 Windows Server 2019

SUPERMICRO MBD-H11SSL-I CPU Amd Epyc 7251 cu 8 nuclee

64 GB RAM 8 GB x8

SSD pentru OS 500GB

LSI 9380-8i8e

Intel 10G nic, 4 porturi - rețea Iscsi

Intel 25G nic, 2 porturi - Sincronizare între servere - Jumbo Frames-9014.

1 nic intern 1G (date), 1 IPMI În uz pe MB

IW-RJ224-03 Carcasă SSD 24bay, populată cu 24 Samsung 860 Pro de 2TB, configurație Raid10. Conectat prin 2 cabluri sas la cardul 9380.

Vom folosi Starwind pentru a sincroniza cele 2 servere.

În timpul procesului de configurare a Starwind, am încercat să văd performanța noastră de sincronizare Folosind diferite dimensiuni de imagine de la 500G la 5TB

Când începe o sincronizare, sistemul care scrie datele de sincronizare este abia utilizabil. Sistemul se bâlbâie, monitorul de performanță se blochează și totul funcționează îngrozitor, dacă nu dezactivez toate opțiunile de stocare în cache. Dacă activez writeback, sau Enable disk cache, observ Core0 pe numa 0 peg 100% și totul merge spre sud... alte nuclee arată foarte puțin, sau deloc utilizare, minus câteva.

Am încercat orice tip de combinație de configurare a unității pentru a trece peste asta, dar nu ajung nicăieri în acest moment. Trebuie să-mi lipsească ceva. Am configurat matricea în setări 2x8, 6x4 și 4x6 (bandă standard de 64k) crezând că a fost o limitare a unității care m-a împiedicat, dar am avut o situație în care nimic nu a mers prost și unitatea a scris o sincronizare de 5TB fără probleme , și într-o oră cu răspuns perfect al sistemului. În acel moment, avea viteze de peste 1,6 GB/s, cu ambele cache activate pe o matrice 4x6. Am observat că core0, numa0 era aproape inactiv în acel moment, iar core 2,numa 0 făcea sarcini grele. Am dat jos totul pentru a le reproduce și reconstrui, de atunci am rămas blocat. Acum, fiecare transfer atinge maximul de aproximativ 600 MB de scrieri cu memoria cache dezactivată, iar când este activat atinge aproximativ 1 GB/s înainte de a se lupta vizibil.

Orice idei care să mă ajute să mă îndrume în direcția corectă sunt apreciate! Firmware-ul actualizat pe 9380, driverele pentru carduri Raid, componentele Nics și MB sunt toate la zi.

Puncte:5
drapel vn

Iată câteva gânduri, care pot ajuta la rezolvarea problemei:

  1. Dacă utilizați un fel de NIC-Teaming, aceasta poate afecta performanța iSCSI și replicarea într-un mod imprevizibil.Majoritatea furnizorilor SAN/VSAN nu acceptă Teaming și recomandă MPIO. Dezactivați NIC-Teaming.
  2. Ai menționat Intel 25G NIC. Modelul XXV710 poate avea probleme cu cadrele Jumbo activate. Dezactivează Jumbo Frames și rulează teste suplimentare.
  3. Valoarea Jumbo Frame 9126 nu este tipică pentru sistemul de operare Windows și este utilizată mai ales pe comutatoare. Valoarea implicită Windows este 9014.
  4. LSI 9380 nu are Samsung 980 Pro în lista de unități acceptate. Mai mult, 980 Pro este o unitate NVMe (nu SATA). Ești sigur că ai 980 Pro?

De asemenea, aș recomanda să contactați asistența Starwind, așa cum a menționat BaronSamedi1958.

drapel dk
Da, am fost peste tot acolo, nu? Da, sunt 860 de SSD-uri... și da, a fost 9014... m-am grăbit după 10 ore în care mi-am smuls părul :). L-am fixat pe 710 25GB nic care nu avea scalarea numa activată. asta a clarificat problemele pe care le aveam instantaneu.
Puncte:3
drapel kz

Trebuie să reglați cu precizie prioritatea de sincronizare pentru ca întregul lucru să funcționeze corect.

https://www.starwindsoftware.com/help/ChangingSynchronizationPriority.html

Pe măsură ce vă ocupați de o soluție plătită, v-aș sugera să solicitați asistență.

drapel dk
Prioritatea nu ar trebui să afecteze performanța serverului. Este pe un server de 2x25 Gb pentru sincronizare. multă lățime de bandă. sincronizarea sufocă serverul când folosește doar aproximativ 5 Gb per conexiune.
BaronSamedi1958 avatar
drapel kz
Nu este vorba despre rețea, ci despre traficul de sincronizare care saturează lățimea de bandă DISK.
drapel dk
Multumesc pentru ajutor. De fapt, scalarea NUMA nu era activată pe 25G nic... așa că a fixat 1 nucleu și a susținut totul, aducând sistemul într-o stare de nerăspuns. Mulțumesc.
BaronSamedi1958 avatar
drapel kz
Mă bucur să aud că problema a dispărut! :)

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.