Puncte:3

ZFS și SAN: problemă cu curățarea datelor

drapel cn

Lucrând ca oameni de știință într-un mediu corporativ, ni se oferă resurse de stocare dintr-un SAN într-o mașină virtuală Ubuntu 20.04 (Proxmox). Controlerul SAN este transmis direct la VM (PCIe passthrough).

SAN-ul în sine folosește hardware Raid 60 (nu ne este oferită nicio altă opțiune) și ne prezintă 380 TB pe care îi putem împărți într-un număr de LUN-uri. Am dori să beneficiem de caracteristicile de compresie și instantanee ZFS. Am optat pentru LUN-uri de 30 x 11 TB pe care apoi le-am organizat ca RAID-Z cu dungi. Configurarea este redundantă (două servere), avem backup-uri și performanța este bună ceea ce ne-a orientat spre striped RAID-Z în favoarea obișnuitelor striped mirrors.

Independent de geometria ZFS, am observat că o sarcină mare de scriere (> 1 GB/s) în timpul scruburilor ZFS are ca rezultat erori de disc, ducând în cele din urmă la dispozitive defectuoase. Privind fișierele care prezintă erori, am putea lega această problemă de procesul de curățare care încearcă să acceseze datele încă prezente în memoria cache a SAN. Cu sarcini moderate în timpul spălării, procesul se finalizează fără erori.

Există parametri de configurare fie pentru ZFS, fie pentru multipath care pot fi reglați în VM pentru a preveni această problemă cu memoria cache SAN?

Ieșirea stării zpool

  piscina: piscina cu san
 stare: ONLINE
  scanare: scrub reparat 0B în 2 zile 02:05:53 cu 0 erori în joi, 17 mar 15:50:34 2022
config:

    NUME STAT CITEȘTE SCRIE CKSUM
    sanpool ONLINE 0 0 0
      raidz1-0 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b0030000002e ONLINE 0 0 0
        wwn-0x60060e8012b003005040b0030000002f ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000031 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000032 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000033 ONLINE 0 0 0
      raidz1-1 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000034 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000035 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000036 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000037 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000038 ONLINE 0 0 0
      raidz1-2 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000062 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000063 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000064 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000065 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000066 ONLINE 0 0 0
      raidz1-3 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b0030000006a ONLINE 0 0 0
        wwn-0x60060e8012b003005040b0030000006b ONLINE 0 0 0
        wwn-0x60060e8012b003005040b0030000006c ONLINE 0 0 0
        wwn-0x60060e8012b003005040b0030000006d ONLINE 0 0 0
        wwn-0x60060e8012b003005040b0030000006f ONLINE 0 0 0
      raidz1-4 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000070 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000071 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000072 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000073 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000074 ONLINE 0 0 0
      raidz1-5 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000075 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000076 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000077 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b00300000079 ONLINE 0 0 0
        wwn-0x60060e8012b003005040b0030000007a ONLINE 0 0 0

erori: nu există erori de date cunoscute

Ieșirea multipath -ll

mpathr (360060e8012b003005040b00300000074) dm-18 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:25 sdz 65:144 activ gata de rulare
  `- 8:0:0:25 sdbd 67:112 activ gata de rulare
mpathe (360060e8012b003005040b00300000064) dm-5 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:13 sdn 8:208 activ gata de rulare
  `- 8:0:0:13 sdar 66:176 activ gata de rulare
mpathq (360060e8012b003005040b00300000073) dm-17 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:24 sdy 65:128 activ gata de rulare
  `- 8:0:0:24 sdbc 67:96 activ gata de rulare
mpathd (360060e8012b003005040b00300000063) dm-4 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:12 sdm 8:192 activ gata de rulare
  `- 8:0:0:12 sdaq 66:160 activ gata de rulare
mpathp (360060e8012b003005040b00300000072) dm-16 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:23 sdx 65:112 activ gata de rulare
  `- 8:0:0:23 sdbb 67:80 activ gata de rulare
mpathc (360060e8012b003005040b00300000062) dm-3 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:11 sdl 8:176 activ gata de rulare
  `- 8:0:0:11 sdap 66:144 activ gata de rulare
mpatho (360060e8012b003005040b00300000071) dm-15 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:22 sdw 65:96 activ gata de rulare
  `- 8:0:0:22 sdba 67:64 activ gata de rulare
mpathb (360060e8012b003005040b00300000038) dm-2 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:10 sdk 8:160 activ gata de rulare
  `- 8:0:0:10 sdao 66:128 activ gata de rulare
mpathn (360060e8012b003005040b00300000070) dm-14 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:21 sdv 65:80 activ gata de rulare
  `- 8:0:0:21 sdaz 67:48 activ gata de rulare
mpatha (360060e8012b003005040b0030000002e) dm-1 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:1 sdb 8:16 activ gata de rulare
  `- 8:0:0:1 sdaf 65:240 activ gata de rulare
mpathz (360060e8012b003005040b00300000033) dm-26 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:5 sdf 8:80 activ gata de rulare
  `- 8:0:0:5 sdaj 66:48 activ gata de rulare
mpathm (360060e8012b003005040b0030000006f) dm-13 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:20 sdu 65:64 activ gata de rulare
  `- 8:0:0:20 sday 67:32 activ gata de rulare
empatie (360060e8012b003005040b00300000032) dm-25 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:4 sde 8:64 activ gata de rulare
  `- 8:0:0:4 sdai 66:32 activ gata de rulare
mpathl (360060e8012b003005040b0030000002f) dm-12 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:2 sdc 8:32 activ gata de rulare
  `- 8:0:0:2 sdag 66:0 activ gata de rulare
mpathx (360060e8012b003005040b0030000007a) dm-24 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:30 sdae 65:224 activ gata de rulare
  `- 8:0:0:30 sdbi 67:192 activ gata de rulare
mpathad (360060e8012b003005040b00300000037) dm-30 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:9 sdj 8:144 activ gata de rulare
  `- 8:0:0:9 sdan 66:112 activ gata de rulare
mpathk (360060e8012b003005040b0030000006d) dm-11 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:19 sdt 65:48 activ gata de rulare
  `- 8:0:0:19 sdax 67:16 activ gata de rulare
mpathw (360060e8012b003005040b00300000031) dm-23 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:3 sdd 8:48 activ gata de rulare
  `- 8:0:0:3 sdah 66:16 activ gata de rulare
mpathac (360060e8012b003005040b00300000036) dm-29 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:8 sdi 8:128 activ gata de rulare
  `- 8:0:0:8 sdam 66:96 activ gata de rulare
mpathj (360060e8012b003005040b0030000006c) dm-10 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:18 sds 65:32 activ gata de rulare
  `- 8:0:0:18 sdaw 67:0 activ gata de rulare
mpathv (360060e8012b003005040b00300000079) dm-22 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:29 sdad 65:208 activ gata de rulare
  `- 8:0:0:29 sdbh 67:176 activ gata de rulare
mpathab (360060e8012b003005040b00300000035) dm-28 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:7 sdh 8:112 activ gata de rulare
  `- 8:0:0:7 sdal 66:80 activ gata de rulare
mpathi (360060e8012b003005040b0030000006b) dm-9 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:17 sdr 65:16 activ gata de rulare
  `- 8:0:0:17 sdav 66:240 activ gata de rulare
mpathu (360060e8012b003005040b00300000077) dm-21 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:28 sdac 65:192 activ gata de rulare
  `- 8:0:0:28 sdbg 67:160 activ gata de rulare
mpathaa (360060e8012b003005040b00300000034) dm-27 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:6 sdg 8:96 activ gata de rulare
  `- 8:0:0:6 sdak 66:64 activ gata de rulare
mpath (360060e8012b003005040b0030000006a) dm-8 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:16 sdq 65:0 activ gata de rulare
  `- 8:0:0:16 sdau 66:224 activ gata de rulare
mpatht (360060e8012b003005040b00300000076) dm-20 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:27 sdab 65:176 activ gata de rulare
  `- 8:0:0:27 sdbf 67:144 activ gata de rulare
mpathg (360060e8012b003005040b00300000066) dm-7 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:15 sdp 8:240 activ gata de rulare
  `- 8:0:0:15 sdat 66:208 activ gata de rulare
mpaths (360060e8012b003005040b00300000075) dm-19 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:26 sdaa 65:160 activ gata de rulare
  `- 8:0:0:26 sdbe 67:128 activ gata de rulare
mpathf (360060e8012b003005040b00300000065) dm-6 HITACHI,OPEN-V
size=11T features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=activ
  |- 7:0:0:14 sdo 8:224 activ gata de rulare
  `- 8:0:0:14 sdas 66:192 activ gata de rulare
Andrew Henle avatar
drapel ph
„SAN-ul în sine folosește hardware Raid 6 (nu ne este oferită nicio altă opțiune) și ne prezintă 380 TB pe care îi putem împărți într-un număr de LUN-uri” Vă rog să-mi spuneți că echipa dvs. de stocare nu a făcut ceva stupid, cum ar fi a crea un singur Matrice RAID-6 de la 32 de discuri de 12 TB apoi spuneți: „Herp! Derp! Iată 380 TB! Câte LUN-uri ar trebui să prezentăm din această matrice?” Dacă au făcut acea urâciune, va fi un spectacol de groază de [citire-modificare-scriere](https://www.vmdamentals.com/?p=897) ori de câte ori vei scrie la oricare dintre LUN-urile tale. O scriere scrub la toate LUN-urile va copleși acea stocare SAN.
Andrew Henle avatar
drapel ph
Ceea ce ar fi trebuit să facă este să spună: „Avem N cantitate de unități X TB. Cum doriți să le împărțim în matrice separate și vă vom prezenta pe fiecare ca un LUN separat.” Dar asta ar necesita mai mult efort din partea lor. FWIW, matricele RAID-6 cu câte 10 unități fiecare este probabil un punct favorabil - deși ar trebui să fiți conștient de timpii de reconstrucție RAID pentru unitățile eșuate pentru acestea. Peste 30 de matrice RAID-6 de unități sunt asinine și incompetente. Și da, sper că au citit asta dacă asta au făcut.
Benoit avatar
drapel cn
Dragă Andrew, nu este nici cel mai rău caz al primului tău comentariu, nici cel mai bun caz al celui de-al doilea comentariu... Mă gândesc că au folosit matrice RAID6 mai mici decât cele 10 unități pe care le-ai menționat (RAID 60, îmi voi edita întrebarea în consecință) a cerut o divizare pentru a se potrivi cu geometria ZFS (în calitate de total ignorant, am sperat la un disc per LUN), dar se pare că este o soluție pe care au cumpărat-o așa cum este și diviziunea este fixată de la început. SAN pare în regulă chiar și în timpul spălării sau în timpul mișcării multor date. Cei 380 TB ai mei sunt doar o mică parte, după cum am înțeles.
ewwhite avatar
drapel ng
Ai nevoie de un [profesionist/consultant ZFS](https://serverfault.com/users/13325/ewwhite?tab=profile) și de niște susținători pentru a lucra cu IT-ul corporativ...
Benoit avatar
drapel cn
Despre obținerea de ajutor profesional: acest lucru s-ar putea ajunge așa cum a fost cazul auditurilor de securitate. Ca oameni de știință meteorologici, deseori ne atingem limitele...
Puncte:0
drapel uz

Te uiți în locul greșit. Dacă SAN defecte sub sarcină, atunci nu te poți baza pe ea, punct. Remediați SAN.

Benoit avatar
drapel cn
Vă mulțumesc pentru răspuns, după cum am înțeles, nu avem strict o defecțiune a SAN-ului sub încărcare, dar datele din cache sunt marcate greșit ca defecte la curățarea sub sarcină. Curățarea după o încărcare puternică nu duce la nicio eroare. Mă voi lupta cu persoanele responsabile pentru SAN pentru a obține mai multe informații dincolo de „totul este în regulă” din partea lor.
Benoit avatar
drapel cn
O clarificare cu privire la posibilele probleme cu SAN. Am așteptat trei luni înainte de a posta întrebarea mea pentru a exclude o problemă flagrantă cu SAN. Datele sunt întotdeauna copiate din pool-uri rapide de SSD Raid 10 care generează încărcătură grea. În această perioadă, aproximativ 400 TB de date au fost curățate fără o singură eroare, cu toate acestea, am încărcare limitată în timpul scruburilor.
Puncte:0
drapel ng

Acest lucru este într-adevăr în domeniul servicii profesionale, având în vedere natura specifică a instalării și configurația SAN ciudată.

Acesta poate fi reglat și ajustat pentru un comportament și performanță mai bune.

  • De ce te freci, totuși?
  • Ce reglabile ați ajustat pentru a permite curățarea unui bazin cu această geometrie?
  • Vă rugăm să postați dvs /etc/modprobe.d/zfs.conf
  • Vă rugăm să postați Proxmox-ul dvs /etc/sysctl.conf
Benoit avatar
drapel cn
Multumesc pentru raspuns. Curățăm deoarece stocăm instantanee ale discurilor și bazelor de date Proxmox VM în acest pool. Ne-am gândit că pe dispozitivele bloc integritatea datelor este importantă. Nu am ajustat încă niciun reglabil, momentan putem aloca până la 80 GB pentru ZFS ARC.Nu am creat niciun fișier zfs.conf, de obicei doar setăm acolo parametrii ARC, dar pentru ZFS pe SAN nu avem suficientă experiență pentru a face acest lucru. În ceea ce privește Proxmox /etc/sysctl.conf: toate liniile sunt comentate, nu am editat acest fișier. Rețineți că Proxmox transmite adaptorul SAN către VM (PCIe passtrough).
ewwhite avatar
drapel ng
Configurarea necesită lucru. Contactați-mă offline.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.