Am un cluster HA proxmox cu trei noduri.
Am replicare între două noduri. Fiecare dintre aceste două noduri are un pool ZFS care este utilizat pentru replicare. Am reguli de replicare configurate între cele două servere cu ZFS pentru HA.
Am un al treilea nod mai vechi (numit virtual) care nu are nici un disc ZFS, așa că nu îl folosesc ca țintă de replicare.
Astăzi unul dintre nodurile cu ZFS a murit, iar unul dintre containere (CT) s-a terminat pe al treilea nod, cel non ZFS, nu știu cum.
Deoarece acest al treilea nod nu are niciun pool ZFS (și nici volume replicate), containerul este într-o stare ciudată, deoarece discul la care face referire nu există. Acum nu pot migra acest CT la nodul rămas corect.
Când încerc să migrez CT la nodul corect, primesc această eroare:
Jurnal de replicare
2022-03-21 17:53:01 105-0: începe munca de replicare
2022-03-21 17:53:01 105-0: invitat => CT 105, rulare => 0
21-03-2022 17:53:01 105-0: volume => rpool:subvol-105-disk-0
2022-03-21 17:53:01 105-0: creați instantaneul „__replicate_105-0_1647881581__” pe rpool:subvol-105-disk-0
2022-03-21 17:53:01 105-0: terminați jobul de replicare cu eroare: eroare zfs: Pentru lista de permisiuni delegate, rulați: zfs allow|unallow
Evident, cel de-al treilea nod nu are volumul rpool, așa că nu știu de ce proxmox a decis să migreze acel CT acolo. Cum pot porni acel container pe nodul rămas? Discul corespunzător există pe serverul care are pool-ul ZFS, nu pot doar să migrez la el.
Iată o captură de ecran a stării mele actuale de cluster și a sarcinilor de replicare. După cum puteți vedea, replicarea se face doar între nodurile proxmox-2 și proxmox-3, care sunt cele care au stocare ZFS. Containerul despre care vorbesc este cel cu ID 105