Am actualizat recent clusterul nostru la Vmware Esxi 7.0 Update 3.
Câteva zile mai târziu, mașina virtuală a început să înghețe aleatoriu.
Nu este afișat niciun mesaj pe ecran. În evenimentele vm văd aceste mesaje:
In(05) vcpu-0 - NVME-VMM: resetarea nivelului controlerului prin tranziția biților CC.EN pe nvme0
In(05) vcpu-0 - NVME-CORE: Se efectuează o resetare parțială a regulilor și cozilor de așteptare a controlerului.
În(05) vcpu-1 - NVME-VMK: nvme0:0: Ignorarea completărilor [ignoreCmp=0].
În(05) vcpu-8 - NVME-VMM: CQ#8 neașteptat scrieți: prevHead=46, newHead=47, size=256, inflight=0
În(05) vcpu-0 - Vix: [vmxCommands.c:7182]: VMAutomation_HandleCLIHLTEvent. Nu face nimic.
În(05) vcpu-0 - MsgHint: msg.monitorevent.halt
In(05)+ vcpu-0 - CPU a fost dezactivat de sistemul de operare invitat. Opriți sau resetați mașina virtuală.
În mașina virtuală nu văd erori raportate.
Cu excepția faptului că acesta apare cam în momentul în care aparatul se blochează.
kernel: [28667.084637] nvme nvme0: I/O 197 QID 14 timeout, anulare
kernel: [28667.084716] nvme nvme0: stare de anulare: 0x0
nucleu: [28697.292556] nvme nvme0: I/O 197 QID 14 timeout, resetare controler
nucleu: [28697.356676] nvme nvme0: 15/0/0 cozi implicite/citire/sondaj
Mașina virtuală este configurată cu un controler nvme și un disc virtual este plasat pe un volum mapat la stocarea nvme prin nvme prin canal de fibră.
După retrogradarea versiunii Esxi înapoi la 7.0 Update 2d, problemele au dispărut.
Vmware îmi spune că ar putea fi legat de o eroare a nucleului.
Care ar putea fi problema?