Am un cluster vcenter de 12 gazde ESX (ClusterA) și un alt cluster de 3 gazde ESX (ClusterB). Toate acestea sunt un amestec de poweredge r620s și r630s.
Unele dintre gazde au erori hardware care pot fi văzute în jurnalele iDRAC și ecranul LCD frontal, cum ar fi:
- Eroare de verificare a mașinii CPU
- Rata de erori de memorie corectabilă a fost depășită
După cum era de așteptat, acest lucru face ca acele gazde să fie indisponibile (nu răspund) în cluster.
Remedierea acestor erori hardware implică de obicei acești pași:
- oprire
- scoateți plăcile de rețea
- porniți și așteptați pornirea cu succes a sistemului de operare
- oprire
- plasați din nou aceleași plăci de rețea
- aprinde
Este ciudat pentru mine că acest lucru ar remedia erorile CPU și memorie, dar asta se întâmplă în mod constant.
ClusterB este în regulă - nicio problemă. Adevărata problemă cu care mă confrunt este că, atunci când repar câteva gazde din ClusterA, alte 1-3 gazde aleatoare din ClusterA se vor prăbuși într-o zi sau două. După acele 1-3 accidente inițiale, dacă las lucrurile în pace, nu mai se blochează gazde după câteva săptămâni. Acest lucru mă readuce la locul de unde am început și am observat acest comportament de mai multe ori acum.
Aveți idei despre ce să verificați?