Am încercat să aflu ce se întâmplă cu unele dintre serverele noastre. Acestea sunt gazde KVM care au 5 -8 VM. RAM >= 64 GB, 10 - 20 de nuclee. Acestea rulează Ubuntu 18.04 LTS 4.15.0-142-kernel generic, partiția rădăcină ext4 criptată LUKS.
În mod aleatoriu, unele dintre aceste servere vor deveni foarte lente. Toate indicațiile ar indica Disk IO, dar într-adevăr nu există multă sarcină de lucru IO consumatoare (pidstat, iostat, vmstat). Pe scurt, sistemul va intra într-o stare ciudată de blocare în care totul devine lent și nu răspunde.
Un lucru pare să fie comun cu serverele nesănătoase. Rescrierea va deveni mare ~ 2,5 GB și va fi blocată la acea valoare fără nicio modificare. Acesta ar putea fi un simptom sau o cauză, chiar nu știu. Experimentez cu reducerea dirty_ratio, dar nu pot spune că a funcționat încă.
Murdar: 1504 kB
Scriere inversă: 2537628 kB
Iată o urmă de apel a sarcinilor blocate colectate folosind Sysrq-w
Urmărirea apelurilor pentru sarcini blocate
De asemenea, am încercat să leg problema de hardware și am constatat că acest lucru afectează diferite hardware-uri de disc.
O repornire pare să rezolve problema temporar. Aceasta va reveni uneori după câteva zile.
Orice idee ar fi de ajutor. Anunță-mă dacă ai nevoie de mai multe informații.
Mulțumesc anticipat