Am un sistem Linux la distanță care a devenit foarte lent ieri. Deoarece deblocarea telecomenzilor pe care le-am configurat nu pare să funcționeze fiabil și nu voi putea accesa fizic mașina în următoarele 10 zile, încerc să depanez acest lucru în loc să repornesc.
Instrumentele de stare a sistemului cu care sunt obișnuit sunt htop
și dstat
şi de când am avut dstat
rulând într-o sesiune ssh, pot vedea că de ieri 2021-09-09 08:51:42 un nucleu CPU este întotdeauna utilizat pe deplin de "sys" - ceea ce cred că înseamnă nucleul?
Nu văd niciun proces sau thread vinovat htop
.
Am oprit toate serviciile utilizatorului și am demontat tot ce nu era esențial, ceea ce a făcut ca sistemul să răspundă din nou puțin mai bine, dar încă nu atât de rapid pe cât ar trebui (am primit un procesor Intel i7 cu un SSD).
am gasit https://tanelpoder.com/posts/high-system-load-low-cpu-utilization-on-linux/ și instalat referința https://0x.tools/ pentru a obține acest rezultat pentru psn -G syscall,wchan
:
=== Fire active =============================================== =============================================
mostre | fire_medii | comm | stare | syscall | wchan
--------------------------------------------- --------------------------------------------- -------
100 | 1.00 | (btrfs-cleaner) | Rulează (ON CPU) | [alergare] | 0
100 | 1.00 | (dpkg) | Disc (neîntreruptibil) | fsync | btrfs_commit_transaction
100 | 1.00 | (jurnal-systemd) | Disc (neîntreruptibil) | ftruncate | wait_current_trans
1 | 0,01 | (sshd) | Rulează (ON CPU) | [alergare] | 0
1 | 0,01 | (termal) | Disc (neîntreruptibil) | [alergare] | ec_guard
1 | 0,01 | (termal) | Rulează (ON CPU) | [alergare] | 0
The dpkg
procesul poate fi explicat prin încercarea mea de a rula upgrade apt
care rulează la o 1/1000 din viteza la care te-ai aștepta în mod normal (doar un sentiment, nu l-ai măsurat).
Poate că există o problemă cu sistemul meu de fișiere rădăcină btrfs...? Nu pot găsi btrfs-cleaner
în htop
, cred că voi mai cerceta ceva despre ce este asta...
Am alergat o btrfs scrub
aseară, care s-a terminat super rapid și nu a găsit probleme:
# stare de scrub btrfs /
UUID: 2f38e0ad-7f16-4a36-8096-b7981d47b4ff
Scrub a început: joi, 9 sept 23:59:00 2021
Stare: terminat
Durata: 0:00:24
Total de curățat: 53,09 GiB
Rată: 1,78 GiB/s
Rezumat erori: nu au fost găsite erori
Dar când am folosit nano pentru a modifica un fișier de configurare pe partiția rădăcină, încărcarea și salvarea a fost foarte lent chiar acum.
Tocmai am dat peste asta: https://www.reddit.com/r/btrfs/comments/fmucrq/btrfs_snapshots_make_entire_system_lag_cpu_usage/ care are un comentariu care sună similar cu problema mea:
de fiecare dată la pornire și după un instantaneu btrfs-transacti și btrfs-cleaner ar consuma complet un nucleu, provocând un întârziere imens
doar că acest lucru spune că durează doar câteva minute la pornirea și crearea instantaneelor, dar mi-am dezactivat btrbk
configurarea copiei de rezervă pe acest sistem acum câteva zile, când unul dintre discurile atașate a început să arate probleme.
Nu sunt sigur dacă sistemul meu de fișiere rădăcină btrfs folosea qgrupuri
, dar tocmai am fugit cota btrfs dezactivată /
care a durat aproximativ 10 secunde și nu a dat niciun feedback.
Are cineva vreun alt indiciu pentru mine cum să depanez/rezolv această problemă?