Am un sistem Linux la distanță care a devenit foarte lent ieri. Deoarece deblocarea telecomenzilor pe care le-am configurat nu pare să funcționeze fiabil și nu voi putea accesa fizic mașina în următoarele 10 zile, încerc să depanez acest lucru în loc să repornesc.
Instrumentele de stare a sistemului cu care sunt obișnuit sunt htop și dstat şi de când am avut dstat rulând într-o sesiune ssh, pot vedea că de ieri 2021-09-09 08:51:42 un nucleu CPU este întotdeauna utilizat pe deplin de "sys" - ceea ce cred că înseamnă nucleul?
Nu văd niciun proces sau thread vinovat htop.
Am oprit toate serviciile utilizatorului și am demontat tot ce nu era esențial, ceea ce a făcut ca sistemul să răspundă din nou puțin mai bine, dar încă nu atât de rapid pe cât ar trebui (am primit un procesor Intel i7 cu un SSD).
am gasit https://tanelpoder.com/posts/high-system-load-low-cpu-utilization-on-linux/ și instalat referința https://0x.tools/ pentru a obține acest rezultat pentru psn -G syscall,wchan:
=== Fire active =============================================== =============================================
mostre | fire_medii | comm | stare | syscall | wchan
--------------------------------------------- --------------------------------------------- -------
100 | 1.00 | (btrfs-cleaner) | Rulează (ON CPU) | [alergare] | 0
100 | 1.00 | (dpkg) | Disc (neîntreruptibil) | fsync | btrfs_commit_transaction
100 | 1.00 | (jurnal-systemd) | Disc (neîntreruptibil) | ftruncate | wait_current_trans
1 | 0,01 | (sshd) | Rulează (ON CPU) | [alergare] | 0
1 | 0,01 | (termal) | Disc (neîntreruptibil) | [alergare] | ec_guard
1 | 0,01 | (termal) | Rulează (ON CPU) | [alergare] | 0
The dpkg procesul poate fi explicat prin încercarea mea de a rula upgrade apt care rulează la o 1/1000 din viteza la care te-ai aștepta în mod normal (doar un sentiment, nu l-ai măsurat).
Poate că există o problemă cu sistemul meu de fișiere rădăcină btrfs...? Nu pot găsi btrfs-cleaner în htop, cred că voi mai cerceta ceva despre ce este asta...
Am alergat o btrfs scrub aseară, care s-a terminat super rapid și nu a găsit probleme:
# stare de scrub btrfs /
UUID: 2f38e0ad-7f16-4a36-8096-b7981d47b4ff
Scrub a început: joi, 9 sept 23:59:00 2021
Stare: terminat
Durata: 0:00:24
Total de curățat: 53,09 GiB
Rată: 1,78 GiB/s
Rezumat erori: nu au fost găsite erori
Dar când am folosit nano pentru a modifica un fișier de configurare pe partiția rădăcină, încărcarea și salvarea a fost foarte lent chiar acum.
Tocmai am dat peste asta: https://www.reddit.com/r/btrfs/comments/fmucrq/btrfs_snapshots_make_entire_system_lag_cpu_usage/ care are un comentariu care sună similar cu problema mea:
de fiecare dată la pornire și după un instantaneu btrfs-transacti și btrfs-cleaner ar consuma complet un nucleu, provocând un întârziere imens
doar că acest lucru spune că durează doar câteva minute la pornirea și crearea instantaneelor, dar mi-am dezactivat btrbk configurarea copiei de rezervă pe acest sistem acum câteva zile, când unul dintre discurile atașate a început să arate probleme.
Nu sunt sigur dacă sistemul meu de fișiere rădăcină btrfs folosea qgrupuri, dar tocmai am fugit cota btrfs dezactivată / care a durat aproximativ 10 secunde și nu a dat niciun feedback.
Are cineva vreun alt indiciu pentru mine cum să depanez/rezolv această problemă?