Puncte:0

Blocați dispozitivul brusc plin; nu poate identifica un singur fișier ca vinovat și SMART nu afișează erori de unitate

drapel nl

Înființat

  • Ubuntu 20.04
  • Dell PowerEdge R820
  • [PERC H710] 2x unități virtuale (RAID-1 Boot, RAID-0 Work Drive)
  • Totul a fost bine de 6 luni
  • Nici măcar fără precedent, doar brusc, conduceți plin.

Detalii...

Această mașină este folosită pentru a trasa Chia (criptomonedă) - funcționează de luni de zile fără probleme.

Am observat că procesul de plotare s-a prăbușit (bladebit) - ceea ce este destul de neobișnuit, se întâmplă poate o dată la 2 luni - așa că m-am dus să-l pornesc și am început imediat să primesc aparat plin tipuri de erori.

Am tras o rapidă df -h pentru a vedea ce se întâmplă și am primit asta:

Filesystem Size Used Avail Use% Montat pe
udev 252G 0 252G 0% /dev
tmpfs 51G 2,9M 51G 1% /run
/dev/sda2 549G 512G 8,7G 99% /
tmpfs 252G 4.0K 252G 1% /dev/shm
tmpfs 5.0M 0 5.0M 0% /run/lock
tmpfs 252G 0 252G 0% /sys/fs/cgroup
/dev/sda1 511M 5,3M 506M 2% /boot/efi
tmpfs 51G 0 51G 0% /run/user/1000
<... SNIP ...>

/dev/sda2 este unitatea de pornire - este de fapt un disc virtual RAID-1 (2-disk) gestionat de placa RAID H710 de pe server, dar nu cred că este teribil de relevant.

ÎN MOD NORMAL această unitate este plină cu 3%, are instalat doar Ubuntu Server 20.04 bootabil și nimic altceva.

A trebuit să șterg fișierul tmp din root și alte câteva fișiere gunoi pentru a elibera spațiu suficient pentru ca lucrurile să funcționeze din nou, dar este aproape plin.

Am urmat nenumărate sfaturi „găsește cel mai mare fișier de pe serverul tău” de aici și de pe web, de exemplu Aceasta, cu comanda sudo du -a / 2>/dev/null | sortare -n -r | cap -n 20 revenind:

$ sudo du -a / 2>/dev/null | sortare -n -r | cap -n 20
[sudo] parola pentru utilizator: 
1010830919685 /
1010823681740 /mnt
<<... SNIP...>

Ok, așa că ceva uriaș stau înăuntru / aparent? Un simplu ls nu arată nimic interesant acolo:

$ ls -lFa /
total 84
drwxr-xr-x 20 rădăcină rădăcină 4096 12 ianuarie 17:45 ./
drwxr-xr-x 20 rădăcină rădăcină 4096 12 ianuarie 17:45 ../
lrwxrwxrwx 1 root root 7 Aug 24 08:41 bin -> usr/bin/
drwxr-xr-x 4 root root 4096 6 ianuarie 06:22 boot/
drwxr-xr-x 2 root root 4096 28 septembrie 14:04 cdrom/
drwxr-xr-x 21 root root 6920 5 ianuarie 16:05 dev/
drwxr-xr-x 105 root root 4096 5 ianuarie 01:54 etc/
drwxr-xr-x 3 root root 4096 28 septembrie 14:18 home/
lrwxrwxrwx 1 root root 7 august 24 08:41 lib -> usr/lib/
lrwxrwxrwx 1 root root 9 august 24 08:41 lib32 -> usr/lib32/
lrwxrwxrwx 1 root root 9 august 24 08:41 lib64 -> usr/lib64/
lrwxrwxrwx 1 root root 10 august 24 08:41 libx32 -> usr/libx32/
drwx------ 2 root root 16384 28 septembrie 14:03 pierdut+găsit/
drwxr-xr-x 2 root root 4096 24 august 08:42 media/
-rw-r--r-- 1 rădăcină rădăcină 6678 9 ianuarie 00:59 MegaSAS.log
drwxr-xr-x 64 root root 4096 5 ianuarie 01:48 mnt/
drwxr-xr-x 3 root root 4096 30 noiembrie 18:14 opt/
dr-xr-xr-x 1356 root root 0 3 ian 04:40 proc/
drwx------ 7 root root 4096 Nov 30 18:07 root/
drwxr-xr-x 34 root root 1100 12 ianuarie 08:04 rulare/
lrwxrwxrwx 1 root root 8 Aug 24 08:41 sbin -> usr/sbin/
drwxr-xr-x 9 root root 4096 28 septembrie 22:06 snap/
drwxr-xr-x 2 root root 4096 24 august 08:42 srv/
dr-xr-xr-x 13 root root 0 3 ian 04:40 sys/
drwxrwxrwt 13 rădăcină rădăcină 4096 12 ianuarie 17:15 tmp/
drwxr-xr-x 15 root root 4096 24 august 08:46 usr/
drwxr-xr-x 13 rădăcină rădăcină 4096 24 august 08:47 var/

Folosind sudo ncdu -x / (legătură) nu arată nimic destul de ciudat de interesant:

    2.4 GiB [##########] /usr                                                                                                                                                                                                                 
    1,5 GiB [###### ] /var
  732,5 MiB [## ] /acasă
  202,8 MiB [ ] /boot
    5,5 MiB [ ] /opt
    5,4 MiB [ ] /etc
    1,9 MiB [ ] /rădăcină
  168,0 KiB [ ] /tmp
<<... SNIP...>

Unde se află acest ~510 GB de spațiu folosit?

Tragerea a sudo lsof | grep a fost șters pentru a vedea dacă există vreun fișier uriaș reținut, mi-a dat asta:

systemd-j    1134                               root   36u      REG                8,2 134217728    5246838 /var/log/journal/771d7f1addf64a7b930191976176149e/system@ae2f8b2397c441f7a286d25144be755f-0000000000315312-0005d4e51ab8f8e9.journal (deleted)
unattende 3932 root 3w REG 8,2 113 5246631 /var/log/unattended-upgrades/unattended-upgrades-shutdown.log.1 (șters)
unattende 3932 3943 gmain root 3w REG 8,2 113 5246631 /var/log/unattended-upgrades/unattended-upgrades-shutdown.log.1 (șters)

Ok, deci păstrează un fișier jurnal de 134 MB, dar asta încă nu explică de ce dintr-o dată sunt ocupați 510 GB de unitate.

Am încercat și câteva căutări suplimentare, de exemplu Aceasta, și nici nu a rezultat în nimic util.

Am folosit pana la urma megacli pentru a verifica datele SMART de pe cele 2 unități din matricea RAID-0 și au 0 erori raportate, așa că nu pare că matricea a fost deteriorată.

Vreo idee sau trucuri suplimentare pe care aș putea încerca să-mi dau seama ce absorb acel spațiu?

ACTUALIZARE #1 - Am observat când am tastat top acea buff/cache era aproape exact de dimensiunea GB-urilor care erau consumate pe unitatea rădăcină. Știu că spațiul nu este luat în considerare folosit, dar am decis să trag o scurtă:

sudo sh -c „/usr/bin/echo 3 > /proc/sys/vm/drop_caches”

care a durat aproximativ 3 minute, dar în cele din urmă s-a întors - top acum arată buff/cache ca < 1k, DAR df -h nu arată nicio modificare în utilizarea discului.

Am sperat că este un fișier cache misterios pe disc sau ceva de genul ăsta.

drapel nl
UPDATE 2 - În cazul în care îmi „ascundeam” un fișier masiv, instalându-l deasupra, „montez -o bind” directorul meu rădăcină la „/tmp/fake-root” pentru a arunca o privire în ROOT și directoarele `/mnt` doar în cazul în care era ceva acolo... nu am descoperit nimic. Acest sfat a fost de la: https://unix.stackexchange.com/a/198543/509866
drapel nl
UPDATE 3 - A declanșat un `sudo find / -type f -printf '%s %p\n' 2>&1 | grep -v „Permisiune refuzată” | sort -nr | cap -10` și, din păcate, în afară de a spune că `/proc/kcore` este ca 100 EB, nu mi-a arătat alte fișiere mari despre care nu știam deja.
drapel nl
RĂSPUNS FOLOSIND SFATURI DE LA - https://serverfault.com/questions/275206/disk-full-du-tells-different-how-to-further-investigate
drapel nl
Se pare că odată ce mi-am revenit rădăcina la un sub director și am făcut un `sudo du /tmp/fake-root/ | sortare -n -r | cap -20` pe el, am găsit imediat niște fișiere uriașe care erau „ascunse” de monturi așezate deasupra lor care nu ar trebui să fie acolo.
Puncte:1
drapel nl

Turns out once I rebound my root to a sub dir and did a

sudo du /tmp/fake-root/ | sort -n -r | head -20 

on it, I immediately found some giant files that were "hidden" by mounts sitting on top of them that shouldn't be there.

https://serverfault.com/questions/275206/disk-full-du-tells-different-how-to-further-investigate

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.