Puncte:2

Sisteme de fișiere Numai citire pe mai multe dispozitive

drapel my

Compania pentru care lucrez are aproximativ 100 de servere Ubuntu 18.04 împrăștiate în Statele Unite, ca parte a uneia dintre liniile noastre de produse. Nu am avut nicio problemă cu aceste mașini de 1-2 ani, până în ultima săptămână. În ultimele 5 zile, șase unități au avut erori critice, ducând în cele din urmă la un sistem de fișiere numai în citire.

Am primit, în sfârșit, acces fizic la unul dintre dispozitive. Am găsit următoarele în DMESG: EXT4-fs (dm-0): RDWR nu a putut fi remontat din cauza listei de inoduri orfane neprocesate. Vă rugăm să demontați/remontați în schimb Și rularea fsck.ext4 -n /dev/sda2 (care este partiția rădăcină) generează mai multe inoduri orfane. Sunt sigur că un fsck l-ar putea remedia, dar sunt mai interesat de ceea ce cauzează acest lucru în primul rând.

Am găsit și câteva erori de kernel în syslog:


27 iulie 12:35:09 xxxxxxx nucleu: [ 5505.937302] EROARE: nu se poate gestiona cererea de paginare a nucleului la ffff93cdf5ef2eaa
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937348] IP: kmem_cache_alloc+0x7a/0x1c0
27 iulie 12:35:09 xxxxxxx nucleu: [ 5505.937360] PGD 87d99067 P4D 87d99067 PUD 0 
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937383] Hopa: 0000 [#3] SMP PTI
Jul 27 12:35:09 xxxxxxx kernel: [ 5505.937395] Modules linked in: ccm intel_rapl intel_soc_dts_thermal intel_soc_dts_iosf intel_powerclamp coretemp kvm_intel arc4 kvm irqbypass snd_hda_codec_hdmi punit_atom_debug joydev iwlmvm snd_hda_codec_realtek intel_cstate snd_hda_codec_generic mac80211 snd_hda_intel iwlwifi snd_hda_codec snd_hda_core snd_hwdep hid_multitouch input_leds cfg80211 snd_pcm ftdi_sio lpc_ich serio_raw snd_timer usbserial btusb cdc_acm btrtl snd mei_txe shpchp mei soundcore hci_uart btbcm btqca btintel rfkill_gpio bluetooth ecdh_generic pwm_lpss_platform pwm_lpss mac_hid sch_fq_codel ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi ip_tables x_tables autofs4 btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1
Jul 27 12:35:09 xxxxxxx kernel: [ 5505.937571]  raid0 multipath linear hid_generic usbhid i915 crct10dif_pclmul crc32_pclmul drm_kms_helper ghash_clmulni_intel cryptd syscopyarea sysfillrect igb sysimgblt psmouse fb_sys_fops dca i2c_algo_bit drm ptp pps_core ahci libahci video i2c_hid hid
Iul 27 12:35:09 xxxxxxx kernel: [ 5505.937646] CPU: 0 PID: 1212 Comm: uwsgi Tainted: G D 4.15.0-151-generic #157-Ubuntu
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937657] Nume hardware: Winmate Inc. IB3S/IB32S, BIOS V210 05/06/2019
27 iulie 12:35:09 kernel xxxxxxx: [ 5505.937676] RIP: 0010:kmem_cache_alloc+0x7a/0x1c0
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937689] RSP: 0018:ffffb7b6c1207d58 EFLAGS: 00010286
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937703] RAX: ffff93cdf5ef2eaa RBX: 0000000000000000 RCX: 0000000000000000
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937715] RDX: 0000000000009791 RSI: 00000000014080c0 RDI: 0000440bc0024800
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937727] RBP: ffffb7b6c1207d88 R08: ffffd7b6bfc24800 R09: ffff93aaf1400c00
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937738] R10: 0000000000000010 R11: 000000000026d00 R12: ffff93cdf5ef2ea
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937750] R13: 00000000014080c0 R14: ffff93aafb017800 R15: ffff93aaf1405e00
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937765] FS: 00007fe86c207740(0000) GS:ffff93aaffc00000(0000) knlGS:0000000000000
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937778] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937789] CR2: ffff93cdf5ef2eaa CR3: 00000001314ce000 CR4: 00000000001006f0
27 iulie 12:35:09 kernel xxxxxxx: [ 5505.937800] Urmărire apel:
27 iulie 12:35:09 nucleul xxxxxxx: [ 5505.937824] ? __delayacct_tsk_init+0x1e/0x40
27 iulie 12:35:09 kernel xxxxxxx: [ 5505.937844] __delayacct_tsk_init+0x1e/0x40
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937868] copy_process.part.35+0x6d3/0x1c00
27 iulie 12:35:09 nucleul xxxxxxx: [ 5505.937887] ? __handle_mm_fault+0xa21/0xff0
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937911] _do_fork+0xdf/0x400
27 iulie 12:35:09 nucleul xxxxxxx: [ 5505.937931] ? __do_page_fault+0x2a1/0x4b0
27 iulie 12:35:09 nucleul xxxxxxx: [ 5505.937951] ? get_unused_fd_flags+0x30/0x40
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937971] SyS_clone+0x19/0x20
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.937990] do_syscall_64+0x73/0x130
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938009] entry_SYSCALL_64_after_hwframe+0x41/0xa6
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938025] RIP: 0033:0x7fe86a002b7c
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938036] RSP: 002b:00007fff26bfcc60 EFLAGS: 00000246 ORIG_RAX: 0000000000000038
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938052] RAX: ffffffffffffffda RBX: 00007fff26bfcc60 RCX: 00007fe86a002b7c
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938063] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000001200011
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938075] RBP: 00007fff26bfccd0 R08: 00007fe86c207740 R09: 00007fe86a5cab40
27 iulie 12:35:09 xxxxxxx nucleu: [ 5505.938086] R10: 00007fe86c207a10 R11: 0000000000000246 R12: 0000000000000000
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938098] R13: 0000000000000020 R14: 0000000000000000 R15: 0000000001abacf8
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938113] Cod: 50 08 65 4c 03 05 0f d5 1b 4d 49 83 78 10 00 4d 8b 20 0f 8b 20 0f 84 40 0f 84 05 0f 84 40 0f 47 20 49 8b 3f 4c 01 e0 <48> 8b 18 49 33 9f 40 01 00 00 48 89 c1 48 0f c9 4c 89 e0 48 31 
27 iulie 12:35:09 kernel xxxxxxx: [ 5505.938259] RIP: kmem_cache_alloc+0x7a/0x1c0 RSP: ffffb7b6c1207d58
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938269] CR2: ffff93cdf5ef2eaa
27 iulie 12:35:09 xxxxxxx kernel: [ 5505.938284] ---[ final trace 5841e09627f12869 ]---
26 iulie 19:46:35 xxxxxxx kernel: [167923.077278] BUG: nu se poate gestiona cererea de paginare a nucleului la ffff994c94603766
26 iulie 19:46:35 xxxxxxx kernel: [167923.077295] IP: down_write+0x1f/0x40
26 iulie 19:46:35 xxxxxxx kernel: [167923.077298] PGD a0599067 P4D a0599067 PUD 0 
26 iulie 19:46:35 xxxxxxx kernel: [167923.077304] Hopa: 0002 [#2] SMP PTI
Jul 26 19:46:35 xxxxxxx kernel: [167923.077308] Modules linked in: ccm arc4 snd_hda_codec_hdmi iwlmvm snd_hda_codec_realtek snd_hda_codec_generic mac80211 intel_rapl intel_soc_dts_thermal intel_soc_dts_iosf intel_powerclamp coretemp kvm_intel joydev kvm irqbypass punit_atom_debug intel_cstate iwlwifi snd_hda_intel snd_hda_codec ftdi_sio serio_raw hid_multitouch snd_hda_core lpc_ich cfg80211 input_leds mei_txe snd_hwdep snd_pcm usbserial btusb btrtl mei snd_timer snd cdc_acm soundcore shpchp hci_uart btbcm btqca btintel bluetooth rfkill_gpio pwm_lpss_platform pwm_lpss ecdh_generic mac_hid sch_fq_codel ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi ip_tables x_tables autofs4 btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1
Jul 26 19:46:35 xxxxxxx kernel: [167923.077360]  raid0 multipath linear hid_generic usbhid i915 igb drm_kms_helper dca ahci i2c_algo_bit crct10dif_pclmul syscopyarea crc32_pclmul sysfillrect sysimgblt ghash_clmulni_intel ptp cryptd fb_sys_fops psmouse pps_core libahci drm i2c_hid video hid
Jul 26 19:46:35 xxxxxxx kernel: [167923.077381] CPU: 2 PID: 22792 Comm: uwsgi Tainted: G B D W 4.15.0-151-generic #157-Ubuntu
26 iulie 19:46:35 xxxxxxx kernel: [167923.077384] Nume hardware: Winmate Inc. IB3S/IB32S, BIOS V210 05/06/2019
26 iulie 19:46:35 xxxxxxx kernel: [167923.077389] RIP: 0010:down_write+0x1f/0x40
26 iulie 19:46:35 xxxxxxx kernel: [167923.077392] RSP: 0018:ffffb4e7018cfd10 EFLAGS: 00010246
26 iulie 19:46:35 xxxxxxx kernel: [167923.077396] RAX: ffff994c94603766 RBX: ffff994c94603766 RCX: 0000000000027f57
26 iulie 19:46:35 xxxxxxx kernel: [167923.077398] RDX: ffffffff00000001 RSI: 0000000001000200 RDI: ffff994c94603766
26 iulie 19:46:35 xxxxxxx kernel: [167923.077401] RBP: ffffb4e7018cfd18 R08: ffffd4e6ffd292c0 R09: ffff996d60d7e4e0
26 iulie 19:46:35 xxxxxxx kernel: [167923.077404] R10: 00007f220ffec000 R11: ffff996d70adde00 R12: ffff994c9460375e
26 iulie 19:46:35 xxxxxxx kernel: [167923.077407] R13: ffff996d54325ec0 R14: ffff994c9460375e R15: ffff996df104f000
26 iulie 19:46:35 xxxxxxx kernel: [167923.077410] FS: 00007f221338d740(0000) GS:ffff996dffd00000(0000) knlGS:00000000000
26 iulie 19:46:35 xxxxxxx kernel: [167923.077413] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
26 iulie 19:46:35 xxxxxxx kernel: [167923.077416] CR2: ffff994c94603766 CR3: 00000000943ba000 CR4: 00000000001006e0
26 iulie 19:46:35 kernel xxxxxxx: [167923.077419] Urmărire apel:
26 iulie 19:46:35 xxxxxxx kernel: [167923.077428] anon_vma_clone+0x8f/0x1c0
26 iulie 19:46:35 xxxxxxx kernel: [167923.077433] anon_vma_fork+0x32/0x130
26 iulie 19:46:35 xxxxxxx kernel: [167923.077440] copy_process.part.35+0xfe1/0x1c00
26 iulie 19:46:35 xxxxxxx kernel: [167923.077446] _do_fork+0xdf/0x400
26 iulie 19:46:35 xxxxxxx nucleu: [167923.077454] ? __do_page_fault+0x2a1/0x4b0
26 iulie 19:46:35 nucleul xxxxxxx: [167923.077460] ? get_unused_fd_flags+0x30/0x40
26 iulie 19:46:35 xxxxxxx kernel: [167923.077465] SyS_clone+0x19/0x20
26 iulie 19:46:35 xxxxxxx kernel: [167923.077471] do_syscall_64+0x73/0x130
26 iulie 19:46:35 xxxxxxx kernel: [167923.077475] entry_SYSCALL_64_after_hwframe+0x41/0xa6
26 iulie 19:46:35 xxxxxxx kernel: [167923.077479] RIP: 0033:0x7f2211188b7c
26 iulie 19:46:35 xxxxxxx kernel: [167923.077482] RSP: 002b:00007fff81411ac0 EFLAGS: 00000246 ORIG_RAX: 0000000000000038
26 iulie 19:46:35 xxxxxxx kernel: [167923.077486] RAX: ffffffffffffffda RBX: 00007fff81411ac0 RCX: 00007f2211188b7c
26 iulie 19:46:35 xxxxxxx kernel: [167923.077488] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000001200011
26 iulie 19:46:35 xxxxxxx kernel: [167923.077491] RBP: 00007fff81411b30 R08: 00007f221338d740 R09: 00007f2211750b40
26 iulie 19:46:35 xxxxxxx kernel: [167923.077494] R10: 00007f221338da10 R11: 0000000000000246 R12: 0000000000000000
26 iulie 19:46:35 xxxxxxx kernel: [167923.077497] R13: 0000000000000020 R14: 0000000000000000 R15: 0000000001735cf8
Iul 26 19:46:35 xxxxxxx kernel: [167923.077500] Cod: 40 00 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 55 48 00 00 55 48 00 00 55 48 9 8 8 8 eff 8 eff 8 9 8 8 8 8 8 8 8 9 00 ff ff ff ff 48 89 d8 <f0> 48 0f c1 10 85 d2 74 05 e8 73 b5 fe ff 65 48 8b 04 25 00 5c 
26 iulie 19:46:35 xxxxxxx kernel: [167923.077534] RIP: down_write+0x1f/0x40 RSP: ffffb4e7018cfd10
26 iulie 19:46:35 xxxxxxx kernel: [167923.077537] CR2: ffff994c94603766
26 iulie 19:46:35 xxxxxxx kernel: [167923.077541] ---[ final trace 4d3c04fc4bbb2b33 ]---

Mai sunt si altele pe care le pot posta si eu daca este nevoie.

De asemenea, văd frecvent asta la boot:

[ FAILED ] Nu s-a pornit serviciul de nume de gazdă
Consultați starea systemctl systemd-hostnamed.service pentru detalii
...
[ FAILED] Nu s-a pornit rezoluția numelui rețelei
Consultați starea systemctl systemd-resolved.service pentru detalii
[ OK ]S-a oprit rezoluția numelui rețelei
[ FAILED] Nu s-a pornit rezoluția numelui rețelei
Consultați starea systemctl systemd-resolved.service pentru detalii
[ OK ]S-a oprit rezoluția numelui rețelei
[ FAILED] Nu s-a pornit rezoluția numelui rețelei
Consultați starea systemctl systemd-resolved.service pentru detalii
[ OK ]S-a oprit rezoluția numelui rețelei

Am văzut asta în toată țara în doar ultimele 5 zile, așa că nu cred că este legat de hardware sau de mediu. Nu am lansat nicio actualizare a software-ului nostru de câteva săptămâni (și unii dintre clienții noștri ignoră actualizările noastre de software oricum).

Are cineva vreo idee despre ce ar putea cauza acest lucru și cum să o prevenim? Mulțumiri!

Editare 1: Rezultete de la ls -la /boot

total 143024
drwxr-xr-x 3 root root 4096 Jul 23 06:35 .
drwxr-xr-x 24 root root 4096 Jul 22 06:57 ..
-rw-r--r-- 1 rădăcină rădăcină 217414 18 iunie 16:49 config-4.15.0-147-generic
-rw-r--r-- 1 rădăcină rădăcină 217414 9 iulie 20:19 config-4.15.0-151-generic
drwxr-xr-x 5 root root 4096 23 iulie 06:34 grub
-rw-r--r-- 1 rădăcină rădăcină 60458100 20 iulie 20:08 initrd.img-4.15.0-147-generic
-rw-r--r-- 1 rădăcină rădăcină 60462046 23 iulie 06:35 initrd.img-4.15.0-151-generic
-rw------- 1 rădăcină rădăcină 4082393 18 iunie 16:49 System.map-4.15.0-147-generic
-rw------- 1 rădăcină rădăcină 4082629 Jul 9 20:19 System.map-4.15.0-151-generic
-rw------- 1 rădăcină rădăcină 8449696 Jun 18 18:42 vmlinuz-4.15.0-147-generic
-rw------- 1 rădăcină rădăcină 8453792 Jul 9 20:23 vmlinuz-4.15.0-151-generic

Rezultete de la liber -h

              total folosit gratuit partajat buff/cache disponibil
Mem: 3.7G 165M 3.2G 6.7M 435M 3.4G
Schimbă: 0B 0B 0B

swapon -s nu a dat niciun rezultat

Rezultete de la sysctl vm.swappiness

vm.swappiness = 60

Editarea 2:

Am găsit acest raport de eroare referitor la nucleul -151: https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1938013

De asemenea, am scos o unitate veche și am testat-o ​​temeinic pe 4.15.0-142-generic. Apoi l-am actualizat la -151 și am putut induce o eroare folosind nmcli pentru a încerca o conexiune wifi. După o repornire în -142, nu am mai putut induce eroarea. Mai am mai multe teste de făcut pe unitatea originală și voi posta când termin.

heynnema avatar
drapel ru
Problema este „BUG: imposibilitatea de a gestiona cererea de paginare a nucleului la ffff93cdf5ef2eaa”. Este posibil să nu fie reparabil. **POATE** să fie o problemă de BIOS. Verificați versiunea BIOS-ului cu `sudo dmidecode -s bios-version` și accesați site-ul web al producătorului pentru a verifica dacă există o versiune mai nouă. **POATE** să fie o problemă de kernel. Verificați dacă nucleul dvs. a fost actualizat recent cu `ls -al /boot`. Încercați să porniți la un nucleu mai vechi și vedeți dacă vă ajută cu eroarea de paginare. Rulați `memtest`. Și, desigur, faceți `fsck`.
heynnema avatar
drapel ru
Editează-ți întrebarea și arată-mi `ls -al /boot` și `free -h` și `swapon -s` și `sysctl vm.swappiness`. Începeți-mi comentariile cu @heynnema sau îmi vor lipsi.
JPetersonVNL avatar
drapel my
@heynnema Mulțumesc pentru sugestii! Am postat rezultatele acelor comenzi
JPetersonVNL avatar
drapel my
@heynnema Am pornit în nucleul mai vechi 147 și nu a remediat nimic, dar bănuiesc că deteriorarea a fost deja făcută fs. Dacă 151 provoacă erori de nucleu care deteriorează fs-ul, atunci poate că trebuie doar să evit 151. Cum pot să previn actualizarea 151 pe alte unități din domeniu? Am acces SSH, dar nu fizic.
heynnema avatar
drapel ru
Această problemă a început în sau în jurul datei de 23 iulie? Atunci a fost instalat nucleul -151. Este prea devreme pentru a spune dacă -151 este problema, dar încep să am un sentiment din alte rapoarte că ar putea fi. Pornirea la -147 nu va remedia erorile sistemului de fișiere care există deja. Porniți pe un USB/DVD Ubuntu Live și faceți `fsck`, apoi reporniți la -147 și vedeți dacă continuați să primiți erori de pagină. Ți-ai verificat BIOS-ul? Ai rulat `memtest`?
heynnema avatar
drapel ru
De asemenea, de ce nu face schimb?
heynnema avatar
drapel ru
De fapt, era 9 iulie, nu 23 iulie.
JPetersonVNL avatar
drapel my
@heynnema Da, problema ne-a fost raportată pentru prima dată pe 26. Bios-ul este relativ recent și nu există probleme cunoscute cu versiunea sa. Memtest rulează acum și apoi vreau să fac și un smartctl pentru a verifica SSD-ul. Odată ce aceste teste sunt făcute, îl voi fsck și voi porni în 147 și voi testa. Vezi ultima mea editare pentru un test pe care l-am făcut în seara asta. Bănuiesc că nicio schimbare se datorează faptului că a fost montat doar pentru citire? Vă mulțumesc pentru tot ajutorul acordat în acest sens!
heynnema avatar
drapel ru
Nicio schimbare poate fi, deoarece este configurat ca server. Faceți `grep -i swap /etc/fstab` pentru a verifica. Raportul de eroare nu pare să aibă nicio legătură cu defecțiunile paginii dvs. Tine-ma la curent.
Puncte:1
drapel my

nu am definitiv confirmare, dar am destul de multă confirmare observațională că acesta a fost rezultatul lansării kernel-ului Ubunut 151. Am reușit să reproduc cu ușurință problema în timp ce rulam 151, dar după ce am făcut downgrade la orice versiune anterioară nu am putut. Un efect secundar nefericit a fost persistența daunelor. Prăbușirea nucleului în sine nu a fost cauza directă a sistemului de fișiere RO. Aceasta a fost daunele aduse FS (inoduri orfane și altele asemenea) care au fost cauzate de prăbușirea nucleului. Aceasta înseamnă că, chiar și după revenirea la un nucleu anterior, este posibil ca deteriorarea FS să fi fost deja făcută, determinând unitatea să devină RO chiar și după rollback. Pentru a ajuta la aceasta, după ce am derulat înapoi nucleul, activez și un fsck automat la pornire. Au trecut luni de zile și se pare că problema a fost rezolvată. Mulțumesc @heynnema pentru ajutor și pentru că m-ai lăsat să-ți spun idei!

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.