Recent am avut o problemă cu o instanță EC2. Site-ul care rulează acolo a fost indisponibil timp de 2 ore:
Utilizarea procesorului în ultima săptămână:
Restul sunt cam pe vremea când s-a întâmplat:
The systemd
jurnal în jurul acelei perioade.
Ce pot vedea acolo? În jurul orei 20:31, se pare că lucrurile devin mai încete:
Execuția lucrării pe minut programată pentru ora 20:30 a fost amânată în minutul următor 20:31. Sari peste executarea sarcinii.
Locuri de munca (cronyd
) nu reușește să pornească.
12 ianuarie 21:31:29 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: S-a detectat un salt de timp înainte!
12 ianuarie 21:33:21 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Nu se poate sincroniza: nu există surse selectabile
The dhclient
linii, de obicei vin împreună, dar în acea perioadă era așa:
12 ianuarie 20:46:21 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPREQUEST pe eth0 la 172.xx.x.xx portul 67 (xid=0x7cb0e02d)
12 ianuarie 20:46:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPACK de la 172.xx.x.xx (xid=0x7cb0e02d)
12 ianuarie 21:06:23 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: legat la 172.yy.y.yy -- reînnoire în 354 de secunde.
De asemenea:
12 ianuarie 21:47:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: legat la 172.yy.y.yy -- reînnoire în -554 de secunde.
Și se pare că la 21:47 lucrurile revin la normal.
The docher
containerele care rulau acolo au repornit. Îmi amintesc că jurnalele lor au început mai aproape de ora 22, probabil la 21:47.
The sysstat
Buturuga (/var/log/sa/sar12
):
19:00:01 toate 3.77 0.00 0.53 0.00 0.53 0.00 0.11 0.00 0.00 95.05
07:00:01 PM 0 4.22 0.00 0.54 0.01 0.45 0.00 0.11 0.00 0.00 94.68
07:00:01 PM 1 3.33 0.00 0.53 0.00 0.61 0.00 0.10 0.00 0.00 95.43
19:10:01 toate 3.47 0.00 0.52 0.00 0.54 0.00 0.13 0.00 0.00 95.34
07:10:01 PM 0 4.01 0.00 0.53 0.00 0.48 0.00 0.10 0.00 0.00 94.88
19:10:01 1 2,93 0,00 0,52 0,01 0,60 0,00 0,15 0,00 0,00 95,80
19:20:01 toate 1.89 0.00 0.47 0.00 0.46 0.00 0.10 0.00 0.00 97.08
07:20:01 PM 0 1.54 0.00 0.46 0.00 0.39 0.00 0.10 0.00 0.00 97.50
19:20:01 1 2.24 0.00 0.48 0.00 0.53 0.00 0.10 0.00 0.00 96.65
19:30:01 toate 1.37 0.00 0.47 0.00 0.42 0.00 0.09 0.00 0.00 97.65
19:30:01 0 1.55 0.00 0.46 0.00 0.36 0.00 0.08 0.00 0.00 97.54
19:30:01 1 1.18 0.00 0.48 0.00 0.47 0.00 0.10 0.00 0.00 97.77
19:40:01 toate 1.32 0.00 0.47 0.00 0.41 0.00 0.10 0.00 0.00 97.71
07:40:01 PM 0 1.46 0.00 0.46 0.00 0.33 0.00 0.09 0.00 0.00 97.66
07:40:01 PM 1 1.18 0.00 0.47 0.00 0.48 0.00 0.10 0.00 0.00 97.77
19:50:01 toate 1.36 0.00 0.48 0.00 0.41 0.00 0.10 0.00 0.00 97.65
07:50:01 PM 0 1.14 0.00 0.45 0.00 0.33 0.00 0.11 0.00 0.00 97.96
07:50:01 PM 1 1.58 0.00 0.50 0.00 0.50 0.00 0.09 0.00 0.00 97.33
20:00:01 toate 2.17 0.00 0.52 0.01 0.52 0.00 0.12 0.00 0.00 96.66
20:00:01 0 2,26 0,00 0,49 0,01 0,45 0,00 0,13 0,00 0,00 96,67
20:00:01 1 2.08 0.00 0.55 0.01 0.60 0.00 0.12 0.00 0.00 96.65
20:10:01 toate 3.47 1.35 2.41 0.08 0.58 0.00 0.15 0.00 0.00 91.96
20:10:01 0 3,28 1,11 2,38 0,07 0,50 0,00 0,15 0,00 0,00 92,51
20:10:01 1 3,66 1,58 2,45 0,09 0,66 0,00 0,15 0,00 0,00 91,40
20:10:01 CPU %usr %drăguț %sys %iowait %furt %irq %soft %guest %gnice %idle
20:20:01 toate 1.73 0.00 0.54 0.07 0.48 0.00 0.10 0.00 0.00 97.07
20:20:01 0 1,94 0,00 0,58 0,07 0,40 0,00 0,10 0,00 0,00 96,90
20:20:01 1 1.52 0.00 0.51 0.08 0.55 0.00 0.11 0.00 0.00 97.23
21:50:02 toate 2.11 0.11 50.63 43.63 0.09 0.00 0.02 0.00 0.00 3.41
09:50:02 PM 0 3.34 0.09 15.85 77.19 0.07 0.00 0.02 0.00 0.00 3.45
21:50:02 1 0,93 0,12 83,90 11,54 0,11 0,00 0,02 0,00 0,00 3,37
22:00:01 toate 2.11 0.00 0.43 2.61 0.35 0.00 0.07 0.00 0.00 94.42
22:00:01 PM 0 1,87 0,00 0,45 2,73 0,25 0,00 0,07 0,00 0,00 94,63
22:00:01 PM 1 2,36 0,00 0,42 2,50 0,45 0,00 0,07 0,00 0,00 94,20
22:10:01 toate 0,80 0,00 0,33 0,00 0,29 0,00 0,06 0,00 0,00 98,52
22:10:01 0 0,82 0,00 0,31 0,00 0,20 0,00 0,07 0,00 0,00 98,59
22:10:01 1 0,77 0,00 0,35 0,00 0,37 0,00 0,06 0,00 0,00 98,45
22:20:01 toate 0,85 0,00 0,35 0,00 0,29 0,00 0,07 0,00 0,00 98,44
22:20:01 0 0,85 0,00 0,34 0,00 0,21 0,00 0,07 0,00 0,00 98,53
22:20:01 1 0,86 0,00 0,36 0,00 0,37 0,00 0,06 0,00 0,00 98,35
22:30:01 toate 1.41 0.00 0.38 0.00 0.33 0.00 0.08 0.00 0.00 97.79
22:30:01 0 1,13 0,00 0,36 0,00 0,25 0,00 0,07 0,00 0,00 98,18
22:30:01 1 1,69 0,00 0,40 0,00 0,42 0,00 0,09 0,00 0,00 97,40
22:40:01 toate 0,98 0,00 0,35 0,00 0,29 0,00 0,06 0,00 0,00 98,32
22:40:01 0 0,70 0,00 0,33 0,00 0,22 0,00 0,06 0,00 0,00 98,69
22:40:01 1 1.25 0.00 0.36 0.00 0.35 0.00 0.07 0.00 0.00 97.96
22:50:01 toate 0,65 0,00 0,34 0,00 0,28 0,00 0,06 0,00 0,00 98,68
22:50:01 PM 0 0,80 0,00 0,34 0,00 0,20 0,00 0,05 0,00 0,00 98,61
22:50:01 1 0,50 0,00 0,34 0,00 0,35 0,00 0,06 0,00 0,00 98,75
Există un decalaj între 8:20 și 9:50 și abia la 9:50 vedem sarcina (inactiv 3%).
Ce ar putea fi relevant aici, pe 04 ianuarie am activat sincronizarea orei (timedatectl set-ntp true
) deoarece a existat un offset de 15 minute:
Ceasul sistemului este greșit cu -910,996745 secunde
E o t3a.mediu
instanță. Și cred că specificația de credit era nelimitată până atunci. Cel puțin asta am văzut a doua zi. Oricum, soldul creditului nu a atins podeaua.
Poți explica? Ce pot verifica?
Pentru a fi corect, nu pot fi sigur că nu poate fi cauzat de site sau de una dintre componentele acestuia, dar nu m-am confruntat cu astfel de probleme.
UPD Este posibil ca problema să fi fost cauzată de scurgerea memoriei într-unul dintre containere. Cel puțin după ce l-a făcut să ruleze nokogiri
sarcini în procese separate, memoria a încetat să crească și nu au existat incidente similare până acum.