Puncte:0

Timp de nefuncționare pe o instanță EC2

drapel cn

Recent am avut o problemă cu o instanță EC2. Site-ul care rulează acolo a fost indisponibil timp de 2 ore:

Utilizarea procesorului în ultima săptămână:

Restul sunt cam pe vremea când s-a întâmplat:

The systemd jurnal în jurul acelei perioade.

Ce pot vedea acolo? În jurul orei 20:31, se pare că lucrurile devin mai încete:

Execuția lucrării pe minut programată pentru ora 20:30 a fost amânată în minutul următor 20:31. Sari peste executarea sarcinii.

Locuri de munca (cronyd) nu reușește să pornească.

12 ianuarie 21:31:29 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: S-a detectat un salt de timp înainte!
12 ianuarie 21:33:21 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Nu se poate sincroniza: nu există surse selectabile

The dhclient linii, de obicei vin împreună, dar în acea perioadă era așa:

12 ianuarie 20:46:21 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPREQUEST pe eth0 la 172.xx.x.xx portul 67 (xid=0x7cb0e02d)
12 ianuarie 20:46:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPACK de la 172.xx.x.xx (xid=0x7cb0e02d)
12 ianuarie 21:06:23 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: legat la 172.yy.y.yy -- reînnoire în 354 de secunde.

De asemenea:

12 ianuarie 21:47:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: legat la 172.yy.y.yy -- reînnoire în -554 de secunde.

Și se pare că la 21:47 lucrurile revin la normal.

The docher containerele care rulau acolo au repornit. Îmi amintesc că jurnalele lor au început mai aproape de ora 22, probabil la 21:47.

The sysstat Buturuga (/var/log/sa/sar12):

19:00:01 toate 3.77 0.00 0.53 0.00 0.53 0.00 0.11 0.00 0.00 95.05
07:00:01 PM 0 4.22 0.00 0.54 0.01 0.45 0.00 0.11 0.00 0.00 94.68
07:00:01 PM 1 3.33 0.00 0.53 0.00 0.61 0.00 0.10 0.00 0.00 95.43
19:10:01 toate 3.47 0.00 0.52 0.00 0.54 0.00 0.13 0.00 0.00 95.34
07:10:01 PM 0 4.01 0.00 0.53 0.00 0.48 0.00 0.10 0.00 0.00 94.88
19:10:01 1 2,93 0,00 0,52 0,01 0,60 0,00 0,15 0,00 0,00 95,80
19:20:01 toate 1.89 0.00 0.47 0.00 0.46 0.00 0.10 0.00 0.00 97.08
07:20:01 PM 0 1.54 0.00 0.46 0.00 0.39 0.00 0.10 0.00 0.00 97.50
19:20:01 1 2.24 0.00 0.48 0.00 0.53 0.00 0.10 0.00 0.00 96.65
19:30:01 toate 1.37 0.00 0.47 0.00 0.42 0.00 0.09 0.00 0.00 97.65
19:30:01 0 1.55 0.00 0.46 0.00 0.36 0.00 0.08 0.00 0.00 97.54
19:30:01 1 1.18 0.00 0.48 0.00 0.47 0.00 0.10 0.00 0.00 97.77
19:40:01 toate 1.32 0.00 0.47 0.00 0.41 0.00 0.10 0.00 0.00 97.71
07:40:01 PM 0 1.46 0.00 0.46 0.00 0.33 0.00 0.09 0.00 0.00 97.66
07:40:01 PM 1 1.18 0.00 0.47 0.00 0.48 0.00 0.10 0.00 0.00 97.77
19:50:01 toate 1.36 0.00 0.48 0.00 0.41 0.00 0.10 0.00 0.00 97.65
07:50:01 PM 0 1.14 0.00 0.45 0.00 0.33 0.00 0.11 0.00 0.00 97.96
07:50:01 PM 1 1.58 0.00 0.50 0.00 0.50 0.00 0.09 0.00 0.00 97.33
20:00:01 toate 2.17 0.00 0.52 0.01 0.52 0.00 0.12 0.00 0.00 96.66
20:00:01 0 2,26 0,00 0,49 0,01 0,45 0,00 0,13 0,00 0,00 96,67
20:00:01 1 2.08 0.00 0.55 0.01 0.60 0.00 0.12 0.00 0.00 96.65
20:10:01 toate 3.47 1.35 2.41 0.08 0.58 0.00 0.15 0.00 0.00 91.96
20:10:01 0 3,28 1,11 2,38 0,07 0,50 0,00 0,15 0,00 0,00 92,51
20:10:01 1 3,66 1,58 2,45 0,09 0,66 0,00 0,15 0,00 0,00 91,40

20:10:01 CPU %usr %drăguț %sys %iowait %furt %irq %soft %guest %gnice %idle
20:20:01 toate 1.73 0.00 0.54 0.07 0.48 0.00 0.10 0.00 0.00 97.07
20:20:01 0 1,94 0,00 0,58 0,07 0,40 0,00 0,10 0,00 0,00 96,90
20:20:01 1 1.52 0.00 0.51 0.08 0.55 0.00 0.11 0.00 0.00 97.23
21:50:02 toate 2.11 0.11 50.63 43.63 0.09 0.00 0.02 0.00 0.00 3.41
09:50:02 PM 0 3.34 0.09 15.85 77.19 0.07 0.00 0.02 0.00 0.00 3.45
21:50:02 1 0,93 0,12 83,90 11,54 0,11 0,00 0,02 0,00 0,00 3,37
22:00:01 toate 2.11 0.00 0.43 2.61 0.35 0.00 0.07 0.00 0.00 94.42
22:00:01 PM 0 1,87 0,00 0,45 2,73 0,25 0,00 0,07 0,00 0,00 94,63
22:00:01 PM 1 2,36 0,00 0,42 2,50 0,45 0,00 0,07 0,00 0,00 94,20
22:10:01 toate 0,80 0,00 0,33 0,00 0,29 0,00 0,06 0,00 0,00 98,52
22:10:01 0 0,82 0,00 0,31 0,00 0,20 0,00 0,07 0,00 0,00 98,59
22:10:01 1 0,77 0,00 0,35 0,00 0,37 0,00 0,06 0,00 0,00 98,45
22:20:01 toate 0,85 0,00 0,35 0,00 0,29 0,00 0,07 0,00 0,00 98,44
22:20:01 0 0,85 0,00 0,34 0,00 0,21 0,00 0,07 0,00 0,00 98,53
22:20:01 1 0,86 0,00 0,36 0,00 0,37 0,00 0,06 0,00 0,00 98,35
22:30:01 toate 1.41 0.00 0.38 0.00 0.33 0.00 0.08 0.00 0.00 97.79
22:30:01 0 1,13 0,00 0,36 0,00 0,25 0,00 0,07 0,00 0,00 98,18
22:30:01 1 1,69 0,00 0,40 0,00 0,42 0,00 0,09 0,00 0,00 97,40
22:40:01 toate 0,98 0,00 0,35 0,00 0,29 0,00 0,06 0,00 0,00 98,32
22:40:01 0 0,70 0,00 0,33 0,00 0,22 0,00 0,06 0,00 0,00 98,69
22:40:01 1 1.25 0.00 0.36 0.00 0.35 0.00 0.07 0.00 0.00 97.96
22:50:01 toate 0,65 0,00 0,34 0,00 0,28 0,00 0,06 0,00 0,00 98,68
22:50:01 PM 0 0,80 0,00 0,34 0,00 0,20 0,00 0,05 0,00 0,00 98,61
22:50:01 1 0,50 0,00 0,34 0,00 0,35 0,00 0,06 0,00 0,00 98,75

Există un decalaj între 8:20 și 9:50 și abia la 9:50 vedem sarcina (inactiv 3%).

Ce ar putea fi relevant aici, pe 04 ianuarie am activat sincronizarea orei (timedatectl set-ntp true) deoarece a existat un offset de 15 minute:

Ceasul sistemului este greșit cu -910,996745 secunde

E o t3a.mediu instanță. Și cred că specificația de credit era nelimitată până atunci. Cel puțin asta am văzut a doua zi. Oricum, soldul creditului nu a atins podeaua.

Poți explica? Ce pot verifica?

Pentru a fi corect, nu pot fi sigur că nu poate fi cauzat de site sau de una dintre componentele acestuia, dar nu m-am confruntat cu astfel de probleme.

UPD Este posibil ca problema să fi fost cauzată de scurgerea memoriei într-unul dintre containere. Cel puțin după ce l-a făcut să ruleze nokogiri sarcini în procese separate, memoria a încetat să crească și nu au existat incidente similare până acum.

Tim avatar
drapel gp
Tim
Probabil că nu este răspunsul în acest caz, dar am văzut că instanțele Windows au scăzut pentru actualizările Windows în trecut. Actualizarea Windows pe EC2 poate fi uneori destul de lentă.
Puncte:1
drapel jp

Se pare că instanța dvs. a fost întreruptă/suspendată din cauza unor probleme cu gazda fizică care rulează instanța dvs. EC2. Vă rugăm să rețineți că SLA la nivel de instanță EC2 este de 99,5%. Probabil doriți să activați monitorizarea pentru verificarea stării pentru cazurile dvs și recuperare automată.

drapel cn
Din jurnalul `sysstat` se pare că a fost întrerupt/suspendat. Dar asta s-a datorat faptului că lucrarea „sa1” nu a început să înceapă în acea perioadă. Dacă te uiți la jurnalul `systemd`, nu există nicio indicație că a fost suspendat. Am adăugat [un alt fișier](https://gist.github.com/x-yuri/e13937c2d32e1a48ce76f756fce395f5#file-timestamps-txt) la esențial, unde puteți vedea marcajele de timp pentru perioada în care se presupune că ar putea fi suspendată. În ceea ce privește verificările de stare, valorile „StatusCheckFailed*” sunt 0, cu mult înainte de momentul incidentului...
drapel cn
... Și pe de o parte, vina ar putea fi din partea mea, dar nu sunt mulți vizitatori deocamdată și se presupune că nu este nimic de spart în acest fel. Ei bine, cel puțin eu nu m-am confruntat cu o astfel de problemă. Pe de altă parte, nu pot fi sigur că nu poate fi cauzat de site sau de una dintre componentele acestuia. Ați avut astfel de incidente, în special cele în care interfața de utilizare AWS vă spunea că nu s-a stricat nimic?
drapel jp
Instanța a pierdut conexiunea la rețea în jurul orei 20:30 (NetworkOut plat pe grafic), apoi problema de pe gazdă a fost probabil detectată automat și instanța a fost suspendată și migrată la o altă gazdă fizică între 21:12 și 21:31 (când a trecut timpul a fost detectat).
drapel cn
De menționat că traficul [nu a ajuns niciodată](https://i.imgur.com/Dm797xi.png) la zero, dar (cel puțin) nu sunt sigur ce măsoară exact, așa că sună plauzibil. De asemenea, explică saltul în timp înainte. Aceasta este cea mai bună explicație de până acum :) Deși asta nu explică de ce a trecut neobservat de verificările de stare.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.