Recent, am avut o apariție în care nu am putut să ne conectăm la mai mulți master din clusterul nostru Redis.
Conexiunile de la baza noastră de coduri expirau.De asemenea, nu am reușit să trimitem SSH în cutie în această perioadă, în esență ne-a blocat.
Acest lucru s-a întâmplat în mai multe ocazii și de fiecare dată CPU-ul a fost în jur de 20% și utilizarea memoriei a fost, de asemenea, în jur de 20%. Numărul de conexiuni tcp a variat în timpul fiecărui eveniment între 7k și 12k, cu mult sub ceea ce ne-am aștepta să fie un nivel alarmant.
Conexiunile care erau deja stabilite au continuat să funcționeze normal. Printre acele conexiuni existente s-au numărat exportatorii noștri de valori, așa că au putut să colecteze în continuare valori pentru conexiuni/procesoare etc.
Rețeaua de intrare/ieșire ar scădea încet pe măsură ce conexiunile existente s-au oprit, totuși cele noi nu s-ar putea conecta deloc, ca și cum ar fi fost refuzate de server.
Am examinat setări precum SOMAXCONN și descriptori de fișiere disponibili, dar am reușit încă să stabilim motivul pentru care nu s-au putut realiza conexiuni noi, deoarece nu au existat anomalii clare în statisticile pe care le-am examinat înainte de apariție.
Serverele rulează Amazon Linux 2 pe tipuri de instanțe x2gd.medium pe AWS.
Incapacitatea de a vă conecta prin SSH, în timp ce majoritatea traficului era pe alt port, părea destul de ciudată.
Are cineva vreo idee de ce nu s-au putut face conexiuni, în timp ce toate valorile evidente păreau OK?