Context: serverul Debian Stretch amd64 pe Google Cloud cu Apache 2.4.25. Rulează un site web bazat pe PHP prin proxy_fcgi la PHP-FPM. Baza de date backend este PostgreSQL 10. Pachetele Postgres au fost instalate din depozitul oficial de apt Postgres, totul este vanilla din depozitul Debian. Există o redirecționare a portului 80 către 443 cu certificate Let's Encrypt. HTTP/2 și Brotli sunt activate. Există, de asemenea, un proxy invers pentru un daemon de eveniment trimis de server pe același server (https://github.com/vgno/ssehub).
Serverul a funcționat de peste 2 ani, dar în ultimele luni există o defecțiune intermitentă în care site-ul nu mai răspunde la solicitări. De obicei, se limpezește după câteva minute. Am făcut multe analize de jurnal și nu pare să aibă legătură cu procesele serverului. Utilizarea CPU este nominală, utilizarea memoriei este scăzută, nu apar erori în jurnalele pentru Apache, PostgreSQL, FPM, syslog, ssehub. Serverul are și fail2ban instalat, dar nu există nicio intrare de jurnal pentru asta. Am introdus o înregistrare suplimentară de diagnosticare în Apache și FPM pentru a verifica cererile care durează mult timp pentru a procesa, dar care nu au rezultat nimic.
Iată rezultatul de la iptables -L
:
INTRARE în lanț (politica ACCEPTĂ)
target prot opt sursă destinație
f2b-sshd tcp -- oriunde oriunde multiport dports ssh
DROP udp -- oriunde oriunde udp dpt:l2f politica potrivire dir în pol nici unul
DROP all -- oriunde oriunde ctstate INVALID
ACCEPTĂ toate -- oriunde oriunde ctstate RELATED,STABLISHED
ACCEPT udp -- oriunde oriunde multiport dports isakmp,ipsec-nat-t
ACCEPT udp -- oriunde oriunde udp dpt:l2f policy potrivire director în pol ipsec
DROP udp -- oriunde oriunde udp dpt:l2f
Lanț FORWARD (politica ACCEPT)
target prot opt sursă destinație
DROP all -- oriunde oriunde ctstate INVALID
ACCEPTĂ toate -- oriunde oriunde ctstate RELATED,STABLISHED
ACCEPT pe toate -- oriunde oriunde
ACCEPT pe toate -- 192.168.42.0/24 192.168.42.0/24
ACCEPT pe toate -- oriunde 192.168.43.0/24 ctstate RELATED,STABLISHED
ACCEPTĂ toate -- 192.168.43.0/24 oriunde
DROP all -- oriunde oriunde
Ieșire în lanț (politica ACCEPT)
target prot opt sursă destinație
Lanț f2b-sshd (1 referințe)
target prot opt sursă destinație
RETURN all -- oriunde oriunde
Orice sugestii pentru cauze posibile sau lucruri pe care ar trebui să le verific? Momentan, singura cauză la care mă pot gândi este congestionarea rețelei, dar este foarte greu de demonstrat, deoarece este o problemă intermitentă și de obicei se lămurește în momentul în care îmi dau seama și încep să fac niște teste. În plus, pare surprinzător că Google Cloud ar avea probleme atât de frecvente de rețea.Are Google un fel de politici de modelare a traficului pe care nu le cunosc? Este un server cu trafic foarte scăzut și problema apare frecvent în afara orelor de program, când practic nimeni nu folosește site-ul.