Am observat recent că proiectul nostru Google App Engine se confruntă cu eșecuri periodic la fiecare 25 de ore și 10 minute (1510 minute) timp de trei zile consecutive fără niciun motiv aparent.
În timpul problemei, am văzut solicitări care au eșuat cu codul 499 (Client Closed Request) după o durată foarte lungă de solicitare (10s). Cererile durează în mod normal câteva sute de milisecunde sau ocazional 2-3 secunde, dar niciodată aproape de 10 secunde. La momentul respectiv, nu am observat nicio creștere a traficului și nu avem niciun job de fundal care rulează. CPU și memoria au fost toate în regulă până la începutul problemei, apoi CPU a crescut oarecum (de exemplu, de la aproximativ 10% la 60%) și chiar a declanșat o extindere temporară de la 3 la 5 gazde.
Proiectul este un Python Fast API imagine implementat într-un mediu flexibil, min 3, max 12 gazde la momentul respectiv.
Momentul acestor eșecuri a fost interesant, deoarece s-au întâmplat la aproape exact 25 de ore și 10 minute una de cealaltă. Am avut câteva implementări în aceste zile în diferite momente, nu există nicio corelare cu timpul de funcționare a serverului.
Marcajele orare de mai jos sunt în UTC:
2021-11-17 17:43
2021-11-18 18:53
2021-11-19 20:03
A văzut cineva ceva similar pe Google App Engine sau poate cu imaginea Fast API menționată?