Serverul meu Ubuntu s-a oprit azi și după ce m-am uitat la /var/log/kern.log
a fost pentru că s-a supraîncălzit:
Sep 8 07:00:22 ipc2-server kernel: [289498.255583] QNX4 filesystem 0.2.3 înregistrat.
Sep 10 20:04:00 ipc2-server kernel: [509336.574882] thermal thermal_zone1: temperatura critică atinsă (100 C), închidere
Sep 10 20:04:01 ipc2-server kernel: [509337.601860] thermal thermal_zone1: temperatura critică atinsă (100 C), închidere
Acest lucru pare în regulă, cu excepția faptului că s-a întâmplat de nicăieri. Privind la mine Netdata jurnalele arată că a trecut de la o temperatură stabilă de 44° Celsius la 70° în 40 de secunde, moment în care serverul a fost oprit (curba roșie care scade de la 70° este în timpul în care serverul a fost oprit):
După cum puteți vedea, doar doi senzori au raportat această modificare, iar utilizarea procesorului a fost de 20% înainte de închiderea serverului:
Mai târziu, puteți vedea o creștere normală a căldurii de la o creștere a utilizării procesorului atunci când toți senzorii de temperatură raportează o creștere a căldurii.
Este prima dată când mi se întâmplă acest lucru și ridică câteva întrebări.
- Există alte jurnale pe care le pot folosi pentru a investiga această problemă pentru a confirma că a fost o defecțiune hardware sau o supraîncălzire reală?
- Este normal ca senzorii de temperatură să se defecteze în timp?
- Pot fi înlocuite dacă este cazul?
- Pot schimba comportamentul Ubuntu astfel încât să închidă serverul dacă toți senzorii de temperatură raportează valori ridicate?