Monitorizăm un cluster de calcul HPC folosind o combinație de Prometheus, Alertmanager și Grafana. Pe mașinile noastre, lucruri precum umplerea memoriei SWAP până la limita limită se întâmplă frecvent și, deși este util să vedeți memoria corespunzătoare info
-nivel alerte în tabloul de bord Grafana Alerts, de preferat nu trimitem e-mailurile corespunzătoare.
Există vreo modalitate de a dezactiva/dezactiva toate, să zicem, e-mailurile de alertă care au gravitate info
în alertmanager.yml
fisier de configurare?
Alertele sunt toate definite similar cu aceasta (ajustată de la https://awesome-prometheus-alerts.grep.to/rules.html):
- alertă: HostSwapIsFillingUp
expr: (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 95
pentru: 60m
etichete:
severitate: info
adnotari:
rezumat: Schimbul de gazdă se umple (instanța {{ $labels.instance }})
descriere: „Swap se umple (>95%)\n VALUE = {{ $value }}”
și secțiunea corespunzătoare din alertmanager.yml
se citește fișierul
rute:
- Meci:
severitate: „avertisment”
interval_repetare: 24h
continua: adevarat
- Meci:
severitate: „informații”
interval_repetare: 24h
continua: adevarat
receptor: scăpat
receptori:
- nume: „admin-mails”
email_configs:
- către: „admins@DOMAIN”
- nume: „scăpat”
email_configs:
- către: „admins@DOMAIN”
Există posibilitatea de a vă asigura că info
alertele de nivel nu provoacă niciodată e-mailuri, în timp ce le au în continuare „declanșează”, astfel încât Grafana le va afișa?