Puncte:0

Server Linux nrpe nagios check_procs monitorizarea stării procesului - aveți nevoie de informații, când procesul este repornit

drapel mx

Trebuie să fiu informat de nagios când un proces pe un server la distanță este repornit.

Singurul lucru pe care nu știu cum să-l fac este să-i verific starea procesului și cum să o fac?

Am primit pe serverul de la distanță această comandă nrpe pentru moment: ./check_procs -c 1: -a „/usr/local/yyyprogram/sbin/XXXdaemon” -s Sl dar acest proces trebuie să funcționeze tot timpul, are propriul mecanism de repornire și acesta este singurul lucru pe care trebuie să-l știu - când exact repornește. Ce stare de proces ar trebui să adaug aici și în ce fel - exemplu -s SlRD este ok? sau -s Sl -s R -s D este ok? Poate o pot face altfel pentru a avea acest tip de informații: OK|AVERTISMENT|NECUNOSCUT|CRITICA ? Singura stare OK pentru mine este OK (înseamnă de lucru).

De asemenea, cum să-l monitorizez de pe alt server Nagios, ar trebui să verific asta la fiecare secundă? Când serviciul repornește, pot fi notificat unul sau două minute mai târziu, dar cum să știu că s-a întâmplat fără a verifica jurnalele? PID-ul acestui serviciu după mecanismul de repornire este diferit de înainte.

Cum pot fi sigur că toată starea este inclusă în linia de configurare a comenzii nrpe?

Te rog ajuta-ma:)

EDITAȚI | ×

root@server:/usr/local/nagios/libexec# ./check_procs -vv -a „/usr/local/yyyprogram/sbin/xxxdaemon”
CMD: /usr/bin/ps axwwo 'stat uid pid pid vsz rss pcpu cgroup:256 comm args'
Potrivire: uid=0 vsz=9412 rss=2804 pid=517515 ppid=1 jid=0 pcpu=0.20 stat=Sl etime= prog=xxxdaemon args=/usr/local/yyyprogram/sbin/xxxdaemon -d /usr/local/ yyyprogram/conf -b
 cgroup_hierarchy=(null)
Puncte:0
drapel cn

În primul rând, dacă sunteți interesat de cât timp rulează un proces, check_procs nu oferă această funcționalitate din câte văd eu din -h steag, așa că nu sunt sigur de ce presupuneți că da. Sau nu asta încerci să verifici?

Dacă doriți să verificați de cât timp rulează un proces, nu aveți nevoie de un plugin pentru el. Acest exemplu preia PID-ul netdata și vă oferă etimes, greps pentru a afișa numai numărul și utilizările xargs pentru a elimina spații suplimentare în jurul numărului:

$ ps -p $(pidof /usr/sbin/netdata) -o etimes | grep -E „[1-9].*” | xargs
65805

$ systemctl reporniți netdata

$ ps -p $(pidof /usr/sbin/netdata) -o etimes | grep -E „[1-9].*” | xargs
10

Tot ce trebuie să faci este să scrii un script shell care verifică dacă valoarea este sub un anumit număr, dacă există o problemă iesirea 1, apoi rulați acel script peste NRPE de la Nagios.

Kamil Bu avatar
drapel mx
Nu, nu am nevoie de informații cât timp a funcționat. Trebuie să știu și să fiu informat de nagios că a repornit. Și nu știu ce steaguri ar trebui să monitorizez și ce modalitate de a obține aceste informații.
pzkpfw avatar
drapel cn
verificarea etimes îți va spune dacă a repornit, iar eu doar ți-am spus cum să-l verifici. În ce fel nu răspunde asta la întrebarea ta? Ce ai incercat pana acum?

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.