Puncte:0

Înghețarea aleatorie a serverului și pornirea numai cu pornire la rece

drapel cn

Mă confrunt cu o problemă extrem de ciudată în ceea ce privește un server, se blochează/se blochează aleatoriu fără ieșire pe server și nu răspunde la tastele scurte și necesită pornire la rece, atunci când pornire cu pornire la rece, fără erori pe ecranul de pornire.

Nu îngheață deloc sub sarcină grea, cu aproximativ 9-20% prăbușire CPU web, încărcare medie în jur de 2-5 (cpu cu 12 nuclee) si 128gb ram

Am încercat să verificăm jurnalele, nimic nu se afișează ca panica nucleului sau orice se referă la problema în sine.

În toate blocările după pornirea la rece, când verificăm jurnalul, vedem că OOM reaper obișnuit distruge procesele php (utilizatorii ajung la limite), dar nimic prea abuziv, dar întotdeauna pe OOM, Uneori, când serverul îngheață în jurnal, vedeți ora curentă și, uneori, așa cum se arată după ora curentă a blocării, câteva linii de la data mai veche și se blochează.

Nimic din jurnale nu poate determina software-ul legat, sau sub sarcină grea, doar funcționarea normală, aceasta este o mașină actualizată de la una veche, care a fost stabilă de ani de zile. Înghețarile sunt aleatorii, ar putea fi după o săptămână de funcționare a serverului, sau două zile sau trei săptămâni și etc...

De asemenea, am încercat să extragem vmcore dump din serverul înghețat, dar tot nu se prinde nimic acolo.

Este doar înghețat fără ieșire pe ecran, dar serverul încă rulează, dar nu poate fi imprimat, nu pot accesa nimic ssh, de asemenea, kvm, așa cum am spus, nu arată nicio ieșire pe ecran.

Ar putea avea legătură cu hardware-ul defect? Deoarece suspensia mea este despre RAM defectă?

Sunt extrem de pierdut cu problema asta... Mulțumiri

Puncte:0
drapel nz
  1. Asigurați-vă că temperaturile sunt bune, CPU/RAM/CHIPSET/DISCURI, presupun că sunteți un utilizator Linux din cauza OOM, instalați senzori lm, și verificați temperaturile cu senzori comanda.
  2. Este RAM-ul tău, rulează memtest86, știi că testul complet pe 128 GB poate dura o săptămână.
drapel cn
Da, bazat pe Linux, crezi că are legătură cu temperatură? Sau hardware? Mă gândeam să obțin un nou server, să migreze datele și apoi să le mut pe rafturile vechi, așa că excludeți posibilitatea de hardware
Egidijus avatar
drapel nz
Dacă nu există semne clare în software, atunci este foarte probabil hardware. Temperatura este hardware (software-ul nu poate simți o atingere caldă).
drapel cn
Chiar mă îndoiesc că se referă la temperatură, deoarece serverul nu este sub sarcină grea când îngheață, nu cred că CPU poate ajunge la 95 de grade cu o încărcare a procesorului de 9% sau 20%, deoarece ajunge la acelea zilnic și totuși nimic
Puncte:0
drapel cn

Tocmai am migrat pe alt server, dar după ce am căutat mult și am încercat mult să depanezi, se pare că problema hardware se referă la placa de bază, așa cum am verificat pe unele forumuri în ceea ce privește plăcile de bază de la asrock rack și CPU Ryzen, reușesc să găsesc câteva cazuri în jurul aceleiași probleme, chiar și cu Windows 10 sau Windows Server care primește ecran albastru al morții. întrucât suportul pentru sistemul de operare a sugerat în acest caz să nu se schimbe marca plăcii de bază, deoarece ar putea fi riscant să fie refuzat să pornească și să migreze la un nou server așa cum am făcut noi. după ce am migrat pe un server nou, toate problemele s-au rezolvat. deci cred că se referă la problema hardware și nu la software.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.