Puncte:0

Probleme de disc: irq_stat 0x20000000, eroare magistrală gazdă

drapel bd

Când copiez fișiere mari (50+GB) de pe un disc NVMe pe un HDD SATA 7200rpm, văd următoarea eroare în jurnalele de pe un Ubuntu 20.04 complet corecţionat:

08 august 00:45:59 kernel gazdă: ata6.00: excepție Emask 0x20 SAct 0x0 SErr 0x0 acțiune 0x6 înghețată
08 august 00:45:59 kernel gazdă: ata6.00: irq_stat 0x20000000, eroare magistrală gazdă
08 august 00:45:59 kernel gazdă: ata6.00: comandă eșuată: WRITE DMA EXT
08 august 00:45:59 kernel gazdă: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
                                    res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (eroare magistrala gazdă)
08 august 00:45:59 kernel gazdă: ata6.00: stare: { DRDY }
Aug 08 00:45:59 kernel gazdă: ata6: hard resetting link
08 august 00:46:00 kernel gazdă: ata6: conexiune SATA de 6,0 Gbps (SSstatus 133 SControl 300)
08 august 00:46:00 kernel gazdă: ata6.00: configurat pentru UDMA/133
Aug 08 00:46:00 kernel gazdă: ata6: EH complet

ata6.00 este discul pe care este scris.
Problema este intermitentă. Uneori nu apare timp de 24 de ore, alteori de câteva ori pe oră. De multe ori discul se recuperează, dar uneori sistemul de fișiere devine pur și simplu corupt, trebuie demontat, reparat (dacă este posibil) și remontat.

Ce am incercat:

  1. Am încercat 3 mărci diferite de HDD. Toate au aceeași problemă.
  2. Am bănuit o problemă hardware. Am schimbat placa de baza si cablurile SATA. Nimic din toate acestea nu a ajutat.
  3. Am un alt server cu o configurație identică.Problema nu apare acolo. Același volum de muncă.
  4. Am încă un server cu o configurație complet diferită (Intel vs. AMD). Problema apare acolo. Același volum de muncă.
  5. Am dezactivat NCQ prin echo 1 > /sys/block/sda/device/queue_depth. Nu a ajutat.

am ramas fara idei...
Acestea sunt toate componente de gradul centrului de date. Având în vedere pașii pe care i-am făcut, presupun că nu este un defect de fabricație hardware.
Ar putea fi legat de software/OS/BIOS?
Aveti idee ce altceva ar trebui sa incerc?

Michael Hampton avatar
drapel cz
Ce sunt componentele de gradul centrului de date? Care este HBA-ul pe care îl utilizați? Ce este placa de baza? Ce este RAM-ul?
mike avatar
drapel bd
Nu există HBA. Discurile se conectează direct la porturile SATA de pe MB. Placa de bază este Supermicro MBD-X11SPM-F-O. RAM este Samsung DDR4-3200, 8GB, ECC RDIMM, 1Rx8, 288pin.
Michael Hampton avatar
drapel cz
Aceasta încă arată ca o problemă de controler sau de cablare, dar ați putea rula `smartctl -a` pe discuri pentru a vedea dacă au înregistrat erori.
mike avatar
drapel bd
Arată erori, dar sunt enigmatice pentru mine. Nu sunt sigur unde să merg de acolo. https://gist.github.com/ceecko/c74c2aafc7d0b7fa1f9ad9a71e7d4717. Am bănuit o problemă cu controlerul sau cablarea, dar din moment ce ambele au fost înlocuite, cred că șansele ca ambele să fie proaste sunt mici...
Michael Hampton avatar
drapel cz
Ai spus că ai mai multe discuri, dar esența arată rezultatele doar pentru unul. Unde sunt restul?
mike avatar
drapel bd
Tocmai am actualizat esenția cu toate discurile, inclusiv discul nvme care este folosit ca sursă pentru copiere.
Michael Hampton avatar
drapel cz
Doar _unul_ dintre cele trei discuri afișează aceste erori. Ar trebui să încercați să înlocuiți acest disc.
mike avatar
drapel bd
Totuși, nu pare să fie discul. `/dev/sdc` este conectat prin `ata6` și este folosit ca disc de pornire. Acest disc a eșuat chiar dacă nu există nimic în jurnalul inteligent. La acel moment, discul cu erori era montat dar nu a fost folosit. Crezi că `/dev/sda` ar fi putut cauza `/dev/sdc` să eșueze în acest fel? După cum am menționat anterior, aceste discuri sunt al treilea tip de discuri pe care l-am încercat. Ar fi o coincidență grozavă să existe al treilea lot de discuri cu aceleași probleme, cred.
Puncte:1
drapel jo

Poate că aceasta este mai degrabă o problemă a temperaturii de funcționare? Pe măsură ce discul este utilizat în mod constant, poziția sa fizică și raportul câștig/pierdere de căldură devin prea mari, ceea ce duce la un comportament neregulat?

Pe nucleele mai noi, cum ar fi al tău, temperatura unității poate fi pusă în sysfs pe această cale:

/sys/class/hwmon/*

Asigurați-vă că drivetemp modulul este încărcat cu modprobe drivetemp.

Puteți lua în considerare monitorizarea fișierelor de aici și începerea din nou a unei copii mari a fișierelor, documentația kernelului Aici oferă o indicație despre modul în care aceste fișiere trebuie interpretate.

Acestea includ valori utile, cum ar fi temperaturile min/max de funcționare, unii șoferi pot oferi și indicatori de alarmă care sunt alarme dependente de cip care sunt declanșate la o defecțiune.

Puncte:0
drapel bd

Pare a fi rezolvat prin actualizarea la Ubuntu 21.04. Habar nu de ce totuși. Serverul rulează stabil acum, fără probleme ATA.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.