Când copiez fișiere mari (50+GB) de pe un disc NVMe pe un HDD SATA 7200rpm, văd următoarea eroare în jurnalele de pe un Ubuntu 20.04 complet corecţionat:
08 august 00:45:59 kernel gazdă: ata6.00: excepție Emask 0x20 SAct 0x0 SErr 0x0 acțiune 0x6 înghețată
08 august 00:45:59 kernel gazdă: ata6.00: irq_stat 0x20000000, eroare magistrală gazdă
08 august 00:45:59 kernel gazdă: ata6.00: comandă eșuată: WRITE DMA EXT
08 august 00:45:59 kernel gazdă: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (eroare magistrala gazdă)
08 august 00:45:59 kernel gazdă: ata6.00: stare: { DRDY }
Aug 08 00:45:59 kernel gazdă: ata6: hard resetting link
08 august 00:46:00 kernel gazdă: ata6: conexiune SATA de 6,0 Gbps (SSstatus 133 SControl 300)
08 august 00:46:00 kernel gazdă: ata6.00: configurat pentru UDMA/133
Aug 08 00:46:00 kernel gazdă: ata6: EH complet
ata6.00
este discul pe care este scris.
Problema este intermitentă. Uneori nu apare timp de 24 de ore, alteori de câteva ori pe oră.
De multe ori discul se recuperează, dar uneori sistemul de fișiere devine pur și simplu corupt, trebuie demontat, reparat (dacă este posibil) și remontat.
Ce am incercat:
- Am încercat 3 mărci diferite de HDD. Toate au aceeași problemă.
- Am bănuit o problemă hardware. Am schimbat placa de baza si cablurile SATA. Nimic din toate acestea nu a ajutat.
- Am un alt server cu o configurație identică.Problema nu apare acolo. Același volum de muncă.
- Am încă un server cu o configurație complet diferită (Intel vs. AMD). Problema apare acolo. Același volum de muncă.
- Am dezactivat NCQ prin
echo 1 > /sys/block/sda/device/queue_depth
. Nu a ajutat.
am ramas fara idei...
Acestea sunt toate componente de gradul centrului de date. Având în vedere pașii pe care i-am făcut, presupun că nu este un defect de fabricație hardware.
Ar putea fi legat de software/OS/BIOS?
Aveti idee ce altceva ar trebui sa incerc?