Am configurat un computer AMD Ryzen cu Ubuntu 21.10 și am conectat 6 mașini Akitio Duo fiecare cu 2 plăci NVIDIA de 4 GB, precum și un al 13-lea card direct pe slotul PCIe, care este un card NVIDIA de 16 GB (RTX A4000).
Avem această platformă care rulează 16x fire de Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) și, în cea mai mare parte, poate rula fără probleme pentru o perioadă.
Dar din când în când, poate o dată la fiecare 24 de ore, în medie, computerul se blochează complet. Dacă avem doar 4x Alphafold2 care rulează pe cardul de 16 GB, computerul este stabil de săptămâni, așa că problema pare să fie cu joburile de pe cardurile eGPU Akitio.
Există undeva care să ne spună de ce se prăbușește (computerul este pornit, dar nu răspunde complet, doar o repornire fizică a butonului de pornire face treaba)?
Uitandu-ma la /var/log/kern.log
nu pare să arate nimic care să indice problema.
EDITAȚI | ×:
Alergare dmidecode
când numai cardul de 16 GB plus 2 Akitios sunt conectați, dă următoarele:
# dmidecode --type 9 | egrep „Utilizare|Tip|Desemnare”
Denumire: PCIEX16_1
Tip: x16 PCI Express
Utilizare curentă: Disponibil
Denumire: PCIEX16_2
Tip: x8 PCI Express
Utilizare curentă: în uz
Denumire: PCIEX1_1
Tip: x1 PCI Express
Utilizare curentă: Disponibil
mulțumesc @matigo pentru sugestia de a te uita la syslog.În cea mai recentă blocare, arată bitul de deasupra bitului „@^”, apoi repornirea completă a fost la 10:02.