Am configurat un computer AMD Ryzen cu Ubuntu 21.10 și am conectat 6 mașini Akitio Duo fiecare cu 2 plăci NVIDIA de 4 GB prin 2 hub-uri Thunderbolt, precum și un al 13-lea card direct pe slotul PCIe, care este un card NVIDIA de 16 GB (RTX A4000). , poate rula 4 joburi în paralel).
Avem această platformă care rulează 12 + 4 fire ale Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) și, în cea mai mare parte, poate rula fără probleme pentru o perioadă.
Dar din când în când, poate o dată la fiecare 24 de ore, în medie, computerul se blochează complet. Dacă avem doar 4x Alphafold2 care rulează pe cardul de 16 GB, computerul este stabil de săptămâni, așa că problema pare să fie cu joburile de pe cardurile eGPU Akitio.
Există undeva care să ne spună de ce se prăbușește (computerul este pornit, dar nu răspunde complet, doar o repornire fizică a butonului de pornire face treaba)?
Uitandu-ma la /var/log/kern.log
nu pare să arate nimic care să indice problema.
Un aspect despre care am citit este că s-ar putea ca benzile PCIe să fie supraîncărcate, iar cele 16 fire de execuție se declanșează cu atât de multe dispozitive PCIe conectate. Deoarece această mașină nu este folosită pentru nimic altceva, dezactivarea benzilor PCIe „Sunet” sau „USB 3.1” ar rezolva problema? Dacă da, cum?