Puncte:0

Computerul cu 12+1 GPU-uri Thunderbolt 3 conectate s-a prăbușit când utilizați eGPU-uri

drapel de

Am configurat un computer AMD Ryzen cu Ubuntu 21.10 și am conectat 6 mașini Akitio Duo fiecare cu 2 plăci NVIDIA de 4 GB prin 2 hub-uri Thunderbolt, precum și un al 13-lea card direct pe slotul PCIe, care este un card NVIDIA de 16 GB (RTX A4000). , poate rula 4 joburi în paralel).

Avem această platformă care rulează 12 + 4 fire ale Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) și, în cea mai mare parte, poate rula fără probleme pentru o perioadă.

Dar din când în când, poate o dată la fiecare 24 de ore, în medie, computerul se blochează complet. Dacă avem doar 4x Alphafold2 care rulează pe cardul de 16 GB, computerul este stabil de săptămâni, așa că problema pare să fie cu joburile de pe cardurile eGPU Akitio.

Există undeva care să ne spună de ce se prăbușește (computerul este pornit, dar nu răspunde complet, doar o repornire fizică a butonului de pornire face treaba)?

Uitandu-ma la /var/log/kern.log nu pare să arate nimic care să indice problema.

Un aspect despre care am citit este că s-ar putea ca benzile PCIe să fie supraîncărcate, iar cele 16 fire de execuție se declanșează cu atât de multe dispozitive PCIe conectate. Deoarece această mașină nu este folosită pentru nimic altceva, dezactivarea benzilor PCIe „Sunet” sau „USB 3.1” ar rezolva problema? Dacă da, cum?

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.