Puncte:0

Utilizarea clusterului de eGPU-uri blochează Ubuntu 21.10

drapel cn

Am configurat un computer AMD Ryzen cu Ubuntu 21.10 și am conectat 6 mașini Akitio Duo fiecare cu 2 plăci NVIDIA de 4 GB, precum și un al 13-lea card direct pe slotul PCIe, care este un card NVIDIA de 16 GB (RTX A4000).

Avem această platformă care rulează 16x fire de Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) și, în cea mai mare parte, poate rula fără probleme pentru o perioadă.

Dar din când în când, poate o dată la fiecare 24 de ore, în medie, computerul se blochează complet. Dacă avem doar 4x Alphafold2 care rulează pe cardul de 16 GB, computerul este stabil de săptămâni, așa că problema pare să fie cu joburile de pe cardurile eGPU Akitio.

Există undeva care să ne spună de ce se prăbușește (computerul este pornit, dar nu răspunde complet, doar o repornire fizică a butonului de pornire face treaba)?

Uitandu-ma la /var/log/kern.log nu pare să arate nimic care să indice problema.

EDITAȚI | ×:

Alergare dmidecode când numai cardul de 16 GB plus 2 Akitios sunt conectați, dă următoarele:

# dmidecode --type 9 | egrep „Utilizare|Tip|Desemnare”
        Denumire: PCIEX16_1
        Tip: x16 PCI Express
        Utilizare curentă: Disponibil
        Denumire: PCIEX16_2
        Tip: x8 PCI Express
        Utilizare curentă: în uz
        Denumire: PCIEX1_1
        Tip: x1 PCI Express
        Utilizare curentă: Disponibil

mulțumesc @matigo pentru sugestia de a te uita la syslog.În cea mai recentă blocare, arată bitul de deasupra bitului „@^”, apoi repornirea completă a fost la 10:02.

introduceți descrierea imaginii aici

drapel in
Există ceva în `/var/log/syslog` care indică problema?
719016 avatar
drapel cn
S-a adăugat o captură de ecran a înainte/după ultimul accident. Bitul verde din mijloc mă face să cred că a fost un accident grav, adăugând aceste caractere binare între blocare și repornire. Aparatul este conectat prin Ethernet, așa că NetworkManager nu ar trebui să aibă probleme cu wireless, deoarece wireless nu este necesar să fie conectat la rețea...
drapel cn
Ray
Din întâmplare, utilizați un sistem de fișiere partajat, cum ar fi `OCFS2` sau `GFS2`?
719016 avatar
drapel cn
NFS, da, montat ca `mount -t nfs url:/this /that`.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.