Puncte:0

Nu se poate rula modelul Tensorflow cu CUDA pe Ubuntu 20.04

drapel cn

Am încercat să instalez CUDA în ultimele zile pentru a se potrivi cu CNN-urile mele Tensorflow. Chiar acum este instalat pe computerul meu (Ubuntu 20.04 LTS, RTX3060):

tensorflow-gpu 2.4

python 3.8.10

cuDNN 8.0

CUDA 11.0

nvidia-driver-495

Driverul a fost instalat alături de CUDA 11.0.

Când mă potrivesc unui model, pot vedea că GPU-ul meu îi alocă toată memoria, dar modelul verbose rămâne la: Epocă: 1/50 și nu va merge niciodată mai departe.

Am încercat să-mi downgradez driverul la nvidia-driver-470, deoarece 495 nu este oficial. Această acțiune a făcut ca totul să nu mai funcționeze: GPU-ul meu nu mai alocă la montare, nvidia -smi nu mai funcționează, iar importul tensorflow returnează acum:

Nu s-a putut încărca biblioteca dinamică „libcudart.so.11.0”; eroare: ,

ceea ce nu era cazul anterior.

Stie cineva de unde poate veni aceasta problema?

Mulțumiri

edit 1:

După repornire, importul Tensorflow returnează:

tensorflow/stream_executor/platform/default/dso_loader.cc:60] Nu s-a putut încărca biblioteca dinamică „libcudart.so.11.0”; dlerror: libcudart.so.11.0: nu se poate deschide fișierul obiect partajat: nu există un astfel de fișier sau director; LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64:
2021-11-02 06:24:40.852786: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignorați mai sus cudart dlerror dacă nu aveți un GPU configurat pe computer.

Directoarele /usr/lib/cuda/include și /usr/lib/cuda/lib64 există de fapt.

editarea 2:

După reinstalarea cuda de pe acest link: https://askubuntu.com/a/1288405/231142

Importul Tensorflow funcționează și nu returnează probleme.

EarlyStop=EarlyStopping(răbdare=10,restore_best_weights=True)
Reduce_LR=ReduceLROnPlateau(monitor='val_accuracy',verbose=2,factor=0,5,min_lr=0,00001)
model_check=ModelCheckpoint('model.hdf5',monitor='val_loss',verbose=1,save_best_only=True)
tensorbord=TensorBoard(log_dir='logs')
callback=[EarlyStop , Reduce_LR, model_check,tensorbord]

se intoarce :

2021-11-02 20:09:55.607299: I tensorflow/core/profiler/lib/profiler_session.cc:131] Inițializarea sesiunii de profiler.
2021-11-02 20:09:55.607335: Am tensorflow/core/profiler/lib/profiler_session.cc:146] Sesiunea de profil a început.
2021-11-02 20:09:55.608325: Am tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1614] Profiler a găsit 1 GPU
2021-11-02 20:09:55.609026: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Nu s-a putut încărca biblioteca dinamică „libcupti.so.11.2”; dlerror: libcupti.so.11.2: nu se poate deschide fișierul obiect partajat: nu există un astfel de fișier sau director; LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609320: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Nu s-a putut încărca biblioteca dinamică „libcupti.so”; dlerror: libcupti.so: nu se poate deschide fișierul obiect partajat: Nu există un astfel de fișier sau director; LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609372: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, această eroare CUPTI nu a putut fi eșuată încărcat sau simbolul nu a putut fi găsit.
2021-11-02 20:09:55.609476: Am demolat sesiunea de profiler.
2021-11-02 20:09:55.609527: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1757] function cupti_interface_->Finalize()failed cu eroare CUPTI nu a putut fi încărcat sau simbolul nu a putut fi găsit.

Potrivirea modelului pornește și folosește tot GPU-ul și procesorul meu, în timp ce continuă încet și revine:

2021-11-02 20:09:55.832301: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Alocarea lui 428802048 depășește 10% din memoria liberă a sistemului.
2021-11-02 20:09:56.269844: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Alocarea 571736064 depășește 10% din memoria liberă a sistemului.
2021-11-02 20:09:56.669900: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Alocarea 428802048 depășește 10% din memoria liberă a sistemului.
2021-11-02 20:09:56.821919: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Alocarea 571736064 depășește 10% din memoria liberă a sistemului.
2021-11-02 20:09:57.065544: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:185] Niciuna dintre permisele de optimizare MLIR nu este activată (înregistrat 2)
Epoca 1/20
2021-11-02 20:09:59.868007: I tensorflow/stream_executor/cuda/cuda_dnn.cc:369] S-a încărcat versiunea cuDNN 8204
  1/137 [..............................] - ETA: 1:15:21 - pierdere: 0,7485 - precizie: 0.38712021-11-02 20:10:30.404084: I tensorflow/core/profiler/lib/profiler_session.cc:131] Inițializarea sesiunii de profiler.
2021-11-02 20:10:30.404114: Am tensorflow/core/profiler/lib/profiler_session.cc:146] Sesiunea de profil a început.
2021-11-02 20:10:30.404277: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, această eroare CUPTI nu a putut fi eșuată încărcat sau simbolul nu a putut fi găsit.

Poate fi o problemă cu libcupti.so.11.2 bibliotecă, dar nu am găsit-o pentru moment.

Terrance avatar
drapel id
Urăsc să întreb asta, dar când ați „depreciat” driverul NVIDIA, ați repornit sistemul pentru ca driverul mai vechi să intre în vigoare?
Louis avatar
drapel cn
am făcut pentru măsuri bune. importul tensorflow returnează acum: `2021-11-02 06:01:48.281681: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] Nu s-a putut încărca biblioteca dinamică 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: nu se poate deschide fișierul obiect partajat: nu există un astfel de fișier sau director; LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64: 2021-11-02 06:01:48.281751: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignorați mai sus cudart dlerror dacă nu aveți un GPU configurat pe computer.`
Terrance avatar
drapel id
Nu sunt sigur cum ați configurat sistemul pentru CUDA, dar poate doriți să vă uitați la răspunsul meu [aici](https://askubuntu.com/a/1288405/231142) și să vedeți dacă este posibil să fi ratat un pas din instalarea CUDA pentru informațiile suplimentare pe care trebuie să le adăugați la fișierul `~/.profile`. Mi-aș dori să am un card mai bun pe sistemul meu de acasă, deoarece unele dintre testele tensorflow nu le pot rula din cauza cardului meu mai vechi, dar alte teste CUDA trec. Uneori, rularea `sudo ldconfig` poate rezolva și problemele fișierelor din bibliotecă.
Louis avatar
drapel cn
am urmat instructiunile de pe linkul tau. am actualizat postarea cu noul stat.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.