Am încercat să instalez CUDA în ultimele zile pentru a se potrivi cu CNN-urile mele Tensorflow.
Chiar acum este instalat pe computerul meu (Ubuntu 20.04 LTS, RTX3060):
tensorflow-gpu 2.4
python 3.8.10
cuDNN 8.0
CUDA 11.0
nvidia-driver-495
Driverul a fost instalat alături de CUDA 11.0.
Când mă potrivesc unui model, pot vedea că GPU-ul meu îi alocă toată memoria, dar modelul verbose rămâne la: Epocă: 1/50
și nu va merge niciodată mai departe.
Am încercat să-mi downgradez driverul la nvidia-driver-470, deoarece 495 nu este oficial.
Această acțiune a făcut ca totul să nu mai funcționeze: GPU-ul meu nu mai alocă la montare, nvidia -smi
nu mai funcționează, iar importul tensorflow returnează acum:
Nu s-a putut încărca biblioteca dinamică „libcudart.so.11.0”; eroare:
,
ceea ce nu era cazul anterior.
Stie cineva de unde poate veni aceasta problema?
Mulțumiri
edit 1:
După repornire, importul Tensorflow returnează:
tensorflow/stream_executor/platform/default/dso_loader.cc:60] Nu s-a putut încărca biblioteca dinamică „libcudart.so.11.0”; dlerror: libcudart.so.11.0: nu se poate deschide fișierul obiect partajat: nu există un astfel de fișier sau director; LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64:
2021-11-02 06:24:40.852786: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignorați mai sus cudart dlerror dacă nu aveți un GPU configurat pe computer.
Directoarele /usr/lib/cuda/include și /usr/lib/cuda/lib64 există de fapt.
editarea 2:
După reinstalarea cuda de pe acest link: https://askubuntu.com/a/1288405/231142
Importul Tensorflow funcționează și nu returnează probleme.
EarlyStop=EarlyStopping(răbdare=10,restore_best_weights=True)
Reduce_LR=ReduceLROnPlateau(monitor='val_accuracy',verbose=2,factor=0,5,min_lr=0,00001)
model_check=ModelCheckpoint('model.hdf5',monitor='val_loss',verbose=1,save_best_only=True)
tensorbord=TensorBoard(log_dir='logs')
callback=[EarlyStop , Reduce_LR, model_check,tensorbord]
se intoarce :
2021-11-02 20:09:55.607299: I tensorflow/core/profiler/lib/profiler_session.cc:131] Inițializarea sesiunii de profiler.
2021-11-02 20:09:55.607335: Am tensorflow/core/profiler/lib/profiler_session.cc:146] Sesiunea de profil a început.
2021-11-02 20:09:55.608325: Am tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1614] Profiler a găsit 1 GPU
2021-11-02 20:09:55.609026: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Nu s-a putut încărca biblioteca dinamică „libcupti.so.11.2”; dlerror: libcupti.so.11.2: nu se poate deschide fișierul obiect partajat: nu există un astfel de fișier sau director; LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609320: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Nu s-a putut încărca biblioteca dinamică „libcupti.so”; dlerror: libcupti.so: nu se poate deschide fișierul obiect partajat: Nu există un astfel de fișier sau director; LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609372: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, această eroare CUPTI nu a putut fi eșuată încărcat sau simbolul nu a putut fi găsit.
2021-11-02 20:09:55.609476: Am demolat sesiunea de profiler.
2021-11-02 20:09:55.609527: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1757] function cupti_interface_->Finalize()failed cu eroare CUPTI nu a putut fi încărcat sau simbolul nu a putut fi găsit.
Potrivirea modelului pornește și folosește tot GPU-ul și procesorul meu, în timp ce continuă încet și revine:
2021-11-02 20:09:55.832301: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Alocarea lui 428802048 depășește 10% din memoria liberă a sistemului.
2021-11-02 20:09:56.269844: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Alocarea 571736064 depășește 10% din memoria liberă a sistemului.
2021-11-02 20:09:56.669900: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Alocarea 428802048 depășește 10% din memoria liberă a sistemului.
2021-11-02 20:09:56.821919: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Alocarea 571736064 depășește 10% din memoria liberă a sistemului.
2021-11-02 20:09:57.065544: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:185] Niciuna dintre permisele de optimizare MLIR nu este activată (înregistrat 2)
Epoca 1/20
2021-11-02 20:09:59.868007: I tensorflow/stream_executor/cuda/cuda_dnn.cc:369] S-a încărcat versiunea cuDNN 8204
1/137 [..............................] - ETA: 1:15:21 - pierdere: 0,7485 - precizie: 0.38712021-11-02 20:10:30.404084: I tensorflow/core/profiler/lib/profiler_session.cc:131] Inițializarea sesiunii de profiler.
2021-11-02 20:10:30.404114: Am tensorflow/core/profiler/lib/profiler_session.cc:146] Sesiunea de profil a început.
2021-11-02 20:10:30.404277: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, această eroare CUPTI nu a putut fi eșuată încărcat sau simbolul nu a putut fi găsit.
Poate fi o problemă cu libcupti.so.11.2
bibliotecă, dar nu am găsit-o pentru moment.