Puncte:0

De ce primesc erori ACPI BIOS de fiecare dată când rulez nvidia-smi?

drapel in

De fiecare dată când fug nvidia-smi pe noul nostru sistem de calcul primesc acest tip de erori în syslog. Adesea, câțiva dintre ei într-un grup:

25 februarie 13:35:02 xxxx kernel: [77419.656602] ACPI BIOS Error (bug): Eroare la crearea obiectului numit [\_SB.PC00.PEG1.PEGP._DSM.USRG], AE_ALREADY_EXISTS (20210331/ds)field-18
25 februarie 13:35:02 xxxx kernel: [77419.656612] Eroare ACPI: AE_ALREADY_EXISTS, eșec CreateBufferField (20210331/dswload2-477)
25 februarie 13:35:02 xxxx kernel: [77419.656616]
25 februarie 13:35:02 xxxx kernel: [77419.656618] Nu sunt inițializate variabile locale pentru metoda [_DSM]
25 februarie 13:35:02 xxxx kernel: [77419.656618]
25 februarie 13:35:02 xxxx kernel: [77419.656619] Argumente inițiale pentru metoda [_DSM]: (4 argumente definite pentru invocarea metodei)
25 februarie 13:35:02 xxxx kernel: [77419.656620] Arg0: 000000007cd03195 <Obj> Buffer(16) 75 0B A5 D4 C7 65 F7 46
25 februarie 13:35:02 xxxx kernel: [77419.656628] Arg1: 0000000012ece7a2 <Obj> Integer 0000000000000102
25 februarie 13:35:02 xxxx kernel: [77419.656632] Arg2: 000000009179cfcc <Obj> Integer 0000000000000010
25 februarie 13:35:02 xxxx kernel: [77419.656635] Arg3: 000000002ecdce5a <Obj> Buffer(4) 00 10 52 44
25 februarie 13:35:02 xxxx kernel: [77419.656639]
25 februarie 13:35:02 xxxx kernel: [77419.656641] Eroare ACPI: Se anulează metoda \_SB.PC00.PEG1.PEGP._DSM din cauza unei erori anterioare (AE_ALREADY_EXISTS) (20210331/psparse-529)

Același lucru se întâmplă atunci când an snmpd procesul interogează periodic parametrii GPU.

Ceva idei de ce ar fi asta?

Ieșirea de nvidia-smi pare a fi corect, dar sunt puțin nedumerit dacă acele erori de syslog ar conta. Am actualizat BIOS-ul cu cea mai recentă versiune veche de doar câteva zile. Iată informațiile despre sistemul în cauză:

$ inxi -Fxz
Sistem: Kernel: 5.13.0-30-generic x86_64 biți: 64 compilator: N/A Consolă: tty 0 Distro: Ubuntu 20.04.4 LTS (Focal Fossa)
Mașină: Tip: Desktop Sistem: Produs Alienware: Alienware Aurora R13 v: N/A serial: <filtru>
           Mobo: Model Alienware: 0C92D0 v: A00 serial: <filtru> UEFI: Alienware v: 1.0.12 data: 25/01/2022
CPU: Topologie: Model cu 10 nuclee: Intel Core i7-12700KF de a 12-a generație: 64 biți: MT MCP arc: N/A Cache L2: 25,0 MiB
           steaguri: avx avx2 lm nx pae sse sse2 sse3 sse4_1 sse4_2 ssse3 vmx bogomips: 144383
           Viteză: 893 MHz min/max: 800/6300 MHz Viteze de bază (MHz): 1: 890 2: 900 3: 843 4: 891 5: 800 6: 818 7: 873 8: 894
           9: 958 10: 925 11: 909 12: 900 13: 891 14: 901 15: 881 16: 909 17: 891 18: 1182 19: 884 20: 913
Grafică: Dispozitiv-1: furnizor NVIDIA: driver Dell: nvidia v: 510.47.03 ID bus: 01:00.0
           Afișare: server: X.org 1.20.13 driver: fbdev,nouveau unloaded: modesetting,vesa tty: 136x50
           Mesaj: Datele grafice avansate nu sunt disponibile în consolă. Încercați -G --display
Audio: Dispozitiv-1: Furnizor Intel: Driver Dell: snd_hda_intel v: ID magistrală kernel: 00:1f.3
           Dispozitiv-2: furnizor NVIDIA: driver Dell: snd_hda_intel v: ID magistrală kernel: 01:00.1
           Server de sunet: ALSA v: k5.13.0-30-generic
Rețea: Dispozitiv-1: furnizor Realtek: Bigfoot Networks driver: r8169 v: port kernel: 3000 ID bus: 03:00.0
           IF: starea enp3s0: viteza de creștere: 1000 Mbps duplex: mac complet: <filtru>
           Dispozitiv-2: furnizor Intel: Bigfoot Networks driver: iwlwifi v: port kernel: 3000 ID bus: 04:00.0
           IF: stare wlp4s0: jos mac: <filtru>
           IF-ID-1: stare docker0: viteză de creștere: 10000 Mbps duplex: necunoscut mac: <filtru>
           IF-ID-2: veth4f6068a stare: viteză de creștere: 10000 Mbps duplex: complet mac: <filtru>
Unități: Stocare locală: total: 1,84 TiB utilizat: 131,29 GiB (7,0%)
           ID-1: /dev/nvme0n1 model: KXG70ZNV1T02 NVMe KIOXIA 1024GB dimensiune: 953,87 GiB
           ID-2: /dev/sda furnizor: Toshiba model: DT01ACA100 dimensiune: 931,51 GiB temperatură: 35 C
Partiție: ID-1: / dimensiune: 904,82 GiB utilizat: 131,20 GiB (14,5%) fs: ext4 dev: /dev/nvme0n1p2
           ID-2: dimensiune swap-1: 11,00 GiB utilizat: 65,2 MiB (0,6%) fs: schimb dev: /dev/nvme0n1p3
Senzori: Temperaturi sistem: CPU: 32,0 C mobo: N/A
           Vitezele ventilatorului (RPM): N/A
Informații: Procese: 456 Timp de funcționare: 21h 41m Memorie: 62,60 GiB utilizate: 2,92 GiB (4,7%) Init: systemd runlevel: 5 Compilatoare:
           gcc: 9.3.0 Shell: bash v: 5.0.17 inxi: 3.0.38

GPU-ul este NVIDIA RTX 3080 10GB. Sistemul este implementat într-o cameră de server fără monitor, fără mouse, fără tastatură. Mesajele arată la fel chiar dacă conectez monitor/mouse/tastatură. Nicio diferenta.

Am încercat să găsesc mai multe informații despre această problemă, dar nu am avut succes. Nici măcar nu sunt sigur dacă este important să încerc să remediez acest lucru sau cui ar trebui să-l raportez în cazul în care este o eroare reală.

-- Bogdan

drapel in
Foarte simplu. Aș dori să înțeleg de ce văd erorile menționate mai sus în syslog care par să se întâmple atunci când GPU-ul este accesat. Dacă este important, cum îl repar, dacă nu, cum le fac să dispară (determină-le să nu mai apară).

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.