Puncte:0

Este pierderea confidențialității o variabilă aleatorie?

drapel us

Cartea „standard” (Dwork & Roth, 2014) definește pierderea confidențialității după cum urmează (p. 18)

Cantitatea

$$ \mathcal{L}^{(\xi)}_{\mathcal{M}(x) || \mathcal{M}(y)} = \ln \left( \frac{\Pr[\mathcal{M}(x) = \xi]}{\Pr[\mathcal{M}(y) = \xi]} \dreapta) $$

este important pentru noi; ne referim la el drept pierderea vieții private suportate prin observare $\xi$. [...] Ca întotdeauna, spațiul de probabilitate este peste monedele mecanismului $\mathcal{M}$.

Deci nu spune că este o variabilă aleatorie.

Din punctul meu de vedere, este doar o funcție cu valoare reală $\mathcal{L}: (\mathcal{M} \times x \times y \times \xi) \to \mathbb{R}$ deoarece emite log al raportului a două probabilități (numerele între 0 și 1).

„Spațiul de probabilitate este peste monede” este puțin confuz, dar cred că se referă aici la $\Pr[.]$ funcţii, din moment ce $\mathcal{M}$ sunt densități de probabilitate sau distribuții discrete.

Cu toate acestea, în multe locuri pe care le-am întâlnit variabila aleatoare a pierderii vieții private, de exemplu. Aici:

Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K. și Zhang, L. (2016). Învățare profundă cu confidențialitate diferențială. Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, 308â318. https://doi.org/10.1145/2976749.2978318

Pierderea confidențialității este o variabilă aleatorie dependentă de zgomotul aleatoriu adăugat algoritmului. [...] În schimb, calculăm momentele de log ale variabilei aleatoare de pierdere a confidențialității, care compun liniar. Folosim apoi momentele legate, împreună cu inegalitatea standard de Markov, pentru a obține limita de coadă, adică pierderea de intimitate în sensul de intimitate diferențială.

Sau aici:

http://www.gautamkamath.com/CS860notes/lec5.pdf

Definiţia 2. Fie $Y$ și $Z$ fie două variabile aleatoare. Variabila aleatorie privind pierderea confidențialității $\mathcal{L}_{Y||Z}$ este [...]

Întrebarea mea este: dacă pierderea confidențialității este o variabilă aleatorie, trebuie să aibă o distribuție de probabilitate corespunzătoare, adică să se integreze la 1. Dar acesta nu pare să fie cazul general al unui log de raport a două PDF-uri (Laplace, Gaussian). ) sau distribuții discrete (mecanism exponențial etc.). De asemenea, nu este menționat niciodată ca o condiție pentru pierderea confidențialității.

Deci: îmi scapa ceva sau este doar un nume înșelător (semantic greșit)?

kodlu avatar
drapel sa
Rețineți că aceasta este o funcție clasică din teoria probabilității, care datează cel puțin de la începutul secolului al XX-lea, probabilitatea log.
Daniel S avatar
drapel ru
@kodlu Cred că Good și Turing au fost primii care au făcut ordine și au oficializat utilizarea logaritmilor. Sondajul lui Good despre dezvoltarea a ceea ce el a numit „greutatea probelor” este o lectură bună: https://www.waterboards.ca.gov/water_issues/programs/tmdl/docs/303d_policydocs/207.pdf
John Doe avatar
drapel us
Mulțumesc, dar nu văd de ce probabilitatea de logare este într-un fel relevantă pentru pierderea confidențialității aici... Știu asta din învățarea automată pentru obținerea probabilității datelor având în vedere parametrii modelului (și luarea logului sau negativ pentru calcule mai ușoare, cum ar fi minimizarea ).
Puncte:1
drapel ru

Este o funcție a observației tale $\xi$, deci dacă observația dvs. este ea însăși extrasă dintr-o distribuție de probabilitate sensibilă (de exemplu, astfel încât observațiile care sunt valori imposibile pentru $M(x)$ și $M(y)$ nu apar), este o variabilă aleatoare. De obicei luăm în considerare cazul în care observațiile sunt luate fie dintr-o potrivire de distribuție $M(x)$ sau $M(y)$. Rețineți că funcția în sine nu reprezintă o distribuție de probabilitate și, prin urmare, nu trebuie să însumeze/integreze la 1.

Un exemplu ar putea ajuta aici. Să presupunem că am 2 zaruri cu patru fețe, dintre care unul (să zicem mor $x$) produce 1, 2, 3, 4 cu probabilitatea 1/4, 1/4, 1/6, 1/3 respectiv și celălalt (să zicem mor $y$) le produce cu probabilități 1/4, 1/4, 1/3, respectiv 1/6. Luând $\xi$ ca număr aruncat de un zar și folosind logaritmi în baza 2, atunci $\mathcal L(\xi)$ ia trei valori posibile conform $\mathcal L(1)=0$, $\mathcal L(2)=0$, $\mathcal L(3)=-1$ și $\mathcal L(4)=1$.

Dacă zarul aruncat este zarul $x$ atunci $\mathbb P(\mathcal L(\xi)=0)=1/2$, $\mathbb P(\mathcal L(\xi)=-1)=1/6$ și $\mathbb P(\mathcal L(\xi)=1)=1/3$. Confirmăm că probabilitățile se însumează la 1.

La fel, dacă zarul aruncat este zarul $y$ atunci $\mathbb P(\mathcal L(\xi)=0)=1/2$, $\mathbb P(\mathcal L(\xi)=-1)=1/3$ și $\mathbb P(\mathcal L(\xi)=1)=1/6$.

Rețineți că pierderea de confidențialitate așteptată în primul caz este 1/6, iar în al doilea este -1/6. În ambele cazuri, este o măsură a informațiilor așteptate (în biți) care susține credința că $x$ zarul a fost aruncat câștigat per rolă de zar.

John Doe avatar
drapel us
Multumesc pentru exemplu! Deci *este* o variabilă aleatorie, într-adevăr! Convertește reale în reali (parametrul $\xi$) și este distribuit în funcție de $\mathcal{M}(x)$.
John Doe avatar
drapel us
... ceea ce acum are sens și atunci când trebuie să calculăm divergențele (ca în exemplul tău = nu este doar o divergență KL?)
Daniel S avatar
drapel ru
Așteptarea pierderii confidențialității atunci când $\xi$ este eșantionat din $M(x)$ este într-adevăr divergența KL. Desigur, o variabilă aleatorie conține mai multe informații decât așteptările ei.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.