国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

ESA:一種新型的隱私保護(hù)框架

2022-01-19 09:21:10王雷霞孟小峰
關(guān)鍵詞:分析器可用性代價(jià)

王雷霞 孟小峰

(中國(guó)人民大學(xué)信息學(xué)院 北京 100872)

隨著數(shù)據(jù)驅(qū)動(dòng)的人工智能等技術(shù)的飛速發(fā)展,用戶數(shù)據(jù)收集的需求越來(lái)越迫切.但隨著隱私泄露事件的頻發(fā),用戶隱私保障逐步成為各企業(yè)數(shù)據(jù)收集的“壁壘”[1-2].具體而言,近幾年典型的隱私泄露事件包括Uber賬戶數(shù)據(jù)泄露事件、Facebook劍橋分析事件,造成了千萬(wàn)級(jí)的用戶數(shù)據(jù)外泄或?yàn)E用[3].為嚴(yán)防此類事件的頻發(fā),各國(guó)政府都頒布了相關(guān)法令以對(duì)用戶隱私數(shù)據(jù)進(jìn)行法律意義上的保護(hù).典型的,2016年4月,歐盟通過(guò)了《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR)[4],明確規(guī)定用戶在數(shù)據(jù)上的查閱權(quán)、被遺忘權(quán)等權(quán)利;2019年5月,中國(guó)國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布了《數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)》[5],以保障用戶個(gè)人信息和重要數(shù)據(jù)在網(wǎng)絡(luò)空間中的安全,并從數(shù)據(jù)收集、處理使用、安全監(jiān)管3個(gè)方面討論其辦法.然而,數(shù)據(jù)的特殊性質(zhì)決定用戶的隱私問(wèn)題不能僅通過(guò)法律法規(guī)界定其歸屬解決[6],企業(yè)也不能因此放棄對(duì)用戶敏感數(shù)據(jù)的收集,發(fā)展在大數(shù)據(jù)收集場(chǎng)景下兼顧數(shù)據(jù)隱私性與可用性的隱私保護(hù)技術(shù)勢(shì)在必行.

隱私保護(hù)技術(shù)經(jīng)過(guò)近20年的發(fā)展,已經(jīng)有了諸多較為成熟的方法與體系[7],典型的包括匿名化技術(shù)[8-11]、差分隱私技術(shù)[12-13]、密碼學(xué)技術(shù)等.在大數(shù)據(jù)場(chǎng)景下,當(dāng)前主流的隱私保護(hù)技術(shù)是差分隱私技術(shù),更具體的指本地化差分隱私技術(shù)(local differential privacy, LDP)[14],谷歌[15]、微軟[16]和蘋(píng)果[17]等企業(yè)都借助該技術(shù)完成特定的用戶行為信息統(tǒng)計(jì).差分隱私類方法本質(zhì)上都是在保證數(shù)據(jù)整體分布不變的情況下對(duì)數(shù)據(jù)進(jìn)行擾動(dòng),本地化差分隱私技術(shù)的優(yōu)勢(shì)主要體現(xiàn)在對(duì)隱私的嚴(yán)格定義和對(duì)數(shù)據(jù)收集場(chǎng)景的適用性上.具體地,在隱私定義上,它保證了任意一條用戶數(shù)據(jù)的增、刪、改都對(duì)用戶發(fā)布數(shù)據(jù)的統(tǒng)計(jì)分布幾乎無(wú)影響,可從根本上抵御匿名化方法難以應(yīng)對(duì)的背景知識(shí)攻擊;在場(chǎng)景適用性上,它直接在用戶本地端對(duì)數(shù)據(jù)進(jìn)行擾動(dòng),并只對(duì)外發(fā)布擾動(dòng)數(shù)據(jù)以保護(hù)隱私,無(wú)需依賴任何第三方.但該方法也存在著致命的缺點(diǎn),即在本地端添加過(guò)多噪聲,使得數(shù)據(jù)的可用性較差.使用該方法,企業(yè)要么承受該數(shù)據(jù)誤差,要么為提高數(shù)據(jù)可用性提高隱私損失ε,從而使得用戶數(shù)據(jù)的隱私度降低.

從理想的角度出發(fā),是否存在一種隱私保護(hù)方法在不對(duì)數(shù)據(jù)擾動(dòng)的情況下保護(hù)隱私,使得數(shù)據(jù)的隱私性與可用性兩者兼得?2017年谷歌的Bittau等人[18]提出ESA(encode-shuffle-analyze)框架,向該理想狀態(tài)跨出有力的一步.該框架主要由編碼器(encoder)、混洗器(shuffler)和分析器(analyzer)3部分組成:編碼器運(yùn)行在客戶端,對(duì)用戶數(shù)據(jù)進(jìn)行本地化的編碼、分割、擾動(dòng)等處理;混洗器運(yùn)行在一個(gè)半誠(chéng)信的第三方,它可借助現(xiàn)有的安全混洗協(xié)議[19-25]在對(duì)數(shù)據(jù)一無(wú)所知的情況下完成安全的混洗操作;分析器運(yùn)行在真正的數(shù)據(jù)收集者端,對(duì)收集的數(shù)據(jù)進(jìn)行校正與分析.該框架中,混洗器完成了對(duì)用戶數(shù)據(jù)完全匿名的操作,使得用戶可以在盡可能對(duì)數(shù)據(jù)本身進(jìn)行較小擾動(dòng)的情況,獲得較多的隱私保護(hù).

更具體地,圖1對(duì)該例子中數(shù)據(jù)收集者獲得頻數(shù)估計(jì)的分布進(jìn)行展示,基于ESA框架擾動(dòng)后的結(jié)果更接近于原始數(shù)據(jù),而本地化差分隱私方法擾動(dòng)后的結(jié)果則與真實(shí)結(jié)果相距甚遠(yuǎn).值得說(shuō)明的是,基于ESA框架擾動(dòng)后的結(jié)果與中心化差分隱私方法(central differential privacy, CDP)在該案例下獲得的結(jié)果近似,但該中心化差分隱私方法假設(shè)數(shù)據(jù)收集者可信(或存在一個(gè)可信第三方),是在對(duì)用戶真實(shí)數(shù)據(jù)的計(jì)算結(jié)果(即直方圖)上直接添加1次Laplace噪聲得到的,而基于ESA框架的方法上需在用戶本地添加總共n次噪聲.

Fig. 1 Comparison of different methods’ results

當(dāng)前對(duì)ESA框架的研究仍處于起步階段,以混洗差分隱私為主要方法,主要集中在2個(gè)方面:1)對(duì)其隱私增強(qiáng)效果的理論證明,即隱私放大(privacy amplification)理論;2)基于該模型提出不同統(tǒng)計(jì)估計(jì)方法.就混洗差分隱私而言,隱私放大理論是指用戶在本地通過(guò)本地化差分隱私的方法對(duì)數(shù)據(jù)進(jìn)行擾動(dòng),使得擾動(dòng)后的數(shù)據(jù)經(jīng)混洗實(shí)現(xiàn)接近于中心化方法所獲得的數(shù)據(jù)統(tǒng)計(jì)結(jié)果.在不同統(tǒng)計(jì)估計(jì)方法實(shí)現(xiàn)時(shí),可基于現(xiàn)有的差分隱私技術(shù)[31-32]進(jìn)行設(shè)計(jì),為了進(jìn)一步提高準(zhǔn)確性,也可借助密碼學(xué)中Split-Mix方法[33]進(jìn)行構(gòu)建.

本文對(duì)該新型的隱私保護(hù)框架進(jìn)行綜述,主要貢獻(xiàn)有4個(gè)方面:

1) 本文對(duì)ESA框架的實(shí)現(xiàn)機(jī)理與隱私保護(hù)程度進(jìn)行詳盡的分析,并以混洗差分隱私為例與其他差分隱私模型進(jìn)行對(duì)比,以說(shuō)明該框架的優(yōu)勢(shì)(第1節(jié));

2) 本文對(duì)ESA框架實(shí)現(xiàn)的主要方法——混洗差分隱私進(jìn)行分析總結(jié),包括該方法設(shè)計(jì)與實(shí)現(xiàn)的基礎(chǔ)理論與技術(shù)(第2,3節(jié)),以及該方法下具體的隱私保護(hù)機(jī)制(第4,5節(jié)).具體地,本文按研究問(wèn)題分類,對(duì)混洗差分隱私的計(jì)數(shù)估計(jì)、頻數(shù)估計(jì)、求和估計(jì)及其他的簡(jiǎn)單統(tǒng)計(jì)問(wèn)題進(jìn)行了對(duì)比分析.

3) 本文通過(guò)實(shí)驗(yàn)對(duì)混洗差分隱私下不同統(tǒng)計(jì)問(wèn)題的隱私保護(hù)機(jī)制進(jìn)行對(duì)比.當(dāng)前絕大多數(shù)工作都是理論研究,本文通過(guò)實(shí)驗(yàn)對(duì)比,可以更直觀地說(shuō)明不同理論機(jī)制在實(shí)際應(yīng)用時(shí)的效用和效率差異.

4) 基于對(duì)混洗差分隱私的理論與實(shí)驗(yàn)分析,本文提出ESA框架應(yīng)用與發(fā)展的挑戰(zhàn)問(wèn)題,對(duì)本文進(jìn)行總結(jié).其中,考慮到混洗差分隱私在應(yīng)用上固有的局限性、在方法設(shè)計(jì)中的明顯不足,本文對(duì)ESA框架下的非差分隱私方法進(jìn)行展望(第6,7節(jié)).

1 ESA隱私保護(hù)框架

之后,以當(dāng)前主流的混洗差分隱私框架(即ESA框架與差分隱私的結(jié)合)為主要案例,在實(shí)現(xiàn)同樣隱私目標(biāo)的情況下,與傳統(tǒng)的隱私保護(hù)框架對(duì)比,包括中心化差分隱私框架、本地化差分隱私框架及基于密碼學(xué)的差分隱私框架.最終通過(guò)對(duì)比說(shuō)明,ESA框架不僅有利于隱私保護(hù)中數(shù)據(jù)高隱私度與高可用性的實(shí)現(xiàn),對(duì)當(dāng)前各企業(yè)已部署的本地化差分隱私框架也極具適應(yīng)性.

1.1 ESA框架定義

ESA框架如圖2所示,主要由編碼器、混洗器和分析器構(gòu)成,并假設(shè)這三方是不可合謀的.

Fig. 2 ESA framework

① 半誠(chéng)信參與方(semi-honest party)[36],又稱誠(chéng)實(shí)且好奇的參與方(honest-but-curious party),是源于密碼學(xué)中的一個(gè)安全假設(shè),假設(shè)該參與方會(huì)正確遵循協(xié)議的執(zhí)行,但對(duì)計(jì)算的中間結(jié)果保持好奇,并依此進(jìn)行推理攻擊(inference attack).

1) 編碼器.主要運(yùn)行在用戶的本地客戶端,通常被認(rèn)為是可信的.它的作用是對(duì)用戶數(shù)據(jù)進(jìn)行編碼,以完成對(duì)用戶數(shù)據(jù)的發(fā)布范圍、粒度、擾動(dòng)程度以及隨機(jī)化程度的控制,在不依賴任何信任假設(shè)的情況下保護(hù)用戶數(shù)據(jù)隱私[15].

編碼器可根據(jù)其輸出消息的多寡分為單消息模式和多消息模式[34-35].單消息模式指用戶將數(shù)據(jù)編碼為1條消息,形式上可以是1個(gè)數(shù)值、1個(gè)二元組或1個(gè)數(shù)組,每個(gè)消息都是后續(xù)處理的最小單元;多消息模式指用戶將數(shù)據(jù)編碼為多條可分別處理的消息,如多個(gè)數(shù)值、二元組和數(shù)組等.對(duì)于同一輸入,通常情況下多消息模式可攜帶更多信息,有助于分析器獲取更準(zhǔn)確的分析結(jié)果.

編碼器的具體實(shí)現(xiàn),可通過(guò)數(shù)據(jù)泛化、數(shù)據(jù)分割、加密、添加差分隱私噪聲的方式實(shí)現(xiàn),以達(dá)到消除或減少數(shù)據(jù)所蘊(yùn)含的隱私信息的目的[18].

2) 混洗器.是獨(dú)立的半誠(chéng)信(semi-honest)①服務(wù)器,可在對(duì)數(shù)據(jù)內(nèi)容一無(wú)所知的情況下執(zhí)行安全的混洗操作,是ESA框架的核心組件.它的作用是接收用戶編碼后的數(shù)據(jù),消除相應(yīng)的元數(shù)據(jù)(包括接收時(shí)間、順序、IP地址等),并對(duì)接收數(shù)據(jù)進(jìn)行混洗(即打亂順序),以達(dá)到匿名目的.為保證足夠的隱私保護(hù)效果,該混洗器需等待一段時(shí)間收集足夠的用戶數(shù)據(jù)進(jìn)行混洗,并對(duì)數(shù)據(jù)量滿足一定閾值的數(shù)據(jù)進(jìn)行發(fā)布.當(dāng)數(shù)據(jù)量為敏感信息時(shí),可對(duì)該閾值添加滿足差分隱私的噪聲進(jìn)行擾動(dòng),或者隨機(jī)丟掉一些數(shù)據(jù)使數(shù)據(jù)量滿足差分隱私[18],從而保護(hù)數(shù)據(jù)量隱私.

在混洗器的模式上,可分為單混洗器模式和多混洗器模式[34-35].單混洗器模式是將所有編碼器輸出的數(shù)據(jù)一起混洗,即從邏輯上使用1個(gè)混洗器進(jìn)行混洗;多混洗器模式是將編碼器輸出的數(shù)據(jù)按屬性或其他特征進(jìn)行分類,從邏輯上使用多個(gè)混洗器對(duì)每個(gè)分類內(nèi)的數(shù)據(jù)分別進(jìn)行混洗.多混洗器模式通常用于屬性或分類特征不敏感的情況下,與多消息模式的編碼器相結(jié)合.但多混洗器模式并不與編碼器中的多消息模式對(duì)應(yīng),多消息的消息也可以使用單混洗模式的混洗器.單混洗模式將所有數(shù)據(jù)混淆,具有更高的隱私性;但對(duì)多消息的分類特征不敏感的情況,使用多混洗模式會(huì)獲得更高的數(shù)據(jù)可用性.

混洗器的具體實(shí)現(xiàn)可根據(jù)該模型部署的條件借助已有的安全混洗協(xié)議[18-24],基于可信硬件[25]、同態(tài)加密[36-38]或安全多方計(jì)算[39]等方式完成.特別地,單混洗模式和多混洗模式并不與混洗器具體實(shí)現(xiàn)的數(shù)量一一對(duì)應(yīng),這2個(gè)混洗模式是從隱私的邏輯層面進(jìn)行定義的.多混洗模式可使用1個(gè)混洗器實(shí)現(xiàn),即為每個(gè)分類添加標(biāo)簽,對(duì)屬于不同標(biāo)簽的數(shù)據(jù)分別進(jìn)行混洗;這2個(gè)混洗模式都可基于現(xiàn)有的安全協(xié)議使用多個(gè)混洗器實(shí)現(xiàn),以避免單點(diǎn)失敗.

3) 分析器.由數(shù)據(jù)收集者運(yùn)行,是不可信服務(wù)器.它的作用是接收混洗器發(fā)布的數(shù)據(jù),依據(jù)相應(yīng)的編碼和混洗規(guī)則對(duì)數(shù)據(jù)進(jìn)行分析與校正,并獲取最終的統(tǒng)計(jì)結(jié)果.該框架中數(shù)據(jù)的隱私性主要是針對(duì)分析器而言的,即將分析器視為數(shù)據(jù)的窺探者.

本文綜述的重點(diǎn)在于如何設(shè)計(jì)編碼器和分析器,選擇恰當(dāng)?shù)幕煜茨J絹?lái)進(jìn)行滿足一定隱私保證的統(tǒng)計(jì)計(jì)算.本文將混洗器作為黑盒來(lái)使用,假設(shè)其可以完成安全的混洗操作,主要原因是安全混洗協(xié)議已經(jīng)發(fā)展成熟,在諸多安全相關(guān)的文獻(xiàn)中已有過(guò)總結(jié)和論述[18-24];同時(shí)安全混洗協(xié)議的不同實(shí)現(xiàn)并不會(huì)對(duì)該框架下隱私保護(hù)方法的隱私性和可用性造成明顯影響.

1.2 ESA隱私分析

1.3 應(yīng)用實(shí)例:混洗差分隱私方法

通常情況下,研究者們將ESA框架與隱私定義嚴(yán)格的差分隱私進(jìn)行結(jié)合,即保證分析器所獲得的最終輸出滿足差分隱私定義,以此來(lái)對(duì)數(shù)據(jù)隱私進(jìn)行保證與度量.該結(jié)合被稱為混洗差分隱私,如圖3(b)所示,是本文所探討的核心方法.

Fig. 3 Comparison of differential privacy methods under different frameworks

對(duì)發(fā)展歷史已久的差分隱私方法而言,現(xiàn)存在著中心化差分隱私、本地化差分隱私、基于加密的差分隱私等多種基于不同隱私保護(hù)框架實(shí)現(xiàn)的差分隱私方法.本節(jié)將混洗差分隱私與其他差分隱私方法進(jìn)行對(duì)比,以說(shuō)明ESA框架在數(shù)據(jù)隱私性、數(shù)據(jù)可用性和框架易用性上的顯著優(yōu)勢(shì).

1.3.1 與中心化、本地化差分隱私對(duì)比

混洗差分隱私方法與本地化差分隱私方法具有高度的相似性,它們可使用相同的編碼器,實(shí)現(xiàn)用戶本地?cái)?shù)據(jù)的差分隱私.混洗差分隱私方法可視為在本地差分隱私框架上增加混洗器得到的,該混洗器依賴于半誠(chéng)信的安全假設(shè),相比于無(wú)任何可信依賴的本地化差分隱私框架,其可信假設(shè)更強(qiáng).但混洗器所完成的匿名操作,可有效實(shí)現(xiàn)隱私增強(qiáng)的效果,意味著在保證同樣ε-差分隱私保護(hù)的前提下,混洗差分隱私框架可通過(guò)編碼器添加較小的噪聲來(lái)提高最終數(shù)據(jù)的可用性.

中心化差分隱私使用集中式隱私保護(hù)框架,將分析器和編碼器集成在一起,放置于一個(gè)可信的第三方,該第三方可視為數(shù)據(jù)收集者.該方法中,數(shù)據(jù)收集者收集用戶原始數(shù)據(jù),在該數(shù)據(jù)上進(jìn)行分析,之后發(fā)布添加差分隱私噪聲的分析結(jié)果.混洗差分隱私方法與之相比,雖在用戶數(shù)據(jù)上添加了較多噪聲損失了一定數(shù)據(jù)的可用性,但擺脫了對(duì)可信服務(wù)器的強(qiáng)依賴.

總體而言,在模型對(duì)可信第三方的依賴程度上,本地化差分隱私<混洗差分隱私<中心化差分隱私,即本地化差分隱私擁有最小的可信假設(shè);以同一ε-差分隱私為目的,在分析結(jié)果的可用性上,中心化差分隱私>混洗差分隱私>本地化差分隱私,即中心化差分隱私擁有最高的結(jié)果可用性.由此可發(fā)現(xiàn),混洗差分隱私方法在隱私與可用性上,均介于本地化與中心化差分隱私兩者之間,實(shí)現(xiàn)了更好的平衡.

1.3.2 與基于加密的差分隱私對(duì)比

僅從數(shù)據(jù)可用性的角度出發(fā),基于加密的差分隱私也可在無(wú)需可信第三方支持的隱私保護(hù)框架上,實(shí)現(xiàn)可用性與中心化方法接近的差分隱私[41],與混洗差分隱私方法的結(jié)果相似.如圖4所示,在該框架中,用戶需在本地端對(duì)數(shù)據(jù)進(jìn)行同態(tài)加密,將加密后的數(shù)據(jù)發(fā)送給服務(wù)器.之后,服務(wù)器借助2個(gè)不可共謀的云,在加密數(shù)據(jù)上計(jì)算查詢結(jié)果并添加滿足差分隱私的噪聲,發(fā)布該擾動(dòng)的數(shù)據(jù).

Fig. 4 Cryptographic differential privacy framework

但相比混洗差分隱私方法,該方法借助同態(tài)加密完成查詢計(jì)算,會(huì)產(chǎn)生較高的計(jì)算代價(jià)和通信代價(jià).同時(shí),該框架需針對(duì)每一個(gè)查詢特別設(shè)計(jì)隱私協(xié)議,而混洗差分隱私框架可通過(guò)簡(jiǎn)單的更改部署在現(xiàn)有的、廣泛應(yīng)用的本地化差分隱私框架上,具有較強(qiáng)的適應(yīng)性.類似基于圖4的加密差分隱私方法還有文獻(xiàn)[42-43],均具有上述不足.

綜上,通過(guò)對(duì)不同框架下差分隱私方法的直觀對(duì)比,說(shuō)明了混洗差分隱私在隱私性、可用性和易用性上的突出優(yōu)勢(shì),而這些優(yōu)勢(shì)均得益于ESA框架的應(yīng)用與部署.后文,將對(duì)該混洗差分隱私方法進(jìn)行詳細(xì)的理論分析與實(shí)驗(yàn)對(duì)比,同時(shí)對(duì)ESA框架下其他隱私保護(hù)問(wèn)題與方法的實(shí)現(xiàn)進(jìn)行分析與展望.

2 基于ESA的隱私保護(hù)基礎(chǔ)理論

本節(jié)以混洗差分隱私為主要方法,對(duì)ESA框架下隱私保護(hù)機(jī)制設(shè)計(jì)與實(shí)現(xiàn)的基礎(chǔ)理論進(jìn)行介紹.首先,本節(jié)對(duì)差分隱私的基本定義和重要性質(zhì)進(jìn)行回顧,之后,在ESA框架下基于差分隱私概念提出混洗差分隱私.最終,基于混洗差分隱私,本節(jié)給出ESA框架下隱私放大理論的嚴(yán)格定義與實(shí)驗(yàn)分析.該理論嚴(yán)格證明了混洗器對(duì)用戶本地端隱私保證的增強(qiáng)效果,說(shuō)明ESA框架可在本地添加較少噪聲來(lái)實(shí)現(xiàn)較強(qiáng)的隱私保護(hù)效果,從而提高數(shù)據(jù)可用性.

2.1 差分隱私

Pr(M(D)∈S)≤eεPr(M(D′)∈S)+δ.

(1)

該定義為差分隱私的一般定義,也可將其視作中心化差分隱私的定義.相應(yīng)地,本地化差分隱私考慮分布式數(shù)據(jù)集,即每個(gè)用戶擁有1個(gè)數(shù)據(jù),且數(shù)據(jù)收集者可將收集的數(shù)據(jù)和用戶相關(guān)聯(lián).為保證數(shù)據(jù)收集者所收集的數(shù)據(jù)滿足差分隱私,需保證每個(gè)用戶的輸出均滿足差分隱私,因此得到如下本地化差分隱私的定義:

Pr(M(x)∈S)≤eεPr(M(x′)∈S)+δ.

(2)

在定義1和定義2中,當(dāng)δ=0時(shí),可得到純差分隱私(pure differential privacy)的定義,可分別標(biāo)記為ε-DP和ε-LDP;否則稱為近似差分隱私(approximate differential privacy).ε被稱為隱私代價(jià)或隱私預(yù)算,該值越小,說(shuō)明相鄰數(shù)據(jù)集或不同用戶輸入產(chǎn)生同一結(jié)果的概率越相近,該算法的隱私保護(hù)程度越高.δ表示相鄰數(shù)據(jù)集輸出結(jié)果存在概率δ使其不滿足純差分隱私,該值越小,該算法的隱私保護(hù)程度越高.

中心化與本地化的差分隱私均具有序列組合性(sequential composition)、并行組合性(parallel composition)和后處理性(post-processing)這樣3條重要性質(zhì).差分隱私的組合性可幫助協(xié)議設(shè)計(jì)者進(jìn)行隱私預(yù)算ε的分割,后處理性質(zhì)對(duì)定義在ESA框架上的差分隱私十分關(guān)鍵.

性質(zhì)1.序列組合性[45].給定數(shù)據(jù)集D和m個(gè)隨機(jī)化算法{M1,M2,…,Mm},算法Mi,1≤i≤m滿足εi-DP,則這m個(gè)Mi(D)算法構(gòu)成的序列滿足∑εi-DP.

性質(zhì)2.并行組合性[45].給定數(shù)據(jù)集D={D1∪D2∪…∪Dm},其中Di,1≤i≤m和Dj,1≤j≤m且i≠j為互不相交的數(shù)據(jù)集,設(shè)Mi滿足εi-DP的算法,則這m個(gè)Mi(Di)算法構(gòu)成的序列滿足max{εi}-DP.

性質(zhì)3.后處理性[46].給定滿足(ε,δ)-DP的隨機(jī)化算法M,令f為任意的隨機(jī)化函數(shù),則f°M依舊滿足(ε,δ)-DP.

序列組合性說(shuō)明隱私預(yù)算ε可以在算法設(shè)計(jì)的不同步驟進(jìn)行分配;并行組合性則定義了算法在不相交數(shù)據(jù)集上的隱私保證;后處理性則強(qiáng)調(diào),在滿足ε-DP的數(shù)據(jù)結(jié)果上進(jìn)行隨機(jī)操作,其輸出依舊滿足ε-DP.這3條性質(zhì)適用于本地化差分隱私時(shí),數(shù)據(jù)集D相應(yīng)地定義在用戶本地的數(shù)據(jù)集上.

2.2 混洗差分隱私

基于定義1~2與性質(zhì)1~3,結(jié)合ESA框架,本節(jié)給出混洗差分隱私的定義.簡(jiǎn)單而言,混洗差分隱私要求對(duì)分析器來(lái)說(shuō),其收集的數(shù)據(jù)滿足定義1中差分隱私的要求.同時(shí),差分隱私的后處理性說(shuō)明,只要ESA框架中的隨機(jī)化編碼器R和混洗器S處理過(guò)后的數(shù)據(jù)滿足差分隱私,最終結(jié)果即滿足差分隱私.該結(jié)果的隱私效果與分析器無(wú)關(guān),分析器的重要作用是對(duì)擾動(dòng)數(shù)據(jù)進(jìn)行計(jì)算,對(duì)估計(jì)結(jié)果進(jìn)行校正.

定義3.混洗差分隱私[47].給定n個(gè)可信用戶,每個(gè)用戶對(duì)應(yīng)1條記錄xi.令R:X→Ym表示隨機(jī)化的編碼器,其中m表示編碼后消息的數(shù)量;S:Ym→Π(Ym)表示混洗操作;算法A:Π(Ym)→Z為分析函數(shù),其中Π表示亂序,則混洗差分隱私協(xié)議可表示為P=(R,S,A).根據(jù)后處理性,則協(xié)議P滿足(ε,δ)-DP,當(dāng)且僅當(dāng)擾動(dòng)后的數(shù)據(jù)S°Rn=S(R(x1),R(x2),…,R(xn))=Π(R(x1),R(x2),…,R(xn))滿足(ε,δ)-DP.

定義3假設(shè)參與計(jì)算的用戶都是可信的,即都會(huì)按照協(xié)議正確地參與計(jì)算.但如果存在用戶不可信、掉線或者與分析器共謀,則會(huì)大大影響混洗的效果,從而影響最終的差分隱私效果,由此,具有魯棒性的混洗差分隱私被提出.

定義4.具有魯棒性的混洗差分隱私(robust shuffle differential privacy, RSDP)[48].給定N個(gè)用戶和可信用戶比例γ∈(0,1],如果對(duì)于所有的N∈+,γ′>γ,算法S°Rγ′N(xiāo)滿足(ε,δ)-DP,則混洗差分隱私協(xié)議P=(R,S,A)滿足(ε,δ,γ)-RSDP.

定義4保證了,在至少有γ比例的用戶正確遵循協(xié)議的情況下,混洗差分隱私協(xié)議P滿足(ε,δ)-DP.特別說(shuō)明,此處的魯棒性是對(duì)隱私性的保證,而非算法可用性的保證.

2.3 隱私放大理論

隱私放大(privacy amplification)是ESA框架中混洗器對(duì)隱私效果增強(qiáng)的理論分析,基于該理論,可將現(xiàn)有的本地化差分隱私方法直接應(yīng)用在ESA框架上.具體地,在混洗差分隱私框架中,假設(shè)用戶在本地端通過(guò)隨機(jī)編碼器R擾動(dòng)后的數(shù)據(jù)滿足εl-LDP,經(jīng)過(guò)混洗后,分析器所獲取的數(shù)據(jù)滿足εc-DP,從εl到εc的轉(zhuǎn)變可通過(guò)隱私放大理論獲取.εl對(duì)應(yīng)于較大的數(shù)值,表示較低的隱私性;εc對(duì)應(yīng)于較小的數(shù)值,表示較高的隱私性.針對(duì)具體的差分隱私機(jī)制,研究者們提出了不同的隱私放大定理.

2.3.1 通用隱私放大定理

與差分隱私相同,混洗差分隱私也存在交互式和非交互式2種隱私保護(hù)機(jī)制[49-50],如圖5所示.假設(shè)存在n個(gè)可信用戶,每個(gè)用戶擁有輸入xi和相同的隨機(jī)化的編碼協(xié)議Ri,在交互機(jī)制中,協(xié)議Ri的輸入為{R1(x1),R2(x2),…,Ri-1(xi-1),xi},即與前i-1個(gè)編碼器結(jié)果和用戶的輸入xi相關(guān);而非交互機(jī)制中協(xié)議Ri僅與用戶的輸入xi有關(guān),可視為交互機(jī)制的簡(jiǎn)化.

交互機(jī)制可以處理較為復(fù)雜的、用戶間有關(guān)聯(lián)關(guān)系的統(tǒng)計(jì)分析,如果一些遺傳病的統(tǒng)計(jì),被統(tǒng)計(jì)者與其親屬可能存在關(guān)聯(lián)關(guān)系;而非交互機(jī)制僅可以處理用戶數(shù)據(jù)獨(dú)立的統(tǒng)計(jì)分析.相應(yīng)地,基于這2種機(jī)制,研究者們提出了2個(gè)通用隱私放大定理.

Fig. 5 Interactive mechanism and non-interactive mechanism

定理1.通用交互機(jī)制的隱私放大定理[26].給定n個(gè)用戶,每個(gè)用戶對(duì)應(yīng)1條記錄xi,且在本地運(yùn)行隨機(jī)化編碼協(xié)議R.對(duì)于任意的n>1 000,δ∈(0,0.01),如果協(xié)議R滿足εl-本地化差分隱私,且εl∈(0,0.5),則協(xié)議S°Rn對(duì)應(yīng)混洗后的n個(gè)輸出滿足(εc,δ)-DP,其中

(3)

定理2.通用非交互機(jī)制的隱私放大定理[47].給定n個(gè)用戶,每個(gè)用戶對(duì)應(yīng)1條記錄xi,且在本地運(yùn)行隨機(jī)化編碼協(xié)議R.對(duì)于任意的n∈+,δ∈[0,1],εl∈(0,ln(n/ln(1/δ))/2],如果協(xié)議R滿足εl-LDP,則協(xié)議S°Rn對(duì)應(yīng)混洗后的n個(gè)輸出滿足(εc,δ)-DP,其中

(4)

根據(jù)定理1和定理2,設(shè)定δ=10-9,可得到表1和表2中隱私放大結(jié)果.令n表示參與計(jì)算的可信用戶數(shù)量,表1為根據(jù)式(3)計(jì)算εl經(jīng)隱私放大后得到的εc取值;表2為根據(jù)式(4)計(jì)算εc對(duì)應(yīng)的被放大前的εl取值.根據(jù)表1和表2可發(fā)現(xiàn),通過(guò)隱私放大,可輕易實(shí)現(xiàn)在用戶本地端添加滿足較大εl-LDP的噪聲,而在分析器端獲得較小的εc-DP保證.同時(shí),隱私放大效果隨著參與用戶數(shù)量的增加而增大.

Table 1 Results of Privacy Amplification on General Interactive Mechanism

Table 2 Converse Results of Privacy Amplification on General Non-interactive Mechanism

通過(guò)表1中的分析計(jì)算可發(fā)現(xiàn),通用交互機(jī)制的隱私放大結(jié)果是不適用于現(xiàn)實(shí)情況的.由于該機(jī)制僅在εl∈(0,0.5)時(shí)生效,此時(shí)εc的取值往往小于0.2.現(xiàn)實(shí)情況中,通常并不需要如此嚴(yán)格的(如此小的εc)差分隱私保證,并且用戶端添加過(guò)小的εl,會(huì)給統(tǒng)計(jì)結(jié)果造成較大誤差.由此,通用非交互機(jī)制的隱私放大定理往往會(huì)有更多的應(yīng)用.

2.3.2 基于隨機(jī)響應(yīng)的隱私放大定理

為了獲取更好的隱私放大的效果,研究者們針對(duì)具體的差分隱私機(jī)制提出了更精確的隱私放大定理.被應(yīng)用最多的,是基于隨機(jī)響應(yīng)機(jī)制提出的隱私放大定理.隨機(jī)響應(yīng)機(jī)制是本地化差分隱私的基本擾動(dòng)技術(shù),Warner[51]于1965年提出.為方便后續(xù)應(yīng)用,本節(jié)對(duì)該機(jī)制進(jìn)行一定程度的擴(kuò)展,并描述如下[27,47].

(5)

當(dāng)k=2時(shí),假設(shè)v1=‘Yes’,v2=‘No’,則上述機(jī)制即為經(jīng)典的隨機(jī)響應(yīng)機(jī)制,回答“Yes/No”的問(wèn)題,本文將其稱為布爾隨機(jī)響應(yīng)機(jī)制(Boolean random response mechanism).當(dāng)k≥2時(shí),本文將其稱為k值隨機(jī)響應(yīng)機(jī)制(k-random response mech-anism,kRR).之所以將其區(qū)分開(kāi),是由于在進(jìn)行復(fù)雜差分隱私機(jī)制設(shè)計(jì)時(shí),通常要考慮對(duì)數(shù)據(jù)01編碼或直接使用該數(shù)值的問(wèn)題,涉及上述2種不同方案.基于此,研究者們提出了2種相應(yīng)的隱私放大定理.

定理3.布爾隨機(jī)響應(yīng)機(jī)制的隱私放大定理[28].給定n個(gè)用戶,每個(gè)用戶對(duì)應(yīng)1條記錄xi∈{0,1},且在本地運(yùn)行協(xié)議R.對(duì)于任意的n∈+,δ∈[0,1],λ∈[14 ln(4/δ)/n,1],如果協(xié)議R以λ的概率均勻輸出{0,1}中的值,1-λ的概率輸出真實(shí)值,則協(xié)議S°Rn對(duì)應(yīng)混洗后的n個(gè)輸出滿足(εc,δ)-DP,其中

(6)

在定理3中,當(dāng)λ=2/(eεl+1)時(shí),布爾隨機(jī)響應(yīng)機(jī)制滿足εl-LDP.將該式代入式(6),通過(guò)簡(jiǎn)化,可得到寬松的隱私放大效果[52],即當(dāng)0<εl≤lnn-ln(14 ln(4/δ))時(shí),

(7)

定理4.k值隨機(jī)響應(yīng)機(jī)制的隱私放大定理[47].給定n個(gè)用戶,每個(gè)用戶對(duì)應(yīng)1條記錄xi∈{1,2,…,k},且在本地運(yùn)行協(xié)議R.對(duì)于任意的k,n∈+,λ∈[0,1],εc∈(0,1],如果協(xié)議R以λ的概率均勻輸出{1,2,…,k}中的值,以1-λ的概率輸出真實(shí)值,則當(dāng)λ滿足式(8)時(shí),協(xié)議S°Rn對(duì)應(yīng)混洗后的n個(gè)輸出滿足(εc,δ)-DP.

(8)

(9)

與2.3.1節(jié)相同,設(shè)定δ=10-9,針對(duì)不同的可信用戶數(shù)量n,表3表示根據(jù)定理3在給定n和εc的情況下,計(jì)算εl的取值情況;表4表示根據(jù)定理4,在給定n,εc,并假設(shè)k=2的情況下,計(jì)算εl的取值情況.在表3(表4)的結(jié)果中,None表示εl的取值不滿足定理3(定理4),無(wú)法進(jìn)行隱私放大.

顯然,在針對(duì)2個(gè)離散值進(jìn)行擾動(dòng)時(shí),定理4的隱私放大效果優(yōu)于定理3,由此選用定理4進(jìn)行基于隨機(jī)響應(yīng)機(jī)制的隱私放大是更明智的選擇.同時(shí)通過(guò)分析發(fā)現(xiàn),隨著k值的增大,定理4的隱私放大效果會(huì)縮減,但并不明顯.通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在給定n和εc的情況下,不同k值所造成隱私放大逆向計(jì)算結(jié)果εl的差異僅在小數(shù)點(diǎn)后幾位體現(xiàn).由于該計(jì)算結(jié)果較為簡(jiǎn)單,此處不予以展示.

Table 3 Converse Results of Privacy Amplification on Boolean Random Response Mechanism

Table 4 Converse Results of Privacy Amplification on k Random Response Mechanism

3 基于ESA的隱私保護(hù)基礎(chǔ)技術(shù)

本節(jié)以混洗差分隱私作為ESA實(shí)現(xiàn)的主要方案,對(duì)該方案構(gòu)建的基礎(chǔ)技術(shù)進(jìn)行總結(jié)與介紹,為后文不同隱私保護(hù)方法的對(duì)比分析奠定基礎(chǔ).

這些基礎(chǔ)技術(shù)主要分為2類:一類是差分隱私技術(shù),包括中心化差分隱私、分布式差分隱私和本地化差分隱私中的具體隱私保護(hù)機(jī)制;另一類是基于匿名的密碼學(xué)技術(shù),具體指Split-Mix方法.差分隱私技術(shù)中,本地化差分隱私技術(shù)可與2.3節(jié)所述的隱私放大定理相結(jié)合以實(shí)現(xiàn)混洗差分隱私,該途徑所獲得的差分隱私模型較為簡(jiǎn)潔.基于匿名的密碼學(xué)技術(shù)Split-Mix方法通常與中心化或分布式的差分隱私技術(shù)相結(jié)合以滿足最終的差分隱私保證,在該過(guò)程中Split-Mix方法可進(jìn)一步減少在原始數(shù)據(jù)中添加的噪聲,使計(jì)數(shù)結(jié)果具有較高的準(zhǔn)確性,但同時(shí)也會(huì)產(chǎn)生較高的通信代價(jià).

3.1 差分隱私技術(shù)

差分隱私技術(shù)根據(jù)不同的使用場(chǎng)景,可分為中心化差分隱私、分布式差分隱私和本地化差分隱私3種,均可通過(guò)與ESA框架不同的結(jié)合方式實(shí)現(xiàn)混洗差分隱私,具體技術(shù)如下.

3.1.1 中心化差分隱私技術(shù)

中心化差分隱私技術(shù)指一般的差分隱私機(jī)制,該機(jī)制通常在統(tǒng)計(jì)分析結(jié)果(如直方圖)上添加滿足一定分布的噪聲,使該擾動(dòng)后的結(jié)果滿足(ε,δ)-DP,以響應(yīng)用戶查詢.為保證擾動(dòng)后結(jié)果的無(wú)偏性,通常需要保證添加噪聲的期望為0.常用差分隱私機(jī)制如下:

定理5.拉普拉斯機(jī)制[46].令f:Xn→是一個(gè)敏感度為Δ的函數(shù),即對(duì)所有的相鄰數(shù)據(jù)集D,D′∈Xn,|f(D)-f(D′)|≤Δ.當(dāng)ε>0時(shí),生成噪聲η~Lap(Δ/ε),則添加噪聲后的輸出f(D)+η滿足ε-DP.

定理6.二項(xiàng)分布機(jī)制[53].令f:Xn→是一個(gè)敏感度為Δ的函數(shù),即對(duì)所有的相鄰數(shù)據(jù)集D,D′∈Xn,|f(D)-f(D′)|≤Δ.當(dāng)ε>0,δ∈(0,1),λ≥20(eε/Δ+1)/(eε/Δ-1)2ln(2/δ)時(shí),生成噪聲則添加噪聲后的輸出f(D)+η滿足(ε,δ)-DP.

定理7.幾何分布機(jī)制[54].令f:Xn→是一個(gè)敏感度為Δ的函數(shù),即對(duì)所有相鄰數(shù)據(jù)集D,D′∈Xn,|f(D)-f(D′)|≤Δ.當(dāng)ε>0時(shí),生成噪聲η~SG(ε),添加噪聲后的輸出f(D)+η滿足ε-DP.

其中,SG(ε)表示對(duì)稱幾何分布,它對(duì)應(yīng)的概率分布函數(shù)為Pr(η=x)=e-ε|x|/Δ×(eε/Δ-1)/(eε/Δ+1).該分布可看作離散化的拉普拉斯分布,其期望為0.該機(jī)制通常為整數(shù)數(shù)值添加噪聲.

3.1.2 分布式差分隱私技術(shù)

分布式差分隱私技術(shù)與中心化差分隱私技術(shù)不同的是,該方法不直接在統(tǒng)計(jì)結(jié)果上添加噪聲,而在用戶端的原始數(shù)據(jù)上獨(dú)立添加滿足一定分布的隨機(jī)噪聲,并使得擾動(dòng)后的數(shù)據(jù)在服務(wù)器端滿足差分隱私.分布式差分隱私技術(shù)通常利用拉普拉斯分布無(wú)限可分性質(zhì),在用戶端獨(dú)立添加滿足一定分布的噪聲,使得在服務(wù)器端這些噪聲的和滿足拉普拉斯分布[31].

定理8.分布式幾何分布機(jī)制[32,55].令n為可信用戶數(shù)量,f:Xn→是一個(gè)敏感度為Δ的函數(shù),即對(duì)所有的相鄰數(shù)據(jù)集D,D′∈Xn,|f(D)-f(D′)|≤Δ,獨(dú)立隨機(jī)變量滿足分布Pólya(1/n,e-ε/Δ),則噪聲η~SG(ε)可通過(guò)式(10)模擬:

(10)

3.1.3 本地化差分隱私技術(shù)

本地化差分隱私技術(shù)在用戶端的原始數(shù)據(jù)上添加噪聲,并保證任一用戶的發(fā)布數(shù)據(jù)均滿足差分隱私定義.該技術(shù)中最常用的是隨機(jī)響應(yīng)機(jī)制,亦可基于一般的差分隱私機(jī)制(指中心化差分隱私技術(shù))實(shí)現(xiàn),但會(huì)產(chǎn)生較多噪聲.該技術(shù)是混洗差分隱私方法設(shè)計(jì)中最常用的基礎(chǔ)技術(shù),它結(jié)合混洗器的隱私放大效果可達(dá)到較強(qiáng)的差分隱私保護(hù)效果.

具體技術(shù)中,為了在隨機(jī)響應(yīng)機(jī)制的基礎(chǔ)上進(jìn)一步降低通信代價(jià)和均方誤差,使計(jì)算結(jié)果不依賴于用戶數(shù)據(jù)的值域,基于略圖的本地化差分隱私(sketch-based local differential privacy)算法[56-57]被提出,即首先使用散列函數(shù)對(duì)用戶數(shù)據(jù)進(jìn)行映射,對(duì)該映射后的值進(jìn)行擾動(dòng).Wang等人[57]針對(duì)此類方法以均方誤差為目標(biāo)函數(shù)對(duì)該最小值問(wèn)題進(jìn)行求解,提出了OLH方法,可在值域較大的情況下,實(shí)現(xiàn)與值域[d]大小無(wú)關(guān)的最優(yōu)誤差,[d]表示{1,2,…,d}.該方法將較大的數(shù)據(jù)值域[d]通過(guò)散列函數(shù)進(jìn)行壓縮,映射至較小的值域[d′],用戶將其擁有的值先用該散列函數(shù)進(jìn)行散列,而后進(jìn)行隨機(jī)擾動(dòng),即以εl/(εl+d′-1)的概率保持該值不變,以1/(εl+d′-1)的概率擾動(dòng)為值域{1,2,…,d′}內(nèi)的其他值.當(dāng)d′=eεl+1時(shí),可使結(jié)果對(duì)應(yīng)的均方誤差最小.較大值域[d]指的是d≥3eεl+2時(shí),否則應(yīng)用通用的k值隨機(jī)響應(yīng)算法即可獲得較小的均方誤差.更多本地化差分隱私方法在文獻(xiàn)[14]中已有詳細(xì)綜述,本節(jié)不再贅述.

3.2 基于匿名的密碼學(xué)技術(shù)

ESA框架中的混洗器相當(dāng)于完成了徹底的匿名操作,由此可基于Split-Mix方法設(shè)計(jì)實(shí)現(xiàn)滿足分析器端差分隱私的算法.同時(shí),利用Split-Mix方法中類似秘密共享的操作,可進(jìn)一步對(duì)用戶端編碼后的數(shù)據(jù)提供保護(hù),分析器將會(huì)看到幾乎完全隨機(jī)的數(shù)據(jù)分片,如此可進(jìn)一步減小差分隱私噪聲的添加.Split-Mix方法與加法秘密共享不同的是,后者需保證不同的數(shù)據(jù)分片(即shares)由不同的參與者擁有,而該算法對(duì)數(shù)據(jù)分割獲得的數(shù)據(jù)分片可由1個(gè)或多個(gè)混洗器持有,取決于混洗器的實(shí)現(xiàn)方式.

Ghazi等人首次提出并證明使用該算法可以在ESA框架中實(shí)現(xiàn)差分隱私[58],并證明了該算法的誤差上界,以及一輪協(xié)議(one-round protocol)下的誤差下界[59].Balle等人[60]給出了與Split-Mix方法結(jié)合的差分隱私保證,見(jiàn)定理9.基于定理9,可以進(jìn)一步設(shè)計(jì)出多消息模式下的混洗差分隱私機(jī)制.

定理9.假設(shè)算法M和算法M′的統(tǒng)計(jì)距離(總體方差)為μ(σ),算法M滿足(ε,δ)-DP,則算法M′滿足(ε,δ+(1+eε)μ(σ))-DP.

4 基于ESA的隱私保護(hù)方法對(duì)比

Table 5 Research Fields of Shuffle Differential Privacy

其中,計(jì)數(shù)估計(jì)、頻數(shù)估計(jì)和求和估計(jì)是統(tǒng)計(jì)估計(jì)的基礎(chǔ)問(wèn)題,受到廣泛關(guān)注,也是本節(jié)分析的重點(diǎn).在本節(jié)的理論分析中,一般假設(shè)有n個(gè)用戶參與計(jì)算,實(shí)現(xiàn)了分析器端(εc,δ)-DP的隱私保護(hù)效果.部分機(jī)制假設(shè)參與計(jì)算的用戶不完全可信,此時(shí)使用的N表示用戶數(shù)量,γ表示可信用戶比例,可在分析器端實(shí)現(xiàn)具有魯棒性的(ε,δ,γ)-RSDP;當(dāng)γ=1時(shí),它等同于(εc,δ)-DP.同時(shí),在文中使用[d]表示{1,2,…,d},[n]表示{1,2,…,n}.在不同估計(jì)機(jī)制的對(duì)比表中,通信代價(jià)指每個(gè)用戶發(fā)送消息的數(shù)量,“—”表示該項(xiàng)隱私未得到嚴(yán)格的理論保證.

4.1 計(jì)數(shù)估計(jì)

針對(duì)該問(wèn)題,研究者們提出了若干方法,分別實(shí)現(xiàn)了不同的隱私目標(biāo).Cnt_RR[28]基于隱私放大理論,可實(shí)現(xiàn)不同ε的中心端差分隱私和本地端差分隱私.Cnt_2M[61],Cnt_PURE[62],Cnt_SGM[48],Cnt_BN[48]僅考慮中心端差分隱私,其中,Cnt_2M實(shí)現(xiàn)近似差分隱私,Cnt_PURE實(shí)現(xiàn)純差分隱私,Cnt_SGM和Cnt_BN則進(jìn)一步考慮了用戶不完全可信的場(chǎng)景,分別實(shí)現(xiàn)了分析器端具有魯棒性的純差分隱私和近似差分隱私.具體方法對(duì)比見(jiàn)表6,方法分析為:

(11)

Table 6 Comparison of Counting Estimation Methods on Shuffle Differential Privacy

4.2 頻數(shù)估計(jì)

頻數(shù)估計(jì)中假設(shè)每個(gè)用戶擁有1個(gè)離散型的值xi∈[d],分析器端基于匿名的用戶擾動(dòng)數(shù)據(jù)估計(jì)這些數(shù)值頻數(shù)count(j),j∈[d],即估計(jì)用戶數(shù)據(jù)的直方圖.

Table 7 Comparison of Frequency Estimation on Shuffle Differential Privacy

為了在值域[d]較大時(shí)進(jìn)一步減少頻數(shù)估計(jì)的誤差,研究者們相繼提出了若干頻數(shù)估計(jì)方案,可實(shí)現(xiàn)與值域[d]無(wú)關(guān)的誤差邊界.

Hist_MM[61]方法基于計(jì)數(shù)機(jī)制Cnt_2M構(gòu)建,僅考慮分析器端的差分隱私,不考慮用戶端的差分隱私,由此無(wú)需根據(jù)值域[d]對(duì)用戶端的隱私預(yù)算進(jìn)行劃分,分析器也可計(jì)算得到與[d]無(wú)關(guān)的誤差邊界.在該方法中,每個(gè)用戶將其擁有的數(shù)據(jù)進(jìn)行獨(dú)熱(one-hot)編碼,即生成1個(gè)d長(zhǎng)的向量,第xi位為1,其余位為0.之后對(duì)每一位{0,1}分別使用滿足(εc/2,δ/2)-DP的Cnt_2M中的擾動(dòng)機(jī)制進(jìn)行擾動(dòng),得到y(tǒng)ij={1}*.為了使得分析器能夠在徹底的混洗后依然識(shí)別yij對(duì)應(yīng)于哪一個(gè)離散值,用戶將j×yij發(fā)送給混洗器進(jìn)行擾動(dòng).最終分析器分別統(tǒng)計(jì)每一個(gè)值j∈[d]的計(jì)數(shù),使用Cnt_2M中的校正機(jī)制進(jìn)行校正,計(jì)算其頻數(shù).該機(jī)制的優(yōu)點(diǎn)在于它的誤差邊界并不依賴于值域[d],但該機(jī)制所獲得的估計(jì)結(jié)果是有偏的,且僅考慮了分析器作為攻擊者時(shí)的隱私保護(hù),不能保證對(duì)任意攻擊者的用戶端隱私.

SLH機(jī)制使用1個(gè)混洗器進(jìn)行混洗,一旦該混洗器與分析器串通,用戶的隱私將不能得到保證.為了解決該問(wèn)題,Wang等人[40]在SLH方法的基礎(chǔ)上進(jìn)一步提出了一個(gè)通用協(xié)議MURS(multi uniform random shufflers),使用m個(gè)混洗器對(duì)用戶數(shù)據(jù)進(jìn)行混洗,每個(gè)混洗器在混洗的過(guò)程中都隨機(jī)添加一些均勻分布的假數(shù)據(jù).此處的多個(gè)混洗器完成的是幾乎相同的工作,仍對(duì)應(yīng)于1.1節(jié)中介紹的單混洗器模式,只是使用多個(gè)服務(wù)器來(lái)實(shí)現(xiàn)該模式.這樣一來(lái),即使有m-1個(gè)混洗器和除被攻擊用戶外其余n-1個(gè)用戶都與分析器合謀,用戶數(shù)據(jù)至少能得到由1個(gè)混洗器所添加的假數(shù)據(jù)構(gòu)成的“隱私毯子”帶來(lái)的保護(hù).

分析器端滿足(εc,δ)-DP.

至此,上述分析的所有方法均針對(duì)單值頻數(shù)估計(jì),對(duì)于多值頻數(shù)估計(jì)(即用戶擁有多個(gè)值的情況),通常情況下,可通過(guò)對(duì)隱私預(yù)算εc進(jìn)行分割,或從多值中隨機(jī)采樣1個(gè)值進(jìn)行擾動(dòng),文獻(xiàn)[65-66]證明后者的誤差更小.而針對(duì)ESA模型下的多值頻數(shù)估計(jì),Erlingsson等人[52]提出了“屬性分段”(attribute fragmenting)的通用方法.對(duì)于一些獨(dú)立的自然屬性,如統(tǒng)計(jì)人群的年齡、性別等,可將不同的屬性作為單獨(dú)的分段分別擾動(dòng),每個(gè)屬性使用1個(gè)單獨(dú)的混洗器進(jìn)行混洗,以提高數(shù)據(jù)可用性;對(duì)于非自然屬性,可人為將其拆分為多個(gè)分段,應(yīng)用該屬性分段技術(shù).該屬性分段的應(yīng)用特例是,對(duì)于用戶擁有的數(shù)值xi可進(jìn)行獨(dú)熱編碼,而后使用Cnt_RR方法對(duì)每一比特位的數(shù)據(jù)分別進(jìn)行擾動(dòng)與混洗.

4.3 求和估計(jì)

研究者們基于上述針對(duì)離散值的擾動(dòng)方法(包括計(jì)數(shù)估計(jì)方法和頻數(shù)估計(jì)方法),提出了若干實(shí)數(shù)求和估計(jì)機(jī)制,如RSum_RR,RSum_KR,RSum_RM,RSum_DSG,RSum_PURE,其中RSum_PURE實(shí)現(xiàn)了純差分隱私,其余均實(shí)現(xiàn)了近似差分隱私.每一個(gè)方法的提出,都相比前一個(gè)方法降低了統(tǒng)計(jì)結(jié)果的誤差邊界;但兼顧結(jié)果可用性和方法通信代價(jià),RSum_RM應(yīng)是當(dāng)前可行性較高的估計(jì)方法.

在具體實(shí)現(xiàn)時(shí),為了應(yīng)用上述對(duì)離散值擾動(dòng)的方法,首先需要將該實(shí)數(shù)根據(jù)一定規(guī)則編碼為若干整數(shù).通常情況下,研究者們會(huì)依據(jù)一定的準(zhǔn)確度p將實(shí)數(shù)值xi其放大p倍得到pxi,而后將其無(wú)偏映射為離散型的整數(shù),該過(guò)程稱為隨機(jī)舍入(random rounding).最終,在若干離散型數(shù)據(jù)上,基于布爾求和或頻數(shù)估計(jì)方法進(jìn)行計(jì)算.通常隨機(jī)舍入算法需保證無(wú)偏,以保證最終結(jié)果的可用性.求和估計(jì)的方法對(duì)比見(jiàn)表8,具體方案如下所述.

實(shí)數(shù)求和估計(jì)結(jié)果的準(zhǔn)確性一方面依賴于隱私預(yù)算εc的分配與方法的隱私放大效果;另一方面也與隨機(jī)舍入的結(jié)果的準(zhǔn)確性有關(guān).進(jìn)一步地,RSum_RM[35]方法將用戶擁有的xi∈[0,1]隨機(jī)舍入為多個(gè)更為準(zhǔn)確的值,以提高方法的可用性.

RSum_RM[35]方法的核心思想是,通過(guò)將用戶擁有的數(shù)值xi∈[0,1]依據(jù)m個(gè)固定的準(zhǔn)確度編碼為多個(gè)值,并對(duì)編碼后的值分別獨(dú)立地應(yīng)用隨機(jī)響應(yīng)方法,從而盡可能利用混洗器提供的隱私保護(hù).具體地,給定一系列準(zhǔn)確度p1,p2,…,pm∈+,令則

其中

Table 8 Comparison of Sum Estimation on Shuffle Differential Privacy

雖然RSum_DSG方法從理論上獲得了與n無(wú)關(guān)的均方誤差MSE,但該方法的通信代價(jià)過(guò)大.通常情況下,選擇方法RSum_RM更具實(shí)用性,用戶可根據(jù)其帶寬選擇多消息模式編碼器中消息的數(shù)量m,當(dāng)m=2或3時(shí),即可取得可用性相對(duì)較好的結(jié)果.

4.4 其他統(tǒng)計(jì)問(wèn)題

除了基本的計(jì)數(shù)估計(jì)和頻數(shù)估計(jì),研究者們還關(guān)注了其他相對(duì)復(fù)雜的統(tǒng)計(jì)和查詢問(wèn)題,包括不同元素計(jì)數(shù)(distinct elements counting)、范圍計(jì)數(shù)和均勻性檢驗(yàn),具體可見(jiàn)表7.本節(jié)對(duì)這些方法進(jìn)行理論分析與總結(jié),由于這些方法均使用了多消息模式和單洗牌器模式,不再將這2項(xiàng)羅列在對(duì)比的表格當(dāng)中.

4.4.1 不同元素計(jì)數(shù)

4.4.2 范圍計(jì)數(shù)

給定數(shù)據(jù)的值域[d],每個(gè)用戶擁有1個(gè)xi∈[d],該問(wèn)題統(tǒng)計(jì)在范圍[j,j′]內(nèi)值的計(jì)數(shù),也就是取范圍[j,j′]對(duì)應(yīng)的直方圖.令Y=hist(X)表示用戶數(shù)據(jù)的直方圖統(tǒng)計(jì),w∈{0,1}d為該范圍的編碼表示,其中1≤j≤j′≤d,wj=wj+1=…=wj′=1,其余項(xiàng)為0,則范圍計(jì)數(shù)的結(jié)果可以用[w,Y]表示,[·,·]表示點(diǎn)積.

Ghazi等人在文獻(xiàn)[64]通過(guò)矩陣機(jī)制[67-68]將該范圍計(jì)數(shù)問(wèn)題歸約為頻數(shù)估計(jì)問(wèn)題.根據(jù)矩陣機(jī)制,對(duì)于給定的數(shù)據(jù)集X,可基于可逆矩陣M∈{0,1}d×d,構(gòu)造噪聲擾動(dòng)的直方圖Y+ΔM-1ψ,Δ表示敏感度,即M中列的最大1范數(shù),z表示隨機(jī)的噪聲向量.擾動(dòng)后范圍計(jì)數(shù)的結(jié)果[w,Y+ΔM-1ψ]等同于[wM-1,MY+Δψ],令表示正常的頻數(shù)估計(jì)方法擾動(dòng)后的結(jié)果,由此范圍計(jì)數(shù)可通過(guò)頻數(shù)估計(jì)問(wèn)題得到.基于該歸約,用戶可根據(jù)其擁有的數(shù)據(jù)xi,選擇矩陣M中第xi列非0項(xiàng)對(duì)應(yīng)的索引值j∈[d]作為其編碼,并調(diào)用之前任一頻數(shù)估計(jì)方法分別對(duì)每一個(gè)值進(jìn)行擾動(dòng)并輸出;分析器收到混洗后的用戶數(shù)據(jù),首先估計(jì)頻數(shù)之后通過(guò)即可返回范圍計(jì)數(shù)的結(jié)果.

Fig. 6 Range query tree(d=4)

Table 9 Summary of Other Statistic Estimation on Shuffle Differential Privacy

4.4.3 均勻性檢驗(yàn)

均勻性檢驗(yàn)是指對(duì)于1個(gè)在值域[d]上的未知分布,檢驗(yàn)該分布是否是均勻分布.下述用于均勻性檢驗(yàn)的2個(gè)方法,均滿足具有魯棒性的差分隱私.

AUT[48]實(shí)現(xiàn)了具有魯棒性的近似差分隱私.該方法的編碼和擾動(dòng)過(guò)程與PUT方法相似,將應(yīng)用于編碼后每一位的Cnt_SGM方法替換為Cnt_BN方法即可.與其他問(wèn)題不同的是,在表9中,這2個(gè)方法的誤差用樣本復(fù)雜度來(lái)度量.

5 實(shí)驗(yàn)評(píng)估

基于ESA的隱私保護(hù)方法對(duì)比中,計(jì)數(shù)估計(jì)、求和估計(jì)和頻數(shù)估計(jì)作為重點(diǎn)的基礎(chǔ)問(wèn)題,存在著若干種隱私保護(hù)方法.本節(jié)將這些方法進(jìn)行了實(shí)現(xiàn),并對(duì)其中的重要參數(shù)進(jìn)行實(shí)驗(yàn)評(píng)估,對(duì)于本節(jié)未提及的參數(shù),使用該方法在獲得最優(yōu)邊界時(shí)的參數(shù)設(shè)定.該實(shí)驗(yàn)一方面評(píng)估部分參數(shù)對(duì)分析結(jié)果的影響,另一方面使同一問(wèn)題下不同方法的對(duì)比更加直觀.

本節(jié)的實(shí)驗(yàn)環(huán)境為Ubuntu系統(tǒng),2個(gè)6核1.70 GHz的Intel?Xeon?CPU,94 GB內(nèi)存.本節(jié)所使用的數(shù)據(jù)集為不同分布的人工合成數(shù)據(jù)集,此類數(shù)據(jù)集易于調(diào)整參數(shù),以便觀察不同分布數(shù)據(jù)集對(duì)不同方法結(jié)果的影響.該實(shí)驗(yàn)的參數(shù)設(shè)置中,所有實(shí)驗(yàn)都給定同一個(gè)εc,滿足近似差分隱私的方法給定δ=10-6,使它們盡可能在同一隱私保護(hù)程度下進(jìn)行對(duì)比.

5.1 計(jì)數(shù)估計(jì)實(shí)驗(yàn)評(píng)估

該節(jié)通過(guò)人工生成n項(xiàng)滿足伯努利分布Ber(q)的{0,1}數(shù)據(jù)作為數(shù)據(jù)集,并假設(shè)每個(gè)用戶擁有其中1個(gè)數(shù)值,對(duì)計(jì)數(shù)估計(jì)問(wèn)題中的Cnt_RR,Cnt_2M,Cnt_SGM,Cnt_BN方法進(jìn)行實(shí)驗(yàn)評(píng)估.此處沒(méi)有對(duì)Cnt_PURE進(jìn)行評(píng)估,主要原因是根據(jù)其理論,該方法僅對(duì)n較大且ε較小的情況下適用,很難與其他方法放在同一標(biāo)尺下度量.如當(dāng)n=107時(shí),εc需小于0.1,該方法對(duì)數(shù)據(jù)擾動(dòng)的概率λ才能處于其正確的區(qū)間[0,1],更具體地,εc=0.01時(shí),λ=0.82;而通常其他方法的εc取小數(shù)點(diǎn)后第1位即可.

給定參數(shù)n=106,εc=0.9,q=0.5,上述方法的對(duì)比結(jié)果如圖7(a)所示.在該部分,本節(jié)實(shí)現(xiàn)了隨機(jī)響應(yīng)方法[51]和Laplace方法[46]作為本地化差分隱私(LDP)方法和中心化差分隱私(CDP)方法的實(shí)現(xiàn)與這些方法進(jìn)行對(duì)比.結(jié)果顯示,所有混洗差分隱私方法的RMSE都介于LDP與CDP方法之間,且計(jì)算代價(jià)和通信代價(jià)均高于這2種方法.不同混洗差分隱私方法中,Cnt_SGM有著最小的估計(jì)誤差;而Cnt_2M由于使用了多消息模式編碼,并為了保證計(jì)數(shù)為0時(shí)結(jié)果永遠(yuǎn)為0,對(duì)估計(jì)結(jié)果使用了較為暴力的截?cái)?,有著比其他方法明顯較高的估計(jì)誤差和通信代價(jià),以及較低的計(jì)算代價(jià).

Fig. 7 Comparison of methods for different estimation issues

在圖8~10中,分別評(píng)估不同εc,n和q對(duì)不同計(jì)數(shù)估計(jì)方法的影響.

1) 隨著εc的增大,即隱私要求的降低,這些計(jì)數(shù)估計(jì)方法的誤差都有明顯減低,但計(jì)算代價(jià)和通信代價(jià)并無(wú)明顯變化.

2) 隨著n的增大,LDP方法誤差增大,但混洗差分隱私方法的誤差卻幾乎維持不動(dòng),進(jìn)一步證明了在n較大的情況下混洗差分隱私方法的優(yōu)越性.在計(jì)算代價(jià)和通信代價(jià)上,這些方法都隨著n的增大而指數(shù)級(jí)上升.特別地,在對(duì)n值變化的實(shí)驗(yàn)對(duì)比中,Cnt_SGM方法一直維持著最小的估計(jì)誤差;Cnt_2M方法不僅計(jì)算代價(jià)小,其計(jì)算代價(jià)增長(zhǎng)的速度也比其他混洗差分隱私方法緩慢.

3) 隨著q值的增加,數(shù)據(jù)集中1的數(shù)量變多,大多數(shù)混洗差分隱私方法的RMSE、計(jì)算代價(jià)和通信代價(jià)并無(wú)明顯變化,Cnt_2M方法由于在用戶端輸出了更多擾動(dòng)結(jié)果{1,1},因此有著明顯增加的通信代價(jià).

Fig. 8 Impact on counting estimation methods by varying εc

Fig. 9 Impact on counting estimation methods by varying n

Fig. 10 Impact on counting estimation methods by varying q

5.2 頻數(shù)估計(jì)實(shí)驗(yàn)評(píng)估

該節(jié)通過(guò)人工生成在給定值域[d]內(nèi)滿足正態(tài)分布的數(shù)據(jù)作為數(shù)據(jù)集,并假設(shè)每個(gè)用戶擁有其中1個(gè)數(shù)值,對(duì)頻數(shù)估計(jì)問(wèn)題中的Hist_KR,Hist_MM,SLH,MURS進(jìn)行評(píng)估,MURS方法實(shí)現(xiàn)時(shí)假設(shè)其添加假數(shù)據(jù)的數(shù)量為用戶數(shù)量的1%.而PRHR由于計(jì)算代價(jià)和通信代價(jià)過(guò)大,不對(duì)其進(jìn)行實(shí)驗(yàn)評(píng)估;PUCM適用于用戶數(shù)量小于數(shù)據(jù)值域d的情況,亦難以與其他方法一同進(jìn)行實(shí)驗(yàn)比較.具體地,在圖7(b)所給定的參數(shù)下對(duì)PRHR方法進(jìn)行評(píng)估,僅對(duì)30%用戶數(shù)據(jù)進(jìn)行編碼就需要花費(fèi)5 h并占用22 GB內(nèi)存.對(duì)于同樣計(jì)算代價(jià)較大的SLH和MURS方法,本節(jié)實(shí)現(xiàn)時(shí)通過(guò)預(yù)計(jì)算散列值與原值對(duì)應(yīng)的索引表,并將該表保存,通過(guò)足夠大的存儲(chǔ)空間來(lái)?yè)Q取實(shí)驗(yàn)結(jié)果中該方法較小的計(jì)算代價(jià).由于現(xiàn)實(shí)世界中數(shù)據(jù)的存儲(chǔ)相對(duì)廉價(jià),該技巧對(duì)這2個(gè)方法的實(shí)際應(yīng)用也是可行的.

圖7(b)中對(duì)比的LDP方法是k值隨機(jī)響應(yīng)機(jī)制[27],CDP方法是Laplace機(jī)制[46].在該圖中,誤差RMSE的縱軸坐標(biāo)指數(shù)變化,Hist_KR方法有著最小的估計(jì)誤差,與CDP方法近似.該結(jié)果產(chǎn)生的原因是,限于計(jì)算代價(jià)和通信代價(jià),本實(shí)驗(yàn)選取了較小的值域?qū)@些方法進(jìn)行對(duì)比,而SLH,MURS方法主要針對(duì)值域較大的情況進(jìn)行優(yōu)化,當(dāng)值域接近或大于用戶數(shù)量時(shí),這些方法才能體現(xiàn)出明顯優(yōu)勢(shì).從計(jì)算代價(jià)和通信代價(jià)上看,基于Cnt_2M方法實(shí)現(xiàn)的Hist_MM方法在這2方面均與其他方法有明顯不同,并與Cnt_2M方法的實(shí)驗(yàn)結(jié)果相一致.

在圖11~13中,分別評(píng)估不同εc,d和n對(duì)不同頻數(shù)估計(jì)方法的影響.

Fig. 11 Impact on frequency estimation methods by varying εc

1) 結(jié)果顯示隨著εc的增大,頻數(shù)估計(jì)的誤差和計(jì)算代價(jià)都有明顯降低,通信代價(jià)幾乎無(wú)變化,這與前面的理論分析是一致的.

2) 隨著值域[d]的增大,Hist_KR方法的估計(jì)誤差隨之增大,與LDP方法變化的趨勢(shì)一致;MURS方法的計(jì)算代價(jià)逐步增大,但其他混洗差分隱私方法并無(wú)明顯變化,與4.2節(jié)的理論分析一致.

3) 隨著用戶數(shù)量n的增大,大多數(shù)方法在各個(gè)方面并沒(méi)有顯現(xiàn)出明顯的變化,僅MURS方法的計(jì)算代價(jià)增加明顯,這主要是混洗器添加假數(shù)據(jù)所造成的.而該實(shí)驗(yàn)設(shè)置中n僅從104變化到106,主要原因是除Hist_KR方法外,其他方法在本機(jī)模擬構(gòu)建的總體計(jì)算代價(jià)過(guò)大(實(shí)驗(yàn)圖僅展示分析器的計(jì)算代價(jià)),難以進(jìn)行評(píng)估.需說(shuō)明的是,總體計(jì)算代價(jià)大并不代表實(shí)際中該方法難以應(yīng)用,主要原因是實(shí)際應(yīng)用時(shí)每個(gè)用戶分別對(duì)自己的數(shù)據(jù)進(jìn)行擾動(dòng),n個(gè)編碼器是完全并行的;而本節(jié)進(jìn)行實(shí)驗(yàn)?zāi)M時(shí)這n個(gè)編碼器串行或部分并行地計(jì)算,大多數(shù)消息模式方法的編碼過(guò)程都長(zhǎng)達(dá)數(shù)小時(shí).

Fig. 12 Impact on frequency estimation methods by varying d

Fig. 13 Impact on frequency estimation methods by varying n

5.3 求和估計(jì)實(shí)驗(yàn)評(píng)估

該節(jié)通過(guò)人工生成滿足正態(tài)分布的[0,1]數(shù)據(jù)作為數(shù)據(jù)集,并假設(shè)每個(gè)用戶擁有其中1個(gè)數(shù)值,對(duì)求和估計(jì)問(wèn)題中的RSum_RR,RSum_KR,RSum_RM,RSum_DSG進(jìn)行評(píng)估.由于RSum_PURE方法基于Cnt_PURE方法實(shí)現(xiàn),基于5.1節(jié)的分析,不對(duì)其進(jìn)行實(shí)驗(yàn)評(píng)估.

圖7(c)中,用作對(duì)比的LDP方法是Harmony機(jī)制[70],CDP方法是Laplace機(jī)制[46].該實(shí)驗(yàn)中,將RSum_RM方法中多消息模式的消息數(shù)量設(shè)為3,其他方法隨機(jī)舍入的精度設(shè)為10.結(jié)果顯示,RSum_RM方法有著接近小的估計(jì)誤差和明顯較小的計(jì)算代價(jià),RSum_DSG雖計(jì)算代價(jià)和通信代價(jià)較大,但估計(jì)誤差在所有混洗差分隱私方法中最低,與4.3節(jié)的理論分析一致.

在圖14,15中,分別評(píng)估不同εc和n對(duì)不同求和估計(jì)方法的影響.

1) 結(jié)果顯示,隨著εc的增大,求和估計(jì)的誤差有明顯降低,但計(jì)算代價(jià)和通信代價(jià)并無(wú)明顯變化.

Fig. 14 Impact on sum estimation methods by varying εc

Fig. 15 Impact on sum estimation methods by varying n

5.4 實(shí)驗(yàn)小結(jié)

從實(shí)驗(yàn)分析的總體上看,混洗差分隱私方法在各統(tǒng)計(jì)問(wèn)題的結(jié)果可用性上都有著相比本地化差分隱私方法明顯更優(yōu)的結(jié)果.但從通信代價(jià)和計(jì)算代價(jià)的角度分析,ESA框架中混洗器的引入,一方面使得用戶數(shù)據(jù)與用戶所使用的編碼器之間的關(guān)聯(lián)性消失,使得分析器端的計(jì)算代價(jià)增大;另一方面促使研究者們使用富含信息更多的多消息模式對(duì)數(shù)據(jù)編碼,造成了分析器端的通信代價(jià)增大.如何兼顧數(shù)據(jù)的隱私性、可用性、方法的計(jì)算代價(jià)和通信代價(jià)是后續(xù)基于ESA框架構(gòu)建的隱私保護(hù)方法需加以考量的部分.

從各混洗差分隱私方法評(píng)估的結(jié)果看,隨著εc的增大,各方法的數(shù)據(jù)可用性均會(huì)得到提高;而隨著用戶數(shù)據(jù)n的增加,基于本地化差分隱私方法設(shè)計(jì)的混洗差分隱私方法在計(jì)算誤差上會(huì)有輕微的增加,其他大多數(shù)混洗差分隱私方法在計(jì)算誤差上沒(méi)有明顯變化,甚至部分方法有著輕微的降低.總體上,基于多消息模式設(shè)計(jì)的混洗差分隱私協(xié)議由于攜帶了更多與用戶數(shù)據(jù)相關(guān)的信息,有著相對(duì)較高的數(shù)據(jù)可用性,與第4節(jié)的理論分析相一致.

6 挑戰(zhàn)問(wèn)題

當(dāng)前對(duì)ESA框架的研究,以混洗差分隱私方法為主,而該方法主要聚焦于理想假設(shè)下的理論研究,重點(diǎn)側(cè)重在2個(gè)方面:一方面是對(duì)該機(jī)制本身的隱私放大等理論的研究;另一方面致力于統(tǒng)計(jì)問(wèn)題的估計(jì),以謀求比LDP方法更高的可用性,比CDP方法更好的隱私性.但ESA框架在實(shí)際應(yīng)用上,仍存在著諸多挑戰(zhàn),這些挑戰(zhàn)問(wèn)題一部分是ESA框架與生俱來(lái)的,另一部分是差分隱私方法的應(yīng)用所帶來(lái)的.由此,本節(jié)提出,在ESA框架下探索非差分隱私的隱私保護(hù)方法以應(yīng)對(duì)更多更為復(fù)雜的隱私問(wèn)題,是ESA框架未來(lái)發(fā)展的主要挑戰(zhàn)與趨勢(shì).

6.1 ESA的有效性

如實(shí)驗(yàn)部分所示,ESA框架中混洗器的引入,打破數(shù)據(jù)之間的關(guān)聯(lián)性,有效增加了數(shù)據(jù)的隱私性和可用性,但相比同類方法,分析器端存在著明顯增加的計(jì)算代價(jià)和通信代價(jià).同時(shí)由于混洗器本身通?;贛ixNet等密碼學(xué)網(wǎng)絡(luò)構(gòu)建,對(duì)加密數(shù)據(jù)的安全混洗操作本身就有著昂貴的計(jì)算與通信開(kāi)銷(xiāo).帶寬受限、算力受限、需要處理實(shí)時(shí)任務(wù),這些都是ESA框架應(yīng)用受阻的重要因素.如何基于該框架設(shè)計(jì)兼顧隱私度、準(zhǔn)確度、計(jì)算代價(jià)和通信代價(jià)的隱私保護(hù)方法是ESA框架的挑戰(zhàn)之一.

對(duì)于基于ESA框架實(shí)現(xiàn)的混洗差分隱私,為提高結(jié)果的準(zhǔn)確性,設(shè)計(jì)方法通常會(huì)引入如散列簇、多消息模式的編碼器、多混洗模式的混洗器等方法對(duì)數(shù)據(jù)進(jìn)行處理,往往伴隨著計(jì)算代價(jià)或通信代價(jià)的增加.盡管保證數(shù)據(jù)隱私性和可用性是差分隱私方法的核心,算法的計(jì)算代價(jià)和通信代價(jià)亦不容忽視.

6.2 ESA的魯棒性

ESA框架中的混洗器作為ESA框架隱私保護(hù)的核心組件,存在著單點(diǎn)失敗的可能,極易對(duì)整個(gè)框架的平穩(wěn)運(yùn)行造成影響.一旦框架中的混洗器出現(xiàn)問(wèn)題,如被攻擊、與分析器合謀、宕機(jī)等,分析器便不能收集或收集到錯(cuò)誤的用戶信息.如何增強(qiáng)混洗器在實(shí)際應(yīng)用過(guò)程中的魯棒性,對(duì)其混洗結(jié)果的正確性進(jìn)行有效驗(yàn)證,亦是ESA框架的挑戰(zhàn)之一.

對(duì)于基于ESA框架實(shí)現(xiàn)的混洗差分隱私方法,其方法的魯棒性難以得到保證.一方面,當(dāng)前方法假設(shè)參與計(jì)算的n個(gè)用戶是可信用戶,且會(huì)幾乎同時(shí)發(fā)送他們擾動(dòng)后的數(shù)據(jù)給混洗器.但實(shí)際問(wèn)題中,該條件很難獲得保證.基于現(xiàn)有的上述方案,當(dāng)存在用戶端被攻擊者控制或網(wǎng)絡(luò)狀況差使用戶掉線時(shí),要么混洗器需等待極其長(zhǎng)的時(shí)間,收集滿足要求(有時(shí)是為了滿足隱私放大定理中的參數(shù)n)的足量數(shù)據(jù);要么,分析器會(huì)得到可用性和隱私性都相對(duì)理論較差的結(jié)果.另一方面,當(dāng)前的混洗器分為單混洗器模式和多混洗器模式2種,但無(wú)論哪種,任一混洗器失效都會(huì)使系統(tǒng)存在單點(diǎn)失敗的可能.應(yīng)用現(xiàn)有的具有魯棒性的秘密共享機(jī)制實(shí)現(xiàn)混洗器[32]是一種可能的解決方案,但應(yīng)如何與基于ESA模型實(shí)現(xiàn)的具體問(wèn)題進(jìn)行結(jié)合,尚待研究.

此處,仍需重復(fù)闡明一點(diǎn),第4節(jié)中介紹的部分方法可實(shí)現(xiàn)具有魯棒性的差分隱私RSDP,但該魯棒性并非本節(jié)所探討的系統(tǒng)魯棒性.RSDP的魯棒性是僅針對(duì)隱私而言,即保證可信用戶數(shù)量大于一定閾值γ時(shí),分析器端依舊可以獲得滿足(ε,δ)-DP,該定義不對(duì)與數(shù)據(jù)的可用性、算法(尤其是混洗器)的等待時(shí)間、混洗器本身相關(guān)的魯棒性做任何定義與約束.

6.3 ESA的復(fù)雜問(wèn)題應(yīng)用

當(dāng)前ESA框架主要通過(guò)與差分隱私結(jié)合,用于解決簡(jiǎn)單的統(tǒng)計(jì)問(wèn)題,但ESA框架本身應(yīng)支持解決更復(fù)雜的問(wèn)題,并不局限于此.具體而言,該復(fù)雜問(wèn)題應(yīng)包含2類:

一類是ESA與差分隱私結(jié)合可能解決,但尚未解決的復(fù)雜問(wèn)題.如值域未知情形下的混洗差分隱私、高維度數(shù)據(jù)上的混洗差分隱私、復(fù)雜數(shù)據(jù)類型上的混洗差分隱私等.在實(shí)際應(yīng)用中,這樣復(fù)雜的應(yīng)用場(chǎng)景隨處可見(jiàn),如當(dāng)需要對(duì)用戶瀏覽的網(wǎng)頁(yè)進(jìn)行統(tǒng)計(jì)時(shí),由于網(wǎng)頁(yè)的數(shù)量在不斷增長(zhǎng),很難對(duì)當(dāng)前作為候選集的網(wǎng)頁(yè)進(jìn)行枚舉,需可處理值域未知的混洗差分隱私方法;又如,將混洗差分隱私應(yīng)用在機(jī)器學(xué)習(xí)上,往往涉及到成千上萬(wàn)個(gè)維度的數(shù)據(jù),需有效的隱私保護(hù)方法對(duì)其進(jìn)行處理;再如,生活中常見(jiàn)的相對(duì)復(fù)雜的鍵值對(duì)類型數(shù)據(jù),如果對(duì)鍵與值分別擾動(dòng),鍵與值之間的關(guān)聯(lián)性很可能被混洗器打斷,難以獲得有效的估計(jì)結(jié)果.這些問(wèn)題通過(guò)應(yīng)用散列函數(shù)映射[52]、數(shù)據(jù)降維[71]等可能會(huì)被解決,但如何應(yīng)用仍是挑戰(zhàn).

另一類是ESA可能解決,但差分隱私不能解決的問(wèn)題,需要基于該框架對(duì)非差分隱私的方法進(jìn)行探索.具體而言,差分隱私本質(zhì)上可用于回答“有多少”的問(wèn)題,而不是回答“是什么”的問(wèn)題,對(duì)一個(gè)點(diǎn)是不是異常點(diǎn)、一個(gè)人是不是新冠肺炎的感染者這樣的問(wèn)題,應(yīng)用差分隱私將這些數(shù)據(jù)進(jìn)行擾動(dòng)并不能得到可用的答案,差分隱私更趨向于將這樣出現(xiàn)頻數(shù)極低的點(diǎn)抹平,使其不在結(jié)果中凸顯以保護(hù)隱私[72-73].但ESA框架為這樣問(wèn)題的回答創(chuàng)造了可能性,即ESA框架可在對(duì)數(shù)據(jù)進(jìn)行盡可能少的擾動(dòng)情況下保護(hù)隱私,便為異常點(diǎn)檢測(cè)、新冠肺炎發(fā)現(xiàn)這樣的問(wèn)題提供條件.由此,發(fā)展非差分隱私的ESA方法十分關(guān)鍵!

6.4 ESA與聯(lián)邦學(xué)習(xí)

聯(lián)邦學(xué)習(xí)算法近2年在工業(yè)界和學(xué)術(shù)界迅速發(fā)展,該模型一定程度上打破數(shù)據(jù)孤島,解決了隱私問(wèn)題[74].該模型的基本思想是基于用戶或企業(yè)獨(dú)立的數(shù)據(jù)在本地進(jìn)行模型的訓(xùn)練與更新,將模型的參數(shù)(如梯度)在服務(wù)器端進(jìn)行安全聚合,從而訓(xùn)練一個(gè)中心化的模型提供服務(wù)器.雖然聯(lián)邦學(xué)習(xí)不直接傳遞用戶數(shù)據(jù),僅與服務(wù)器共享模型參數(shù),但該參數(shù)往往包含著一定程度的用戶隱私,易遭受成員推理攻擊[75-76],需使用高可用性的隱私保護(hù)方法進(jìn)行保護(hù).

ESA框架與聯(lián)邦學(xué)習(xí)均適用于用戶在本地端進(jìn)行數(shù)據(jù)處理,對(duì)處理后數(shù)據(jù)進(jìn)行收集的場(chǎng)景,ESA框架本身的特性與聯(lián)邦學(xué)習(xí)的需求不謀而合.ESA與聯(lián)邦學(xué)習(xí)最簡(jiǎn)單的結(jié)合,即使用第4節(jié)所述的混洗差分隱私方法對(duì)用戶共享的梯度進(jìn)行保護(hù),但該方法如何適用于參數(shù)維度巨大的機(jī)器學(xué)習(xí)模型的訓(xùn)練仍是難點(diǎn)[77-78].同時(shí),混洗差分隱私雖相比本地化差分隱私方法引入了較小噪聲,但在數(shù)據(jù)量較小、隱私損失較小的情況下仍對(duì)數(shù)據(jù)可用性有著不小的威脅.基于ESA框架發(fā)展與聯(lián)邦學(xué)習(xí)高度適配的隱私保護(hù)方法應(yīng)該是該方向的主要挑戰(zhàn).

7 結(jié)束語(yǔ)

數(shù)據(jù)驅(qū)動(dòng)的人工智能時(shí)代,數(shù)據(jù)隱私問(wèn)題備受關(guān)注,但數(shù)據(jù)可用性亦是社會(huì)與科技發(fā)展的重中之重.ESA框架為提出數(shù)據(jù)可用性更好、隱私性亦更好的隱私保護(hù)方法開(kāi)辟了新的路徑,混洗差分隱私即為該框架下的典型方法.混洗差分隱私方法兼具了本地化差分隱私在數(shù)據(jù)收集場(chǎng)景中的易用性和中心化差分隱私在數(shù)據(jù)分析結(jié)果上的可用性,在多種統(tǒng)計(jì)問(wèn)題上的表現(xiàn)卓越.本文對(duì)ESA框架及其應(yīng)用——混洗差分隱私方法進(jìn)行了詳細(xì)的綜述,對(duì)混洗差分隱私下的研究方向進(jìn)行總結(jié),針對(duì)不同統(tǒng)計(jì)問(wèn)題的若干算法進(jìn)行理論分析與實(shí)驗(yàn)對(duì)比.基于上述總結(jié)分析的結(jié)果,本文提出了當(dāng)前ESA框架應(yīng)用面臨的主要挑戰(zhàn),并以混洗差分隱私為例對(duì)這些挑戰(zhàn)進(jìn)行詳細(xì)的說(shuō)明.本文提出,混洗差分隱私是ESA框架應(yīng)用的有效途徑,但不是唯一途徑,存在著諸多具有現(xiàn)實(shí)意義的復(fù)雜問(wèn)題混洗差分隱私難以解決,但ESA為這些問(wèn)題的解決創(chuàng)造了條件.基于ESA框架探索適用性更廣的、可用性更高的、非差分隱私的隱私保護(hù)算法是數(shù)據(jù)隱私保護(hù)未來(lái)可能的發(fā)展方向之一.

作者貢獻(xiàn)聲明:王雷霞負(fù)責(zé)論文總結(jié)、撰寫(xiě)與實(shí)驗(yàn);孟小峰指導(dǎo)總體架構(gòu).

猜你喜歡
分析器可用性代價(jià)
基于文獻(xiàn)計(jì)量學(xué)的界面設(shè)計(jì)可用性中外對(duì)比研究
包裝工程(2023年24期)2023-12-27 09:18:26
基于輻射傳輸模型的GOCI晨昏時(shí)段數(shù)據(jù)的可用性分析
酒精分析器為什么能分辨人是否喝過(guò)酒
愛(ài)的代價(jià)
海峽姐妹(2017年12期)2018-01-31 02:12:22
多邊形電極線形離子阱質(zhì)量分析器的結(jié)構(gòu)與性能
應(yīng)用于詞法分析器的算法分析優(yōu)化
代價(jià)
空客A320模擬機(jī)FD1+2可用性的討論
河南科技(2015年7期)2015-03-11 16:23:13
成熟的代價(jià)
黔西南州烤煙化學(xué)成分可用性評(píng)價(jià)
作物研究(2014年6期)2014-03-01 03:39:04
鄂托克旗| 湖南省| 乌兰浩特市| 阿克陶县| 阿拉尔市| 肥乡县| 文昌市| 东乌珠穆沁旗| 贡嘎县| 蒙自县| 沂南县| 大厂| 池州市| 榆社县| 叙永县| 昌都县| 旅游| 苗栗县| 海原县| 西城区| 古蔺县| 潍坊市| 宝山区| 虹口区| 开阳县| 江西省| 秦皇岛市| 曲靖市| 龙岩市| 镇沅| 黔江区| 含山县| 洛浦县| 白山市| 深圳市| 米林县| 鲜城| 汽车| 武夷山市| 泰顺县| 永泰县|