馬方方 劉樹波 熊星星 牛曉光
摘 要:針對數(shù)據(jù)服務(wù)器不可信時(shí),直接收集可穿戴設(shè)備多維數(shù)值型敏感數(shù)據(jù)有可能存在泄露用戶隱私信息的問題,通過引入本地差分隱私模型,提出了一種可穿戴設(shè)備數(shù)值型敏感數(shù)據(jù)的個(gè)性化隱私保護(hù)方案。首先,通過設(shè)置隱私預(yù)算的閾值區(qū)間,用戶在區(qū)間內(nèi)設(shè)置滿足個(gè)人隱私需求的隱私預(yù)算,同時(shí)也滿足了個(gè)性化本地差分隱私;其次,利用屬性安全域?qū)⒚舾袛?shù)據(jù)進(jìn)行歸一化;最后,利用伯努利分布分組擾動多維數(shù)值型敏感數(shù)據(jù),并利用屬性安全域?qū)_動結(jié)果進(jìn)行歸一化還原。理論分析證明了該算法滿足個(gè)性化本地差分隱私。實(shí)驗(yàn)結(jié)果表明該算法的最大相對誤差(MRE)明顯低于Harmony算法,在保護(hù)用戶隱私的基礎(chǔ)上有效地提高了不可信數(shù)據(jù)服務(wù)器從可穿戴設(shè)備收集數(shù)據(jù)的可用性。
關(guān)鍵詞:可穿戴設(shè)備;不可信第三方;本地差分隱私;個(gè)性化;歸一化
Abstract: Focusing on the issue that collecting multi-dimensional numerical sensitive data directly from wearable devices may leak users privacy information when a data server was untrusted, by introducing a local differential privacy model, a personalized local privacy protection scheme for the numerical sensitive data of wearable devices was proposed. Firstly, by setting the privacy budget threshold interval, a users privacy budget within the interval was set to meet the individual privacy needs, which also met the definition of personalized local differential privacy. Then, security domain was used to normalize the sensitive data. Finally, the Bernoulli distribution was used to perturb multi-dimensional numerical data by grouping, and attribute security domain was used to restore the disturbance results. The theoretical analysis shows that the proposed algorithm meets the personalized local differential privacy. The experimental results demonstrate that the proposed algorithm has lower Max Relative Error (MRE) than that of Harmony algorithm, thus effectively improving the utility of aggregated data collecting from wearable devices with the untrusted data server as well as protecting users privacy.
Key words: wearable device; untrusted third-party; local differential privacy; personalization; normalization
0 引言
隨著人們對健康越來越重視,以及硬件和通信等技術(shù)的飛速發(fā)展,各種可穿戴設(shè)備進(jìn)入人們的生活,并成為人們記錄監(jiān)控自身健康的一個(gè)重要的部分。服務(wù)提供商或者第三方收集可穿戴設(shè)備用戶[1]的數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)分析,用于市場分析或者決策制定??纱┐髟O(shè)備數(shù)據(jù)指的是與可穿戴設(shè)備相關(guān)的傳感器類型數(shù)據(jù)、用戶設(shè)置數(shù)據(jù)以及設(shè)備的綁定信息等,如疾病監(jiān)測傳感器類型數(shù)據(jù)、監(jiān)測頻率設(shè)置、數(shù)據(jù)限制設(shè)置、使用時(shí)間、電池容量、設(shè)備品牌等,第三方熱心于收集這些數(shù)據(jù),用于市場分析、新產(chǎn)品開發(fā)等決策依據(jù)。實(shí)際中不存在完全可信的第三方,可穿戴設(shè)備與第三方進(jìn)行數(shù)據(jù)傳輸時(shí),會泄露用戶數(shù)據(jù),攻擊者根據(jù)獲得的用戶數(shù)據(jù)可能推測出用戶的敏感信息,比如家庭住址、使用習(xí)慣、健康狀況等。
可穿戴設(shè)備數(shù)據(jù)收集模型如圖1所示,可穿戴設(shè)備包括運(yùn)動健康型設(shè)備(手環(huán))和醫(yī)療設(shè)備(心率計(jì)、血氧手表、血糖儀以及血壓計(jì)等)。移動設(shè)備從可穿戴設(shè)備中收集設(shè)備數(shù)據(jù)此處是否應(yīng)該為數(shù)據(jù)?需明確,并發(fā)送到不可信第三方數(shù)據(jù)匯聚器中。用戶可把穿戴式設(shè)備接入移動健康應(yīng)用程序(mobile Health applications, mHealth),監(jiān)測自身的健康狀況。數(shù)據(jù)匯聚器Aggregator將通過mHealth收集健康數(shù)據(jù),這些數(shù)據(jù)可為第三方科研機(jī)構(gòu)和企業(yè)提供數(shù)據(jù)服務(wù)。例如健康機(jī)構(gòu)收集各個(gè)地區(qū)人們的每日平均步數(shù),通過和各地區(qū)肥胖率對照,分析并獲得運(yùn)動和肥胖率的關(guān)系。然而,不可信的數(shù)據(jù)匯聚器可能從mHealth獲得用戶的健康數(shù)據(jù)關(guān)聯(lián)出用戶的健康狀況。從佩戴的設(shè)備類型分析出可能患有某種疾病,這將導(dǎo)致用戶的健康狀況的隱私泄露。
Facebook數(shù)據(jù)泄露事件[2]揭露出第三方應(yīng)用收集和利用數(shù)據(jù)對用戶數(shù)據(jù)隱私安全的威脅。Papageorgiou等[3]在2018年通過對Google Play上1080個(gè)醫(yī)療健康移動程序的隱私性和安全性進(jìn)行分析,發(fā)現(xiàn)大部分應(yīng)用程序向第三方發(fā)送用戶健康信息,而且無法判定第三方是否被授權(quán),極易造成用戶隱私泄露。
第三方數(shù)據(jù)服務(wù)器對可穿戴設(shè)備群體用戶的收集分析需要隱私保護(hù)。有研究者提出差分隱私保護(hù)模型,其嚴(yán)格定義了隱私保護(hù)的強(qiáng)度,即任意一條記錄的添加或者刪除,都不會影響最終的查詢結(jié)果。相比k-匿名、l-多樣性等需要特殊攻擊假設(shè)和背景知識的方法,差分隱私能夠抵御背景攻擊。而傳統(tǒng)的差分隱私模型是中心化,即該模型的前提假設(shè):有可信的第三方數(shù)據(jù)收集者。在可穿戴設(shè)備數(shù)據(jù)收集分析中,不可能存在完全可信的數(shù)據(jù)服務(wù)器,因此,引入本地差分隱私(Local Differential Privacy, LDP)模型[4-5]對可穿戴設(shè)備數(shù)據(jù)收集進(jìn)行隱私保護(hù)。本地差分隱私的提出是為了防止來自不可信第三方的隱私攻擊。本地差分隱私保護(hù)模型不允許數(shù)據(jù)服務(wù)器收集用戶的真實(shí)數(shù)據(jù),而是匯聚對真實(shí)數(shù)據(jù)進(jìn)行擾動后的含噪數(shù)據(jù),以保護(hù)單個(gè)用戶的數(shù)據(jù)隱私安全。第三方對擾動后的數(shù)據(jù)進(jìn)行匯聚并求精處理,獲得的統(tǒng)計(jì)數(shù)據(jù)即是本地差分隱私保護(hù)模型的輸出結(jié)果。本地差分隱私保護(hù)模型的要求是模型既能保證數(shù)據(jù)的隱私性,又能保證統(tǒng)計(jì)結(jié)果的可用性。本地差分隱私是通過添加的噪聲來實(shí)現(xiàn)隱私保護(hù),通過隱私預(yù)算來衡量和調(diào)節(jié)隱私保護(hù)程度。在實(shí)際應(yīng)用中,本地差分隱私適用于眾包數(shù)據(jù)的采集[6]等場景。
可穿戴設(shè)備敏感數(shù)據(jù)是多類型的,包括分類型數(shù)據(jù)和數(shù)值型數(shù)據(jù)等。針對分類型數(shù)據(jù)的本地差分隱私保護(hù),主要研究頻數(shù)估計(jì)或者計(jì)數(shù)估計(jì)的可用性;針對數(shù)值型數(shù)據(jù)的本地差分隱私保護(hù),主要研究均值估計(jì)的可用性。用戶敏感數(shù)據(jù)包含分類型數(shù)據(jù)和數(shù)值型數(shù)據(jù),這里我們主要研究其中的多維數(shù)值型數(shù)據(jù)的均值估計(jì),例如可穿戴設(shè)備的平均使用時(shí)長、電池容量等?,F(xiàn)有的多維數(shù)值型數(shù)據(jù)的本地差分隱私算法隨著維度的增加,誤差增大,不滿足可穿戴設(shè)備多維數(shù)值型敏感數(shù)據(jù)的可用性要求。
在本地設(shè)置中,可穿戴設(shè)備用戶存在個(gè)性化的隱私需求,例如用于醫(yī)療監(jiān)測的可穿戴設(shè)備和用于運(yùn)動健康的可穿戴設(shè)備數(shù)據(jù)敏感程度不同,使用可穿戴醫(yī)療設(shè)備的健康用戶和患病用戶,他們對于監(jiān)測數(shù)據(jù)的敏感程度不同,因此可穿戴設(shè)備的隱私保護(hù)框架在用戶移動端進(jìn)行數(shù)據(jù)擾動處理過程時(shí),用戶可以個(gè)性化地設(shè)置自己的隱私偏好,以達(dá)到保護(hù)個(gè)性化保護(hù)用戶敏感信息的目的。
綜上所述,在可穿戴設(shè)備平臺中單純使用本地差分隱私并不能滿足用戶需求,需要結(jié)合可穿戴設(shè)備數(shù)據(jù)特點(diǎn)設(shè)計(jì)新的本地差分隱私保護(hù)方案來對用戶進(jìn)行個(gè)性化的隱私保護(hù)。本文提出了基于本地差分隱私的可穿戴設(shè)備多維數(shù)值型敏感數(shù)據(jù)的個(gè)性化隱私保護(hù)方案。本文的工作有如下兩點(diǎn):
1)可穿戴設(shè)備用戶自主設(shè)置隱私偏好,個(gè)性化保護(hù)可穿戴用戶的隱私,并且從理論上證明了個(gè)性化隱私保護(hù)算法滿足本地差分隱私算法。
2)研究并分析安全域?qū)Χ嗑S數(shù)值型敏感數(shù)據(jù)均值估計(jì)可用性的影響,并對可穿戴設(shè)備多維相互獨(dú)立的屬性在相應(yīng)安全域內(nèi)進(jìn)行獨(dú)立擾動。
1 相關(guān)工作
隨著可穿戴設(shè)備和健康產(chǎn)業(yè)的發(fā)展,針對可穿戴設(shè)備數(shù)據(jù)分析的安全和隱私泄露問題受到人們的關(guān)注。
移動應(yīng)用程序向第三方分享可穿戴設(shè)備的用戶數(shù)據(jù)會造成用戶位置、行為習(xí)慣、健康狀況、患有某種疾病等信息泄露。針對應(yīng)用程序分享可穿戴設(shè)備數(shù)據(jù)產(chǎn)生的問題,Raghavan等[7]提出的操作系統(tǒng)級別的移動隱私框架OVERRIDE,允許用戶對可穿戴設(shè)備數(shù)據(jù)可能包含的用戶隱私信息進(jìn)行擾動之后再發(fā)給應(yīng)用程序。Kotz等[8]提出移動健康和家庭醫(yī)療體系的隱私框架,在這個(gè)架構(gòu)中,出于隱私保護(hù),第三方不被允許收集可穿戴設(shè)備數(shù)據(jù)。
但這些研究沒有針對不可信的第三方數(shù)據(jù)匯聚中心提出具體的隱私保護(hù)框架和隱私保護(hù)技術(shù)。本地差分隱私的提出是防止不可信的第三方服務(wù)器數(shù)據(jù)收集過程中發(fā)生隱私泄露。
本地差分隱私的研究目前有分類型數(shù)據(jù)和數(shù)值型數(shù)據(jù)兩個(gè)方面。ErlingssonRAPPOR[9]是Google公司提出的本地差分隱私算法,針對字符串進(jìn)行計(jì)數(shù)估計(jì),具有誤差低、可用性高的特點(diǎn),但通信開銷較大,不適用在可穿戴設(shè)備場景中。Bassily等[10]針對分類型屬性的頻數(shù)估計(jì)提出了基于隨機(jī)映射矩陣的S-Hist算法,S-Hist是目前大部分針對分類型屬性本地差分隱私保護(hù)算法的基礎(chǔ)。Nguyen等[11]針對數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù)提出了Harmony算法,其中針對分類型數(shù)據(jù)的Harmony-frequency算法適用于屬性值域比較大的情況下,但是誤差大而且不穩(wěn)定;針對數(shù)值型數(shù)據(jù)的Harmony-mean算法是目前應(yīng)用較多的數(shù)值型數(shù)據(jù)均值估計(jì)算法,具有可用性高的特點(diǎn)。Wang等[12]也提出了針對分類型數(shù)據(jù)的OLH(Optimized Local Hashing)請補(bǔ)充OLH的英文全稱算法,OLH算法比Harmony-frequency算法誤差小、可用性高。目前,本地差分隱私技術(shù)在工業(yè)界已經(jīng)得到運(yùn)用:谷歌公司[9,13]使用該技術(shù)從Chrome瀏覽器采集用戶的行為統(tǒng)計(jì)數(shù)據(jù),例如默認(rèn)首頁、默認(rèn)搜索引擎等,以了解用戶設(shè)置中是否存在惡意劫持;蘋果公司將該技術(shù)應(yīng)用在操作系統(tǒng)iOS 10上保護(hù)用戶的設(shè)備配置數(shù)據(jù),分析群體用戶的使用模式,并不會觸及用戶敏感信息,例如2017年Apple應(yīng)用本地差分隱私分析和調(diào)查網(wǎng)民emoji的使用情況和群體特征;Samsung也提出了相應(yīng)的本地差分隱私系統(tǒng)[11],通過手機(jī)操作系統(tǒng)綁定的診斷工具來收集綁定的用戶信息,不僅能收集分類型數(shù)據(jù),例如屏幕分辨率、是否打開定位功能等,還能收集數(shù)值型數(shù)據(jù),例如內(nèi)存、使用時(shí)間、電池容量等。
針對個(gè)性化本地差分隱私算法的研究有Akter等[14]提出的針對一維數(shù)值型數(shù)據(jù)個(gè)性化本地差分隱私(Private Estimation of Numeric Aggregates, PENA)算法,PENA算法假設(shè)用戶集合擁有相同的安全域,在相同安全域上允許用戶自由設(shè)置自己的隱私預(yù)算,但是從理論上來說,PENA算法中的安全域只用于數(shù)據(jù)歸一化處理,并沒有降低誤差、提高可用性的作用,而且由于可穿戴設(shè)備用戶敏感數(shù)據(jù)屬于多維數(shù)據(jù)而且不同屬性安全域不同,不能直接應(yīng)用該算法。Chen等[15]提出個(gè)性化的位置數(shù)據(jù)本地差分隱私(Personalized Count Estimation Protocol, PCEP)算法,但是PCEP算法中使用的S-Hist擾動算法誤差比較大并且誤差具有隨機(jī)性,算法的可用性有待提高。
2 本地差分隱私基本概念及相關(guān)性質(zhì)
本章對本文提到的本地差分隱私定義及其實(shí)現(xiàn)機(jī)制和性質(zhì)進(jìn)行概述。
定義1 差分隱私[16]。D和D′是兩個(gè)相鄰數(shù)據(jù)集,最多有一個(gè)元組不同,Δ(D,D′)=1,隨機(jī)函數(shù)算法M:D→Rd,Ran(M)是M在D和D′上的所有可能輸出,Ran(M)的任意子集S,如果滿足下列不等式,則M滿足ε-差分隱私。
其中:Pr表示隱私被披露的風(fēng)險(xiǎn)概率;ε是隱私預(yù)算,定義了隱私保護(hù)程度,體現(xiàn)了算法M前面交代過M是函數(shù),此處又指算法,二者是否應(yīng)該統(tǒng)一一下,請明確。若是不同含義,請用另外一個(gè)字母來表示算法,不要與其他變量名稱再重復(fù)了能夠提供的隱私保護(hù)水平,值越小隱私保護(hù)程度越高。
定義2 本地差分隱私[4]。給定n個(gè)用戶,每個(gè)用戶對應(yīng)一條記錄,給定一個(gè)隱私算法M及其定義域Dom(M)和值域Ran(M),若算法M在任意兩條記錄t和t′(t,t′∈Dom(M))上得到相同輸出結(jié)果t*(t*∈Ran(M)),滿足下列不等式,則M滿足ε-本地差分隱私。
本地差分隱私的實(shí)現(xiàn)機(jī)制通常是隨機(jī)響應(yīng)(Randomized Response, RR)機(jī)制[17]。隨機(jī)響應(yīng)機(jī)制的主要思想是利用用戶對敏感問題響應(yīng)的不確定性對原始敏感數(shù)據(jù)進(jìn)行隱私保護(hù),同時(shí)估計(jì)用戶分布。假設(shè)屬性有兩個(gè)可能值-1和+1,每個(gè)用戶以p的概率響應(yīng)真實(shí)ti[Aj],1-p的概率響應(yīng)一個(gè)隨機(jī)值,隨機(jī)值為-1和+1的概率相同,因此,用戶ui響應(yīng)值的期望為p×ti[Aj]。因?yàn)橐@得一個(gè)無偏的估計(jì),所以響應(yīng)值的縮放因子cε=1/p,即用戶ui以p+(1-p)/2的概率響應(yīng)cε×ti[Aj],(1-p)/2的概率響應(yīng)-cε×ti[Aj]。對比用戶ui的響應(yīng)值和真實(shí)值,兩者相同的概率是p+(1-p)/2,兩者不同的概率為(1-p)/2,根據(jù)定義2,要滿足本地差分隱私,需要p+(1-p)/2(1-p)/2≤eε(e為自然常數(shù))全文中的e,是指自然指數(shù)e嗎?還是一般的變量名?請明確。回復(fù):在公式后添加描述:e為自然常數(shù),等式成立的條件是p=(eε+1)/(eε-1)。第三方數(shù)據(jù)匯聚中心聚合所有用戶的數(shù)據(jù),計(jì)算平均值即為屬性Aj均值的無偏估計(jì)。
定義3 個(gè)性化本地差分隱私[14]。用戶ui的隱私設(shè)置偏好為(τ,εi),對于任意兩個(gè)輸入t和t′,其中t,t′∈τ,任意的輸出t*,其中t*∈Dom(M),如果算法M滿足下列公式:
則算法M滿足(τ,εi)個(gè)性化本地差分隱私。
性質(zhì)1 序列組合性[5]。給定數(shù)據(jù)集合D和n個(gè)隱私算法Mi(1≤i≤t),且Mi(1≤i≤t)滿足εi-本地差分隱私,那么Mi(1≤i≤t)在D上的序列組合滿足ε-本地差分隱私,其中ε=∑ni=1εi。
性質(zhì)2 并行組合性[5]。給定數(shù)據(jù)集合D,將其劃分為n個(gè)互不相交的子集,D={D1,D2,…,Dn},設(shè)隱私算法M在任意子集上滿足ε-本地差分隱私,則算法M在D={D1,D2…,Dn}上的組合運(yùn)算滿足ε-本地差分隱私。
在本地差分隱私中存在兩種數(shù)據(jù)保護(hù)框架,即交互式和非交互式框架。交互式框架下,第i個(gè)輸出依賴于第i個(gè)輸入以及前i-1個(gè)輸出;非交互式框架下,第i個(gè)輸出僅依賴于第i個(gè)輸入,本文研究非交互式框架下的本地差分隱私。
3 可穿戴設(shè)備數(shù)據(jù)個(gè)性化保護(hù)方案
3.1 問題描述
下面對可穿戴設(shè)備多維數(shù)值型敏感數(shù)據(jù)隱私泄露問題進(jìn)行描述,并給出隱私匯聚方案的預(yù)期實(shí)現(xiàn)目標(biāo),同時(shí)對現(xiàn)有的數(shù)值型本地差分隱私算法存在的問題進(jìn)行分析。
第三方定期收集可穿戴設(shè)備的多維數(shù)值型敏感數(shù)據(jù),用于用戶群體使用模式的市場調(diào)查和決策制定。在統(tǒng)計(jì)數(shù)據(jù)發(fā)布過程中,由于存在不可信的第三方,中心化隱私保護(hù)模型的數(shù)據(jù)收集方式容易被攻擊,如果個(gè)人敏感數(shù)據(jù)直接被不可信的第三方服務(wù)器獲取,則用戶的使用習(xí)慣、行為愛好甚至健康狀況可能被泄露,因此采用本地化隱私保護(hù)模型——本地差分隱私對可穿戴設(shè)備多維數(shù)值型敏感數(shù)據(jù)進(jìn)行隱私保護(hù)。如表1所示,可穿戴設(shè)備相關(guān)的數(shù)值型敏感屬性來源具有多元化的特點(diǎn),敏感數(shù)據(jù)可能來源于可穿戴設(shè)備、移動設(shè)備或者用戶輸入。對于相同的屬性,不同的用戶有不同的隱私保護(hù)需求;不同的屬性,同一個(gè)用戶有不同的敏感保護(hù)級別,在本地差分隱私中引入個(gè)性化隱私保護(hù)來實(shí)現(xiàn)上面兩種隱私保護(hù)需求。
用戶和第三方服務(wù)器相互通信,用戶首先對多維數(shù)據(jù)進(jìn)行擾動,發(fā)送給第三方服務(wù)器,第三方服務(wù)器匯聚所有的數(shù)據(jù)并進(jìn)行均值估計(jì)。假設(shè)可穿戴設(shè)備的用戶敏感數(shù)據(jù)包含d維屬性,屬性之間的關(guān)聯(lián)性已知,根據(jù)本地差分隱私的性質(zhì)2并行組合性可知,相互獨(dú)立的數(shù)據(jù)集合滿足本地差分隱私的并行組合性質(zhì)。
問題描述:假設(shè)數(shù)值型屬性集合A={A1,A2,…,Ad},屬性之間相互獨(dú)立,用戶集合U={u1,u2,…,un},其中屬性個(gè)數(shù)為d,用戶個(gè)數(shù)為n,全部隱私預(yù)算為ε,用戶ui的隱私預(yù)算為εi,屬性的安全域集合Γ={τ1,τ2,…,τd},τj, j∈d是用戶可以公開的屬性Aj的數(shù)值最小安全范圍,εi是限制攻擊者在安全域τj范圍內(nèi)區(qū)分任意兩個(gè)數(shù)值的能力。隱私保護(hù)目標(biāo):基于可穿戴設(shè)備個(gè)性化的隱私需求,滿足用戶的隱私偏好,在不知道每個(gè)用戶精確數(shù)值的前提下,獲取每個(gè)屬性的均值估計(jì),在保證用戶隱私的前提下,保證均值估計(jì)的可用性。
目前基于本地差分隱私的均值估計(jì)研究較少,主要是針對頻數(shù)估計(jì)的研究。文獻(xiàn)中均值估計(jì)的算法運(yùn)用比較多的MeanEst[4]算法和Harmony算法。其中Harmony算法在通信代價(jià)、發(fā)布誤差以及時(shí)間復(fù)雜度上都優(yōu)于MeanEst算法,所以3.2節(jié)所提出的方案在Harmony算法的基礎(chǔ)上進(jìn)行改進(jìn),并且在3.3節(jié)從算法的可用性角度對所提方案進(jìn)行分析。
Harmony是針對多維數(shù)值型數(shù)據(jù)均值估計(jì)的算法,由文獻(xiàn)[11]可知,最大絕對誤差(Max Absolute Error, MAE)為Ο(d log (d)/(εn)),即
其中:X[Aj]是真實(shí)均值,Z[Aj]是擾動后的均值, β公式?jīng)]有看到β,是否遺漏了,需明確?;貜?fù):刪除該句“β時(shí)誤差范圍的置信度”,已默認(rèn)β為1是誤差范圍的置信度。由公式可知,MAE隨著屬性個(gè)數(shù)d的增長而增長,因此Harmony不滿足高維數(shù)據(jù)均值估計(jì)的可用性要求。由圖2可知,當(dāng)固定隱私預(yù)算的取值時(shí),隨著屬性個(gè)數(shù)d的增長,相對誤差增長的速度很快。
3.2 方案描述
不可信第三方收集可穿戴設(shè)備與用戶相關(guān)的敏感數(shù)據(jù),不同設(shè)備的屬性之間是獨(dú)立的,不同數(shù)據(jù)來源的屬性之間也是獨(dú)立的,在本方案中,用戶對這些相互獨(dú)立的屬性進(jìn)行獨(dú)立擾動,同時(shí)用戶根據(jù)自身敏感性和對屬性的敏感性設(shè)置自己的隱私偏好。
可穿戴設(shè)備多維數(shù)值型敏感數(shù)據(jù)個(gè)性化隱私保護(hù)方案流程如下:不可信第三方服務(wù)器向可穿戴設(shè)備用戶端發(fā)送整體的隱私預(yù)算ε,用來約束用戶的隱私預(yù)算εi。在可穿戴設(shè)備用戶端,對多維數(shù)值型屬性分別設(shè)置安全域Γ={τ1,τ2,…,τd}和隱私預(yù)算εi,其中要保證ε/d≤εi≤ε,i∈n此處的小寫n,是否應(yīng)該為大寫N,表示自然數(shù)?請明確?;貜?fù):n為用戶個(gè)數(shù),在問題描述中有介紹。使用屬性安全域τj對屬性Aj的數(shù)值進(jìn)行歸一化處理,把數(shù)值歸一化到[-1,1]區(qū)間。由于用戶可以設(shè)置自己的隱私預(yù)算εi,根據(jù)ε-LDP的定義,為了保證算法滿足ε-LDP,εi需要小于或等于整體隱私預(yù)算ε,在3.3節(jié)隱私性分析進(jìn)行詳細(xì)的證明;同時(shí)為了保證可用性,εi需要大于或等于ε/d,這一點(diǎn)在3.3節(jié)可用性的分析中也有說明,因此引入權(quán)重因子ωi(1/d≤ωi≤1),得到εi=ωi·ε。對屬性Aj進(jìn)行歸一化之后,采用隨機(jī)響應(yīng)算法LRR隨機(jī)響應(yīng)(Local Random Response, LRR)算法對其數(shù)據(jù)進(jìn)行擾動。不可信第三方服務(wù)器端獲取到擾動后的數(shù)據(jù),進(jìn)行均值統(tǒng)計(jì),最后進(jìn)行歸一化還原操作。
算法2的第1)行到第6)行在用戶端執(zhí)行,第7)行和第8)沒有第8行,是遺漏了,還是表述錯(cuò)誤?請調(diào)整?;貜?fù):原文:“第7)行和第8)行在服務(wù)器執(zhí)行”,改為“第7)行在服務(wù)器端執(zhí)行”;行在服務(wù)器端執(zhí)行。第2)行到第4)行,用戶ui在每個(gè)獨(dú)立屬性上做隨機(jī)響應(yīng)LRR擾動。第5)行用戶ui把d個(gè)屬性的擾動值發(fā)送給服務(wù)器server。第7)行服務(wù)器server匯聚所有用戶發(fā)送的擾動數(shù)據(jù),分別對每個(gè)屬性的數(shù)據(jù)進(jìn)行均值計(jì)算。第8)行服務(wù)器進(jìn)行數(shù)據(jù)歸一化還原操作,并且進(jìn)行數(shù)據(jù)歸一化還原操作原文:“。第8)行服務(wù)器進(jìn)行數(shù)據(jù)歸一化還原操作”,改為“,并且進(jìn)行數(shù)據(jù)歸一化還原操作”,獲得最終的均值估計(jì)結(jié)果。
由文獻(xiàn)[11]可知,Harmony均值估計(jì)算法的最大絕對誤差漸近邊界是Ο(d log (d)/(εn)),單個(gè)屬性獨(dú)立擾動下的最大絕對誤差漸進(jìn)邊界是Ο(log (d)/(εn))。由于用戶的隱私預(yù)算由用戶自己設(shè)置,所以PLPS的最大絕對誤差的漸近邊界是Ο(log (d)/(mini∈[n] εin)),當(dāng)mini∈[n] εi=ε/d時(shí),PLPS的最大絕對誤差漸進(jìn)邊界為Ο(d log (d)/(εn))。
4 實(shí)驗(yàn)結(jié)果與分析
1)屬性個(gè)數(shù)對可用性的影響。
為了研究屬性個(gè)數(shù)對可用性的影響,隨機(jī)生成虛擬數(shù)據(jù)集,用戶100000個(gè),屬性個(gè)數(shù)取值范圍是[4,8,16,20,24,28],ε=0.5,每個(gè)用戶隨機(jī)生成在[ε/d,ε]區(qū)間的值作為自己的隱私預(yù)算。如圖3所示,Harmony算法的相對誤差隨屬性的增長變化很快,PLPS算法MRE隨屬性個(gè)數(shù)變化不明顯,引入的誤差低,提高了可用性。
2)隱私預(yù)算對可用性的影響。
實(shí)驗(yàn)數(shù)據(jù)集采用IPUMS的GLOBAL HEALTH數(shù)據(jù)集(https://www.ipums.org/),選取100000條用戶記錄,包含20個(gè)數(shù)值型屬性。ε的取值范圍設(shè)置為[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]。在PLPS算法中用戶個(gè)性化設(shè)置自己的隱私預(yù)算εi,且需滿足條件εi=ωi·ε,1≤i≤n,1/d≤ωi≤1。如圖4(a)所示,PLPS算法的最大相對誤差MRE比Harmony的最大相對誤差MRE小。PLPS算法多維屬性在定義的安全域內(nèi)分別進(jìn)行歸一化處理,每個(gè)屬性進(jìn)行單獨(dú)擾動,比Harmony算法的信息損失率小,同時(shí)算法添加的噪聲隨機(jī)性減弱,可用性變高。
為了證明算法PLPS在Harmony算法進(jìn)行分組擾動后,依然能夠保持最大相對誤差小的優(yōu)勢,對Harmony算法進(jìn)行了分組擾動實(shí)驗(yàn)。把從GLOBAL HEALTH數(shù)據(jù)集中選取的屬性分成k組,每組內(nèi)分別進(jìn)行Harmony擾動,取所有組的最大相對誤差中的最大值作為Harmony分組擾動的最大相對誤差結(jié)果;PLPS算法相當(dāng)于把屬性分為d組,d為全部屬性的個(gè)數(shù)。如圖4(b)所示,全部屬性個(gè)數(shù)是20個(gè),k的取值范圍是[4,10],從圖中可以看出,增加了個(gè)性化隱私的PLPS有效地降低了誤差。
5 結(jié)語
為了當(dāng)不可信數(shù)據(jù)服務(wù)器收集可穿戴設(shè)備敏感數(shù)據(jù)時(shí),保護(hù)用戶隱私信息不被泄露,本文提出了基于本地差分隱私的可穿戴設(shè)備多維數(shù)值型敏感數(shù)據(jù)的個(gè)性化隱私保護(hù)方案:考慮可穿戴設(shè)備用戶的個(gè)性化隱私需求,支持用戶自定義隱私偏好;針對屬性維度增長對均值估計(jì)可用性的影響,采用在屬性安全域內(nèi)獨(dú)立擾動屬性的策略,細(xì)化屬性的擾動區(qū)域。實(shí)驗(yàn)結(jié)果表明,本文提出的方案有效降低了整體引入的噪聲,提高了均值估計(jì)的可用性。
本文提出的個(gè)性化隱私保護(hù)方案考慮的只是數(shù)值型數(shù)據(jù),并沒有對分類型數(shù)據(jù)或者復(fù)雜數(shù)據(jù)類型進(jìn)行研究,下一步將對此作更加深入的研究。
參考文獻(xiàn) (References)
[1] 鄭增威,杜俊杰,霍梅梅,等.基于可穿戴傳感器的人體活動識別研究綜述[J].計(jì)算機(jī)應(yīng)用,2018,38(5):1223-1229.(ZHENG Z W, DU J J, HUO M M, et al. Review of human activity recognition based on wearable sensors[J]. Journal of Computer Applications, 2018, 38(5): 1223-1229.)
[2] 魏書音.從Facebook數(shù)據(jù)泄露事件看網(wǎng)絡(luò)運(yùn)營者對第三方應(yīng)用的安全管理責(zé)任[J].網(wǎng)絡(luò)空間安全,2018,9(3):43-46.(WEI S Y. Analyze network operators responsibility for security management of third-party applications from the Facebook data breach [J]. Information Security and Technology, 2018, 9(3): 43-46.)
[3] PAPAGEORGIOU A, STRIGKOS M, POLITOU E, et al. Security and privacy analysis of mobile health applications: the alarming state of practice[J]. IEEE Access, 2018, 6(99): 9390-9403.
[4] DUCHI J C, JORDAN M I, WAINWRIGHT M J. Local privacy and statistical minimax rates [C]// Proceedings of the 2013 54th Annual IEEE Symposium on Foundations of Computer Science. Piscataway, NJ: IEEE, 2013: 429-438.
[5] 葉青青,孟小峰,朱敏杰,等.本地化差分隱私研究綜述[J].軟件學(xué)報(bào),2018,29(7):1981-2005.(YE Q Q, MENG X F, ZHU M J, et al. Survey on local differential privacy[J]. Journal of Software, 2018, 29(7): 1981-2005.)
[6] 霍崢,張坤,賀萍.滿足本地化差分隱私的眾包位置數(shù)據(jù)采集[J].計(jì)算機(jī)應(yīng)用,2019,39(3):763-768.(HUO Z, ZHANG K, HE P. Local differentially private spatial data crowdsourcing[J]. Journal of Computer Applications, 2019, 39(3): 763-768.)
[7] RAGHAVAN K R, CHAKRABORTY S, SRIVASTAVA M, et al. OVERRIDE: a mobile privacy framework for context-driven perturbation and synthesis of sensor data streams[C]// Proceedings of the 2012 International Workshop on Sensing Applications on Mobile Phones. New York: ACM, 2012: Article No. 2.
[8] KOTZ D, AVANCHA S, BAXI A. A privacy framework for mobile health and home-care systems[C]// Proceedings of the 2009 Workshop on Security and Privacy in Medical and Home-Care Systems. New York: ACM, 2009: 1-12.
[9] ERLINGSSON U, PIHUR V, KOROLOVA A. RAPPOR: randomized aggregatable privacy-preserving ordinal response[C]// Proceedings of the 2014 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2014: 1054-1067.
[10] BASSILY R, SMITH A. Local, private, efficient protocols for succinct histograms[C]// Proceedings of the Forty-Seventh Annual ACM Symposium on Theory of Computing. New York: ACM, 2015: 127-135.
[11] NGUYEN T T, XIAO X, YANG Y, et al. Collecting and analyzing data from smart device users with local differential privacy[J]. ArXiv Preprint,? 2016, 2016: 1606.05053.
[12] WANG T, BLOCKI J, LI N, et al. Optimizing locally differentially private protocols[J]. ArXiv Preprint, 2017, 2017: 1705.04421.
[13] FANTI G, PIHUR V, ERLINGSSON U. Building a RAPPOR with the unknown: Privacy-preserving learning of associations and data dictionaries[J]. ArXiv Preprint, 2016, 2016: 1503.01214.
[14] AKTER M, HASHEM T. Computing aggregates over numeric data with personalized local differential privacy[C]// Proceedings of the 2017 Australasian Conference on Information Security and Privacy. Berlin: Springer, 2017: 249-260.
[15] CHEN R, LI H, QIN A K, et al. Private spatial data aggregation in the local setting[C]// Proceedings of the 2016 IEEE International Conference on Data Engineering. Piscataway, NJ: IEEE, 2016: 289-300.
[16] DWORK C, LEI J. Differential privacy and robust statistics[C]// Proceedings of the Forty-first Annual ACM Symposium on Theory of Computing. New York: ACM, 2009: 371-380.
[17] WARNER S L. Randomized response: a survey technique for eliminating evasive answer bias [J]. Journal of the American Statistical Association, 1965, 60(309): 63-69.