摘 "要:為了更好地對軌跡數(shù)據(jù)中蘊(yùn)含的個人敏感信息進(jìn)行保護(hù),采用理論研究與實驗證明相結(jié)合的方法,在現(xiàn)有的隱私保護(hù)框架基礎(chǔ)之上進(jìn)一步考慮時間特性與空間特征之間的關(guān)聯(lián)關(guān)系,提出了一種基于時空關(guān)聯(lián)特征的差分隱私保護(hù)方法(SC-DP)。根據(jù)數(shù)據(jù)集的局部動態(tài)自適應(yīng)分配時間和空間維度的權(quán)重,使得在連續(xù)的ε時間窗口以及m×m區(qū)域內(nèi)出現(xiàn)的軌跡子流都能滿足ε-差分隱私的要求,并在真實數(shù)據(jù)集上驗證了算法的可用性和實用性,在Geolife數(shù)據(jù)集上的平均誤差降低32.8%,CabSpotting數(shù)據(jù)集中的性能提升29.2%。
關(guān)鍵詞:時空關(guān)聯(lián)特征;軌跡子流;位置服務(wù);差分隱私;數(shù)據(jù)可用性
中圖分類號:TP301.6 " " " " " " "文獻(xiàn)標(biāo)志碼:A " " " " " " " " 文章編號:1008-0562(2024)04-0506-07
Differential privacy protection method based on spatiotemporal correlation
QIAO Yu1, JI Hao2
(1. Pujiang Institute, Nanjing Tech University, Nanjing 211100, China;
2. Pin Duoduo Information Technology Company Limited, Shanghai 200050, China)
Abstract: In order to better protect the personal sensitive information embedded in trajectory data, an approach builds upon existing privacy protection frameworks and further investigates the correlation between temporal characteristics and spatial features is proposed by combining theoretical research with empirical validation, which named differential privacy protection method based on spatiotemporal correlation features(SC-DP). The method adaptively allocates weights of time and space dimensions according to the local dynamic of trajectories, ensuring the sub-stream appearing in a continuous ε-time window and m×m regions that can meet the requirements of ε-differential privacy protection. The algorithm's feasibility and practicality were validated on real datasets, achieving a 32.8% reduction in average error in the Geolife dataset and a 29.2% performance improvement in the CabSpotting dataset.
Key words: temporal and spatial correlation characteristics; sub-stream of trajectory; location services; differential privacy; data availability
0 "引言
互聯(lián)網(wǎng)技術(shù)的發(fā)展,使得基于GPS的智能終端(如智能手機(jī)、智能手表和地圖導(dǎo)航等)得到廣泛普及,這些位置服務(wù)為人們生活提供了更加便捷的方式[1-2],從尋找指定目的地,到查詢導(dǎo)航路線等。要向用戶提供此類位置服務(wù),需要在實時的數(shù)據(jù)流中收集與個人位置相關(guān)的數(shù)據(jù),即由位置點序列和時間戳共同構(gòu)成的個人軌跡。此類數(shù)據(jù)中極易包含用戶個人的敏感信息,為避免個人隱私泄露,通常以統(tǒng)計數(shù)據(jù)的形式發(fā)布,如t時刻某個區(qū)域的用戶數(shù)量。但是,用戶的移動模式仍可從聚合數(shù)據(jù)集中恢復(fù)[3],這是因為軌跡數(shù)據(jù)具有時空相關(guān)性。由這些相關(guān)性能推斷出用戶的行為特征,造成個人隱私的泄露。
假設(shè)數(shù)據(jù)攻擊方獲取了用戶A的一段軌跡,如:用戶A在13:00到達(dá)某中學(xué)后返回家中,16:00去了文具店,17:00回家,于18:00到家。攻擊者若想判斷用戶A是否有孩子與其同行,只需查出在這3個位置點上的用戶數(shù)量即可,見表1。表1中,若result值大于1,即說明此段行程中有孩子與用戶A同行。
目前,在軌跡數(shù)據(jù)的隱私保護(hù)方面,主要有加密技術(shù)[4-5]、緩存技術(shù)[6-7]、匿名技術(shù)[8-9]、差分隱私保護(hù)[10-11]這幾類。其中差分隱私框架最為常用,這是因為差分隱私保護(hù)框架在數(shù)據(jù)發(fā)布之前通過添加噪聲的形式對數(shù)據(jù)進(jìn)行干擾,這樣即使有某個用戶的記錄被修改,輸出數(shù)據(jù)也大致保持不變,幾乎不會泄露任何個人的信息;同時,差分隱私保護(hù)也能夠為數(shù)據(jù)發(fā)布提供較強(qiáng)的理論保證。
為兼顧軌跡數(shù)據(jù)的時空特性對隱私保護(hù)效果的影響,本文提出一種基于時空特征的差分隱私保護(hù)方法(SC-DP)。該方法由軌跡數(shù)據(jù)評估模塊、預(yù)算分配模塊、數(shù)據(jù)再評估和數(shù)據(jù)發(fā)布3部分組成,在分析軌跡數(shù)據(jù)局部動態(tài)的基礎(chǔ)上,能夠自適應(yīng)地進(jìn)行時間和空間維度的隱私預(yù)算分配。
1 "相關(guān)工作
本文的研究重點在于挖掘軌跡數(shù)據(jù)中的時空特征與用戶行為動作的關(guān)聯(lián)關(guān)系。當(dāng)前已有許多針對軌跡數(shù)據(jù)的保護(hù)方案,但是這些方案大多專注于“一次性處理”數(shù)據(jù)集[12],比如對數(shù)據(jù)計算處理后進(jìn)行一次性發(fā)布[13-15]。KELLARIS等[13]提出一種基于ω-時間戳的隱私模型,該模型關(guān)注用戶在一定時間內(nèi)發(fā)生的連續(xù)行為,進(jìn)而分析用戶的相關(guān)行為軌跡。而在具有時空特征的軌跡數(shù)據(jù)中,行為的相關(guān)性與時間和空間維度均有一定的聯(lián)系,因此需要從這兩個因素來考慮用戶的隱私保護(hù),同時考慮處理后的數(shù)據(jù)可用性。文獻(xiàn)[16]是分別保護(hù)軌跡中每個位置點的隱私,文獻(xiàn)[13]則從整體上保護(hù)所有位置點的隱私。前者存在著可能遭受隱私泄露的風(fēng)險,如表1的情形;后者則會導(dǎo)致軌跡數(shù)據(jù)實用性下降,進(jìn)而影響位置服務(wù)的準(zhǔn)確性。
DWORK等[10]首先在流式場景給出了事件層隱私和用戶層隱私的定義,事件層隱私保護(hù)會對軌跡中的每個位置點的動作進(jìn)行處理,但是在用戶隱私保護(hù)方面效果不佳;用戶層隱私保護(hù)則是對整個軌跡流采取保護(hù)手段,這種方式在實際操作中不易實現(xiàn),因為用戶的“行為動作”可能在未來不確定地發(fā)生。因此,先前的相關(guān)研究主要關(guān)注無限流上事件層面的隱私或者有限流上的用戶級隱私。文獻(xiàn)[10]首次利用計數(shù)器算法實現(xiàn)了事件層面的ε-差分隱私,文獻(xiàn)[17]針對用戶的行為特征,實現(xiàn)了有限流上的用戶級ε-差分隱私。為綜合考慮上述兩者情況,KELLARIS等[13]提出一種新的隱私保護(hù)模型,即ω-事件隱私保護(hù),用以保護(hù)在ω時間段內(nèi)發(fā)生的任何事件序列。
關(guān)于空間流數(shù)據(jù)研究中,ACS等[16]提出一種基于用戶級隱私的算法,WANG等[14]提出RescueDP算法,以實現(xiàn)ω-事件隱私。這些算法都是單獨保護(hù)每個位置上的數(shù)據(jù)而沒有綜合考慮軌跡中多個位置點之間的關(guān)聯(lián)關(guān)系。CAO等[18]考慮在特定時間窗口上出現(xiàn)的軌跡位置點,并將基于ω-事件的隱私保護(hù)擴(kuò)展到了在t-時間窗口上的軌跡,但該算法將所有位置視為一個整體,導(dǎo)致數(shù)據(jù)的可用性降低。
2 "相關(guān)理論
(1)位置軌跡
軌跡是由用戶移動的位置點隨時間變化形成的序列[19],可表示為
T={(x1,y1,t1),(x2,y2,t2)},…,(xn,yn,tn)},
其中,(xi,yi,ti),1≤i≤n,ti為用戶i所處的某個時刻,則用戶i在t時刻所處的位置為(xi,yi),xi為經(jīng)度,yi為緯度。
多條軌跡的集合稱為軌跡數(shù)據(jù)集D。
(2)ε-差分隱私
設(shè)R表示一種隨機(jī)機(jī)制,對于任意兩個相鄰數(shù)據(jù)集D1和D2,D1∈D2且兩者之間最多相差一條記錄,隨機(jī)機(jī)制R將D1中的數(shù)據(jù)集作為輸入并將轉(zhuǎn)換后的結(jié)果輸出,若輸出結(jié)果O滿足式(1),則算法R符合ε-差分隱私,ε為差分隱私預(yù)算。ε值越大,表示添加的噪聲越小,隱私保護(hù)的水平越低;反之,ε值越小,添加的噪聲越大,隱私保護(hù)的水平越高;當(dāng)ε取0時,隱私保護(hù)效果達(dá)到最好,但會導(dǎo)致添加噪聲后的數(shù)據(jù)可用性大幅減低。
。 "(1)
(3)Laplace機(jī)制
Laplace機(jī)制[2]是實現(xiàn)ε-差分隱私最常見的機(jī)制之一,該機(jī)制的基本思想是在統(tǒng)計數(shù)據(jù)上添加Laplace隨機(jī)噪聲以防止敏感數(shù)據(jù)的泄露,并根據(jù)統(tǒng)計數(shù)據(jù)的敏感性來添加不同尺度大小的噪聲[20]。其概率密度函數(shù)為
, " " " (2)
即隨機(jī)變量x服從參數(shù)為b、u的Laplace分布。
(4)α-事件隱私
令 和 是長度為l的兩個軌跡子流,如果對于任意的 和 在時間段[1,L]內(nèi)都有 ,則認(rèn)為 和 是互為相鄰的位置;同時對軌跡中任何 、 、 和 都存在 、 ,其中, ,此時可稱 和 為α-近鄰[13]。
若所有軌跡子流 和 均符合α-近鄰的要求,那么可以假設(shè)將任意大小的k分解為 ,使得kl(Tl)=Ol,且每個kl都符合ε-差分隱私;這里軌跡子流長度l和輸出序列 表示
,(3)
若
, " "(4)
成立,則k滿足α-事件隱私(即同時滿足α-事件和ε-差分隱私的條件),通過這樣的方式可進(jìn)行α-事件隱私保護(hù)算法的設(shè)計[21]。
(5)平均絕對誤差
使用平均絕對誤差(mean absolute error,MAE)作為算法隱私保護(hù)效果的效用度量,可表示為
,(5)
式中,pt(i,j)、Ot(i,j)分別為時刻t用戶在原始數(shù)據(jù)、處理后發(fā)布的數(shù)據(jù)中所處的位置坐標(biāo)(i,j)。
3 "基于時空特征的差分隱私保護(hù)方法
首先分析軌跡數(shù)據(jù)流中攜帶的時空特征,在滿足ε-差分隱私的前提下,進(jìn)一步對出現(xiàn)在α?xí)r間窗口內(nèi)及m×m塊區(qū)域中的軌跡子流的隱私進(jìn)行優(yōu)化保護(hù),提出基于時空特征的差分隱私保護(hù)方法(differential privacy protection method based on spatiotemporal correlation,SC-DP)。
3.1 "用戶軌跡數(shù)據(jù)流的時間和空間特征
在用戶的軌跡數(shù)據(jù)流中,不同位置點中包含的時間特征差異很大,例如在上午8:00—10:00,辦公室的人數(shù)呈現(xiàn)急速上升的趨勢,并在10:00達(dá)到峰值;而部分特定的位置點(如酒吧、夜間餐飲等)在21:00人數(shù)出現(xiàn)上升,并在零點左右達(dá)到峰值。
空間特征方面,為了量化軌跡的空間范圍,采用“面積階數(shù)”進(jìn)行描述。如圖1中Trajectory1可以覆蓋5×5的單位面積,因此稱Trajectory1為5階軌跡;類似地,可稱Trajectory2是3階軌跡。
采用GeoLife數(shù)據(jù)集和CabSpotting數(shù)據(jù)集進(jìn)行分析。GeoLife數(shù)據(jù)集是由微軟亞洲研究院收集的用戶軌跡數(shù)據(jù),常用于位置隱私保護(hù)的研究,包括182名用戶的17 621條軌跡數(shù)據(jù),每條軌跡由一系列時間戳表示,每個位置點都包含緯度、經(jīng)度和高度的信息。CabSpotting數(shù)據(jù)集是由Crawdad社區(qū)提供的舊金山出租車的移動軌跡,包含30 d內(nèi)在舊金山灣區(qū)收集的約500輛出租車的GPS坐標(biāo)。對GeoLife數(shù)據(jù)集和CabSpotting數(shù)據(jù)集中的軌跡數(shù)據(jù)在空間和時間上的分布特征進(jìn)行分類統(tǒng)計,形成累計分布函數(shù)圖(cumulative distribution function, CDF)。
在空間維度方面,根據(jù)經(jīng)緯度的實際含義,本實驗取0.2作為步長(大約200 m),對涉及的地理范圍進(jìn)行劃分,發(fā)現(xiàn)GeoLife數(shù)據(jù)集上80%的軌跡階數(shù)小于63;而CabSpotting數(shù)據(jù)集中90%的出租車單條軌跡活動范圍在10以內(nèi),見圖2。
分析了兩個真實數(shù)據(jù)集中軌跡數(shù)據(jù)的時間分布特性,并形成軌跡持續(xù)時間的CDF,見圖3??梢钥闯鯣eoLife數(shù)據(jù)集中軌跡持續(xù)時間大多數(shù)不超過5 h;而CabSpotting數(shù)據(jù)集中80%的軌跡持續(xù)時間均小于1.6 h。
通過對真實軌跡數(shù)據(jù)的分析,可以看出動態(tài)軌跡中不同的位置點都包含一定的時空特性。因此,應(yīng)該根據(jù)其空間和時間特征進(jìn)行區(qū)別化處理,以保持?jǐn)?shù)據(jù)的實用性。
3.2 "基于α?xí)r間窗口和m階空間的差分隱私保護(hù)
以表1為例,用戶在不同位置上的時空動態(tài)不一樣,若仍以相同頻率在每個位置發(fā)布數(shù)據(jù)將降低數(shù)據(jù)的實用性。因此,為了權(quán)衡隱私保護(hù)效果和數(shù)據(jù)效用的關(guān)系,在第2節(jié)α-事件隱私的概念基礎(chǔ)上,本節(jié)介紹在符合ε-差分隱私的情況下,能夠同時保護(hù)α?xí)r間窗口和m×m塊子區(qū)域內(nèi)軌跡數(shù)據(jù)的隱私信息,稱為α-m差分隱私。
首先給出m×m塊子區(qū)域的定義:設(shè)Tl ={T1,T2,…,TL}為輸入子流,其中Tl∈TM×M,l∈[1,L],令輸入流TL通過一個固定大小的m×m窗口,此時沿著時間維度通過的流T即可看成一個m×m階的子數(shù)據(jù)流,也就是將數(shù)據(jù)流劃分為多個不相交的m×m階子塊,并在每個不滿足α-m差分隱私的子流塊中獨立地執(zhí)行α-差分隱私保護(hù)機(jī)制。這是防止跨越兩個子流的數(shù)據(jù)塊不滿足α-事件隱私的情況,即保證了出現(xiàn)在α?xí)r間段內(nèi)和m×m階空間中的任意一段軌跡子流均能滿足α-事件隱私的條件,也可認(rèn)為這種方式能夠?qū)崿F(xiàn)α-m差分隱私保護(hù)。
3.3 "算法過程
根據(jù)相關(guān)定義,將k分解為多個機(jī)制ki,并且每個ki都能獨立地滿足ε-差分隱私,SC-DP算法(圖4)的目標(biāo)是確保在任何α?xí)r間段內(nèi),任何m×m階的軌跡子流上花費的總預(yù)算不超過ε。
SC-DP算法的優(yōu)勢主要體現(xiàn)在以下方面:考慮每個時間窗口上的位置點的行為特征而不是對全局區(qū)域進(jìn)行處理;SC-DP算法可以確保每個m×m階區(qū)域內(nèi)的軌跡子流均滿足α-事件隱私。
該算法由3個部分組成:數(shù)據(jù)評估、隱私預(yù)算分配、數(shù)據(jù)再評估和發(fā)布。
① 數(shù)據(jù)評估
在連續(xù)的時間窗口上進(jìn)行數(shù)據(jù)統(tǒng)計時,如果頻繁發(fā)布數(shù)據(jù),發(fā)布的數(shù)據(jù)版本之間并無顯著變化,那么這樣的發(fā)布效率低。因此,采用評估模塊將當(dāng)前數(shù)據(jù)與上一次發(fā)布的數(shù)據(jù)版本相比,確認(rèn)每個位置的統(tǒng)計數(shù)據(jù)是否發(fā)生了重大變化。發(fā)布模塊服從評估模塊的決定,如果未發(fā)生重大變化,則輸出先前的數(shù)據(jù);反之,發(fā)布統(tǒng)計后的新數(shù)據(jù)。
② 預(yù)算分配
預(yù)算分配模塊是確保在任何α?xí)r間窗口和m×m階區(qū)域塊花費的總預(yù)算不會超過ε。對于每個位置點loc(i,j),將預(yù)算εt分成兩個相等的部分:評估預(yù)算θt,(i,j)和發(fā)布預(yù)算βt,(i,j)。在每個時間戳上,θt,(i,j)設(shè)為 ,βt,(i,j)則是利用剩余一半預(yù)算的指數(shù)衰減方式進(jìn)行計算。其中,每個位置的剩余預(yù)算是它可以使用的最大發(fā)布預(yù)算,以遵循α-差分隱私。軌跡子流Tt中包含m×m階子區(qū)域,根據(jù)發(fā)布預(yù)算βt,(i,j)對這些位置點進(jìn)行Laplace噪聲干擾。同時,要求在前α?1的時間段上花費的總預(yù)算為
,
其中,max函數(shù)計算了子流Tt中所有位置點loc(i,j),進(jìn)而軌跡子流Tt的剩余預(yù)算為
。 " (6)
位置點loc(i,j)可能屬于多個不同的軌跡子流,因而位置點loc(i,j)的剩余預(yù)算可表示為
,
其中,min函數(shù)覆蓋所有包含位置點loc(i,j)的軌跡子流。下列給出預(yù)算分配算法的偽代碼描述。
算法:預(yù)算分配步驟
輸入:ε, , m ,( )
輸出:θt, βt
Step1: allocate fixed " to θt,(i,j)
Step2: for each sub-stream do
其中,(i, j)∈sub-stream
end for
Step3: for each loc(i,j) do
其中,(i, j)∈sub-stream
end for
Step4: return θt, ,βt
③ 誤差評估和發(fā)布
在進(jìn)行數(shù)據(jù)發(fā)布前,先對即將發(fā)布的數(shù)據(jù)進(jìn)行誤差評估,主要關(guān)注數(shù)據(jù)的近似誤差和發(fā)布誤差兩個指標(biāo)。近似誤差A(yù)是指當(dāng)前數(shù)據(jù)dt(i,j)與先前輸出數(shù)據(jù)ot-1(i,j)之間的絕對誤差;發(fā)布誤差P則是指當(dāng)
前數(shù)據(jù)dt(i,j)與擾動數(shù)據(jù)ot(i,j)之間的絕對誤差。根據(jù)Laplace的性質(zhì),發(fā)布誤差為P為1/βt,(i,j)。如果當(dāng)前的統(tǒng)計數(shù)據(jù)與先前發(fā)布的數(shù)據(jù)非常相似,即近似誤差A(yù)小于發(fā)布誤差P時,將跳過當(dāng)前時間窗口的數(shù)據(jù)發(fā)布;否則對當(dāng)前數(shù)據(jù)dt(i,j)進(jìn)行噪聲干擾,再發(fā)布干擾后的數(shù)據(jù)ot(i,j)。
在這一過程中,評估處理作為內(nèi)部操作,但是攻擊方仍可以通過檢查系統(tǒng)指定時間點是否輸出新數(shù)據(jù)來推斷。因此,評估過程中的近似誤差也需要通過Laplace噪聲(2×α)/ε進(jìn)行干擾;在實際操作過程中,先將整個區(qū)域劃分為m×m塊不相交的子區(qū)域,然后使用每個子區(qū)域的MAE值來近似地表示每個位置的絕對誤差,其中MAE函數(shù)的靈敏度為1/(m×m),每個位置上的Laplace噪聲大小為(2×α)/(ε×m×m),這樣使得每個位置上的噪聲大小遠(yuǎn)小于(2×α)/ε。
發(fā)布模塊將根據(jù)評估階段的結(jié)果,輸出先前的數(shù)據(jù)版本或者輸出經(jīng)過噪聲干擾的新數(shù)據(jù)ot,(i,j)(1/βt,(i,j)),在未發(fā)布新數(shù)據(jù)的位置將當(dāng)前發(fā)布預(yù)算βt,(i,j)保存到下一個時間窗口。
4 "算法驗證
首先從理論角度分析SC-DP算法思路的合理性和有效性;然后,將SC-DP算法應(yīng)用于軌跡數(shù)據(jù)集GeoLife和CabSpotting上,通過計算ε、α、m取不同值時對應(yīng)數(shù)據(jù)的MAE值變化,來反映數(shù)據(jù)處理前后的誤差變化,進(jìn)而說明算法對數(shù)據(jù)可用性的影響。
4.1 "理論分析與證明
(1)在誤差評估階段,每個子區(qū)域均可劃分為m×m塊,MAE函數(shù)的靈敏度為1/(m×m),并且結(jié)果受到大小為1/(θt×m×m)的Laplace噪聲干擾,因此可認(rèn)為評估過程滿足θt-差分隱私。
(2)發(fā)布過程中,數(shù)據(jù)被Laplace噪聲1/βt擾動,由于靈敏度為1,即發(fā)布過程符合βt-差分隱私,并且預(yù)算的分配符合
,
。
(3)另一個前提是:預(yù)算分配模塊的目的是確保在任何α?xí)r間窗口和m×m階區(qū)域塊花費的總預(yù)算不會超過ε。
綜上所述,可認(rèn)為SC-DP算法在ε-差分隱私的前提下進(jìn)一步滿足(α,m×m)隱私要求,證明了該算法的理論可行性。
4.2 "數(shù)據(jù)可用性評估
為進(jìn)一步驗證算法對數(shù)據(jù)可用性的影響,在GeoLife和CabSpotting數(shù)據(jù)集上進(jìn)行實驗,并與Re-DP算法[14]進(jìn)行比較,實驗將所有算法運(yùn)行10次并計算平均值,以此來降低實驗結(jié)果的隨機(jī)性。
(1)數(shù)據(jù)可用性與參數(shù)m之間的關(guān)系
如3.3節(jié)所述,在數(shù)據(jù)評估過程中近似誤差極易受到干擾,而SC-DP算法無法在每個時間窗口發(fā)布最新數(shù)據(jù)時檢測部分局部變化。所以,當(dāng)m較小時,數(shù)據(jù)可用性較低;當(dāng)m不斷變大,算法的擾動效應(yīng)下降,SC-DP算法處理下的數(shù)據(jù)可用性也隨之增大。但當(dāng)m持續(xù)變大時,α?xí)r間窗口和m×m階區(qū)域塊內(nèi)的軌跡子流的局部變化難以精準(zhǔn)檢測,從而導(dǎo)致SC-DP算法性能隨著m過量的增大而不斷下降。
(2)數(shù)據(jù)可用性與參數(shù)ε之間的關(guān)系
該部分實驗令α=120,m分別取5、15、25和35,ε在[0.2,1]之間變化,ε對算法SC-DP和Re-DP數(shù)據(jù)MAE值的影響見圖5。從圖5中可以看出,ε增大時,對應(yīng)的MAE值隨之減?。辉趍為15時,SC-DP算法在GeoLife和CabSpotting數(shù)據(jù)集上的數(shù)據(jù)可用性達(dá)到最大適應(yīng)值,平均性能提高32.8%。
(3)數(shù)據(jù)可用性與參數(shù)α之間的關(guān)系
實驗時,ε取1,α在[40,200]之間變化,m分別取5、15、25和35進(jìn)行對比,α對數(shù)據(jù)可用性的影響見圖6。圖6中可以看出,數(shù)據(jù)的MAE值隨α的增大而增大;同時,SC-DP算法仍然在m為15時,數(shù)據(jù)的實用性達(dá)到最優(yōu),較基線Re-DP的平均誤差降低29.2%。
在實際應(yīng)用中,參數(shù)ε、α、m可根據(jù)隱私保護(hù)程度和數(shù)據(jù)實用性的具體要求選擇最合適的數(shù)值。
5 "結(jié)論
本文分析了軌跡數(shù)據(jù)中攜帶的時間和空間特征,并基于ε-差分隱私保護(hù)技術(shù)的原理,提出了一種基于時空特征的軌跡數(shù)據(jù)保護(hù)方法SC-DP,用以保護(hù)在連續(xù)的α?xí)r間窗口和m×m階的子區(qū)域內(nèi)軌跡子流的數(shù)據(jù)隱私。
(1)該算法能夠針對數(shù)據(jù)流的局部動態(tài)進(jìn)行時間和空間維度的隱私預(yù)算分配,并分別從理論可行性和實驗數(shù)據(jù)方面說明了本算法的隱私保護(hù)的有效性和數(shù)據(jù)可用性。
(2)通過理論和實驗的驗證,該方法能夠在參數(shù)取值適當(dāng)?shù)那闆r下,保證軌跡數(shù)據(jù)的隱私并提供良好的數(shù)據(jù)可用性。
參考文獻(xiàn)(References):
[1] 岳鵬程.基于差分隱私的軌跡數(shù)據(jù)隱私保護(hù)方法研究[D].哈爾濱:哈爾濱工程大學(xué),2020:1-2.
[2] 白雨靚,李曉會,陳潮陽,等.面向軌跡數(shù)據(jù)發(fā)布的優(yōu)化抑制差分隱私保護(hù)研究[J].小型微型計算機(jī)系統(tǒng),2021,42(8):1787-1792.
BAI Yuliang,LI Xiaohui,CHEN Chaoyang,et al.Research on optimal suppression differential privacy protection for trajectory data publishing[J]. Journal of Chinese Computer Systems,2021,42(8):1787-1792.
[3] 徐騰鵬.基于軌跡數(shù)據(jù)的聚類算法和差分隱私保護(hù)算法研究[D].長春:吉林大學(xué),2022:21-22.
[4] 華豐,王亞森,金駿陽,等.一種數(shù)據(jù)隱私保護(hù)下多方無損線性模型學(xué)習(xí)方法[J].機(jī)械工程學(xué)報,2023,59(12):17-27.
HUA Feng,WANG Yasen,JIN Junyang,et al.A multi-lossless linear model learning method with data privacy-preserving[J].Journal of Mechanical Engineering,2023,59(12):17-27.
[5] 肖瑤,馮勇,李英娜,等.基于同態(tài)加密的區(qū)塊鏈交易數(shù)據(jù)隱私保護(hù)方案[J].密碼學(xué)報,2022,9(6):1053-1066.
XIAO Yao,F(xiàn)ENG Yong,LI Yingna,et al.A privacy-preserved scheme for blockchain transaction based on homomorphic encryption[J]. Journal of Cryptologic Research,2022,9(6):1053-1066.
[6] 李樹全,李銳,朱大勇,等.基于用戶網(wǎng)格和兩級緩存的LBS位置隱私保護(hù)方案[J].計算機(jī)應(yīng)用研究,2020,37(8):2437-2441, 2445.
LI Shuquan,LI Rui,ZHU Dayong,et al.Two-level cache location privacy protection scheme based on user grid[J].Application Research of Computers,2020,37(8):2437-2441,2445.
[7] 劉琨,王圓潔,申自浩,等.結(jié)合區(qū)塊鏈的車聯(lián)網(wǎng)隱私保護(hù)可信預(yù)測緩存架構(gòu)[J].北京郵電大學(xué)學(xué)報,2022,45(6):140-146.
LIU Kun,WANG Yuanjie,SHEN Zihao,et al.Trusted predictive cache architecture for Internet of vehicles privacy protection combined with blockchain[J].Journal of Beijing University of Posts and Telecommunications,2022,45(6):140-146.
[8] 于玥,林憲正,李衛(wèi)海,等.基于哈夫曼的k-匿名模型隱私保護(hù)數(shù)據(jù)壓縮方案[J].網(wǎng)絡(luò)與信息安全學(xué)報,2023,9(4):64-73.
YU Yue,LIN Xianzheng,LI Weihai,et al.Privacy-preserving data compression scheme for k-anonymity model based on Huffman coding[J].Chinese Journal of Network and Information Security,2023, 9(4):64-73.
[9] 樊佳錦,朱焱.基于分類重要性與隱私約束的K-匿名特征選擇[J].計算機(jī)應(yīng)用與軟件,2022,39(6):35-39.
FAN Jiajin,ZHU Yan.K-anonymous feature selection based on classification importance and privacy constraint[J].Computer Applications and Software,2022,39(6):35-39.
[10] DWORK C,MCSHERRY F,NISSIM K,et al.Calibrating noise to sensitivity in private data analysis[M]//Theory of Cryptography. Berlin, Heidelberg: Springer Berlin Heidelberg,2006:265-284.
[11] 宋成,程道晨,倪水平.個性化差分隱私的k匿名軌跡隱私保護(hù)方案[J].北京郵電大學(xué)學(xué)報,2023,46(3):109-114.
SONG Cheng,CHENG Daochen,NI Shuiping. K-anonymous trajectory privacy protection scheme of personalized differential privacy[J]. Journal of Beijing University of Posts and Telecommunications,2023, 46(3):109-114.
[12] 董玉蘭,皮德常.一種基于假數(shù)據(jù)的新型軌跡隱私保護(hù)模型[J].計算機(jī)科學(xué),2017,44(8):124-128,139.
DONG Yulan,PI Dechang.Novel trajectory privacy preserving mechanism based on dummies[J].Computer Science,2017,44(8): 124-128,139.
[13] KELLARIS G,PAPADOPOULOS S,XIAO X K,et al.Differentially private event sequences over infinite streams[J].Proceedings of the VLDB Endowment,2014,7(12):1155-1166.
[14] WANG Q,ZHANG Y,LU X,et al.Real-time and spatio-temporal crowd-sourced social network data publishing with differential privacy[J].IEEE Transactions on Dependable and Secure Computing, 2018,15(4):591-606.
[15] 徐振強(qiáng),王家耀,楊衛(wèi)東.面向軌跡數(shù)據(jù)發(fā)布的隱私保護(hù)技術(shù)研究進(jìn)展[J].測繪科學(xué)技術(shù)學(xué)報,2018,35(1):87-93.
XU Zhenqiang,WANG Jiayao,YANG Weidong.Research progress in privacy-preserving techniques for trajectory publication[J].Journal of Geomatics Science and Technology,2018,35(1):87-93.
[16] ACS G,CASTELLUCCIA C.A Case Study: privacy preserving release of spatio-temporal density in Paris[C]//In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.August 24-27,2014,Association for Computing Machinery,New York,USA. New York:ACM,2014:1679-1688.
[17] 田豐,吳振強(qiáng),魯來鳳,等.面向軌跡數(shù)據(jù)發(fā)布的個性化差分隱私保護(hù)機(jī)制[J].計算機(jī)學(xué)報,2021,44(4):709-723.
TIAN Feng,WU Zhenqiang,LU Laifeng,et al.A sample based personalized differential privacy mechanism for trajectory data publication[J]. Chinese Journal of Computers,2021,44(4):709-723.
[18] CAO Y, YOSHIKAWA M. Differentially private real-time data release over infinite trajectory streams[C]//2015 16th IEEE International Conference on Mobile Data Management.June 15-18,2015, Pittsburgh, PA,USA.IEEE,2015:68-73.
[19] QIAO Y,JI H.Trajectory differential privacy protection with regional center of gravity[C]//2022 International Conference on Computer Network,Electronic and Automation.September 23-25,2022,Xi'an, China.
IEEE,2022:66-70.
[20] 俞慶英,王燕飛,葉梓彤,等.基于優(yōu)化局部抑制的軌跡數(shù)據(jù)發(fā)布隱私保護(hù)算法[J].計算機(jī)工程,2020,46(8):112-118.
YU Qingying,WANG Yanfei,YE Zitong, et al. Privacy protection algorithm based on optimized local suppression for trajectory data publication[J]. Computer Engineering,2020,46(8):112-118.
[21] LIU X,GUO Y C,CHEN Y S,et al.Trajectory privacy protection on spatial streaming data with differential privacy[C]//2018 IEEE Global Communications Conference. December 9-13,2018,Abu Dhabi,United Arab Emirates.IEEE,2018:1-7.