張 俊,梁陽罡,申自浩,王 輝,劉沛騫
1(河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000) 2(河南理工大學(xué) 軟件學(xué)院,河南 焦作 454000)
隨著基于位置服務(wù)和位置感知設(shè)備的廣泛發(fā)展,產(chǎn)生了大量的軌跡數(shù)據(jù).這些數(shù)據(jù)可以幫助研究人員開展一系列的研究,例如:興趣點(diǎn)推薦[1]、船舶軌跡預(yù)測[2]等.
軌跡數(shù)據(jù)包含了大量的敏感信息,如果這些數(shù)據(jù)在沒有保護(hù)或處理不當(dāng)?shù)那闆r下直接發(fā)布,會(huì)引起嚴(yán)重的隱私泄露問題.惡意的攻擊者通過數(shù)據(jù)分析和挖掘的技術(shù)手段獲取用戶的敏感信息,包含用戶的生活習(xí)慣、家庭住址和職業(yè)信息等.
近年來,為了保護(hù)用戶的身份信息或敏感位置,Sweeney[3]提出了使用k-anonymity的方法,確保數(shù)據(jù)庫中的每個(gè)數(shù)據(jù)無法與其他k-1條數(shù)據(jù)區(qū)分開來.為了抵抗具有背景知識(shí)的攻擊者,Dwork[4]提出了差分隱私技術(shù)(Differential Privacy,DP)用于保護(hù)數(shù)據(jù)隱私.吳云乘等[5]提出了基于時(shí)空關(guān)聯(lián)性的差分隱私保護(hù)方法.冀亞麗等[6]提出了基于時(shí)空和群體特征的興趣區(qū)域的構(gòu)建方法,根據(jù)訪問頻率對(duì)用戶的地方進(jìn)行處理.
盡管現(xiàn)有的隱私保護(hù)方法在保護(hù)用戶敏感信息方面做出了很大的貢獻(xiàn),但大多數(shù)研究人員考慮的是敏感位置或敏感區(qū)域等,他們中的大多數(shù)沒有考慮到位置語義特征所代表的含義,位置語義特征的外在表現(xiàn)是用戶的日常行為模式.一般來說,位置語義信息(Location Semantic Information,LSI)是通過停留點(diǎn)來體現(xiàn)的.停留點(diǎn)則是由用戶在一定范圍內(nèi)長時(shí)間的停留而形成的,因此停留點(diǎn)表示的是用戶的日?;顒?dòng)等敏感信息,而這些信息可以用LSI代替.從敏感度的角度來說,使用位置語義敏感度代替位置敏感度.下文將“位置語義敏感度”簡稱為“語義敏感度”,“位置語義”簡稱為“語義”.
此外,Yuan等[7]提出了對(duì)敏感位置分級(jí)的策略,如果某個(gè)位置對(duì)用戶不敏感或敏感度低,但是從全局的角度(軌跡數(shù)據(jù)庫)考慮,假如該位置擁有極高的敏感度,那么該方法對(duì)類似這樣的位置在處理方面存在一定的局限性.Li等[8]提出了基于語義的敏感等級(jí)構(gòu)建方法,但該方法并不適用于軌跡數(shù)據(jù)發(fā)布的隱私保護(hù)場景.
為了保護(hù)用戶的敏感位置語義,本文提出了一種結(jié)合神經(jīng)網(wǎng)絡(luò)和敏感位置語義的軌跡隱私保護(hù)方法TP-SLS.首先,分別從局部(個(gè)人軌跡數(shù)據(jù))和全局(所有用戶的軌跡數(shù)據(jù))的角度考慮,提出了敏感度感知模型(Sensitivity Awareness Model,SAM),用于量化語義敏感度.然后,為了干擾用戶的敏感位置,本文構(gòu)建了基于空間坐標(biāo)、時(shí)間和語義敏感度的用戶構(gòu)建敏感移動(dòng)場景,并使用差分隱私技術(shù)干擾.最后,考慮到預(yù)測的軌跡可能存在廢數(shù)據(jù),提出了基于強(qiáng)化學(xué)習(xí)和多屬性決策的軌跡優(yōu)化方法.本文使用了一個(gè)真實(shí)的數(shù)據(jù)集評(píng)估了TP-SLS.實(shí)驗(yàn)結(jié)果證明,TP-SLS在隱私保護(hù)強(qiáng)度和數(shù)據(jù)可用性兩個(gè)方面優(yōu)于現(xiàn)有的方案.
Xu等[9]提出了一種DP-LTOD的方法.他們使用聚類算法將具有相同興趣愛好的用戶劃劃分為同一個(gè)社區(qū),然后使用啟發(fā)式軌跡混淆算法從原始軌跡中選擇最小差異的軌跡,最后使用DP技術(shù)平衡隱私保護(hù)和數(shù)據(jù)效用強(qiáng)度.Chen等[10]提出了一種DP-QIC的數(shù)據(jù)發(fā)布機(jī)制.該機(jī)制的核心是使用DP混淆相關(guān)屬性,通過挖掘敏感屬性與QI之間的潛在關(guān)系抵御攻擊.Chen等[11]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)和DP的方法.該方法基于原始軌跡,對(duì)速度屬性添加DP噪聲干擾,通過循環(huán)神經(jīng)網(wǎng)絡(luò)生成新軌跡;最后,對(duì)新軌跡進(jìn)行判別和處理,完成軌跡數(shù)據(jù)的發(fā)布.Qu等[12]提出了一種以GAN為驅(qū)動(dòng)的個(gè)性化隱私保護(hù)方案.該方案為了解決由GAN引起的不可預(yù)知的隨機(jī)性問題,設(shè)計(jì)了一個(gè)P-GAN的模型.首先,將用戶按社區(qū)分類,按照社區(qū)邊緣的密度劃分出不同的親密度;然后,設(shè)計(jì)一個(gè)QoS函數(shù),將親密度與隱私保護(hù)級(jí)別相關(guān)聯(lián);最后,構(gòu)造一個(gè)DP識(shí)別器用于擴(kuò)展GAN,實(shí)現(xiàn)數(shù)據(jù)效用,滿足個(gè)性化的隱私保護(hù)需求.
綜上所述,現(xiàn)有的隱私保護(hù)機(jī)制一定程度上滿足了不同的隱私保護(hù)需求,但大多數(shù)沒有考慮到語義信息,并且沒有很清晰的描述出語義的敏感度問題.基于此,TP-SLS考慮到了語義敏感度的問題且構(gòu)造一個(gè)SAM模型用于量化語義敏感度權(quán)重.與以往工作不同的是,本文沒有使用速度或者語義屬性構(gòu)建移動(dòng)場景.而是基于語義敏感度,構(gòu)建了敏感移動(dòng)場景,并且使用差分隱私進(jìn)行干擾.最后,使用神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢,提出了一種將神經(jīng)網(wǎng)絡(luò)和敏感位置語義相結(jié)合的軌跡隱私保護(hù)方法.
Transformer network[13]是一個(gè)編碼器-解碼器結(jié)構(gòu)和僅依賴于自注意力的多層堆棧模型.它的每一層都是一個(gè)由點(diǎn)積組成的自回歸模型的多頭自注意力機(jī)制,可以表示為:
(1)
在人工智能領(lǐng)域中,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一個(gè)重要的分支.RL的核心是智能體與環(huán)境的交互,這個(gè)過程使用馬爾科夫決策過程(Markov Decision Process,MDP)來表示.五元表示一個(gè)MDP,其中S表示狀態(tài)空間,A表示動(dòng)作空間,P表示狀態(tài)轉(zhuǎn)移矩陣,R表示及時(shí)獎(jiǎng)勵(lì)函數(shù),λ∈[0,1]表示折扣因子.
Q-learning是強(qiáng)化學(xué)習(xí)的主要算法之一.但如果動(dòng)作和狀態(tài)空間的維度復(fù)雜性很高時(shí),由于Q-table(一個(gè)存儲(chǔ)動(dòng)作和狀態(tài)的表格)的限制,使得Q-learning無法或難以完成復(fù)雜的任務(wù).為了解決復(fù)雜任務(wù)的應(yīng)用場景,Mnih等[14]提出了一種基于神經(jīng)網(wǎng)絡(luò)的方法用于估計(jì)Q函數(shù)(期望獎(jiǎng)勵(lì)函數(shù),Q表示一個(gè)動(dòng)作的期望獎(jiǎng)勵(lì)),即深度Q網(wǎng)絡(luò)(Deep Q Network,DQN).DQN包含了兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是估計(jì)值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò).估計(jì)值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的輸出分別是Q估計(jì)值和Q目標(biāo)值,DQN的目的是確保這兩個(gè)值盡可能的接近.這個(gè)過程可以用一個(gè)損失函數(shù)表示.
Loss(θ)=E[(Qtarget-Q(st,at;θ))2]
(2)
其中Q(st,at;θ)表示時(shí)刻t的Q估計(jì)值,θ表示網(wǎng)絡(luò)參數(shù),Qtarget是目標(biāo)值,為:
Qtarget=r+λmaxat+1Q(st+1,at+1;θ)
(3)
其中,r表示獎(jiǎng)勵(lì)值,Q(st+1,at+1;θ)表示時(shí)刻t+1的Q估計(jì)值.
定義1.(ε-差分隱私)對(duì)于兩個(gè)數(shù)據(jù)庫D1和D2,如果它們之間最多存在一個(gè)數(shù)據(jù)差異,D1是較大的數(shù)據(jù)庫,D2是較小的數(shù)據(jù)庫,那么可以說D1和D2是相鄰數(shù)據(jù)庫.如果存在一個(gè)隨機(jī)算法L,使得相鄰數(shù)據(jù)庫的輸出結(jié)果Q滿足:
Pr[L(D1)∈Q]≤oε×Pr[L(D2)∈Q]
(4)
那么可以說滿足ε-差分隱私,ε是差分隱私參數(shù).其中,Pr表示概率,o表示自然常數(shù).
定義2.(靈敏度)對(duì)于任意一個(gè)查詢函數(shù)f,ff∈F(D)屬于實(shí)數(shù)集,f的靈敏度Qf定義為:
(5)
其中‖·‖1表示曼哈頓距離.
定義3.(拉普拉斯機(jī)制)拉普拉斯機(jī)制是目前最常見的處理機(jī)制,通過在查詢結(jié)果中加入符合拉普拉斯分布的噪聲η保護(hù)數(shù)據(jù)的安全,可以表示為:
(6)
其中λ是噪聲參數(shù).
定義4.(語義點(diǎn))語義點(diǎn)p是一個(gè)三元組,p=(lat,lon,ls),其中l(wèi)at和lon表示空間坐標(biāo),如WGS84坐標(biāo)參考系統(tǒng)中的緯度(lat)和經(jīng)度(lon),ls表示語義(語義是興趣點(diǎn)(point-of-interest,POI)的描述,可以通過LBS數(shù)據(jù)庫查詢).
在本文中,ls表示的是“小語義”,例如一個(gè)POI的語義描述是“食品、快餐店、肯德基”,語義描述級(jí)別從大到小,表示的是“肯德基”.
定義5.(語義軌跡數(shù)據(jù)庫)語義軌跡數(shù)據(jù)庫Dls={Tls1,Tls2,…,Tlsu}是特定類型的時(shí)空數(shù)據(jù)庫,表示所有用戶在一個(gè)固定空間內(nèi)的連續(xù)變化.其中,Tls=p1,p2,…,pn,pi表示語義點(diǎn).
定義6.(個(gè)人語義敏感權(quán)重)個(gè)人語義敏感權(quán)重表示用戶與語義的親密程度,記為γ,個(gè)人語義敏感權(quán)重集合ST表示為:
ST={(ls1,γ1),(ls2,γ2),…,(lsq,γq),Ui}
(7)
其中Ui是用戶標(biāo)識(shí).特別說明的是,如果某個(gè)語義不在集合ST中,它的語義敏感度權(quán)重等于0.
TP-SLS利用DP干擾語義敏感權(quán)重,使用神經(jīng)網(wǎng)絡(luò)處理時(shí)間序列軌跡數(shù)據(jù).TP-SLS如圖1所示,分為4個(gè)步驟:
圖1 TP-SLS體系結(jié)構(gòu)Fig.1 TP-SLS architecture
步驟1.基于語義軌跡數(shù)據(jù)庫Dls,提出了一個(gè)敏感度感知算法SAM量化語義敏感權(quán)重.
步驟2.將添加噪聲后的語義敏感度權(quán)重引入軌跡數(shù)據(jù)中,并使用Transformer network訓(xùn)練一個(gè)軌跡預(yù)測模型.
步驟3.引入DQN優(yōu)化預(yù)測的軌跡數(shù)據(jù).
步驟4.修復(fù)由于停留點(diǎn)的變更而導(dǎo)致的路徑不相連,完成軌跡數(shù)據(jù)的發(fā)布.
SAM算法的目的是量化語義敏感度權(quán)重,為構(gòu)建用戶的語義敏感移動(dòng)場景和優(yōu)化軌跡提供數(shù)據(jù)支撐.SAM由3個(gè)算法構(gòu)成,分別是語義訪問頻率分級(jí)算法(Semantics access frequency classification algorithm,SAFC)、異常值感知算法(Outliers-aware algorithm,OLA)和語義敏感度權(quán)重分配算法(semantics sensitivity weight allocation algorithm,SSWA).其中,SAFC算法基于個(gè)人軌跡數(shù)據(jù)庫初始化個(gè)人語義敏感度公式,OLA算法用于解決SAFC算法無法處理的全局(軌跡數(shù)據(jù)庫)語義敏感度問題,SSWA算法將OLA算法和SAFC算法結(jié)合起來,得到一個(gè)全新的語義敏感度公式,并計(jì)算語義敏感度權(quán)重.
3.1.1 SAFC算法
SAFC算法的核心思想是將訪問停留點(diǎn)的頻率,轉(zhuǎn)換為訪問語義的頻率.然后,利用聚類算法將頻率相近的語義聚類,根據(jù)頻率分級(jí).最后,初始化語義敏感度公式.處理過程為:
步驟1.從用戶軌跡數(shù)據(jù)中提取停留點(diǎn)的頻率,并對(duì)語義相同的停留點(diǎn)的訪問頻率fr做累加計(jì)算處理.用戶的語義頻率如式(8)所示:
LS={(ls1,fr1),(ls2,fr2),…,(lsq,frq),Ui}
(8)
步驟2.令樣本z=(ls,fr),樣本空間Z=(z1,z2,…,zq).對(duì)相似頻率的樣本數(shù)據(jù)分割,用光譜聚類算法將Z分為κ個(gè)子集,記為C=(c1,c2,…,cκ).
步驟4.基于C′劃分語義敏感度級(jí)別.存在映射函數(shù)f1和f2如式(9)和式(10)所示:
(9)
f2:(δ1,δ2,…,δκ)→(1,2,…,κ)
(10)
令sn表示c′的語義數(shù)量.同一個(gè)敏感度級(jí)別中的語義敏感度權(quán)重相同,將敏感度權(quán)重記為γ.那么,δ1的權(quán)重是γ1,δ2的權(quán)重是γ2,δκ的權(quán)重是γκ.粗糙語義敏感度權(quán)重公式STr表示為:
sn1·γ1+sn2·γ2+…+snκ·γκ
(11)
其中,γ1>γ2>…>γκ.
算法1描述了SAFC算法.
算法1.語義訪問頻率分級(jí)算法(SAFC)
輸入:Tls
輸出:STr
1.從Tls中提取所有的語義并去重,存儲(chǔ)到Fls
2.forlsinFlsdo
3. 初始化Γ=0
4. forpinTlsdo
5. 獲取p的語義ls′
6. ifls=ls′ then
7. Γ←Γ+1
8. end if
9. end for
10.將(ls,Γ)保存到LS
11.end for
12.LS轉(zhuǎn)換為Z
13.Z轉(zhuǎn)換為矩陣并使用Spectral Clustering算法得到C
14.計(jì)算C中每一個(gè)簇的中位數(shù)并排序得到C′
15.使用映射函數(shù)f1和f2并根據(jù)權(quán)重映射得到粗糙語義敏感度公式STr
16.returnSTr
3.1.2 OLA算法
一般而言,用戶訪問一個(gè)POI的頻率越高,說明用戶對(duì)這個(gè)POI的敏感度越高.但是訪問頻率低的POI語義,它的敏感度也可能非常高.算法1無法處理上述的POI.具有上述特征的POI屬于異常值,OLA算法的目的是為了尋找這些異常值.為了更好的理解OLA算法,下面給出一個(gè)例子說明SAFC算法的局限性和OLA算法的應(yīng)用場景.
用戶A是一個(gè)普通公司員工,他由于生病訪問了醫(yī)院.用戶B是一名醫(yī)生,他的工作地點(diǎn)在醫(yī)院.在SAFC算法中,對(duì)于“醫(yī)院”語義,用戶A的敏感度等級(jí)低,用戶B的等級(jí)高.相比之下,用戶A的“醫(yī)院”語義敏感度等級(jí)應(yīng)該更高,因?yàn)橛脩鬉的身份對(duì)于“醫(yī)院”的差異性高.在軌跡數(shù)據(jù)中,如果其他用戶擁有“醫(yī)院”語義,由于其他用戶的混淆,擁有“醫(yī)院”的用戶越多,用戶A就越安全.由此,語義的敏感度級(jí)別不僅依賴于個(gè)人語義數(shù)據(jù),還依賴于其他用戶的語義數(shù)據(jù).那么,OLA算法需要度量語義的信息量,用于判斷語義是否屬于異常值.OLA算法的核心思想是利用熵權(quán)法計(jì)算所有語義的權(quán)重,并使用標(biāo)準(zhǔn)差篩選出偏離總體趨勢的異常值.OLA算法分為兩個(gè)步驟.
(12)
(13)
算法2描述了OLA算法.
算法2.異常值感知算法(OLA)
輸入:Dls
輸出:STun:語義異常值的集合
1.從Dls中提取所有的語義并去重,記為LSall
2.基于LSall和用戶標(biāo)識(shí)構(gòu)建語義-頻率數(shù)據(jù)表格
3.forlsinLSalldo
4. forTlsinDlsdo
5. 初始化Γ=0
6. 獲取Tls的語義與對(duì)應(yīng)的頻率并對(duì)頻率做累加計(jì)算操作,記為Tls′
7. if ?ls′(ls′∈Tls′),ls=ls′ then
8. ?!!??!洹蔿s′)
9. end if
10. 基于用戶標(biāo)識(shí)和語義信息,將Γ存儲(chǔ)到語義-頻率數(shù)據(jù)表格
11. end for
12.end for
13.基于語義-頻率數(shù)據(jù)表格,使用熵權(quán)法計(jì)算語義權(quán)重
14.使用公式(13)計(jì)算ζ
15.基于ζ篩選語義異常值,并保存到STun
16.returnSTun
3.1.3 SSWA算法
SSWA算法的核心思想是將SAFC算法和OLA算法相結(jié)合,重置語義敏感度公式,并基于可行域計(jì)算語義敏感度權(quán)重.算法3描述了SSWA算法.
算法3.語義敏感度權(quán)重分配算法(OLA)
輸入:C′,STun
輸出:ST
2.forlsuninSTundo
5. end if
6.end for
7.使用SAFC算法中描述的方法,重置語義敏感度權(quán)重公式,記為STre
8.基于1>γ1>γ2>…>γκ>0和STre構(gòu)建語義權(quán)重可行域
9.在可行域中隨機(jī)選擇一個(gè)點(diǎn),記為frp
11.forc′ inC′ do
使用映射函數(shù)f1和f2獲取c′的敏感度等級(jí),將對(duì)應(yīng)的權(quán)重γ賦予敏感度等級(jí)δ
12. 將c′中的語義與γ保存到ST
13.end for
14.returnST
在本節(jié)中,構(gòu)建一個(gè)用戶敏感度移動(dòng)場景用于訓(xùn)練Transformer network模型,用于預(yù)測軌跡.由于軌跡數(shù)據(jù)的復(fù)雜性,對(duì)軌跡數(shù)據(jù)做預(yù)處理,處理過程分為3個(gè)步驟.
步驟1.基于時(shí)間序列,將軌跡數(shù)據(jù)中的坐標(biāo)點(diǎn)連接起來.用戶的原始軌跡數(shù)據(jù)如公式(14)所示:
Traw:(lat1,lon1,ts1)→
(lat2,lon2,ts2)→…
→(latn,lonn,tsn)
(14)
其中,ts表示時(shí)間序列.
步驟2.將添加噪聲后的語義敏感度權(quán)重用于擴(kuò)展Traw.如公式(15)所示:
(15)
但是,由于軌跡數(shù)據(jù)的復(fù)雜性,編碼變得非常困難.根據(jù)Nguyen等[15]提出的“regularization term”的方法,本文將任意時(shí)刻的坐標(biāo)數(shù)據(jù)構(gòu)造為一個(gè)高維嵌入向量ei,ei∈he.關(guān)系映射如圖2所示.
圖2 軌跡數(shù)據(jù)轉(zhuǎn)換方法Fig.2 Trajectory data conversion method
轉(zhuǎn)化后的軌跡數(shù)據(jù)如公式(16)所示:
(16)
(17)
圖3 DBSCAN處理坐標(biāo)點(diǎn)Fig.3 DBSCAN dealing with coordinate points
在優(yōu)化的過程中,為了盡量貼合預(yù)測的軌跡數(shù)據(jù),需要考慮相鄰POI之間的距離(dis)和方位角(ath)兩個(gè)屬性.另外,考慮到用戶的敏感語義問題,還需要另外一個(gè)屬性:語義敏感度權(quán)重γ.
對(duì)于上述的3個(gè)屬性,使用多屬性決策模型之加權(quán)算法平均算子計(jì)算POI的期望值,記為POIr.對(duì)于dis和ath兩個(gè)屬性,使用Vincenty公式的逆解計(jì)算.計(jì)算距離的公式記為Vd,計(jì)算方位角的公式記為Va.dis和ath是固定型,固定值如公式(18)所示:
(18)
其中,i γ是偏離型,固定值為1.3個(gè)屬性的歸一化如公式(19)所示.其中,σpoi表示當(dāng)前POI的語義敏感度權(quán)重. (19) 由于動(dòng)作和狀態(tài)空間的復(fù)雜性高,引入了DQN.DQN中,智能體在每個(gè)時(shí)刻t的狀態(tài)是st=(latt,lont,lsnt,st∈S,其中l(wèi)att和lont表示t時(shí)刻POI的坐標(biāo),lsnt表示位置序列號(hào),同一個(gè)查詢范圍內(nèi)的所有POI共享lsn.對(duì)于獎(jiǎng)勵(lì)值和狀態(tài),使用d-狀態(tài)池算法進(jìn)行預(yù)處理.算法4描述了d-狀態(tài)池算法. 算法4.d-狀態(tài)池算法 輸入:Ppre,ST 輸出:Sset:狀態(tài)集合,Spoir:POI期望值集合 2.定義一個(gè)集合POIall,存儲(chǔ)指定聚集點(diǎn)查詢范圍內(nèi)的所有POI信息. 3.初始化lsn=0,γpoi=0 4.forppreinPpredo 6.lsn←lsn+1 7. 根據(jù)公式(18)計(jì)算距離和方位角的固定值 9. end for 10. forpoiinPOIalldo 11.dis=Vd(ppre,poi),ath=Va(ppre,poi) 12. iflspoi∈STthen 13. 將對(duì)應(yīng)的權(quán)重賦予γpoi 14. else 15.γpoi←0 16. end if 17. 使用多屬性決策計(jì)算POIr 18. 將POIr壓入Spoir 19. 將(latpoi,lonpoi,lsn)壓入Sset/*latpoi和lonpoi是poi的坐標(biāo)*/ 20. end for 21.end for 22.returnSset,Spoir 此外,獎(jiǎng)勵(lì)值由智能體的“移動(dòng)方向”確定,使用lsn引導(dǎo)智能體的“移動(dòng)方向”.如公式(20)所示: (20) 對(duì)于優(yōu)化后的軌跡,可能存在由于停留點(diǎn)的變化而導(dǎo)致相鄰?fù)A酎c(diǎn)之間的路徑斷開,使用Ye等[17]提出的一種路徑補(bǔ)償方法修復(fù)斷開的路徑.修復(fù)完成后,完成軌跡數(shù)據(jù)發(fā)布. 本文使用微軟研究院的T-Drive數(shù)據(jù)集[18]和高德地圖API驗(yàn)證TP-SLS方案的有效應(yīng).T-Drive數(shù)據(jù)集收集了10357輛出租車的GPS數(shù)據(jù),其中包含超過1500萬個(gè)GPS點(diǎn).SMA算法和d-狀態(tài)池算法需要獲取停留點(diǎn)的語義信息和停留點(diǎn)周圍的所有POI信息.由于T-Drive數(shù)據(jù)集只包含位置信息,需要一個(gè)LBS服務(wù)來完成這項(xiàng)工作.在本節(jié)中,將TP-SLS方案與NGTMA[19]和RNN-DP[11]進(jìn)行了比較.本文選取10-80名用戶,分別設(shè)置隱私參數(shù)ε=0.1和ε=0.2,在隱私保護(hù)強(qiáng)度和數(shù)據(jù)效用兩個(gè)方面做對(duì)比. 使用互信息(Mutual Information,MI)來衡量在不同隱私預(yù)算下,TP-SLS的隱私保護(hù)強(qiáng)度.MI越低,隱私保護(hù)強(qiáng)度越高.如圖4所示,MI隨著ε的增加而增加.這說明ε與隱私保護(hù)強(qiáng)度有關(guān),隱私保護(hù)強(qiáng)度隨著ε的增加而降低.當(dāng)ε的值較低時(shí),TP-SLS方法具有優(yōu)勢. 圖4 隱私保護(hù)強(qiáng)度Fig.4 Privacy protection intensity 為了衡量TP-SLS的數(shù)據(jù)可用性,使用豪斯多夫距離(Hausdorff Distance,HD).HD是對(duì)兩組點(diǎn)之間距離的測量,它在評(píng)估兩組數(shù)據(jù)的相似性領(lǐng)域有廣泛的應(yīng)用.圖5展示了對(duì)比結(jié)果.當(dāng)數(shù)據(jù)大小相同時(shí),ε增加,HD降低,說明隱私保護(hù)強(qiáng)度降低,數(shù)據(jù)可用性提高.表明了ε值較小時(shí),TP-SLS方法具有優(yōu)勢. 圖5 數(shù)據(jù)可用性Fig.5 Data availability 在性能實(shí)驗(yàn)分析中,TP-SLS使用真實(shí)世界的數(shù)據(jù),與其他兩個(gè)方案在隱私保護(hù)強(qiáng)度和數(shù)據(jù)可用性兩個(gè)方面進(jìn)行了比較. 4.3.1 隱私保護(hù)強(qiáng)度分析 與NGTMA和RNN-DP相比.TP-SLS在MI的度量上到達(dá)最低值.ε=0.1時(shí),最大提升0.00108和0.00044;ε=0.2時(shí),最大提升0.00413和0.00219.TP-SLS量化了語義敏感度權(quán)重,每個(gè)語義都有屬于自己的權(quán)重指標(biāo),語義敏感度權(quán)重和語義是密切相關(guān)的.在一定程度上,語義敏感度可以代替語義去構(gòu)建用戶的敏感活動(dòng)場景.那么,對(duì)語義敏感度添加噪聲,相當(dāng)于對(duì)敏感語義進(jìn)行了干擾.同時(shí),使用Transformer network用于處理軌跡數(shù)據(jù),它對(duì)于序列數(shù)據(jù)的處理性能遠(yuǎn)遠(yuǎn)超過現(xiàn)有的一些神經(jīng)網(wǎng)絡(luò)模型,尤其是對(duì)于長序列數(shù)據(jù)的處理. 4.3.2 數(shù)據(jù)可用性分析 通過對(duì)比,TP-SLS的HD最小,這表明TP-SLS在數(shù)據(jù)可用性方面有更好的表現(xiàn).ε=0.1時(shí),最大提升2.89059和1.57608;ε=0.2時(shí),最大提升1.2889和0.39621.TP-SLS使用了Q-learning作為優(yōu)化機(jī)制,使用了Transformer network作為預(yù)測機(jī)制.同時(shí),對(duì)于優(yōu)化軌跡,考慮到了軌跡中相鄰POI之間的距離和方位角,這兩個(gè)屬性決定了軌跡的走向,在一定程度上提升了數(shù)據(jù)的可用性.最后,考慮到了由于POI的改變而導(dǎo)致的路徑斷開問題. 本文提出了一個(gè)基于敏感位置語義的軌跡隱私保護(hù)方法,使用Transformer network預(yù)測用戶的軌跡.此外,本文提出了一個(gè)敏感-感知模型量化用戶的語義敏感度,并將語義敏感性引入原始軌跡數(shù)據(jù),同時(shí)使用差分隱私技術(shù)干擾語義敏感度,從而干擾用戶的敏感位置,建立一個(gè)四元組的用戶敏感移動(dòng)場景.為了解決預(yù)測的軌跡數(shù)據(jù)存在廢數(shù)據(jù)的問題,提出了基于DQN的優(yōu)化軌跡算法.通過理論和實(shí)驗(yàn)證明,TP-SLS方案可以更好地保護(hù)隱私,提高數(shù)據(jù)的可用性.在局限性方面,由于TP-SLS方案需要使用LBS數(shù)據(jù)庫來提取停留點(diǎn)的語義信息,如果LBS數(shù)據(jù)庫提供的數(shù)據(jù)精度不夠,可能會(huì)影響隱私保護(hù)結(jié)果和數(shù)據(jù)可用性.3.4 軌跡數(shù)據(jù)發(fā)布
4 實(shí)驗(yàn)與性能分析
4.1 隱私保護(hù)強(qiáng)度
4.2 數(shù)據(jù)可用性
4.3 結(jié)果分析
5 結(jié)束語