王 勇,王宏志
(1. 吉林建筑科技學(xué)院計算機科學(xué)與工程學(xué)院,吉林 長春 130114 ;2. 長春工業(yè)大學(xué)計算機科學(xué)與工程學(xué)院,吉林 長春 130012 )
信息化時代的到來,以及智能終端的涌現(xiàn),促進了移動互聯(lián)網(wǎng)的發(fā)展。移動互聯(lián)網(wǎng)與傳統(tǒng)互聯(lián)網(wǎng)不同,在于其具有較強的身份鎖定功能,能夠不受時間與地點的限制,使用各類傳輸方式完成信息傳輸。雖然為人們的生活提供一些便利,但同樣也會泄露個人隱私。攻擊者可根據(jù)個人位置訪問數(shù)據(jù)獲取其住址、生活行為方式等敏感信息。這些信息一旦泄露就會對用戶隱私造成威脅。為此,需隱藏用戶的真實訪問位置,但此種做法卻無法滿足用戶對高精度定位服務(wù)的需求。單一的隱私保護方式不能兼顧以上兩種需求,基于此,有關(guān)學(xué)者提出下述隱私保護策略。
文獻[1]提出群智感知網(wǎng)絡(luò)個性化位置隱私保護方法。結(jié)合用戶歷史訪問軌跡,獲取用戶對不同位置的訪問時間、頻率與規(guī)律性完成用戶社會屬性預(yù)測;結(jié)合位置具有的自然屬性,預(yù)測敏感等級,按照不同位置安全需求,設(shè)置隱私保護策略。文獻[2]研究一種基于位置服務(wù)隱私自相關(guān)的保護方法。綜合分析用戶自身與服務(wù)商緩存的查詢記錄,防止攻擊者通過歷史記錄對隱私信息進行攻擊;在用戶隱私自關(guān)聯(lián)前提下,將簡易隱私自關(guān)聯(lián)保護方法與擴展隱私自關(guān)聯(lián)保護方法相結(jié)合,從時間與查詢范圍雙重維度下實現(xiàn)算法的擴展,全方位保護用戶隱私信息。
但上述兩種算法會造成通信代價較高,用戶搜索效率降低的后果。為此,本文提出基于K近鄰的隱式位置訪問隱私保護方法。隱式位置訪問隱私保護的關(guān)鍵思想在于:結(jié)合當前研究得出的隱私泄露方式,針對推測與條件軌跡集合,使用位置替換方式完成軌跡匿名化,此時兩個集合的大小會產(chǎn)生變化,使泄露模式的置信度降低到能被允許的閾值范圍內(nèi)。根據(jù)這一思想本文利用K近鄰方式進行隱私保護。該方法是一種非常重要的查詢方法,其核心內(nèi)容是在固定集合內(nèi)查詢與興趣點最近的目標。結(jié)合服務(wù)相似性、背景知識與信息熵等因素,構(gòu)建敏感位置推理模型,在情境感知基礎(chǔ)上實現(xiàn)隱式位置訪問隱私保護。
要想實現(xiàn)隱私的全方位保護,必須了解所有威脅位置訪問的事件類型,本文從下述幾點探討了隱私保護技術(shù)面臨的攻擊種類。
1)偽裝用戶威脅
偽裝用戶代表攻擊者假扮成普通用戶,通過邏輯推理或監(jiān)聽用戶信息等手段,對用戶隱私造成威脅。按照攻擊形式差異,此種威脅分為下述三種:
被動監(jiān)聽:攻擊者假扮成一般用戶或直接對這些用戶進行有效控制,利用隱私保護框架中用戶必須信任的原則,通過共享信息漏洞采集用戶真實訪問位置。
三點定位:此種攻擊方式重點針對網(wǎng)絡(luò)中近鄰發(fā)現(xiàn)服務(wù)。攻擊者假扮為用戶,散布虛擬位置消息,觀察附近是否存在目標,經(jīng)長時間探測后,利用三點測量法獲取用戶實際方位位置信息。
誘探位置:該攻擊行為是指攻擊者主動向攻擊對象發(fā)送誘探位置信息,由于受到這些位置信息影響,某些用戶匿名區(qū)域會出現(xiàn)改變。此種狀況下,攻擊者可根據(jù)匿名區(qū)域預(yù)測出用戶精準的位置數(shù)據(jù)。假設(shè)目標與攻擊者之間距離較大,結(jié)合匿名算法特性,用戶會調(diào)節(jié)匿名區(qū)域邊界,同時靠向探測區(qū)域。此時,攻擊者更加容易推測出用戶與誘探區(qū)域的位置,降低隱私保護程度。
2)基于用戶訪問速度的威脅
基于用戶訪問速度的攻擊一般針對連續(xù)型訪問,此攻擊可根據(jù)地域背景相關(guān)信息推測出用戶的實際位置。假設(shè)C
與C
是相同用戶使用泛化法,分別在時間點t
與t
形成匿名區(qū)域。如果攻擊者具備網(wǎng)絡(luò)允許的最快訪問速度v
,則可結(jié)合匿名區(qū)域C
與最大訪問速度v
增量重新形成用戶在t
時間點能夠到達的區(qū)域C
,此時將匿名區(qū)的范圍縮小到C
和C
的重合部分。3)基于用戶背景信息的威脅
攻擊者事先了解用戶背景信息,例如社交關(guān)系、興趣等,結(jié)合這些信息推測出用戶經(jīng)常訪問的位置。假設(shè)用戶的匿名區(qū)域中含有酒吧、書店與飯店三個語義詞語,如果攻擊者已經(jīng)確定用戶的身份為學(xué)生,則可推斷出該用戶訪問與書店相關(guān)的信息概率會更大。
K
近鄰的匿名候選區(qū)域。當?shù)谌将@取用戶訪問請求后,結(jié)合隱私保護方法實現(xiàn)對用戶請求的匿名處理,生成擾動位置傳輸?shù)轿恢梅?wù)器進行處理,并將處理結(jié)果通過第三方反饋給用戶,實現(xiàn)查詢服務(wù)。圖1 系統(tǒng)模型圖
在該系統(tǒng)中主要存在感知群體、用戶與服務(wù)提供商三個參與角色,下述分別從功能、安全性等方面對其介紹。
1)感知群體:是用戶位置訪問數(shù)據(jù)的采集者也是使用者。比如,某查詢酒店的應(yīng)用,其中酒店位置、價格等即為此應(yīng)用中認證用戶上傳的,可將這些用戶作為感知群體。安全性假設(shè)為:僅有合法的、通過系統(tǒng)認證的用戶才有上傳數(shù)據(jù)的資格,上傳者上傳的數(shù)據(jù)必須真實可靠。
2)查詢用戶:屬于數(shù)據(jù)的真實消費者,可以向提供商發(fā)出K
近鄰的查詢請求,比如查找與其較近的飯店、書店等。為保證所有查詢用戶的隱私安全,用戶可向服務(wù)商直接提交請求。3)服務(wù)提供商:是服務(wù)的唯一提供者,主要完成信息采集、整理等任務(wù)。并對數(shù)據(jù)做加密處理,再外包給云平臺,降低自身成本。其安全假設(shè)為:服務(wù)商提供的信息是安全可靠的,但會對用戶隱私數(shù)據(jù)感興趣,以及對采集的用戶信息進行分析。
要想確定用戶位置訪問的敏感區(qū)域,需結(jié)合服務(wù)相似性、背景知識與信息熵等因素,利用這些信息生成標簽相似地圖,確定敏感區(qū)域。
1)服務(wù)相似性
假設(shè)用戶U
與U
分別處于A
與B
兩處,在訪問和自己最近的飯店,若獲取的訪問結(jié)果相同,則表明兩個位置存在較強的服務(wù)相似性。結(jié)合訪問結(jié)果的相似程度判斷兩個位置的服務(wù)相似性ρ
ρ
=s
(A
,B
)=s
((x
,y
),(x
,y
))(1)
式中,s
代表相似度計算函數(shù),F
(x
,y
)為對位置坐標訪問結(jié)果排序后獲得的前w
個結(jié)果集合,w
是訪問結(jié)果數(shù)量,0≤ρ
≤1。2)背景知識
為便于處理,將地圖分割成n
×n
的網(wǎng)格,任意一個網(wǎng)格均表示位置單元。其中,各單元均存在與其相對的歷史查詢幾率,表達式如下(2)
3)信息熵
信息熵可以衡量隱私保護程度,該值越大,被攻擊者識別出可能性就越高。計算公式如下
(3)
式中,p
是匿名集合內(nèi)位置查詢概率,其表達式如下式中,P
代表第j
個位置的查詢概率。4)標簽相似地圖生成
為便于處理,將地圖分割為n
×n
的網(wǎng)格地圖M
,且M
={m
|i
,j
=1,2,3,…,n
}。位置服務(wù)器結(jié)合查詢函數(shù)F
與已知用戶興趣點位置數(shù)據(jù)獲取所有位置單元的查詢結(jié)果,確定距離用戶最近的前w
個興趣點,利用式(1)計算獲取全部單元的服務(wù)相似度ρ
,同時將ρ
=1的單元合并在一起,并給予相同標簽。因此,將地圖M
當作包含各類分區(qū)的標簽相似地圖,表示為T
T
={z
,z
,z
,…,z
}(4)
則形成包括近鄰查詢數(shù)量的T
過程如下:步驟一:形成近鄰查詢結(jié)果表,如表1所示。
表1 近鄰查詢結(jié)果表
步驟二:結(jié)合表1近鄰查詢結(jié)果利用式(1)計算兩個位置之間的服務(wù)相似度。
步驟三:生成T,獲取具有不同分區(qū)的T。
步驟四:結(jié)合表1查詢結(jié)果獲取不同分區(qū)的服務(wù)相似度,將相似度較高的位置區(qū)域當作敏感區(qū)域。
在確定敏感位置后,通過情景感知的方式完成隱私保護。假設(shè)用戶U的隱私保護需求表示為
PR
(k
)=〈(r
,l
,s
),…,(r
,l
,s
),…,(r
,l
,s
)〉(5)
第三方結(jié)合敏感位置能夠獲取用戶的敏感區(qū)域點集合
LS
(k
)={l
,…,l
,…,l
}(6)
當?shù)谌将@得用戶的訪問請求u(l,t,f)后,需評估該請求是否滿足隱私設(shè)定要求。
假設(shè)l代表用戶在t時間點上發(fā)布的興趣點,第三方需利用下述公式獲取兩次訪問請求的時間間隔
Δt
=t
-t
-1(7)
若Δ
t(8)
將下述三種不同種類的興趣點添加到用戶接下來可能訪問的位置興趣點集合L中:距離用戶最近的k個興趣點;當前興趣點訪問后,其他用戶接下來最有可能訪問的k個興趣點;具有最高評分的k個興趣點。
通過位置服務(wù)器對這些興趣點進行評估,如果置信度較高,則不存在隱私泄露現(xiàn)象;反之,有隱私泄露危險,應(yīng)及時停止對興趣點的訪問,并將泄露信息反饋給用戶,達到保護隱私的目的。
Windows
7惠普臺式計算機,配置是CPU
為Intel
i
7-4790,內(nèi)存是8GB
;軟件環(huán)境為:Python
3.
6,Spyder
3.
2.
6。實驗數(shù)據(jù)集合的相關(guān)信息如表2所示。實驗中的用戶以某市為例,地域空間限定在10km
×10km
的正方形區(qū)域內(nèi),該區(qū)域被劃分為100×100的網(wǎng)格。任意網(wǎng)格中的先驗查詢概率根據(jù)此網(wǎng)格中全部興趣點的評論數(shù)量獲取。表2 數(shù)據(jù)集合參數(shù)表
首先在上述仿真環(huán)境下,測試興趣點密度與k
對用戶分區(qū)數(shù)量的影響。分別在高密度、中密度與低密度三種情況下通過不斷改變k
值,來觀察用戶分區(qū)數(shù)量的變化情況,如圖2所示。圖2 k對分區(qū)位置集合數(shù)量的影響
由圖2可知,實驗初始階段,分區(qū)位置集合數(shù)量隨k
值的增加逐漸增加,當k
值高于興趣點總數(shù)量的二分之一時,分區(qū)數(shù)量逐漸下降。這是因為k
值較小時,每個網(wǎng)格內(nèi)查詢結(jié)果一致的概率較低,當k
達到一定量時,查詢結(jié)果相同的機率升高。此外,興趣點越稀疏,分區(qū)位置集合數(shù)量越小,分區(qū)面積越大,因此,用戶位置訪問的隱私需求就越容易被滿足。此外,又考慮了k
值對通信代價產(chǎn)生的影響,為方便分析,假定仿真中設(shè)置的用戶隱私需求都為5,即分區(qū)位置數(shù)量集合的信息熵等于5。利用文獻[1]與文獻[2]方法與本文方法進行對比,當k
逐漸增加時,用戶通信代價情況如圖3所示。圖3 通信代價對比圖
由圖3可看出,隨著k
值的不斷增加,大體上的通信代價隨之增加,這是因為分區(qū)數(shù)量隨著k
值的增加而擴大,造成每個分區(qū)面積較小。此時,為確保用戶隱私保護水平,必須加入大量混淆興趣點。本文方法無論在哪種分區(qū)密度下,通信代價均較為平穩(wěn),并沒有隨著k
值的增加出現(xiàn)大幅度增長趨勢,表明該方法通信代價較小。為進一步證明本文方法對近鄰搜索的性能,假設(shè)l
代表匿名點,l
為真實點,以上述兩點為中心進行近鄰查詢,查詢內(nèi)容為用戶提交的申請,通過準確率P
判斷服務(wù)質(zhì)量,計算公式如下(9)
式中,S
(l
)與S
(l
)分別表示將匿名位置、實際位置當作中心的近鄰查詢結(jié)果集合。隱私保護質(zhì)量取決于匿名點與真實點之間的距離,因此有必要分析不同距離對服務(wù)質(zhì)量造成的影響。
圖4 近鄰查詢性能實驗結(jié)果圖
由圖4顯示,當近鄰數(shù)量一致時,隨著匿名點與實際點數(shù)量的增加,查詢準確率隨之下降。但是下降幅度并不大,且當查詢數(shù)量為16時,準確率均會達到80%以上。這是因為對大眾行為與用戶個人特征進行了準確分析,提高了近鄰搜索性能,使隱私保護的服務(wù)質(zhì)量得到增強。
隱私保護始終是互聯(lián)網(wǎng)領(lǐng)域研究的熱點話題,針對隱式位置訪問信息中存在的隱私保護問題,本文利用K近鄰搜索方式確定敏感位置區(qū)域,再通過情景感知的方式評估隱私保護器是否會泄露用戶隱私,避免用戶在危險節(jié)點處進行訪問。仿真結(jié)果表明,通過設(shè)置合理的用戶興趣點數(shù)量,可提高隱私保護服務(wù)質(zhì)量,且該算法通信代價較低。但該算法依然存在改進之處,例如文中所提的隱式位置訪問隱私保護均是針對離線數(shù)據(jù)的處理,這些數(shù)據(jù)的應(yīng)用具有一定局限性。為實現(xiàn)實用性需求,在今后研究中需采用用戶發(fā)布的實時數(shù)據(jù)完成進一步研究。