王曉丹,王子喬,金山海*
(1. 延邊大學(xué)工學(xué)院,吉林 延吉 133002;2. 延邊大學(xué),吉林 延吉 133002)
社交網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的部分,其信息繁雜多樣、共享性強,用戶的各種操作都極易造成數(shù)據(jù)信息的泄露,尤其是位置信息的泄露,威脅著用戶的人身安全和財產(chǎn)安全,是電子安全領(lǐng)域研究的重點問題,現(xiàn)階段因用戶簽到而造成位置泄露風(fēng)險預(yù)警的方法仍存在預(yù)警效果不佳、準(zhǔn)確率低等問題,為了實現(xiàn)位置泄露風(fēng)險預(yù)警的準(zhǔn)確預(yù)測,需要研究社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險預(yù)警方法,該方法的研究有望為公眾隱私保護帶來新的有效措施,具有重要現(xiàn)實意義[1-2]。
王竹等人[3]提出Android設(shè)備中基于流量特征的隱私泄露評估方案,計算用戶行為特征和業(yè)務(wù)相關(guān)性,通過凝聚層次聚類方法優(yōu)化業(yè)務(wù)相關(guān)性行為特征;基于流量特征模型,完成社交網(wǎng)絡(luò)用戶的位置信息泄露風(fēng)險預(yù)警。該方法存在檢測準(zhǔn)確率低的問題。朱唯一等人[4]提出基于EDLATrust算法的社交網(wǎng)絡(luò)信息泄露節(jié)點概率預(yù)測方法,采用信息種群傳播和線性傳播兩種模型;通過XGBoost算法預(yù)測關(guān)鍵信息節(jié)點;通過預(yù)測模型完成社交網(wǎng)絡(luò)用戶的位置信息泄露風(fēng)險預(yù)警。該方法存在預(yù)警錯誤率高的問題。范敏等人[5]提出基于字符級擴張卷積網(wǎng)絡(luò)的Web攻擊檢測方法,對網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理并實行人工校驗,構(gòu)建擴張卷積網(wǎng)絡(luò)層,通過模型完成社交網(wǎng)絡(luò)用戶的位置信息泄露風(fēng)險預(yù)警。該方法存在風(fēng)險預(yù)警時間長、預(yù)警效果不佳的問題。
為了解決上述方法中存在的問題,提出社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險預(yù)警方法。通過構(gòu)建攻擊者模型,采用K-means聚類算法獲取數(shù)據(jù)信息,采用敏感性、數(shù)據(jù)可見性、屬性公開性完成社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險預(yù)警。
建立社交網(wǎng)絡(luò)用戶的位置攻擊者模型,分析其攻擊情況[6-7]。
攻擊者分為系統(tǒng)內(nèi)惡意位置服務(wù)提供商和系統(tǒng)外惡意攻擊者兩種情況。根據(jù)實際經(jīng)驗列出攻擊者背景知識可能性如下:
1)攻擊者擁有全體用戶所處區(qū)域標(biāo)識。
2)用戶情況可被攻擊者獲取觀察。
3)攻擊者了解中間服務(wù)器的用戶隱私保護機制。
4)用戶歷史信息可被攻擊者獲取。
5)隱私保護機制的概率分布密度函數(shù)可被攻擊者獲取。
攻擊者可獲取社交網(wǎng)絡(luò)用戶個人資料信息和用戶歷史位置服務(wù)信息兩部分用戶背景知識。
針對位置信息的獲取,攻擊者可根據(jù)先驗知識和用戶位置權(quán)限構(gòu)建用戶移動信息。在R區(qū)域內(nèi),用戶u移動軌跡序列可用Q×Q矩陣表示,其移動概率值可用Pr(tk|to)表達,tk、to表示用戶不同位置信息。受知識權(quán)限限制,攻擊者不能完成估算出用戶移動軌跡序列中的全部位置情況,攻擊者通過馬爾科夫鏈建模用戶在R區(qū)域內(nèi)移動軌跡從而獲取用戶轉(zhuǎn)移概率矩陣[8-9],其矩陣內(nèi)元素信息公式表達如下:
(1)
其中,t(y)、t(y-1)表示用戶移動時刻信息。
攻擊者通過歷史信息進一步推斷出用戶在y-1時刻的位置概率分布公式表達如下:
Pr(t(y-1))=Pr(to|u)
(2)
故攻擊者的位置攻擊受時刻概率分布和位置概率分布約束。
攻擊者可由觀察事件逆向推測用戶的真實事件,即用戶與位置區(qū)域關(guān)聯(lián)范圍,最終推導(dǎo)出用戶u在y時刻的位置公式表達如下:
(3)
其由用戶下一刻的轉(zhuǎn)移概率決定。
以此完成攻擊者位置攻擊行為分析。
構(gòu)建位置攻擊者模型后,通過數(shù)據(jù)挖掘的K-means聚類算法獲取用戶社交網(wǎng)絡(luò)數(shù)據(jù)信息[10-11]。
數(shù)據(jù)挖掘通過數(shù)據(jù)清洗、集成、選擇、變換、模式發(fā)現(xiàn)、評估與知識庫七個階段獲取用戶數(shù)據(jù)信息。
K-means算法被廣泛應(yīng)用于社交網(wǎng)絡(luò)用戶的數(shù)據(jù)挖掘中,通過聚類分析獲取用戶的數(shù)據(jù)信息[12]。
用F{x1,x2,…,xn}表示數(shù)據(jù)點集合,維度實數(shù)空間向量可用xo=(xo1,xo2,…,xot)表示,共n個數(shù)據(jù)點個數(shù)。
1)在數(shù)據(jù)集F中劃分l個數(shù)據(jù)點作為初始簇中心qk,其公式表達如下:
(4)
其中,Vk表示第k個簇,Co表示數(shù)據(jù)點中心,|Vk|表示簇的個數(shù)。
計算數(shù)據(jù)點到簇中心距離dist(xo,qk),其公式表達如下:
(5)
劃分?jǐn)?shù)據(jù)到簇中心,并重新計算每個簇中心,重復(fù)此過程,直至滿足以下條件中任意一個,即終止迭代:
1)所有數(shù)據(jù)點被分配完成。
2)簇中心固定化。
3)誤差平方和(SSE)局部最小。
誤差平方和公式表達如下:
(6)
基于此,完成社交網(wǎng)絡(luò)簽到用戶數(shù)據(jù)信息的獲取。
獲取到用戶信息數(shù)據(jù)后,通過屬性敏感性、數(shù)據(jù)可見性、屬性公開性三個指標(biāo)完成社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險預(yù)警。
位置泄露包含隱私參數(shù)、攻擊者推測、真實隱私信息和先驗知識四種因素,根據(jù)此四種因素設(shè)置屬性敏感性、數(shù)據(jù)可見性和屬性公開性三個指標(biāo)以量化位置泄露信息風(fēng)險程度。
屬性敏感性通過用戶隱私喜好設(shè)置量化位置泄露程度;數(shù)據(jù)可見性依據(jù)先驗知識從用戶數(shù)據(jù)中獲取先驗概率分布;屬性公開性依據(jù)攻擊者意圖推測量化推測屬性識別模式,其流程如圖1所示。
圖1 位置泄露風(fēng)險預(yù)警流程
通過用戶隱私偏好矩陣的構(gòu)建,獲得社交網(wǎng)絡(luò)用戶屬性敏感性程度。
(7)
其中,tol表示用戶主觀屬性敏感性,d表示屬性數(shù)目,l表示第l個屬性。
使用皮爾遜相似度計算用戶主觀敏感性sbj-senol,其公式表達如下:
(8)
其中,r表示皮爾遜系數(shù)。
計算皮爾遜客觀敏感性obj-senl,其公式表達如下:
(9)
其中,m表示客觀屬性敏感性數(shù)目。
以此歸一化處理用戶屬性敏感性,排除主觀因素的影響,完成用戶屬性敏感性的量化處理。
可通過先驗概率量化用戶隱私程度,從而獲得用戶數(shù)據(jù)曝光的程度,用戶位置泄露風(fēng)險程度與數(shù)據(jù)可見性成正比。
分析獲取的用戶數(shù)據(jù)信息以評估用戶數(shù)據(jù)信息的可見性大小。計算用戶數(shù)據(jù)可見性數(shù)據(jù)Bodo,其公式表達如下:
(10)
其中,Pok表示獲取用戶信息概率,m表示用戶信息量。
由此推算出用戶數(shù)據(jù)可見性量化其位置信息泄露程度,攻擊者的攻擊成功可能性直接受此影響。
攻擊者通過用戶數(shù)據(jù)推測用戶屬性的確定程度稱為屬性公開性,用戶威脅泄露風(fēng)險程度與屬性公開性成正比。攻擊者獲取簽到社交網(wǎng)絡(luò)用戶數(shù)據(jù)來推斷用戶屬性信息,從而造成位置泄露風(fēng)險[14]。例如用戶的簽到信息經(jīng)常活動在某范圍內(nèi),攻擊者則可推測出該用戶地址。
屬性公開性即攻擊者通過屬性識別模型獲取簽到用戶概率分布,可用信息熵來度量簽到用戶信息屬性公開性,信息熵越大則用戶屬性公開性越大。
設(shè)置用戶數(shù)據(jù)用隨機變量X表示,假設(shè)其隨機變量Y滿足均勻分布,其定義域用η表示,其待計算屬性attrl,屬性個數(shù)為|η|,極端屬性值的先驗概率P(u)公式表達如下:
(11)
根據(jù)信息熵計算用戶屬性公開性cerol,其公式表達如下:
(12)
其中,J(U|C)表示屬性識別,P(u|c)表示確定條件概率,J(U)表示屬性值。
屬性公開性可量化攻擊者的位置信息攻擊情況,從而評估簽到行為引起的位置泄露風(fēng)險情況。
根據(jù)用戶簽到行為存在的屬性敏感性、數(shù)據(jù)可見性和屬性公開性,從動態(tài)、靜態(tài)兩個角度評估用戶位置泄露風(fēng)險情況[15]。
用戶簽到引起的位置泄露可分為正常狀態(tài)和異常狀態(tài)兩種情況,判定位置泄露步驟如下:
計算主觀隱私評分,其公式表達如下:
(13)
計算客觀隱私評分,其公式表達如下:
(14)
從靜態(tài)角度,計算用戶隱私指數(shù),其公式表達如下:
(15)
其中,IU表示用戶合集。
從動態(tài)角度,計算用戶隱私評分序列,其公式表達如下:
PSS=(sbj-Psyo,sbj-Psy2,…,sbj-Psyf)
(16)
其中,f表示時間窗口大小。
當(dāng)客觀隱私評分大于用戶隱私指數(shù)或主觀隱私評分時,表示異常狀態(tài),否則為正常狀態(tài)。
設(shè)置閾值β和χ量化用戶位置泄露程度,其公式表達如下:
(17)
其中,PI表示隱私指數(shù)。
基于此,完成社交網(wǎng)絡(luò)用戶簽到行為的位置泄露風(fēng)險預(yù)警。
為了驗證社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險預(yù)警方法(所提方法)的整體有效性,對其完成如下測試。
尋找在一個月前就正常使用社交網(wǎng)絡(luò)的實驗用戶10名,實驗用戶實驗當(dāng)天在延邊大學(xué)工學(xué)院各個位置完成用戶簽到,并佩戴電子手表以記錄真實運動位置,同時采用多種攻擊方法攻擊實驗用戶的應(yīng)用程序。
1)預(yù)警精度、查全率、F值
引入預(yù)警精度、查全率及預(yù)警精度和查全率調(diào)和均值F值來對位置泄露風(fēng)險預(yù)警效果評估。
預(yù)警精度公式表達如下:
(18)
查全率公式表達如下:
(19)
F值公式表達如下:
(20)
其中,TP表示實際有泄露風(fēng)險,FP表示實際無泄露風(fēng)險,FN表示實際有泄露風(fēng)險。
采用所提方法、基于流量特征的隱私泄露評估方案(參考文獻[3]方法)和基于EDLATrust算法的社交網(wǎng)絡(luò)信息泄露節(jié)點概率預(yù)測方法(參考文獻[4]方法)對其位置泄露風(fēng)險預(yù)警測試,其結(jié)果如表1所示:
表1 三種方法的位置泄露風(fēng)險預(yù)警評估指標(biāo)
分析表1可知,所提方法的預(yù)警精度為98.6%、查全率為97.6%以及F值為85.6%,均大于參考文獻[3]方法和參考文獻[4]方法,表明所提方法的行為位置泄露風(fēng)險預(yù)警效果更好。
2)預(yù)警幅度頻率對比
在存在外界影響的情況下,采用不同方法對其實行位置泄露風(fēng)險預(yù)警測試,觀測三種方法預(yù)警幅度波動率是否平穩(wěn),三種方法的預(yù)警振動頻率如圖2所示。
圖2 三種方法的預(yù)警振動頻率
分析圖2可知,所提方法的預(yù)警振動頻率波動率保持在-50Hz~50Hz區(qū)間內(nèi),而參考文獻[3]方法、參考文獻[4]方法的預(yù)警振動頻率波動率均超過-50Hz~50Hz,表明所提方法的預(yù)警判定在存在外界干擾的情況下仍可獲得較為平穩(wěn)準(zhǔn)確的預(yù)警結(jié)果。
通過上述實驗可知,所提方法通過攻擊者模型分析了攻擊者的位置攻擊方法情況,提高了位置泄露風(fēng)險預(yù)警的精度;通過屬性敏感性、數(shù)據(jù)可見性、屬性公開性三個指標(biāo)的量化處理,提高了位置泄露風(fēng)險預(yù)警的正確率,獲取了社交網(wǎng)絡(luò)用戶簽到行為的位置泄露風(fēng)險預(yù)警效果。
社交網(wǎng)絡(luò)成為全民生活的必需品,在應(yīng)用過程中存在簽到行為,是泄露社交網(wǎng)絡(luò)用戶位置的主要行為。為了保證社交網(wǎng)絡(luò)用戶的信息安全,因此提出社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險預(yù)警方法。通過構(gòu)建攻擊者模型;獲取簽到社交網(wǎng)絡(luò)用戶數(shù)據(jù)信息;通過對三個指標(biāo)的量化處理,完成社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險預(yù)警。所提方法為社交網(wǎng)絡(luò)用戶的信息安全提供了保障,具有重要現(xiàn)實應(yīng)用意義。