林立鑫,楊 真
(1. 江西科技學(xué)院網(wǎng)絡(luò)信息中心,江西 南昌 330000;2. 華東交通大學(xué)網(wǎng)絡(luò)信息中心,江西 南昌 330000)
目前,隨著信息時代和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)上的空間數(shù)據(jù)也逐漸走向多樣化。用戶可隨意完成查詢、傳輸、儲存以及共享等操作,從海量數(shù)據(jù)中能夠快速查找到目標(biāo)信息。但越來越多的用戶使用同時,也帶來了眾多安全隱患問題,由于用戶的身份信息在后臺中是公開展現(xiàn)的,很容易受到黑客入侵導(dǎo)致隱私信息泄漏,危害用戶的財產(chǎn)和隱私安全。為防止此類事件的發(fā)生,需要在發(fā)生泄漏的第一時間追蹤信息軌跡,在最大程度上降低泄漏影響。
在目前的網(wǎng)絡(luò)信息泄漏跟蹤研究領(lǐng)域中,應(yīng)用最為廣泛的有人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、動態(tài)密鑰以及小波包理論等方法。文獻[1]提出一種基于多編隊目標(biāo)先后判定的隱私信息泄漏跟蹤方法。引入了密度檢測機制,在所有用戶集中,選擇幾組身份信息完整和不完整的用戶,利用杰森高斯分量算法計算二者之間的相似屬性,通過模型概率進行實時狀態(tài)更新,不斷查找存在相同屬性權(quán)重的位置點,完整跟蹤。該方法只對公開信息用戶具有效力,匿名用戶的跟蹤能力較差,實用性不強;文獻[2]設(shè)計了一種基于改進PSI協(xié)議的數(shù)據(jù)隱私保護跟蹤方法。通過布谷鳥哈希和隨機不經(jīng)意傳輸擴展協(xié)議,將用戶信息按照特征進行組合基因排列,判定序列中是否含有危險因子,對存在威脅點的數(shù)據(jù)實施跟蹤。該算法所需運算量較大,需要信息采集、組合、排列以及檢測等眾多步驟組合完成,計算過程復(fù)雜且誤差影響過大,跟蹤精準(zhǔn)度不高。
綜合上述問題,提出一種基于動態(tài)密鑰的隱私信息泄露深度跟蹤仿真方法??紤]到用戶特征量過多且較為復(fù)雜的因素,在進行跟蹤前先對網(wǎng)絡(luò)社區(qū)中用戶個人隱私信息完成推測,實現(xiàn)初步的隱私判定,降低后續(xù)誤差影響。構(gòu)建泄漏跟蹤模型,將用戶信息看作單個算子,通過隱私表的對照和得到的隱私信息特征,對較大泄漏風(fēng)險的算子進行狀態(tài)跟蹤。這種方法是從根源上查找泄漏點,通過特征對照在最大程度上降低泄漏的誤判率,所需運算量較小且過程簡單、易實現(xiàn)。
網(wǎng)絡(luò)社區(qū)是由各個節(jié)點組成的群體結(jié)構(gòu),群體內(nèi)節(jié)點之間的存在較強的隱私關(guān)聯(lián)關(guān)系[3],而社區(qū)的群與群之間的隱私關(guān)聯(lián)又相對稀疏。將該關(guān)系具體定義為:設(shè)D2為網(wǎng)絡(luò)中的所有社區(qū);i表示社區(qū)中的任意一個節(jié)點,i在社區(qū)中的占比度為
(1)
若社區(qū)中的節(jié)點i和節(jié)點j存在關(guān)聯(lián)關(guān)系,那么,Bij=1;反之,Bij=0,其中,Bij表示隱私關(guān)聯(lián)度。
若節(jié)點i存在社區(qū)S2中,此時D2社區(qū)就包含與社區(qū)內(nèi)S2節(jié)點存在連接關(guān)系的所有子集。在這種情況下,可將節(jié)點按照兩個社區(qū)的隱私特征[4]關(guān)系,分為
(2)
其中
(3)
(4)
若
(5)
那么,子社區(qū)[5]S2集就為原始網(wǎng)絡(luò)結(jié)構(gòu)中隱私特征最強的社區(qū)結(jié)構(gòu)。
若
(6)
那么,子社區(qū)S2集就為原始網(wǎng)絡(luò)結(jié)構(gòu)中隱私特征最弱的社區(qū)結(jié)構(gòu)。
一般情況下,在社交網(wǎng)絡(luò)中很多用戶的個人信息都是公開的,因此,在進行隱私信息泄漏跟蹤時,對用戶的公開和非公開隱私信息進行推測是非常有必要,可以將其作為后續(xù)泄漏跟蹤的基礎(chǔ)判定,公開用戶且隱私含量越高的用戶,泄漏概率就越大。用社交用戶β進行舉例,其好友之間組成的網(wǎng)絡(luò)關(guān)系為Gβ=(Cβ,Eβ);Cβ=Nβ為與用戶β存在關(guān)聯(lián)關(guān)系的集合;Eβ={i,j:j∈Vβ}為用戶β與好友之前的隱私關(guān)聯(lián)集[6]合。將Gβ分為Gβ,β=1,2,…,N,其中,N表示總社區(qū)數(shù)量。社區(qū)Gβ內(nèi)公開信息的用戶為
(7)
式中,Aβ表示總用戶數(shù)量;Cβ表示公開信息;|pubi|表示社區(qū)內(nèi)所有公開信息的用戶數(shù)量。
為了保障隱私信息推測方法的準(zhǔn)確性,設(shè)定一個公開用戶的保護閾值[7]θ,該值必須滿足以下條件
Cβ>θ
(8)
對于社區(qū)Gβ內(nèi)不公開的用戶信息Eβ,β=1,2,…,M,計算得到
(9)
(10)
(11)
式中,μ表示非公開用戶的保護閾值。將上述網(wǎng)絡(luò)社區(qū)中的公開和非公開用戶[8]信息關(guān)系運用可視圖描述,便于理解,如圖1所示。
從圖1中可以看出,實線代表網(wǎng)絡(luò)社區(qū)內(nèi)的用戶信息是公開的,允許被外界和內(nèi)部用戶訪問;虛線則代表網(wǎng)絡(luò)社區(qū)內(nèi)的用戶信息是非公開的,只允許被好友和自身訪問,存在密鑰保護[9]。由此可看到,社區(qū)中用戶1、用戶2、用戶3、用戶4的個人信息是公開的,存在較高的泄漏風(fēng)險,在滿足保護閾值的前提下,可推測出與之關(guān)聯(lián)的用戶5、用戶6也存在同種信息,存在一種關(guān)聯(lián)關(guān)系。
圖1 社區(qū)節(jié)點分布示意圖
基于網(wǎng)絡(luò)社區(qū)中用戶個人隱私信息關(guān)聯(lián)性的初步推測后,本節(jié)將采用動態(tài)密鑰完成信息泄漏的精準(zhǔn)跟蹤。上述過程得到了網(wǎng)絡(luò)中公開信息的用戶隱私信息泄漏風(fēng)險更高的特點,由此可得,這些用戶的密鑰保護安全性較低。建立一種由密鑰算子組成的信息泄漏跟蹤模型,計算非公開用戶的密鑰參數(shù),以此作為模型算子[10],可用U(ζ)來描述。其中,ζ表示用戶的隱私信息表。根據(jù)用戶之間的關(guān)聯(lián)關(guān)系,將ζ看做初始值,將集合I、J看作參照值,得到以下關(guān)系
(12)
式中,ζ′表示ζ的對照組;〈X,Y〉表示敏感數(shù)據(jù)集合;〈Y,X〉表示特征屬性集合。該公式可以反映用戶的敏感屬性[11]標(biāo)識和特征標(biāo)識,記錄在ζ中的分布情況,并進行統(tǒng)計。
得到統(tǒng)計后的隱私數(shù)據(jù),如果U(ζ)輸出值為1,表明集合中信息出現(xiàn)泄露情況;若U(ζ)輸出值為0,則表明沒有出現(xiàn)泄露情況,具體描述如下
(13)
式中,X0表示待跟蹤數(shù)據(jù)集的總數(shù);Xi+1表示與X0存在特征關(guān)聯(lián)[12]的數(shù)據(jù)集;φ表示控制因子。若k=1,說明存在特征關(guān)聯(lián)的數(shù)據(jù)集Xi+1中存在隱私泄露數(shù)據(jù);若k≠1,說明存在特征關(guān)聯(lián)的數(shù)據(jù)集Xi+1中不存在隱私泄露數(shù)據(jù)。由此得到的隱私泄露情況只存在兩種k=1和k≠1,而在實際應(yīng)用中,可能取值很小時,即k≠1時也會發(fā)生隱私泄露現(xiàn)象,針對這種情況,本文采用密鑰用戶匿名原理[13],將對取值進行調(diào)整使其更符合網(wǎng)絡(luò)環(huán)境[14],表達公式為
(14)
式中,ψ2表示匿名密鑰閾值;KX0、KXi、KXi+1、KXj分別表示在原始0點、i、i+1、j得到的用戶往返位置信息,與ζ位置點進行排列[15],即可求得用戶隱私信息泄漏跟蹤路徑。
為驗證本文方法對隱私信息泄漏的有效性,選擇Mobile web移動終端網(wǎng)絡(luò)作為本次的實驗平臺,該平臺中包含大量網(wǎng)絡(luò)數(shù)據(jù),容納量較大、覆蓋率較廣。將所有數(shù)據(jù)聚類在一起,形成一種終端網(wǎng)絡(luò)數(shù)據(jù)集,數(shù)據(jù)集中包括用戶的位置數(shù)據(jù)、通信記錄、傳輸記錄以及瀏覽記錄等。
為保證實驗的準(zhǔn)確性,采用更為系統(tǒng)的方式描述用戶隱私信息通信行為,并將網(wǎng)絡(luò)中用戶所有行為類別進行聚類,方便數(shù)據(jù)查找和分析,整體聚類結(jié)果如圖2所示。
在跟蹤過程中可能出現(xiàn)覆蓋通路、鏈路斷連、源碼錯誤等現(xiàn)象,會影響實驗進程,實驗前將對所有數(shù)據(jù)進行歸一化管理,弱化現(xiàn)象出現(xiàn)的頻率。每位用戶在網(wǎng)絡(luò)中的位置信息和數(shù)據(jù)驗證過程為:通過位置數(shù)據(jù)集求解得到用戶位置的權(quán)重矩陣B=(ω1,ω2,…,ωn),為保證實驗數(shù)據(jù)的統(tǒng)一性和易管理性,將對求解到的數(shù)值進行歸一化操作處理,表達公式為
圖2 用戶瀏覽和通信行為聚類
(15)
式中,ωn表示用戶隱私信息的權(quán)重值;B表示權(quán)重數(shù)據(jù)集;Nor表示經(jīng)過歸一化后的統(tǒng)一表示。
本次實驗將從整體隱私信息泄漏以及局部詳細隱私信息泄漏進行泄漏跟蹤。將研究方法與文獻[1]提出的多編隊目標(biāo)無先驗隱私信息跟蹤方法、文獻[2]提出的改進PSI協(xié)議的隱私跟蹤方法進行對比分析,結(jié)果如表1所示。
表1 三種算法軌跡跟蹤結(jié)果對比
針對表2中的不同方法對海量網(wǎng)絡(luò)數(shù)據(jù)中的隱私信息泄漏跟蹤結(jié)果進行具體驗證。將對信息泄漏的軌跡點位置進行描述,并適當(dāng)弱化無用的軌跡點便于更加直觀詳細地分析泄漏跟蹤的效果。在可視化的軌跡視圖中,對每個位置信息泄漏的嚴(yán)重程度進行標(biāo)識,軌跡點越大,代表該位置泄漏越嚴(yán)重。以實驗平臺中的某個體用戶為例,三種算法對其隱私信息泄漏的軌跡跟蹤如圖3所示。
從圖3中可以看出,其中隱私泄露權(quán)重大小不一,泄漏點3、4、5點的泄漏權(quán)重是最高的,按照隱私大小的排列順序來看,本文方法的跟蹤軌跡是所有方法中最符合實際情況,軌跡中包含了所有泄漏位置點;而另外兩種方法只跟蹤到了部分泄漏位置點,其中,泄漏點5、8、10點均未跟蹤到,與測試結(jié)果表達不相符,跟蹤誤差和錯誤率較高。出現(xiàn)這種現(xiàn)象主要是因為,二者方法在進行泄漏跟蹤時,過于注重隱私出現(xiàn)泄漏時的權(quán)重變化,忽略了隱私信息自身存在的噪聲和冗余數(shù)據(jù)影響,這些數(shù)據(jù)都會導(dǎo)致信息出現(xiàn)偽泄漏現(xiàn)象,導(dǎo)致算法出現(xiàn)較大跟蹤誤差,跟蹤軌跡與實際偏差較大。
圖3 用戶隱私信息泄漏權(quán)重軌跡可視化圖
為進一步考察三種方法的泄漏跟蹤能力,將分別在存在不干擾和存在干擾兩種網(wǎng)絡(luò)環(huán)境下進行實驗,結(jié)果如圖4、圖5所示。
圖4 不存在干擾環(huán)境下三種方法的相對誤差
從圖4、圖5中可以看出,無論是在哪種環(huán)境下本文方法的泄漏跟蹤相對誤差均為最小,曲線分布最低且整體誤差變動幅度不大;相比之下,另外兩種方法在存在干擾環(huán)境下的相對誤差過大,曲線整體呈大幅度的上升趨勢,隨著數(shù)據(jù)量的增加,波動越來越大。說明,文獻方法存在適應(yīng)能力較差的問題,無法應(yīng)對較強的噪聲干擾,算法不具備管控能力。本文方法在各種環(huán)境下都能保證跟蹤精度,是因為采用了特征標(biāo)識,從根源上實施狀態(tài)跟蹤,通過特征查找在最大程度上降低誤差。
圖5 存在干擾環(huán)境下三種方法的相對誤差
本文主要針對一些開放向的網(wǎng)絡(luò)共享平臺如社交網(wǎng)絡(luò)、共享網(wǎng)絡(luò)等來實現(xiàn)用戶隱私信息泄漏跟蹤,提出了一種基于動態(tài)密鑰的隱私信息泄露深度跟蹤方法。為了使算法更具備精準(zhǔn)跟蹤和高效查詢的能力,在實施具體跟蹤前,先根據(jù)用戶屬性對網(wǎng)絡(luò)社區(qū)進行劃分,預(yù)測社區(qū)中公開用戶和非公開用戶,得到公開用戶隱私信息泄漏概率更高的特點,為后續(xù)跟蹤做好充足準(zhǔn)備。跟蹤算法主要通過分析隱私用戶密鑰保護協(xié)議,建立一個跟蹤模型,將得到的公開用戶屬性信息作為算子,通過不斷的更新查找捕捉到泄漏位置點。下一步的工作展望是考慮在存在外界干擾攻擊的情況下,實現(xiàn)跟蹤泄漏并加以保護。