路太宇,李曉會,張馨予,呂維新,鄧 倩
社交網(wǎng)絡(luò)中一種基于偏好的隱私度量方法研究
路太宇,李曉會,張馨予,呂維新,鄧 倩
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)
針對現(xiàn)有社交網(wǎng)絡(luò)中的度量模型很少考慮到用戶的主觀感受,導(dǎo)致度量不準(zhǔn)確等問題,提出了一種結(jié)合隱私偏好的隱私度量方法。對用戶屬性的可提取度、獲取難度和隱私偏好度進(jìn)行量化,使用CMDPC(coefficient of variation and multi cluster merging strategy density peaks clustering)算法對用戶進(jìn)行聚類,結(jié)合屬性的敏感度,得到用戶的隱私分?jǐn)?shù)。利用用戶屬性的隱私偏好度反映了用戶主觀感受。CMDPC算法對用戶進(jìn)行聚類提升了效率和準(zhǔn)確性,實現(xiàn)了對用戶屬性的快速準(zhǔn)確度量。實驗結(jié)果表明,該模型反映了用戶的主觀感受,并提高了度量結(jié)果的時效性和準(zhǔn)確性。
隱私度量;CMDPC算法;隱私偏好度;社交網(wǎng)絡(luò)
隨著科技的高速發(fā)展和社交軟件的普及,在社交網(wǎng)絡(luò)上與朋友分享生活、討論新聞等成為了人們的日常。社交網(wǎng)絡(luò)已經(jīng)融入到人們的生活,加快了信息獲取和分享速度。社交網(wǎng)絡(luò)中的用戶將自己的屬性上傳到網(wǎng)絡(luò),讓服務(wù)商根據(jù)特定的屬性給自己帶來更好的服務(wù)。近些年,大數(shù)據(jù)、云計算和人工智能逐漸興起,利用數(shù)據(jù)挖掘技術(shù)對用戶的隱私屬性進(jìn)行獲取、分析變得更加簡單,不法分子使用一些手段分析出用戶的隱私信息,造成隱私泄露。隱私保護(hù)[1]技術(shù)應(yīng)運而生,隱私度量[2]作為隱私保護(hù)的重要支撐,在社交網(wǎng)絡(luò)中對用戶屬性進(jìn)行隱私度量的研究變得格外重要。通過隱私度量框架,度量出用戶的隱私分?jǐn)?shù),讓用戶知道自己的隱私狀態(tài)來增強(qiáng)用戶的隱私意識。
如今越來越多的學(xué)者開始注意到社交網(wǎng)絡(luò)中隱私度量的問題,早在2010年,Li等[3]使用項目響應(yīng)理論和信息傳播模型,提供一種可以計算出OSNs中用戶隱私分?jǐn)?shù)的方法,該方法考慮用戶個人資料中的屬性信息,以用戶為中心解決社交網(wǎng)絡(luò)中的隱私保護(hù)問題,并利用實驗證明該方法的可行性。Jain等[4]以用戶為中心設(shè)計了一個在OSNs中計算用戶隱私指數(shù)的框架,該指數(shù)代表了用戶是否知道自己個人信息中所蘊含的個人信息。Aghasian等[5]考慮到多個社交網(wǎng)站的共享信息對用戶隱私信息的影響,通過確定影響隱私泄露的主要因素,使用應(yīng)用統(tǒng)計和模糊計算提出了社交網(wǎng)絡(luò)用戶隱私泄露評分(privacy disclosure score,PDS)的方法。張盼盼等[6]提出了對隱私偏好進(jìn)行定義和量化,提出了基于隱私偏好的博弈度量模型,全面考慮了隱私偏好對服務(wù)商的影響。彭長根等[7]基于Shannon信息論提出了4種隱私度量模型,引入了隱私泄露度量和背景知識的隱私泄露度量,并且提出了帶主觀感受的信息熵隱私度量,以用戶為中心是社交網(wǎng)絡(luò)隱私度量的核心,隨著科技的發(fā)展帶主觀感受的隱私度量模型已經(jīng)被學(xué)者們重視。
考慮到用戶的主觀感受和用戶間的內(nèi)部關(guān)系,提出了一個基于隱私偏好的屬性度量方法,利用隱私偏好度反映了用戶主觀感受,使用變異系數(shù)改進(jìn)的DPC算法處理用戶間的內(nèi)部關(guān)系。因此,該算法不僅對量化后的屬性信息依據(jù)密度進(jìn)行快速準(zhǔn)確地聚類,而且該算法利用合并分配策略提高了聚類的速度和準(zhǔn)確率。
本節(jié)主要闡述一些基本定義及相關(guān)概念,包括IRT模型[8]、DPC算法[9]、變異系數(shù)[10]、多簇合并分配策略[11]、社交網(wǎng)絡(luò)中用戶屬性的提取難度[12]、可獲取度[12]和用戶隱私偏好度[13]。
項目反映理論(item response theory,IRT)模型起源于心理學(xué),被應(yīng)用于分析考試成績的數(shù)學(xué)模型。目的是衡量考生的能力、問題的難度和考生正確回答給定問題的可能性。通過該模型獲得提取難度、可獲取度和用戶隱私偏好度。
(1)DPC算法
密度峰值聚類算法是根據(jù)密度對樣本進(jìn)行聚類的算法。該算法原理簡單,能夠處理任意非球型類簇,并能快速有效地確定聚類中心點和類簇個數(shù)。DPC算法定義了2個重要的概念:局部密度,距離值
算法主要分為2個部分:確定聚類中心點,分配非中心點。
在上述公式中,d是樣本點X、X的歐式距離,d為截斷距離,手工設(shè)定其值時需考慮樣本的近鄰數(shù)大約是整個數(shù)據(jù)集規(guī)模的1%~2%[14]。距離是數(shù)據(jù)點與密度最大點歐氏距離的最大值,小于距離的所有樣本構(gòu)成該密度最大的數(shù)據(jù)集群。與其中一個密度最大的數(shù)據(jù)點的距離是最大的,該數(shù)據(jù)點一定是類中心點,經(jīng)過反復(fù)迭代將樣本點分配到各個密度最大數(shù)據(jù)點的數(shù)據(jù)集群中。
再分配中心點過程中,如果數(shù)據(jù)點X不是類中心點,則將其歸入密度比X大且距離X最近的數(shù)據(jù)點X所在的類。該過程只需執(zhí)行1次,沒有迭代更新。傳統(tǒng)的DPC算法未考慮到樣本的內(nèi)部結(jié)構(gòu)和分配策略會產(chǎn)生分配連帶錯誤導(dǎo)致后續(xù)一連串樣本分配錯誤。利用變異系數(shù)和多簇分配策略解決這2個問題。
(2)變異系數(shù)
在高維數(shù)據(jù)集中歐氏距離僅能反映出2個樣本
和
之間的直線距離,每個維度對最后對聚類的影響是相同的,不能完全反映樣本點之間的相似性。變異系數(shù)考慮了數(shù)據(jù)的分布情況,利用變異系數(shù)對歐氏距離加權(quán)提升了高維數(shù)據(jù)的聚類準(zhǔn)確性。
由公式得出加權(quán)歐式距離的局部密度定義,利用高斯核完成對局部密度的計算。
(3)多簇合并分配策略
CMDPC(coefficient of variation and Multi cluster merging strategy density peaks clustering)算法改進(jìn)了DPC算法的分配策略,并且處理了樣本間的內(nèi)部結(jié)構(gòu),提升了聚類的準(zhǔn)確率和效率。
隱私度量代表了用戶的隱私保護(hù)程度。將用戶的用戶屬性度量成一個具體的數(shù)值,通過數(shù)值讓用戶了解自己的隱私分?jǐn)?shù)。
表示度量結(jié)果,()表示用戶屬性的可見度,()表示用戶屬性的敏感度,代表屬性數(shù)量,最終得到的隱私度量結(jié)果,越小代表隱私保護(hù)程度越高。
(1)提取難度
提取難度ε表示從某個社交網(wǎng)絡(luò)中獲得這個屬性的難易程度。為了表示社交網(wǎng)絡(luò)中用戶屬性的提取難度,定義了3個難度:1代表困難;2代表相對困難;3代表容易。1表示結(jié)合用戶屬性和用戶發(fā)布信息分析推斷出的屬性;2表示通過用戶發(fā)布的內(nèi)容分析出的用戶屬性;3表示從用戶公開屬性中直接獲取。數(shù)值越小表示屬性提取難度越高,數(shù)值越大表示屬性提取難度越小。
(2)可獲取度
可獲取度表示OSNs運營商允許用戶對自身屬性和發(fā)布內(nèi)容上設(shè)置可見范圍。根據(jù)社交網(wǎng)絡(luò)中大多數(shù)情況,定義了4個不同的等級:1僅自己可見;2對分組可見;3對好友可見;4對所有人可見。僅對自己可見的信息對研究是沒有任何意義的,最終定義可獲取度的范圍為(1,4]??色@取度的數(shù)值越小表示獲取難度越高,反之,可獲取度數(shù)值越大表示獲取難度越低。
(3)敏感度
敏感度表示社交網(wǎng)絡(luò)用戶屬性信息的重要程度,屬性信息越重要,則該屬性信息的敏感度越高。對于靈敏度的量化,引用Srivastava等[15]導(dǎo)出的敏感度值,如表1所示。
表1 用戶屬性的敏感性評分
(4)隱私偏好度
為了反映用戶對自己屬性信息的主觀感受,對用戶的隱私偏好進(jìn)行度量,稱為隱私偏好度。隱私偏好度從主觀上反映了用戶對自身屬性信息的重視程度,可以根據(jù)用戶的自身需求和特定環(huán)境進(jìn)行設(shè)定。定義的公式:
()表示用戶的隱私偏好度,()表示用戶的隱私偏好系數(shù),()min表示用戶的最小隱私偏好系數(shù)。根據(jù)用戶對自身屬性信息保護(hù)的傾向不同,將用戶的隱私偏好等級分為3個等級:1高;2中;3低。其中1代表用戶對屬性的重視程度低;2表示用戶對該屬性的重視程度一般;3代表用戶對該屬性的重視程度高,數(shù)值越小表示用戶對該屬性的重視程度越高。
在社交網(wǎng)絡(luò)中,用戶通過公開自己的屬性信息給服務(wù)商,這樣獲得更好的個性化服務(wù),從而增加了隱私泄露的風(fēng)險。為了對用戶屬性信息進(jìn)行更加準(zhǔn)確的度量,考慮到用戶的隱私偏好程度來反映用戶的主觀感受,這樣采用IRT模型分別用對戶屬性的提取難度、可獲取度和用戶的隱私偏好度進(jìn)行量化,從而形成一個三維向量。然后,采用CMDPC算法對樣本進(jìn)行分類,根據(jù)局部密度和截斷距離找到聚類中心,將截斷距離設(shè)置為2%[15],利用加權(quán)歐氏距離分配樣本點,分配完成后,建立簇間相似度矩陣,將相似度最高簇和簇C合并形成一個新簇。
算法1:計算可獲取度
(1)輸入:一個行列的響應(yīng)矩陣
(2)輸出:每個屬性的可獲取度得分
(3)初始化temp矩陣
(4)for=1:do
(5)提取出第行將其放入到col變量中
(6)根據(jù)輸入刪除不符合條件的條目
(7)檢查定義的條目后計算平均值
(8)循環(huán)結(jié)束
(9)for=1:do
(10) 設(shè)置一個初始值和變量都為0的計數(shù)器
(11)for=1:do
(12) iftemp(,)!=0 then
(13) sum=sum+input(,);
(14) counter=counter+1;
(15)結(jié)束計數(shù)器循環(huán)
(16)顯示出計算的可獲取度
(17)means(1,)=sum/counter;
算法2:CMDPC算法
(1) for=0tolength():
(2) for=+1tolength()
//將數(shù)據(jù)的距離存儲到矩陣中
(3) distlist[,]和distlist[,]←distance((),())
(4) for=0tolength(dist):
(5) 利用公式(2)計算的局部密度
(6) rho[]←ρXi
(7) for=1tolength(dist):
(8) for=+1to length(dist)
(9) if ρXi<ρXjanddist (,)
(10) 利用公式(4)計算距離屬性(,)
(11) delta←(,)
(12) for=0tolength (dist):
//和較高的點標(biāo)記為簇中心
(13) ifrho[]>maxrho并且delta[]>maxdelat
(14) 將第個數(shù)據(jù)點定為簇中心
(15) ifrho[]
(16) 將第個數(shù)據(jù)點標(biāo)記為噪音點
(17) 將剩余點分配到密度較大的最近鄰簇中
首先將社交網(wǎng)絡(luò)中用戶的屬性信息提取出來,對屬性信息的提取難度、可獲取度和隱私偏好度利用IRT模型進(jìn)行量化,形成一個三維向量,使用CMDPC算法將樣本分類,計算出屬性可見度。屬性可見度和屬性敏感度經(jīng)過計算,就可以得到用戶的隱私度量值。最終的隱私分?jǐn)?shù)表示用戶的隱私狀態(tài),經(jīng)過計算用戶的隱私分?jǐn)?shù)在[0, 1.455637]之間,整體框架如圖1所示。
圖1 整體框架
(1)隱私偏好度
在社交網(wǎng)絡(luò)中,用戶提供隱私屬性給服務(wù)商來換取更好的服務(wù),其中包含用戶的主觀感受,大部分研究對用戶的屬性進(jìn)行度量時,沒有考慮到用戶的主觀感受。CMDPC算法建立的模型是將用戶屬性信息的提取難度、可獲取度和隱私偏好度進(jìn)行了量化,通過對隱私偏好的量化反映了用戶的主觀感受。并且,在最終的隱私度量結(jié)果中結(jié)合了隱私偏好度也提高了結(jié)果的準(zhǔn)確性。
(2)CMDPC算法
在社交網(wǎng)絡(luò)中,用戶量十分巨大,要對用戶的屬性進(jìn)行準(zhǔn)確的隱私度量是一個十分龐大的工程,采用CMDPC算法對樣本進(jìn)行分類,CMDPC算法可以快速準(zhǔn)確地找到聚類中心點,采用多簇合并分配策略將樣本點進(jìn)行分配,相比其他計算方法,可以減少大量的計算時間并提升聚類準(zhǔn)確率,提升隱私度量準(zhǔn)確性和時效性。
CMDPC算法由python語言和anaconda編譯環(huán)境完成。實驗硬件環(huán)境為Inter(R)酷睿I59400CPU2.9 GHz處理器,16 G內(nèi)存;Linux作為操作系統(tǒng);Hadoop為實驗平臺;spark作系統(tǒng)框架。在實驗數(shù)據(jù)方面,使用的數(shù)據(jù)集包含了Telephone、Mailbox、Address、Birthday、Hometown、Current residence、Career information、Emotional state、Interest、Religious Belief、Political intention等屬性,其中Political intention和Address是比較敏感的屬性信息。所有的屬性信息類型都為數(shù)值型。
本節(jié)將CMDPC算法與現(xiàn)有的一些其他聚類方法做了對比,主要從算法效率和準(zhǔn)確率上做了對比。參與比較的算法是通過尋找最大參數(shù)似然估計的EM算法[16]和按照樣本距離劃分個簇的K-means聚類算法[17]。
(1)效率分析
隨著用戶屬性數(shù)量的增加,CMDPC算法的效率受到的影響最小。CMDPC算法根據(jù)樣本密度確定聚類中心。EM算法的核心思想是將樣本點經(jīng)過多次的迭代最終完成聚類,隨著樣本屬性的增多,迭代次數(shù)指數(shù)性增長,導(dǎo)致效率減慢。K-means聚類算法的核心對聚類中心點的個數(shù)要求極為嚴(yán)格,值選取過大過小都會影響聚類的成功率和算法的執(zhí)行效率。經(jīng)過實驗分析,CMDPC算法相比于其他2種算法擁有更高的效率。執(zhí)行結(jié)果如圖2所示。
圖2 效率分析
(2)準(zhǔn)確率分析
伴隨著屬性數(shù)量的增多,K-means算法對初始聚類中心選擇敏感,可能只能做到局部最優(yōu)解,影響了聚類的準(zhǔn)確率。EM算法在樣本點不符合高斯分布時聚類準(zhǔn)確率就會下降。CMDPC算法根據(jù)密度進(jìn)行聚類,利用變異系數(shù)和多簇合并分配策略,解決了樣本內(nèi)部結(jié)構(gòu)問題。執(zhí)行結(jié)果如圖3所示。
采用IRT模型對樣本進(jìn)行分析,IRT模型對于單一實驗源非常實用。為了驗證本實驗的正確性,通過與Li等[3]的算法進(jìn)行實驗對比,來保證本實驗的正確性,并從樣本中挑選有代表性的用戶在圖中進(jìn)行對比。由于文獻(xiàn)[3]的方法沒考慮隱私偏好對隱私度量結(jié)果的影響,所以得出的結(jié)果大部分都是文獻(xiàn)[3]的方法隱私度量值偏高,但用戶6得出的數(shù)值要偏低,因為用戶6有良好的隱私意識,社交網(wǎng)絡(luò)中一部分人的隱私意識很強(qiáng),在設(shè)置隱私偏好的時候會考慮到隱私泄露問題。但是,社交網(wǎng)路中大部分用戶的隱私意識還是非常的薄弱。實驗結(jié)果如圖4所示。
圖3 準(zhǔn)確率分析
圖4 隱私分?jǐn)?shù)
最終的隱私度量值就是最后的隱私分?jǐn)?shù),該隱私分?jǐn)?shù)能反映用戶隱私泄露的風(fēng)險程度。在OSNs中,用戶屬性的敏感度都是不一樣的,所以,將通過合理修改用戶的隱私偏好度,減小用戶的隱私分?jǐn)?shù)。修改后的實驗結(jié)果如圖5所示。
圖5 改進(jìn)后的隱私分?jǐn)?shù)
提出的基于偏好的隱私度量方法核心思想是在傳統(tǒng)的用戶屬性隱私度量方法中結(jié)合用戶的主觀意識也就是隱私偏好,通過對IRT模型、CMDPC算法、屬性敏感度的運用與結(jié)合,設(shè)計出一種在社交網(wǎng)絡(luò)中用戶屬性度量的新方法,針對用戶的主觀意愿和社交網(wǎng)絡(luò)數(shù)據(jù)量巨大導(dǎo)致聚類不準(zhǔn)確等問題給予解決。首先,通過CMDPC算法對社交網(wǎng)絡(luò)中的用戶屬性進(jìn)行準(zhǔn)確地分類,利用IRT模型對用戶屬性進(jìn)行準(zhǔn)確地度量,結(jié)合屬性的敏感度計算出用戶的隱私評分。最后,通過修改用戶的隱私偏好度與修改前進(jìn)行對比,證明了用戶的主觀感受對用戶隱私評分的影響。旨在提升用戶的隱私意識,通過提升用戶的隱私意識來應(yīng)對社交網(wǎng)絡(luò)高速發(fā)展帶來的改變。
[1] 楊少杰, 鄭琨, 張輝, 等. 基于博弈論與區(qū)塊鏈融合的k-匿名位置隱私保護(hù)方案[J]. 計算機(jī)應(yīng)用研究, 2021, 38(5): 1320-1326.
[2] 謝明明, 彭長根, 吳睿雪, 等. 結(jié)構(gòu)化數(shù)據(jù)的隱私與數(shù)據(jù)效用度量模型[J]. 計算機(jī)應(yīng)用研究, 2020, 37(5): 1465-1469, 1473.
[3] Li K, Terzi E. Aframework for computing the privacy scores of users in online social networks[J]. ACM Transcctions on Knowledge Discovery form Data (TKDD), 2010, 5(1): 1-30.
[4] Jain S, Raghuwanshi S K. Fine Grained Privacy Measuring of User's Profile Over Online Social Network[M]. Singapore: Springer, 2018.
[5] Aghasian E, Garg S, Gao L, et al. Scoring Users' Privacy Disclosure Across Multiple Online Social Networks[J]. IEEE Access, 2017, 65(5): 13118-13130.
[6] 張盼盼, 彭長根, 郝晨艷. 一種基于隱私偏好的隱私保護(hù)模型及其量化方法[J]. 計算機(jī)科學(xué), 2018, 45(6): 130-134.
[7] 彭長根, 丁紅發(fā), 朱義杰, 等. 隱私保護(hù)的信息熵模型及其度量方法[J]. 軟件學(xué)報, 2016, 27(8): 1891-1903.
[8] 顧磊. 偏正態(tài)分布IRT模型的EM算法[D]. 南京:南京大學(xué), 2018.
[9] 江平平, 曾慶鵬. 一種基于網(wǎng)格劃分的密度峰值聚類改進(jìn)算法[J]. 計算機(jī)應(yīng)用與軟件, 2019, 36(8): 268-274, 280.
[10] 楊淵超. 改進(jìn)的密度峰值聚類算法研究[D]. 西安: 西安電子科技大學(xué), 2020.
[11] 陳磊, 吳潤秀, 李沛武, 等. 加權(quán)K近鄰和多簇合并的密度峰值聚類算法[J]. 計算機(jī)科學(xué)與探索, 2022, 16(9): 2163-2176.
[12] 李雪峰. 社交網(wǎng)絡(luò)中的隱私度量方法研究[D]. 北京: 北京郵電大學(xué), 2020.
[13] 張盼盼. 理性隱私度量方法研究及其應(yīng)用[D]. 貴陽: 貴州大學(xué), 2018.
[14] 陳俊芬, 張明, 趙佳成. 復(fù)雜高維數(shù)據(jù)的密度峰值快速搜索聚類算法[J]. 計算機(jī)科學(xué), 2020, 47(3): 79-86.
[15] Srivastava A, Geethakumari G. Measuring privacy leaks in Online Social Networks[C]//International Conference on Advances in Computing. IEEE, 2013.
[16] 張朋. 數(shù)據(jù)挖掘中聚類分析算法的研究與改進(jìn)[D]. 無錫: 江南大學(xué), 2016.
[17] 王林, 許郡蒙. 分布式K-means聚類在微博熱點主題發(fā)現(xiàn)的應(yīng)用[J]. 計算機(jī)仿真, 2020, 37(8): 121-125.
Research on Preference-based Privacy Measurement Method in Social Networks
LU Tai-yu, LI Xiao-hui, ZHANG Xin-yu, LV Wei-xin, DENG Qian
(School of Electronics & Information Engineering, Liaoning University of Technology, Jinzhou 121001, China)
To solve the problem that the users’subjective feelings are rarely taken into account inthe measurement models in existing social networks, which leads to inaccurate measurement, a privacy measurement method combined with privacy preference is proposed. The extractability, difficulty of acquisition and privacy preference of user attributes are quantified, and the CMDPC (Coefficient of variation and Multi cluster merging strategy Density Peaks Clustering) algorithm is used to cluster users, combined with the sensitivity of attributes, and the privacy score of users is obtained. The privacy preference of user attributes reflects the users’ subjective feelings. The CMDPC algorithm improves the efficiency and accuracy of user clustering, and realizes a fast accuracy measurement of user attributes. Experimental results show that the model reflects the user’s subjective feelings and improves the timeliness and accuracy of the measurement results.
privacy measurement; CMDPC algorithm; privacy preference; social network
10.15916/j.issn1674-3261.2022.06.009
TP311
A
1674-3261(2022)06-0393-06
2022-05-09
遼寧省應(yīng)用基礎(chǔ)研究計劃項目(2022JH2/101300278);遼寧省教育廳科學(xué)研究經(jīng)費項目(JZL202015402)
路太宇(1997-),男,遼寧鐵嶺人,碩士生。
李曉會(1978-),女,遼寧盤錦人,副教授,博士。
責(zé)任編輯:孫 林