樸楊鶴然,崔曉暉
武漢大學 國家網(wǎng)絡安全學院,武漢430072
社交網(wǎng)絡為人們在全球范圍內的交流和互動提供了一種簡便的平臺。世界各地的用戶都在使用社交網(wǎng)絡共享信息,并通過互聯(lián)網(wǎng)與其他人建立聯(lián)系[1]。在社交網(wǎng)絡上,用戶可以與他們現(xiàn)實中認識或不認識的人進行交流,或者找到在政治、經(jīng)濟、音樂或體育方面具有相同興趣或傾向的人。廣告公司可以在社交媒體上宣傳他們的產(chǎn)品,并在短時間內獲得更多歡迎[2]。
Twitter、Facebook和其他社交媒體鼓勵用戶在平臺上表達其思想、觀點和生活中的一些細節(jié)[3]。從重大事件到看似無用的評論,都包含在其發(fā)布的推文、狀態(tài)和在線互動中。大多數(shù)消息包含的信息價值很小,但是數(shù)百萬條消息的聚集會產(chǎn)生重要的知識。例如,由于機器學習和深度學習技術的興起,用戶帖子和在線社交互動可用于準確推理出許多用戶角色屬性、性別、種族、年齡、政治興趣和位置等[4-7]。
據(jù)報道,諸如聯(lián)合健康集團之類的醫(yī)療保健提供者會挖掘社交媒體數(shù)據(jù)以及其他臨床信息,以評估醫(yī)療保健風險和保險費。企業(yè)也越來越多地使用社交媒體在招聘前篩選候選人[8]。FBI等政府機構現(xiàn)在也在社交平臺上監(jiān)視用戶發(fā)布的內容。
在線社交網(wǎng)絡平臺已成為現(xiàn)代社會人們生活中不可或缺的一部分,這些企業(yè)已經(jīng)獲得了大量用戶。截至2020 年1 月,F(xiàn)acebook 已擁有24 億用戶,排在所有社交網(wǎng)絡應用的第一位。社交網(wǎng)絡具有消息即時傳遞、信息共享以及為用戶發(fā)布評論的優(yōu)點[9]。
最初,人們主要使用社交網(wǎng)絡來表達他們的一些想法。隨著時間的流逝,在線活動變得越來越復雜和多樣化。社交網(wǎng)絡的蓬勃發(fā)展帶來了大量用戶生成的內容,有66%的用戶推文是關于用戶他們自己的,其中大部分是免費且可公開獲得的[10]。
此外,越來越多的用戶加入基于位置的社交網(wǎng)絡(Location-Based Social Network,LBSN)以享受不同的位置相關服務,例如朋友查找、興趣位置搜索、簽到、帶有地理標簽的照片共享等[11]。位置信息不僅代表了個人的地理位置,而且還透露了他們的生活習慣、生活方式以及個人信息,這些導致用戶面臨較高的隱私風險。
在社交網(wǎng)絡中,用戶總是希望共享某些信息以獲取收益,而將其他信息則隱藏起來以保護隱私。不幸的是,隨著機器學習的飛速發(fā)展,各種強大的推理攻擊可能會推測出其隱藏的信息[12]。
用戶留存在社交網(wǎng)絡平臺上的好友互動記錄、興趣愛好標簽、簽到信息、消費記錄等包含了大量社交關系信息和屬性信息,為定向廣告、推薦系統(tǒng)等應用提供了豐富的數(shù)據(jù)來源。用戶的需求、喜好、屬性、行為以及可能具有的關系等,被用于盡可能詳細地構造用戶個人畫像[13]。隨著社交平臺的發(fā)展,能夠用于確定用戶真實身份的信息也越來越多,用戶隱私泄露的隱憂也日益嚴重。社交網(wǎng)絡中的隱私推理是用戶隱私泄露的一種,即根據(jù)用戶帖子內容、用戶之間的關聯(lián)和網(wǎng)絡互動等公開信息,來對用戶社會關系、敏感用戶屬性進行推理[14]。
進行隱私推理的攻擊者可以是對用戶隱私感興趣的任何一方,例如可能是網(wǎng)絡犯罪分子、社交網(wǎng)絡提供商、廣告商、數(shù)據(jù)經(jīng)紀人或監(jiān)視機構[15]。網(wǎng)絡犯罪分子可以利用用戶隱私信息進行有針對性的社會工程攻擊;社交網(wǎng)絡提供商和廣告商可以根據(jù)用戶數(shù)據(jù)用于定向目標廣告;數(shù)據(jù)經(jīng)紀人可以將用戶信息出售給廣告商、銀行公司和保險業(yè)等其他方來獲利;監(jiān)視機構可以使用這些信息來識別用戶并監(jiān)視他們的活動[16]。
根據(jù)攻擊的目的,即想要獲得到的用戶隱私信息,現(xiàn)有的推理攻擊按攻擊目的大致可分為兩類:針對屬性的推理和針對社交關系的推理。屬性推理中,針對地理位置的推理又是領域內的一大研究重點,因此在本文中單獨分類介紹。
針對屬性的推理可以按技術和所利用的不同類型數(shù)據(jù)分為基于內容、基于社交鏈接和基于用戶行為等幾類屬性推理方法;針對地理位置的推理包括基于社交圖和基于社交行為等方法;而針對社交關系的推理則主要分為基于位置和基于主題標簽兩種方法[17]。
用戶屬性存在類似二分類的概念,可以被分為兩類:公開屬性和私人敏感屬性,用戶應確定其屬性屬于何種類別[18]。某些屬性(例如政治傾向和種族)可以被公開顯示,因為用戶的關注者可能會因為他的公共屬性而關注他。而其他屬性(例如性別和位置)是私人的且敏感的,用戶不希望將其顯示出來。
可以將屬性推理視為從用戶的在線發(fā)布和互動的信息中推理出用戶不希望為他人所知道的一組敏感屬性的方法[19]。
推理出的用戶屬性可以用于各種安全敏感活動,例如魚叉式網(wǎng)絡釣魚和個人信息的身份驗證[20]。此外,攻擊者可以利用推理的屬性在多個站點上識別同一用戶或使用離線記錄(例如,公開的選民登記記錄)形成綜合性的用戶個人畫像,給用戶帶來更大的安全和隱私風險[21]。
基于內容的攻擊主要利用主題、個人信息和推文文本等對用戶的敏感屬性進行推理。
Georgiou 等[22]引入了一種基于社區(qū)趨勢主題的屬性推理攻擊,從統(tǒng)計角度利用這些公開的社區(qū)感知趨勢主題來推理在線社交網(wǎng)絡用戶的敏感屬性,因為每個主題中的參與用戶形成同質的組(社區(qū)),即使他們沒有直接鏈接也是如此。
趨勢主題是指與暫時流行的主題相關的一組單詞或短語,用于理解和解釋信息和模因如何通過具有數(shù)億個節(jié)點的龐大社交網(wǎng)絡傳播[23]。
社交平臺的用戶表示為集合U={ui,u2,…,un}。每個用戶u 與具有k 個敏感屬性(例如位置、年齡等)的向量v 相關聯(lián)。用戶u 的屬性ai可以采用一組可能的值{ai1,ai2,…,aimi}中的一個,其中mi是相應屬性的唯一值總數(shù)。屬性的值形成一個層次結構,對于某些屬性,該層次結構可以具有很大的深度(例如對于城市、區(qū)域、國家、大洲乃至整個世界范圍的位置信息)。
社交平臺上的內容表示為推文的數(shù)據(jù)流P。每個推文p ∈P 有一個唯一的作者(用戶)p.u,并且包含任意數(shù)量的主題關鍵字p.T={t1,t2,…,tk}。 將社區(qū)定義為屬性中具有相同值的一組用戶,但不一定存在社交連接。 例如,居住在武漢的年齡為25歲的男性用戶可以形成一個同質社區(qū),包含這些值為屬性組合{位置,年齡,性別}標識的所有用戶。紐約的用戶形成了由單例屬性組合{位置}定義的另一個同質社區(qū)。
趨勢主題算法向攻擊者返回提到了所提供主題的一組用戶。攻擊者對每個屬性的先前分布有一般的了解,例如此類知識可能包括基于人口普查的位置分布、基于社交媒體服務發(fā)布的統(tǒng)計數(shù)據(jù)的年齡分布、基于公開此信息的用戶的性別分布等[24]。不斷增加的知識使攻擊者可以針對給定用戶的敏感屬性逐漸提高其推理置信度。
給定主題和社區(qū)元組后,攻擊者可能會嘗試推理出至少提到一個主題ti的用戶的敏感屬性。假設L 是用戶的敏感屬性(例如位置)之一,用戶提到了一些主題t1,t2,…,tk,則L 的概率分布為:
P(L)是屬性L 的先驗多項式分布,可以基于攻擊者對此類信息的一般知識而假定為已知。在給定L ,Pt1,t2,…,tk|L 的情況下,提及主題t1,t2,…,tk的用戶的概率分布等于提及所有k 個主題并具有L 特定值的用戶u 的數(shù)量,該值等于L的用戶總數(shù)。例如,對于L=a:
其中u.v.L 是用戶的屬性v 的向量中的屬性L。類似的,先驗概率P(t1,t2,…,tk)等于在用戶總數(shù)中提及這些主題的用戶數(shù)。
雖然攻擊者可能知道屬性的多項式分布,并且能夠計算任何主題組合的先驗概率,但他們無法計算出具有特定屬性值L=a 的用戶集:{u|u.v.L=a}。取而代之的是,他們可以從趨勢主題算法得到的元組來獲得概率分布Pt1,t2,…,tk|L 的近似值。
如果對于L=1 的任何值,概率PL=1|u.T 變得大于閾值θ,則認為該用戶的隱私L 受到侵犯。攻擊者可以通過使用這些涉及用戶的相應社區(qū)特征來提高其推理的可信度。
Thomas 等[25]使用多標簽分類方法來使來推理屬性,并且提出了多方隱私來防御屬性推理。Zhang 等[5]表示,用戶推文中的主題標簽可以單獨用于精確推理用戶的位置,準確度為70%到76%。
Otterbacher[26]使用用戶的寫作風格研究了性別推理。Narayanan 等[27]展示了一個更強的結果,即作者身份可以通過寫作風格分析而被去匿名。Adali 和Golbeck等[28-29]使用用戶的推文研究如何推理出個性。
He 等[30]將屬性推理轉換為使用用戶之間的社交鏈接構建的貝葉斯網(wǎng)絡上的推理,使用具有合成用戶屬性的LiveJournal 社交網(wǎng)絡數(shù)據(jù)集評估了他們的方法。并討論了通過先驗概率、影響力和社會開放性對屬性推理的影響。
假設僅考慮直接朋友Y1的屬性值來推理X 的屬性,知道Y1的所有屬性值后進行了樸素貝葉斯假設。
對于具有最大深度i 的樸素貝葉斯網(wǎng)絡,令X 的值x 是在給定觀察到網(wǎng)絡中其他節(jié)點的屬性值的情況下具有最大條件概率的屬性值(即最大后驗概率):
由于推理僅涉及彼此獨立的直接朋友Y1,因此可以使用貝葉斯網(wǎng)絡中編碼的條件獨立性進一步降低后驗概率:
Lindamood 等[31]修改了樸素貝葉斯分類器,以社交鏈接和用戶的其他公開屬性來推理某些屬性,例如,為了推理用戶的專業(yè)使用了用戶的其他屬性(用戶的雇主、用戶居住的城市、用戶的社交朋友及其屬性)。但是,他們的方法不適用于根本不共享任何屬性的用戶。
Bhagat 等[32]利用基于ICA 框架的K 最近鄰算法來推理LiveJournal數(shù)據(jù)集的屬性,提出了一種局部迭代算法,通過選擇在用戶節(jié)點的本地鄰居中出現(xiàn)頻率最高的值來推理屬性,這可以稱為本地鄰居的多數(shù)投票。
Macskassy 和Provost[33]提出了一種鄰居關系模型,并提出了兩種算法,即迭代關系鄰居和概率關系鄰居來進行屬性推理。
Mo 等[34]提出了一種基于圖的屬性推理模型,該模型使用好友關系、組成員身份和網(wǎng)絡關系進行相似性計算,并將其作為轉換矩陣來執(zhí)行標簽傳播。
Yin等[35]使用隨機游走并重新啟動基于社交屬性的網(wǎng)絡(Social Attributes Network,SAN)來進行屬性排名。他們將屬性建模為節(jié)點,并在用戶節(jié)點和屬性節(jié)點之間建立鏈接。但在推理過程中不考慮屬性相關性,隨機游走會使標簽在網(wǎng)絡中傳播,并在最接近的節(jié)點處停止?;谕镀狈峙涞姆椒ㄅc此類似,都使用轉移矩陣在標簽中進行標簽傳播,并最終選擇最接近的屬性值。
Misolve等[36]提出了一種基于社區(qū)屬性的屬性推理方法。他們根據(jù)同一社區(qū)中用戶的公共屬性來推理用戶的敏感屬性。在Facebook數(shù)據(jù)集上進行了實驗,以推理用戶的工作部門等。
Traud等[37]將社區(qū)結構與基于Facebook的給定類別的分區(qū)進行了比較,以檢查在二元級數(shù)據(jù)上公共屬性的影響。
用戶行為包括點贊、關注、轉發(fā)評論等行為,以此對屬性進行推理。
Kosinski[38]提出的方法可以輕松使用用戶行為中的點贊(Facebook Likes)來自動、準確地預測一系列高度敏感的個人屬性,包括:性取向、種族、宗教和政治觀點,人格特質、智力、家長離異情況、年齡和性別等。用戶和他們的點贊表示為稀疏的用戶相似矩陣,如果用戶和點贊之間存在關聯(lián),則將其項設置為1,否則設置為0。使用奇異值分解(Singular-Value Decomposition,SVD)可以減少像用戶一樣的矩陣的維數(shù)。使用線性回歸模型預測年齡或智力等數(shù)字變量,而使用邏輯回歸預測諸如性別或性取向等二分變量。在這兩種情況下都應用了10倍交叉驗證,研究的設計如圖1所示。
圖1 基于點贊行為的推理模型設計
Weinsberg 等[39]使用用戶對不同電影給予的評分來調查性別的推論。特別是,他們?yōu)槊總€用戶構造了一個特征向量。特征向量的第i個項是:如果用戶查看了第i個電影,則用戶對第i個電影給予的評分分數(shù),否則第i個項為0。他們比較了一些分類器,包括邏輯回歸[40]、支持向量機[41]和樸素貝葉斯[42],發(fā)現(xiàn)邏輯回歸勝過其他方法。具體來說調查了用戶看的哪些電影可以最大程度地提高推理準確性,但是此方法可能不適用于現(xiàn)實情況。
Chaabane 等[43]的研究證明用戶的行為數(shù)據(jù)也可以是用戶喜歡或共享的頁面或列表。攻擊者(例如,社交平臺提供商、廣告商或數(shù)據(jù)經(jīng)紀人)可以使用機器學習分類器來推理目標用戶的私人屬性(例如,性別、居住城市和政治傾向)。
Mao 等[44]等提出一種基于社交鏈接和屬性關聯(lián)的高效社會屬性推理方案,方法包括三個主要階段:預處理、構造社交屬性相關性網(wǎng)絡(Social Relevance Attribute Network,SRAN)圖和推理屬性,方法如圖2所示。
第一階段:預處理將社會數(shù)據(jù)作為輸入,其中包括三個組成部分:社會結構抽象(PI-ss)、用戶屬性抽象(PI-ua)和屬性相關性分析(PI-ar)。PI-ss用于提取用戶之間的社交鏈接并輸出社交節(jié)點(用戶)圖Gs。PI-ua用于建立用戶(社交節(jié)點)與社交屬性值之間的映射,并輸出屬性矩陣A。PI-ar 測量兩個屬性值之間的相關性,并輸出屬性鄰接矩陣R。
第二階段:以社交圖Gs構造SRAN圖,以屬性矩陣A和屬性鄰接矩陣R為輸入,并輸出SRAN圖。SRAN圖具有兩種節(jié)點:社交節(jié)點和屬性節(jié)點,其中社交節(jié)點代表用戶,屬性節(jié)點是目標社交網(wǎng)絡中包含的屬性值。
定義了三種類型的邊來描述這些節(jié)點之間的關系。具體而言,社交邊代表兩個社交節(jié)點之間的社交鏈接;社交節(jié)點與屬性節(jié)點之間的用戶屬性邊由該社交節(jié)點是否具有該屬性值確定;屬性相關性邊由兩個屬性值(即SRAN中的屬性節(jié)點)之間的相關性加權,該值在第一階段由PI-ar量化。
第三階段:以從第二階段獲得的SRAN 圖作為輸入來推理未知屬性,進行具有重啟的隨機游走(Rndom walk with Restart,RwR)以執(zhí)行基于相關性的屬性推理,并在結果中輸出目標用戶的所有未知用戶屬性鏈接。
圖2 基于社交鏈接和屬性關聯(lián)的推理方法
Gong 等[45]通過友誼和行為聯(lián)系來推理用戶雇主和城市等屬性。
Mei等[46]提出了一種新的基于圖像和屬性的卷積神經(jīng)網(wǎng)絡屬性推理攻擊框架,框架集成和修改了現(xiàn)有的最新CNN 模型。如圖3,它包含三個主要部分,分別是RCNN 面部識別器、基于圖像和屬性的CNN 年齡分類器以及基于屬性的FCNN 年齡分類器。但是其僅考慮一個目標的敏感屬性,即年齡范圍。
圖3 基于圖像和屬性的推理攻擊系統(tǒng)
Labitzke 等[47]通過面向情感的挖掘來推理用戶對Facebook頁面的興趣程度。Zamal等[48]使用移動通信來推理性別和年齡,并考慮其特征以及節(jié)點屬性值之間的聯(lián)系。Chen 等[49]提出了ChiSquare,基于卡方統(tǒng)計來計算用戶和屬性值之間的相關性。
文獻[50]顯示社交圖分析可以從朋友和關注者的位置揭示用戶位置。
將用戶v的位置圖定義為從目標用戶Gv的社交網(wǎng)絡獲得的加權圖Lv=<Iv,Sv>,如下所示:
節(jié)點集Iv是τv的解釋集以及v朋友的地名集合。定義鏈接集Sv,以便在下列情況下在i1∈Iv和i2∈Iv之間存在雙向鏈接:
i1和i2為同一地區(qū)的一部分或者同一地區(qū),該鏈接的權重為wco。
i1和i2是同一省/州(或其他等效的地區(qū)行政區(qū)劃)或者它們屬于同一州和國家/地區(qū),該鏈接的權重為ws。
i1和i2是同一城市,該鏈接的權重為wci。
與鏈接相關聯(lián)的權重指示解釋之間關系的強度。例如認為如果i1和i2代表同一城市,則兩個解釋i1和i2之間的關系要強于它們代表同一狀態(tài)下的兩個不同城市。
出于相同的原因,與i1和i2對應于同一地區(qū)相比,i1和i2對應于同一省/州(或等效的行政區(qū)劃)。鏈接(i1,i2)的權重衡量的是i1和i2共享的地區(qū)規(guī)劃的粒度,粒度越細,重量越大?;诖擞衱co<ws<wci。
在基于位置的社交網(wǎng)絡中,用戶的互動主要是通過簽到和照片共享進行的。文獻[51]提出了一種基于歷史簽到和照片的空間分布的推理模型,并表明通過對包括簽到和照片在內的多個事件進行時空分析,可以高精度地推理出用戶的位置。
這是一種內容遺忘的推理模型,該模型不會以處理照片的內容來查找用戶的位置,而是僅考慮不同的位置簽到和照片共享概率。
Ilaria 等[52]提出了一種基于視覺技術的位置推論模型,該模型使用Twitter 簽到數(shù)據(jù),表明人們僅使用一小部分位置點就可以推理出人們最常在的和最私人的位置,例如工作和家庭。Souza 等[53]研究了用戶在Instagram上共享自拍照的集體行為。
在移動應用中,Michalevsky等[54]表明攻擊者可以使用機器學習根據(jù)用戶的智能手機的總功耗來推理用戶的位置。Narain等[55]的研究中發(fā)現(xiàn),攻擊者可以使用用戶智能手機上的陀螺儀、加速度計和磁力計數(shù)據(jù)來推理用戶的位置。
諸如Foursquare 之類的基于位置的社交網(wǎng)絡以及諸如Uber 之類的基于位置的在線服務的廣泛普及,為人們帶來了大量的人類軌跡數(shù)據(jù)。事實證明,了解基本的人員流動模式對于各種應用(例如下次訪問位置預測)具有重要價值[56]。
Hsieh 等[57]使用用戶的離線地理活動(例如簽到記錄和會議事件)來推理在線社交關系。首先構建了一個共址圖,其中節(jié)點是用戶,邊是用戶之間的共址,邊權重是組合的特征值。具有較高的緊密度、概率和共同位置相似性的兩個節(jié)點彼此相識的可能性很高。其次,如果會議活動的位置對兩個節(jié)點都更有意義或更重要,則應為此類共址分配更高的權重,有較高的開會頻率的兩個人傾向于存在社交關系。
該模型是一種基于圖的半監(jiān)督學習方法,可以使用節(jié)點對的提取特征來推理社交聯(lián)系。中心思想有三個方面。首先,具有相似特征分數(shù)的節(jié)點對往往具有相同的聯(lián)系(即是否具有社會紐帶)。構造一個鏈接圖(Link Graph,LG),以表示節(jié)點對之間的特征相關性[58]。其次,由于不同的特征對社交聯(lián)系的推理有多種影響,因此針對每個特征分別學習與LG中每個邊相關聯(lián)鏈接的值,以建模節(jié)點對的特征差異與成為朋友的可能性之間的關系。最后使用算法迭代地計算節(jié)點對與LG中相鄰節(jié)點成為朋友的概率,接著確定每個特征的重要性,從而可以推理出節(jié)點對之間的社會關系[59]。
Zhang 等[60]通過將用戶對的空間、時間和社交屬性視為有效用戶鏈接的不同視圖,研究了給定LBSN中社交關系推理的問題。
如圖4,通過將3 個因素中的每一個視為任何目標用戶對的一個視圖,設計了一種新穎的多視圖匹配網(wǎng)絡(Multi-View Matching Network,MVMN)。MVMN 包括位置匹配模塊、時間序列匹配模塊和關系匹配模塊。每個模塊都學習特定視圖的匹配表示,而MVMN 將它們融合以進行最終的關系推理。
圖4 時空軌跡多視圖匹配網(wǎng)絡
Backes等[61]從用戶所在位置推理社交關系,采用深度學習方法來學習用戶的移動功能并將其用于社交關系推理。諸如文獻[62-66]此類的工作可以從同一時空推理出社會聯(lián)系,為其中兩個用戶共享共同的朋友或位置。
Wu等[67]從用戶軌跡數(shù)據(jù)推理社會關系在諸如好友推薦和乘車共享等現(xiàn)實應用中具有重要價值。模型利用圖卷積網(wǎng)絡(Graph Convolutional Network,GCN)以無監(jiān)督的方式學習用戶在用戶移動異構圖上的嵌入。
Olteanu等[68]研究同位置信息對位置隱私的影響。最近,Zhou等人[69]從好友和流動性數(shù)據(jù)推理出社交聯(lián)系。
Zhang[70]使用用戶主題標簽二分圖嵌入模型來推理關系,以學習每個用戶畫像的主題標簽,并根據(jù)兩個用戶畫像的余弦距離進行無監(jiān)督的關系預測。
具體來說,即將用戶和主題標簽組織成一個加權二分圖。對于連接用戶和主題標簽的邊,其權重等于用戶共享主題標簽的次數(shù)。在圖上模擬了從每個用戶開始的隨機游走,從每個節(jié)點到下一個節(jié)點的過渡概率遵循相應邊的權重。每次游走都有一定的長度,留下了一組隨機的行走軌跡。然后,分別依靠下面的優(yōu)化目標函數(shù)來學習每個用戶的主題標簽:
這里,N(v)表示節(jié)點v的鄰域,而θ(v)是節(jié)點v的學習結果。此外,p(v|N(v);θ)使用softmax 函數(shù)建模。目標函數(shù)本質上是連續(xù)詞袋(Continuous Bag-of-Words,CBOW)模型[71],采用負采樣方法來加快學習過程。
最后對于任何兩個用戶,會計算他們學習到的余弦距離,并在余弦距離低于所選閾值時預測他們的社交關系[72]。
Rahman等[73]提出了一種推理社交關系的多模式方法,利用用戶的5 個不同維度特征,即圖像、推文文本、主題標簽、地理位置和(不完整的)社會關系評估了一個真實的數(shù)據(jù)集,該數(shù)據(jù)集包含從Instagram 收集的2 200萬用戶帖子。使用數(shù)據(jù)集的特征向量訓練5 個隨機森林分類器,然后使用5個訓練過的分類器各自的AUC值(Area Under the ROC Curve),即ROC 曲線下的面積為每個分類器分配置信度a。他們將這些AUC值用作目標集上5 個分類器預測的強度或可信賴性的指標。結果證明,當多種模式組合在一起時,社交關系推理攻擊的成功率將大大提高。
Gupta等[74]研究了社交網(wǎng)絡用戶所發(fā)布視頻中人們的社交關系推理,使用視聽特征和運動軌跡來計算視頻中每個場景的社交關系的度量,同時利用人臉識別來計算每個場景中人物的出現(xiàn)。
Zhao 等[75]提出一種基于多源信息的兩階段的深度學習框架TDFI,用于社交關系推理,這種方法可以在擁有低復雜度的同時利用多源信息。應用擴展鄰接矩陣(Extended Adjacency Matrix,EAM)來表示多源信息,然后采用改進的深度自動編碼器網(wǎng)(improved Deep AutoEncoder Network,iDAEN)為每個用戶提取融合的特征向量。TDFI框架還提供了一種改進的深度孿生神經(jīng)網(wǎng)絡(improved Deep Siamese Network,iDSN),用于推理來自iDAEN的用戶是否存在社交關系。
6.1.1 基于文本的防御方法
(1)隱藏:隱藏(也稱為刪除)[76]建議用戶選擇屬性關鍵字或主題標簽Hp的子集(共有2Hp-1 個此類子集),可以通過閾值th限制要刪除的關鍵字或主題標簽的數(shù)量,以優(yōu)化運行時間。將所有生成的主題標簽的子集發(fā)送到推理模型以驗證它們是否滿足位置隱私約束,然后發(fā)布推文。
(2)替換:該機制用一組主題標簽H中的其他主題標簽替換了原始標簽以誤導攻擊者[77]。為了保持合理的搜索復雜度,必須限制一組潛在的標簽以替換每個原始標簽。 固定了一個閾值ts,并集中在ts上在語義上最接近原始主題標簽的主題標簽,這確保了候選主題標簽的集合將損失降至最低,將搜索空間限制為(ts+1)Hp-1。與隱藏機制一樣,可以通過用類似于th 的閾值限制要替換的標簽的數(shù)量來進一步降低時間復雜度[78]。
(3)泛化:這種機制將每個原始主題標簽概括為一個語義上更廣泛的類別。由于并非所有主題標簽都可以泛化(例如#love),因此將給定推文中可泛化主題標簽的子集表示為v。為降低時間復雜度,還可以固定要泛化的最大標簽數(shù)的閾值[79]。
(4)混淆:即基于噪聲的擾動,以在發(fā)布數(shù)據(jù)之前對其進行掩蓋[80-81]。BlurMe 會對用戶的電影分級進行模糊處理,以減少泄露其性別信息的風險[39]。根據(jù)項目與除i 之外的屬性值之間的相關性將項目分類到列表Li中。具體來說,對于每個屬性值i,通過使用學習邏輯回歸分類器數(shù)據(jù)向量作為特征向量;將邏輯回歸分類器中某項的負系數(shù)視為與i 以外的屬性值的相關性。Attri-Guard利用對抗性機器學習技術將噪聲添加到用戶的公共數(shù)據(jù)中,以防御屬性推理攻擊[82]。
6.1.2 基于博弈論的防御方法
Chanthaweethip等[83]提出了一種博弈論的方法來防御屬性攻擊。這些方法具有理論上的隱私保證,但是它們難以解決應用于屬性推理攻擊時在計算上的優(yōu)化問題。Shokri 等[84]提出的方法對于防御屬性推理攻擊是很容易處理的,因為這樣的問題本質上是一維的公共數(shù)據(jù)向量。防御者將位置混淆,以保護用戶免受最佳推理攻擊。
Salamatian 等[85]提出了量化概率映射(Quantization Probabilistic Mapping,QPM)來解決Han 等人提出的博弈論優(yōu)化問題。具體來說,他們聚集用戶的公共數(shù)據(jù),并使用群集代表他們,然后使用聚類近似解決優(yōu)化問題。由于使用了量化,因此QPM 沒有理論上的隱私保證,即QPM 不一定能防御最佳屬性推理攻擊,但是QPM使其在實踐中更易于防御。
6.2.1 基于k 匿名的防御方法
k 匿名性的概念是文獻中基于位置的系統(tǒng)最廣泛使用的隱私定義。已用于保護用戶的位置,要求它在一組k 個點之間是無法區(qū)分的(通常需要共享某些位置屬性)[86]。
一種實現(xiàn)此目的的方法是使用虛擬位置[87-88]。該技術涉及使用實際和虛擬位置生成k-1 個正確選擇的虛擬點,并向服務提供商執(zhí)行k 個查詢。實現(xiàn)k 匿名性的另一種方法是通過隱藏[89-91]。這涉及到創(chuàng)建一個包含k個點的共享區(qū)域,這些共享點共享一些感興趣的屬性,然后向服務提供商查詢該隱藏區(qū)域。
Sun 等[92]解決了身份披露問題,并通過確保至少有k 個朋友對共享相同的數(shù)量,提出了一種新穎的k-NMF匿名性。
6.2.2 基于差分隱私的防御方法
差分隱私[93]是統(tǒng)計數(shù)據(jù)庫領域的隱私概念。其目標是在發(fā)布有關數(shù)據(jù)庫的匯總信息時保護個人數(shù)據(jù)。差分性隱私要求修改單個用戶的數(shù)據(jù)對查詢結果的影響可以忽略不計。更確切地說,它要求將查詢應用于數(shù)據(jù)庫D 時返回值v 的概率與應用于相鄰數(shù)據(jù)庫D′時相同值的概率相比,同用戶在D ,D′中的值應該在e范圍內[94]。實現(xiàn)此概念的一種典型方法是向查詢輸出中添加受控的隨機噪聲,例如從拉普拉斯分布中提取的隨機噪聲[95]。
差分隱私已在位置隱私中被使用。Machanavajjhala等[96]的研究表明可以使用合成數(shù)據(jù)生成技術以差分隱私的方式發(fā)布有關通勤模式的統(tǒng)計信息。Ruan 等[97]使用四叉樹空間分解技術來確保具有位置模式挖掘功能的數(shù)據(jù)庫中的差異優(yōu)先權。Dewri等[98]使用了k 個位置的匿名集,以求從k 個位置中的任何一個推理出相同混淆位置z 的概率為相似(范圍e 內)。
6.2.3 其他防御方法
Cheng 等[99]提出了一種位置隱蔽機制,并著重于基于位置的范圍查詢。隱私的程度由隱蔽區(qū)域的大?。ㄒ卜Q為不確定區(qū)域)和敏感區(qū)域的覆蓋率來衡量,覆蓋率是隱蔽區(qū)域的面積與用戶認為敏感的區(qū)域的面積之比。PrivCheck[100]通過混淆基于位置的社交網(wǎng)絡中用戶簽到行為的數(shù)據(jù),來最大程度地減少用戶私人數(shù)據(jù)的泄露。
在文獻[101]研究中,基于特定的傳感技術或環(huán)境條件,假定用戶的真實位置具有某種程度的不精確性。然后使用不同的模糊處理技術來增加這種不精確性,以達到一定程度的隱私級別。此隱私級別定義為應用模糊處理技術前后的準確度之比。
郭耀[102]提出了一種基于關鍵節(jié)點與連接關系的社交網(wǎng)絡隱私保護方法KLPP,可以保護社交網(wǎng)絡中關鍵節(jié)點和連接的隱私,且通過隨機度擾動算法對網(wǎng)絡中的關鍵節(jié)點施加更多保護。同時通過對節(jié)點進行聚類,將網(wǎng)絡劃分為子圖,并在子圖內部擾動網(wǎng)絡中的連接,可以減少擾動過程對網(wǎng)絡結構的影響。
黃海平等[103]設計了帶權社交關系網(wǎng)絡中的節(jié)點和邊的擾動策略,采用改進的單源最短路徑約束模型構建邊權值噪音。
Shahabi等[104]提出一種名為PLACE的可擴展框架,并提出了4個新穎的隱私保護基塊,包括位置鄰近度、共現(xiàn)向量、位置熵和跟隨度。陳偉鶴等[105]提出L-intimacy隱私保護模型,該模型能夠根據(jù)用戶與好友的親密度級別進行隱私保護。
社交網(wǎng)絡中的推理攻擊與保護技術處于不斷的對抗中,雙方技術都在提升。目前攻擊者所掌握的知識越來越多,攻擊能力越來越強;社交網(wǎng)絡數(shù)據(jù)包含的內容也越來越復雜,既包含用戶的各種屬性,也包含用戶之間的關系等多種敏感信息[106]。
在屬性推理方面,未來攻擊者可以通過對抗性機器學習得到更強大的分類器,利用它們來進行推理[107];收集更多的用戶信息,包括跨平臺的數(shù)據(jù),利用屬性之間的相關性執(zhí)行更好的屬性推理。針對位置的推理則可以利用計算機視覺技術更好地識別推文中照片的位置,考慮更多的連續(xù)社交行為之間的時空相關性等[108]。對于社交關系推理,未來工作的一些方向包括加強對社交圖模型鏈路權重的學習[109],擴展投票分配攻擊以推理用戶之間的隱藏社交關系等[110]。
而在防御方面未來主要分為兩大方向:其一是以服務為中心的方法,即依靠可信機制來阻止社交網(wǎng)絡服務發(fā)布揭示有關用戶信息的內容,例如使用點對點的社交網(wǎng)絡增強用戶的匿名性[111]。其二是以用戶為中心的方案,即通過用戶部署的防御框架將用戶信任從社交網(wǎng)絡提供商轉移到本地計算機,例如使用內容自動生成對抗文本進行混淆[112];自動生成社交行為來創(chuàng)建無法區(qū)分的網(wǎng)絡,從而對隱私推理攻擊進行預防。