国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)共享模式下個(gè)人檔案數(shù)據(jù)隱私泄露研究及仿真

2022-10-11 07:37:00鮮婭靜
電子設(shè)計(jì)工程 2022年19期
關(guān)鍵詞:網(wǎng)關(guān)總體服務(wù)器

鮮婭靜

(西安醫(yī)學(xué)院,陜西西安 710021)

隨著大數(shù)據(jù)、檔案管理、人工智能等技術(shù)不斷發(fā)展,高質(zhì)量、易敏感的個(gè)人檔案數(shù)據(jù)共享需求[1,2]也越來越迫切。數(shù)據(jù)共享技術(shù)是一把雙刃劍,一方面為人們的生活帶來了諸多便利,另一方面也導(dǎo)致個(gè)人檔案數(shù)據(jù)泄露的隱患不斷增加[3-4]。

為了有效應(yīng)對(duì)數(shù)據(jù)共享中隱私泄露的問題,國內(nèi)外眾多學(xué)者對(duì)去識(shí)別技術(shù)[5-6]進(jìn)行了研究,并取得了豐碩成果。一種有效思路是將法律引入數(shù)據(jù)共享方案[7],即只有遵循協(xié)議或法律保護(hù)的數(shù)據(jù)才能共享。另一種方案是研究技術(shù)理論,如文獻(xiàn)[8]提出了一種基于GRUs 和深度上下文詞表示的去標(biāo)識(shí)系統(tǒng);文獻(xiàn)[9]提出一種基于約束聚類的k-匿名隱私保護(hù)方法。然而k-匿名隱私保護(hù)方法無法保證數(shù)據(jù)記錄的唯一性,這將嚴(yán)重影響數(shù)據(jù)質(zhì)量。

為保護(hù)共享數(shù)據(jù)不受隱私侵犯,該文提出將受控的數(shù)據(jù)共享與數(shù)據(jù)去識(shí)別技術(shù)相結(jié)合,在提供高質(zhì)量數(shù)據(jù)和可擴(kuò)展性的同時(shí),能夠應(yīng)對(duì)受限訪問環(huán)境的隱私泄露問題。

1 受控?cái)?shù)據(jù)共享技術(shù)

1.1 網(wǎng)關(guān)設(shè)計(jì)和威脅分析

該節(jié)著重分析網(wǎng)關(guān),并使用數(shù)據(jù)流圖(Data-Flow Diagram,DFD)和威脅樹(Threat Tree,TT)[10]分析重新識(shí)別攻擊。

圖1 所示為數(shù)據(jù)共享網(wǎng)關(guān)的數(shù)據(jù)流圖。網(wǎng)關(guān)將請(qǐng)求發(fā)送到分析解決方案的接口,該接口運(yùn)行在包含敏感信息的數(shù)據(jù)存儲(chǔ)的頂部。為簡潔起見,該文重點(diǎn)討論隱私問題,并假設(shè)系統(tǒng)已包含信息安全的相關(guān)措施,即假設(shè)持有敏感數(shù)據(jù)的所有系統(tǒng)都已安裝防火墻,遠(yuǎn)程服務(wù)器之間的通信始終加密,并且每個(gè)用戶都要經(jīng)過正確的身份驗(yàn)證和授權(quán)。

圖1 數(shù)據(jù)共享網(wǎng)關(guān)的數(shù)據(jù)流圖

圖2 所示為數(shù)據(jù)共享中攻擊的威脅樹模型,可分為鏈接攻擊和直接泄露兩部分。鏈接攻擊核心為重識(shí)別數(shù)據(jù)技術(shù),該技術(shù)要求對(duì)手將數(shù)據(jù)集的記錄與附加信息相關(guān)聯(lián)。該過程可遠(yuǎn)程執(zhí)行,并將包含識(shí)別信息的數(shù)據(jù)集上傳到數(shù)據(jù)分析平臺(tái);或進(jìn)行本地執(zhí)行,將敏感研究數(shù)據(jù)下載到對(duì)手控制下的系統(tǒng)。當(dāng)用戶從給定的記錄中簡單地識(shí)別出一個(gè)人時(shí),就會(huì)發(fā)生直接泄露。這種威脅的典型例子是意外披露或內(nèi)部好奇,該情況經(jīng)常發(fā)生在研究人員沒有主動(dòng)和故意實(shí)施攻擊的情況下。

圖2 數(shù)據(jù)共享中攻擊的威脅樹模型

1.2 實(shí)施和緩解策略

受控?cái)?shù)據(jù)共享的主要目標(biāo)是防止接收者執(zhí)行鏈接攻擊。為此,必須反擊遠(yuǎn)程和本地鏈接的攻擊向量,并關(guān)閉多個(gè)側(cè)通道。

如圖3 所示,數(shù)據(jù)共享網(wǎng)關(guān)通過使用遠(yuǎn)程幀緩沖區(qū)(Remote Frame Buffer,RFB)協(xié)議[11],通過虛擬網(wǎng)絡(luò)計(jì)算(Virtual Network Computing,VNC)[12-13]公開其前端控制分析員和分析軟件之間的交互。VNC 客戶機(jī)接受用戶輸入,并將用戶輸入(即鼠標(biāo)和鍵盤事件)傳輸?shù)絍NC 服務(wù)器。VNC 服務(wù)器將這些事件重定向到X 服務(wù)器,X 服務(wù)器還提供VNC 服務(wù)器公開的幀緩沖區(qū)。作為網(wǎng)關(guān)和分析軟件之間的橋梁,X 服務(wù)器的配置為以Web瀏覽器方式顯示分析平臺(tái)的界面。

圖3 受控?cái)?shù)據(jù)共享環(huán)境

進(jìn)一步,需要關(guān)閉各種潛在的威脅通道。首先,必須確保用戶在瀏覽器中的安全。用戶不能執(zhí)行其他程序,瀏覽器只能與服務(wù)器通信,并且分析軟件不能用于訪問外部數(shù)據(jù)。其次,必須將VNC 服務(wù)器配置為不支持客戶端和服務(wù)器之間的復(fù)制和粘貼操作,以防止用戶傳輸結(jié)構(gòu)化數(shù)據(jù)。接著,為了防止用戶通過模擬鼠標(biāo)和鍵盤交互上傳大量數(shù)據(jù),必須為這類操作設(shè)置速率限制。最后,應(yīng)記錄用戶的鍵盤和鼠標(biāo)交互過程,并在交互會(huì)話期間錄制包含屏幕內(nèi)容的視頻,捕獲和存儲(chǔ)所有網(wǎng)絡(luò)信息。

2 數(shù)據(jù)去識(shí)別策略

受控?cái)?shù)據(jù)共享環(huán)境可防止數(shù)據(jù)收件人執(zhí)行鏈接攻擊。為了防止直接泄露,必須確保在數(shù)據(jù)主體身份方面引入足夠程度的不確定性。為此,該文開發(fā)了一種定制的數(shù)據(jù)去識(shí)別方法。

2.1 總體唯一性模型

如前文所述,該節(jié)引入某種程度的不確定性,即記錄是否對(duì)應(yīng)于特定的個(gè)人。當(dāng)總體唯一性(Population Uniques,PU)模型的數(shù)量(即數(shù)據(jù)集中具有總體內(nèi)唯一特征的記錄)受到控制時(shí),樣本唯一性(Sample Uniques,SU)的記錄(即數(shù)據(jù)集內(nèi)唯一的記錄)也會(huì)引入不確定性。因此,只有數(shù)據(jù)集模型中唯一記錄的子集具有總體唯一性。樣本中的唯一記錄對(duì)應(yīng)于總體中給定個(gè)體的概率為若|PU|=|SU|,則說明系統(tǒng)提供了足夠的保護(hù)。

令n表示數(shù)據(jù)集中要取消標(biāo)識(shí)的記錄數(shù),N表示從中提取記錄的總體大小,u表示數(shù)據(jù)集中的記錄組數(shù)。每個(gè)組由具有相同特征的記錄組成,si表示包含i個(gè)記錄組的數(shù)目??傮w唯一性的估計(jì)如下:

其中,Γ(·)表示伽瑪函數(shù),是階乘函數(shù)對(duì)實(shí)數(shù)的擴(kuò)展。θ和α是以下二元非線性方程組的根:

2.2 算法過程

在評(píng)估給定的去識(shí)別策略時(shí),首先將數(shù)據(jù)集利用泛化方案轉(zhuǎn)換成一組不可區(qū)分的記錄;其次,利用k-匿名隱私模型計(jì)算風(fēng)險(xiǎn)概況,并將其作為總體唯一性模型的輸入;再次,如果總體唯一性的數(shù)目不低于給定的閾值,則具有最低信息內(nèi)容的記錄組被抑制;接著,針對(duì)修改后的數(shù)據(jù)集評(píng)估隱私模型;最后,重復(fù)此過程,直到達(dá)到閾值。

該算法計(jì)算了輸出數(shù)據(jù)集的質(zhì)量,并繼續(xù)執(zhí)行下一個(gè)策略。當(dāng)處理完所有候選解后,輸出質(zhì)量最高的解。然而,總體唯一性模型計(jì)算過程復(fù)雜且時(shí)效性較低。為了使這個(gè)過程在現(xiàn)實(shí)環(huán)境中可行,該文實(shí)施了一些優(yōu)化策略,其一是減少候選策略的數(shù)量;其二是降低風(fēng)險(xiǎn)計(jì)算的復(fù)雜性,具體描述如下。

2.2.1 減少候選策略數(shù)量

該策略主要基于數(shù)據(jù)質(zhì)量模型的通用剪枝策略來減少候選策略的數(shù)量。其基本思想是通過測(cè)量兩種類型的轉(zhuǎn)換所導(dǎo)致的數(shù)據(jù)質(zhì)量降低,來考慮將數(shù)據(jù)通過屬性泛化和記錄抑制進(jìn)行轉(zhuǎn)換。隨著泛化程度的提高,僅泛化數(shù)據(jù)所導(dǎo)致的質(zhì)量下降單調(diào)增加。這可用于排除僅使用泛化生成的數(shù)據(jù)集質(zhì)量已經(jīng)低于當(dāng)前已知最佳解決方案質(zhì)量的所有直接和間接策略。

2.2.2 降低風(fēng)險(xiǎn)計(jì)算的復(fù)雜性

計(jì)算風(fēng)險(xiǎn)需要用牛頓法[14-15]求解一個(gè)二元非線性方程組。這個(gè)迭代解算器從一個(gè)初始猜測(cè)開始,然后通過反復(fù)計(jì)算目標(biāo)函數(shù)及其四個(gè)偏導(dǎo)數(shù),朝著根方向搜索可行解。

為降低風(fēng)險(xiǎn)計(jì)算的復(fù)雜性,首先修改了解算器計(jì)算對(duì)象函數(shù)以及單個(gè)方法調(diào)用中的導(dǎo)數(shù)。將函數(shù)分解成常用的塊,然后在不同的計(jì)算中進(jìn)行融合和重用。例如,考慮以下兩個(gè)函數(shù):

其中,p1(α,θ)是標(biāo)函數(shù)f1(α,θ)(式(2))的第一項(xiàng)和,p2(α,θ)是標(biāo)函數(shù)f2(α,θ)(式(3))的第一項(xiàng)和。由于這些函數(shù)可以在單個(gè)循環(huán)(循環(huán)融合)中進(jìn)行計(jì)算,且p2(α,θ)的和可以通過p1(α,θ)的和乘以i得到。

然而,評(píng)估函數(shù)仍然需要多次迭代。由于這兩個(gè)函數(shù)都是有理函數(shù)的有限和,因此可以用Digamma函數(shù)ψ來代替,其為Gamma 函數(shù)的對(duì)數(shù)導(dǎo)數(shù)。則有如下遞推公式:

因此,p1(α,θ)可更新為:

推導(dǎo)過程有3 個(gè)重要步驟。首先,需確保索引變量i沒有因子。這可通過從總和中分解出α-1 來實(shí)現(xiàn);其次,將索引變量從0 開始,而不是從1 開始;最后,將式(5)中描述的等式代入Digamma 函數(shù)ψ,并進(jìn)行公式簡化。

同理,p2(α,θ)可推導(dǎo)如下:

可以看出,p1(α,θ)和p2(α,θ)共享Digamma 對(duì)相同輸入的評(píng)估,因此它們可以相互融合。

3 仿真與分析

該節(jié)利用健康數(shù)據(jù)去識(shí)別工具ARX 對(duì)所提方法進(jìn)行仿真分析。仿真環(huán)境為四核3.1 GHz Intel core i5 CPU、運(yùn)行64 位Linux 3.2.0 內(nèi)核和64 位JVM的服務(wù)器。

3.1 數(shù)據(jù)集

仿真所用數(shù)據(jù)集均來自互聯(lián)網(wǎng)上的開源數(shù)據(jù)集,包括交通事故死亡分析報(bào)告數(shù)據(jù)集(FARS)、美國時(shí)間使用調(diào)查數(shù)據(jù)集(ATUS)、美國人口普查數(shù)據(jù)集(ADULT)、綜合健康訪談系列數(shù)據(jù)集(IHIS)和知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘數(shù)據(jù)集(KDD)。對(duì)于所有數(shù)據(jù)集,選擇8~9 個(gè)準(zhǔn)標(biāo)識(shí)符,其中包括傳統(tǒng)的人口統(tǒng)計(jì)數(shù)據(jù)(如年齡、性別),這些數(shù)據(jù)經(jīng)常用于重新確認(rèn)身份的攻擊,以及可能導(dǎo)致意外重新確認(rèn)身份的其他屬性,如婚姻狀況和教育程度等。

3.2 結(jié)果節(jié)分析

表1 所示為不同數(shù)據(jù)集下,該文所提算法和使用k-匿名算法[16]時(shí)數(shù)據(jù)去識(shí)別的數(shù)據(jù)質(zhì)量和執(zhí)行時(shí)間統(tǒng)計(jì)結(jié)果??梢钥闯觯S著k值變化,數(shù)據(jù)質(zhì)量有提升,約為9%。相比之下,使用該文所提的總體唯一性模型,得到的數(shù)據(jù)質(zhì)量明顯高于使用k-匿名時(shí)的數(shù)據(jù)質(zhì)量,質(zhì)量提高約40%。

表1 不同數(shù)據(jù)集下各算法性能對(duì)比

對(duì)比執(zhí)行時(shí)間可以看出,在某些情況下使用總體唯一性模型的時(shí)間較慢(如KDD、FARS、IHIS),而在其他情況下較快(如ADULT、ATUS)。分析原因在于所涉及的不同優(yōu)化過程的相互作用。例如,減少候選策略數(shù)量方法的有效性隨著最優(yōu)解的質(zhì)量提高而減弱。因此,對(duì)總體唯一性模型的限制可能比k-匿名算法更多,導(dǎo)致尋找最優(yōu)解的過程更加復(fù)雜。

圖4 所示為不同數(shù)據(jù)集下剪枝和無剪枝策略時(shí)間對(duì)比,可以看出,所提排除候選策略的方法刪減了大部分搜索空間,在ATUS 數(shù)據(jù)集下執(zhí)行時(shí)間縮短了倍。圖5 所示為不同數(shù)據(jù)集下優(yōu)化和無優(yōu)化策略的時(shí)間對(duì)比,可以看出,在ADULT、KDD、FARS 數(shù)據(jù)集下效果不明顯,但在ATUS 數(shù)據(jù)集下其運(yùn)行效率提升47 倍左右,IHIS 數(shù)據(jù)集下運(yùn)行效率提升3 倍左右。

圖4 不同數(shù)據(jù)集下剪枝和無剪枝策略時(shí)間對(duì)比

圖5 不同數(shù)據(jù)集下優(yōu)化和無優(yōu)化策略時(shí)間對(duì)比

4 結(jié)論

為了有效應(yīng)對(duì)數(shù)據(jù)共享中隱私泄露問題,對(duì)個(gè)人檔案數(shù)據(jù)隱私泄露問題進(jìn)行了研究與分析,并提出一種將受控的數(shù)據(jù)共享與數(shù)據(jù)去識(shí)別技術(shù)相結(jié)合的模型。受控?cái)?shù)據(jù)共享環(huán)境可防止數(shù)據(jù)收件人執(zhí)行鏈接攻擊。為了防止直接泄露,必須確保在數(shù)據(jù)主體身份方面引入足夠程度的不確定性。為此,開發(fā)了一種定制的數(shù)據(jù)去識(shí)別方法。為保證該過程在現(xiàn)實(shí)環(huán)境中可行,實(shí)施了一些優(yōu)化策略,其一是減少候選策略的數(shù)量,其二是降低風(fēng)險(xiǎn)計(jì)算的復(fù)雜性。

未來可將能耗、資源受限制等條件引入模型,進(jìn)一步增強(qiáng)系統(tǒng)的實(shí)用性。

猜你喜歡
網(wǎng)關(guān)總體服務(wù)器
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
2020年秋糧收購總體進(jìn)度快于上年
基于改進(jìn)RPS技術(shù)的IPSEC VPN網(wǎng)關(guān)設(shè)計(jì)
通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計(jì)與實(shí)現(xiàn)
外匯市場運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢(shì)
中國外匯(2019年6期)2019-07-13 05:44:06
直擊高考中的用樣本估計(jì)總體
得形忘意的服務(wù)器標(biāo)準(zhǔn)
計(jì)算機(jī)網(wǎng)絡(luò)安全服務(wù)器入侵與防御
LTE Small Cell網(wǎng)關(guān)及虛擬網(wǎng)關(guān)技術(shù)研究
應(yīng)對(duì)氣候變化需要打通“網(wǎng)關(guān)”
太陽能(2015年7期)2015-04-12 06:49:50
微博| 阿巴嘎旗| 清镇市| 河北区| 格尔木市| 洛南县| 石棉县| 洪洞县| 蒙阴县| 南投市| 余姚市| 射洪县| 新营市| 石狮市| 太保市| 杂多县| 安福县| 确山县| 海盐县| 德州市| 蒙阴县| 张家港市| 扎赉特旗| 观塘区| 临夏县| 自贡市| 昆明市| 灌阳县| 津市市| 家居| 麻城市| 固安县| 股票| 钟山县| 大兴区| 新蔡县| 长顺县| 班玛县| 岳普湖县| 体育| 宜城市|