国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

量化敏感度的個(gè)性化數(shù)據(jù)發(fā)布模型

2022-09-06 13:17:20朱理奧曹天杰
關(guān)鍵詞:數(shù)據(jù)表等價(jià)敏感度

朱理奧 曹天杰

(中國(guó)礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 徐州 221116)

0 引 言

現(xiàn)如今,大數(shù)據(jù)已經(jīng)成為時(shí)代熱點(diǎn)。人們?cè)谌粘I钪械姆椒矫婷嫦硎苤髷?shù)據(jù)所帶來(lái)的便利。這是因?yàn)獒槍?duì)大數(shù)據(jù)的挖掘、分析和利用能夠更好地在商業(yè)、行政決策以及科學(xué)研究領(lǐng)域?qū)θ藗兲峁椭?。但是由于這些數(shù)據(jù)本身來(lái)源于現(xiàn)實(shí)中的每個(gè)個(gè)體,它們本身包含有大量的可以與個(gè)人產(chǎn)生關(guān)聯(lián)的信息,甚至?xí)▊€(gè)人所不愿意對(duì)外界披露的隱私信息。這些信息在遭到泄露之后可能會(huì)對(duì)相關(guān)聯(lián)的個(gè)人產(chǎn)生難以預(yù)計(jì)的后果。因此,在發(fā)布大量數(shù)據(jù)的同時(shí)保證個(gè)人隱私的技術(shù),即數(shù)據(jù)發(fā)布隱私保護(hù)技術(shù)(Privacy Preserving in Data Publishing, PPDP)[1-2]便成為了研究的重點(diǎn)。這些研究的重點(diǎn)在于如何在保證大量數(shù)據(jù)能夠被用于大數(shù)據(jù)分析和利用的同時(shí),保證用戶隱私不被泄露。

最開(kāi)始,人們提出的數(shù)據(jù)發(fā)布模型是建立在匿名化[3]基礎(chǔ)上的。所謂匿名化,是指在數(shù)據(jù)發(fā)布階段,通過(guò)一定的處理,將所發(fā)布數(shù)據(jù)與個(gè)體身份的關(guān)聯(lián)打破,從而避免攻擊者利用所發(fā)布出來(lái)的數(shù)據(jù)準(zhǔn)確確定個(gè)人。這些經(jīng)典的模型包括k-匿名模型[4-5](k-Anonymity)、l-多樣性[6](l-Diversity)和t-近似[7](t-Closeness)等等。在這些經(jīng)典的模型的基礎(chǔ)上,有很多改進(jìn)的模型被提出。不過(guò),這些傳統(tǒng)模型只是單純考慮了包含隱私的數(shù)據(jù)的敏感程度。對(duì)于這一敏感程度的把握往往都是根據(jù)數(shù)據(jù)發(fā)布者基于自身經(jīng)驗(yàn)決定,并未考慮到用戶個(gè)人對(duì)于隱私保護(hù)的需求,同時(shí)也帶來(lái)了可能的保護(hù)程度與實(shí)際所需不匹配的情況(即對(duì)于較不敏感的數(shù)據(jù)進(jìn)行過(guò)度保護(hù),對(duì)敏感程度較高的數(shù)據(jù)保護(hù)程度不足)。

當(dāng)前,關(guān)于考慮用戶自身需求的隱私保護(hù)模型,已經(jīng)得到了一些關(guān)注。其中有針對(duì)每一條記錄設(shè)計(jì)不同保護(hù)需求的方法[8-9],也有將個(gè)人需求作為評(píng)估標(biāo)準(zhǔn)之一的方法[10],以及為敏感屬性設(shè)置泛化樹(shù)的方法[11]。但是,針對(duì)保護(hù)程度與實(shí)際所需不匹配的問(wèn)題卻并未得到重視。僅有文獻(xiàn)[12]提出的將敏感度量化計(jì)算的(w,l,k)-匿名模型。但是這一模型并未考慮用戶個(gè)人的隱私需求。目前尚未有研究同時(shí)解決這兩個(gè)問(wèn)題。

本文針對(duì)數(shù)據(jù)發(fā)布中的隱私保護(hù)問(wèn)題,基于(w,l,k)-匿名模型進(jìn)行改進(jìn)。在保留原本的利用量化計(jì)算來(lái)解決保護(hù)程度與實(shí)際所需不匹配的問(wèn)題的基礎(chǔ)上,對(duì)用戶的隱私保護(hù)需求進(jìn)行量化,參與敏感度的計(jì)算。本文的模型既保留了(w,l,k)-匿名模型的優(yōu)勢(shì),又具有了對(duì)用戶個(gè)性化隱私需求的支持,具有更好的隱私保護(hù)能力。

1 相關(guān)概念

本文在之后的討論中將會(huì)用到一些概念,現(xiàn)將對(duì)這些概念進(jìn)行必要的說(shuō)明。

在一個(gè)數(shù)據(jù)表中,每一條數(shù)據(jù)記錄(被稱為元組)的各個(gè)屬性可以簡(jiǎn)單劃分為能夠直接標(biāo)識(shí)個(gè)體身份的標(biāo)識(shí)符屬性、組合起來(lái)可以推斷用戶身份的準(zhǔn)標(biāo)識(shí)符屬性、敏感屬性和非敏感屬性。研究中,一般假定數(shù)據(jù)表中不包含標(biāo)識(shí)符屬性和非敏感屬性,主要針對(duì)敏感屬性進(jìn)行隱私保護(hù)。

在討論數(shù)據(jù)發(fā)布匿名規(guī)則時(shí),有以下一些常用定義。

1) 等價(jià)類(Equivalence Class, EC):經(jīng)過(guò)匿名化處理后,所有擁有相同準(zhǔn)標(biāo)識(shí)符屬性值的元組構(gòu)成一個(gè)等價(jià)類。

2)k-匿名:數(shù)據(jù)表T包含n個(gè)等價(jià)類{A1,A2,…,An}。對(duì)于T中的任意一個(gè)等價(jià)類Ai,都有:

|Ai|≥k

成立。那么則稱T滿足k-匿名。其中|Ai|表示等價(jià)類Ai中所包含的元組個(gè)數(shù)。

3)l-多樣性:數(shù)據(jù)表T包含n個(gè)等價(jià)類{A1,A2,…,An}。對(duì)于T中的任意一個(gè)等價(jià)類Ai,其包含的敏感屬性值至少有l(wèi)個(gè)不同的取值,那么則稱T滿足l-多樣性。

在對(duì)數(shù)據(jù)表應(yīng)用數(shù)據(jù)發(fā)布模型時(shí),有以下幾個(gè)常用概念。

1) 泛化:指使用更具概括性意義的屬性值來(lái)對(duì)具體屬性值進(jìn)行替代的過(guò)程。

2) 泛化樹(shù):又叫泛化層次,指表示屬性值以及泛化后的屬性值之間的關(guān)聯(lián)的樹(shù)結(jié)構(gòu)。

圖1是針對(duì)一個(gè)數(shù)據(jù)表中“Disease”屬性的屬性值所建立的一個(gè)泛化樹(shù)。

圖1 “Disease”屬性泛化樹(shù)

2 敏感度量化模型

本節(jié)將對(duì)現(xiàn)有的敏感度量化模型,即(w,l,k)-匿名模型進(jìn)行分析,研究其所存在的不足,并且針對(duì)這些問(wèn)題提出改進(jìn)模型,同時(shí)給出改進(jìn)后模型的實(shí)現(xiàn)方式。

2.1 (w,l,k)-匿名模型

文獻(xiàn)[12]針對(duì)數(shù)據(jù)發(fā)布模型中存在的隱私保護(hù)程度和實(shí)際所需保護(hù)不匹配的問(wèn)題,提出了一個(gè)通過(guò)量化敏感度值來(lái)幫助進(jìn)行數(shù)據(jù)匿名化的模型——(w,l,k)-匿名模型。

定義1((w,l,k)-匿名模型[12]) 當(dāng)一個(gè)給定數(shù)據(jù)表T滿足k-匿名、l-多樣性,并且每個(gè)等價(jià)類的平均敏感度不超過(guò)w時(shí),該數(shù)據(jù)表滿足(w,l,k)-匿名模型。

在這個(gè)模型中,等價(jià)類M的平均敏感度waverage的計(jì)算方法被定義為:

式中:wa表示敏感屬性A的某一屬性值a的敏感度。它的計(jì)算方法定義為:

wa=α×wfa+(1-α)×wlaα∈[0,1]

式中:α為用于控制敏感度對(duì)于頻率敏感度wfa和分級(jí)敏感度wla的依賴程度的全局參數(shù),由數(shù)據(jù)發(fā)布者根據(jù)實(shí)際需要決定。wfa、wla的計(jì)算公式分別為:

式中:m表示A的屬性值按照敏感程度劃分的總等級(jí)數(shù),fa表示屬性值a在整個(gè)數(shù)據(jù)表中的頻率,i表示該a所處于的敏感程度等級(jí)。

(w,l,k)-匿名模型一方面通過(guò)綜合考慮敏感屬性值的頻率敏感度和分級(jí)敏感度,避免了發(fā)布者完全憑借自身經(jīng)驗(yàn)決定隱私保護(hù)程度所帶來(lái)的主觀性過(guò)強(qiáng)的問(wèn)題,另一方面利用量化計(jì)算來(lái)幫助發(fā)布者判斷具體所需要的隱私保護(hù)程度。但是,該模型僅僅考慮了敏感屬性值本身的敏感程度,并未考慮到用戶個(gè)人對(duì)于隱私保護(hù)的需求。在某些情況下,用戶可能會(huì)出于自身的特殊情況,對(duì)較低敏感度的敏感屬性提出較高的隱私保護(hù)需求。在這種情形下,這一模型便不再適用。

2.2 個(gè)性化(w,l,k)-匿名模型

根據(jù)上文提及到的(w,l,k)-匿名模型所存在的問(wèn)題,本文針對(duì)性地提出個(gè)性化-(w,l,k)-匿名模型。在原本模型的基礎(chǔ)上,將用戶個(gè)人的隱私需求進(jìn)行量化,參與到等價(jià)類的平均敏感程度的計(jì)算當(dāng)中。

對(duì)于用戶的隱私需求,參考敏感屬性值的語(yǔ)義敏感度分級(jí)方法,考慮設(shè)立如表1所示的一個(gè)用戶隱私需求等級(jí)表。

表1 用戶隱私需求等級(jí)表示例

設(shè)立用戶隱私需求等級(jí)表的目的在于,實(shí)際情況下,用戶本身僅僅能夠?qū)ψ约旱碾[私需求有一個(gè)感性認(rèn)知,而并不能直接提供一個(gè)定量數(shù)據(jù)。此外,這也便于在實(shí)際應(yīng)用情形下,通過(guò)發(fā)放調(diào)查問(wèn)卷的方法向用戶搜集其個(gè)性化隱私需求。

在此基礎(chǔ)上,給每個(gè)需求等級(jí)賦一個(gè)表征敏感度的數(shù)值,以便進(jìn)行量化。數(shù)值越大,表示所要求的保護(hù)等級(jí)越高。表2便是針對(duì)表1的一個(gè)量化示例。

表2 對(duì)表1的量化示例

在完成了對(duì)用戶需求的量化定義之后,便可以進(jìn)一步定義用戶隱私需求的計(jì)算方法。

定義2(用戶需求敏感度計(jì)算方法) 根據(jù)用戶對(duì)于隱私保護(hù)程度需求在泛化層次樹(shù)上對(duì)應(yīng)的層級(jí)ipl,可以計(jì)算出用戶需求敏感度wapl:

定義3(敏感屬性值綜合敏感度計(jì)算) 考慮用戶敏感度需求的某一敏感屬性A的屬性值a的綜合敏感度wgeneral的計(jì)算方法如下:

wgeneral=max{α×wfa+(1-α)×wla,wapl}α∈[0,1]

如果α×wfa+(1-α)×wla≥wapl,此時(shí)用戶需求wapl低于屬性值敏感度權(quán)重wa,取wa作為最終的綜合敏感度;如果α×wfa+(1-α)×wla

在定義了用戶的隱私需求計(jì)算方法之后,可以給出改進(jìn)模型的定義。

定義4(個(gè)性化(w,l,k)-匿名模型) 當(dāng)一個(gè)給定數(shù)據(jù)表T滿足k-匿名、l-多樣性,并且每個(gè)等價(jià)類的平均綜合敏感度不超過(guò)w時(shí),該數(shù)據(jù)表滿足要求個(gè)性化(w,l,k)-匿名模型。

其中,某個(gè)等價(jià)類M的平均綜合敏感度wgeneral_average的計(jì)算方法為:

模型中依然保留有參數(shù)α,由數(shù)據(jù)發(fā)布者根據(jù)實(shí)際情況,決定在計(jì)算屬性值敏感度權(quán)重時(shí)對(duì)語(yǔ)義敏感度和頻率敏感度的倚重程度。

k-匿名的要求是為了防止數(shù)據(jù)表經(jīng)過(guò)匿名處理后,由于等價(jià)類中可能僅僅含有一條記錄而導(dǎo)致隱私泄露。l-多樣性的要求是為了防止由于等價(jià)類中敏感屬性值取值相同而導(dǎo)致的隱私泄露。平均綜合敏感度同時(shí)考慮到了敏感屬性值的頻率分布、語(yǔ)義敏感性以及用戶自身的需求,表征了等價(jià)類中各敏感屬性值在綜合這三方面的普遍敏感水平。對(duì)其進(jìn)行限制便是對(duì)每一個(gè)等價(jià)類的敏感水平進(jìn)行限制,防止由于一個(gè)等價(jià)類中因?yàn)榘急冗^(guò)大的高敏感屬性值而導(dǎo)致的隱私泄露。

2.3 模型實(shí)現(xiàn)

在模型的實(shí)現(xiàn)方面,本文將同文獻(xiàn)[12]一樣使用基于ARX框架[13]的Flash算法[14],來(lái)對(duì)個(gè)性化(w,l,k)-匿名模型進(jìn)行實(shí)現(xiàn)。

在介紹具體實(shí)現(xiàn)算法之前,首先需要介紹在該算法中所使用的泛化格的概念。

定義5(泛化格) 將數(shù)據(jù)表中每個(gè)屬性的泛化程度用泛化層次高度進(jìn)行表示,可以得到一個(gè)表示針對(duì)當(dāng)前數(shù)據(jù)表的泛化配置的數(shù)字列表。所有的這些列表所表示的泛化配置空間,被稱為泛化格。

例如,由圖2所示的泛化層次,其對(duì)應(yīng)的泛化格如圖3所示。

圖2 三個(gè)屬性的泛化層次

圖3 由圖2所產(chǎn)生的泛化格

泛化格通過(guò)將泛化配置簡(jiǎn)化為一個(gè)數(shù)字組成的列表,從而簡(jiǎn)潔方便地將針對(duì)一個(gè)特定數(shù)據(jù)表的泛化空間表示為樹(shù)的形式,為存儲(chǔ)和遍歷泛化空間提供了便利。

Flash算法通過(guò)對(duì)于泛化格的自下而上的二分查找,遍歷泛化格的所有節(jié)點(diǎn),以便尋找到滿足匿名化方案的最優(yōu)解。由于ARX框架本身對(duì)于數(shù)據(jù)表進(jìn)行了大量?jī)?yōu)化,利用哈希表、快照緩沖區(qū)等方法提高了對(duì)于匿名狀態(tài)的檢查速度,對(duì)泛化格的遍歷搜索和檢查成為可能。

算法1Flash算法外循環(huán)

輸入:Laticelattice

//輸入泛化格

開(kāi)始

heap=newmin-heap

//最小堆

for/from0tolattice.height-1do

foreachnode∈level[l]do

if!node.taggedthen

path=FINDPATH(node)

CHECKPATH(path,heap)

while!heap.isEmptydo

node=heap.extractMin

foreachup∈node.successorsdo

if!up.taggedthen

path=FINDPATH(up)

CHECKPATH(path,heap)

算法的外循環(huán):主要是實(shí)現(xiàn)了針對(duì)泛化格的深度優(yōu)先貪婪搜索。每次遇到未被標(biāo)記為已被檢查過(guò)的節(jié)點(diǎn),便調(diào)用FINDPATH(NODE)方法來(lái)找到一條從NODE到頂層的路徑,并且對(duì)路徑調(diào)用CHECKPATH(PATH,HEAP)方法進(jìn)行檢查。

算法2FINDPATH(NODE)

輸入:Start nodenode

輸出:Path of untagged nodespath

開(kāi)始

//尋找一條未被標(biāo)記的節(jié)點(diǎn)組成的路徑

path=new list

whilepath.head() !=nodedo

path.add(node)

foreachup∈node.successorsdo

if!up.taggedthen

node=up

break

returnpath

FINDPATH(NODE)方法:針對(duì)每一個(gè)節(jié)點(diǎn),尋找它首個(gè)未被標(biāo)記的子節(jié)點(diǎn)加入路徑,直到抵達(dá)泛化格最頂端或是當(dāng)前節(jié)點(diǎn)的所有子節(jié)點(diǎn)已被標(biāo)記時(shí)停止。返回路徑,以便對(duì)路徑中的節(jié)點(diǎn)進(jìn)行檢查。

算法3CHECKPATH(PATH,HEAP)

輸入:Pathpath, heapheap

開(kāi)始

Low=0;high=path.size-1;optmum=null

whilelow≤highdo

mid=int((low+high)/2)

//向下取整

node=path.get(mid)

//選取中間節(jié)點(diǎn)進(jìn)行二分搜索

ifCHECKANDTAG(NODE)then

//CHECKANDTAG

//(NODE)將檢查節(jié)點(diǎn)的匿名性,并且標(biāo)記已被檢查過(guò)的節(jié)點(diǎn)

//當(dāng)前節(jié)點(diǎn)符合匿名條件

optimum=node

high=mid-1

else

//當(dāng)前節(jié)點(diǎn)不符合匿名條件

heap.add(node)

low=mid+1

STORE(optimum)

//存儲(chǔ)符合匿名條件的節(jié)點(diǎn)的局部最優(yōu)

//解,因?yàn)樗赡苁侨肿顑?yōu)解

檢查路徑的方法。對(duì)路徑進(jìn)行二分搜索。對(duì)每一個(gè)節(jié)點(diǎn)調(diào)用CHECKANDTAG(NODE)方法進(jìn)行匿名性檢查,判斷該節(jié)點(diǎn)所代表的泛化配置是否滿足匿名模型的要求。如果滿足,則將其儲(chǔ)存;如果不滿足,則不儲(chǔ)存。由于ARX框架本身進(jìn)行了針對(duì)性優(yōu)化,將數(shù)據(jù)表中的各個(gè)屬性值(包括泛化后的所有可能的值)轉(zhuǎn)化為數(shù)值,并且以哈希表的形式進(jìn)行存儲(chǔ)。每次判斷匿名條件是否符合時(shí),僅僅對(duì)受到泛化配置改變影響的部分進(jìn)行修改,保留不受影響的部分,算法運(yùn)行耗時(shí)較短。

3 實(shí) 驗(yàn)

將通過(guò)實(shí)驗(yàn)來(lái)對(duì)本文模型和(w,l,k)-匿名模型進(jìn)行比較,以便對(duì)本文模型的性能進(jìn)行評(píng)估。

3.1 模型評(píng)估指標(biāo)

在評(píng)價(jià)本文提出的數(shù)據(jù)發(fā)布模型時(shí),將從數(shù)據(jù)效用和隱私保護(hù)兩個(gè)方面進(jìn)行評(píng)估。

在評(píng)價(jià)數(shù)據(jù)效用方面,將采用AECS和PM作為評(píng)估指標(biāo)。

定義6(平均等價(jià)類大小[15],Average Equivalence Class Size,AECS) 數(shù)據(jù)表T中等價(jià)類的平均大小。

式中:|T|表示數(shù)據(jù)表中的總元組個(gè)數(shù);k為k-匿名模型的參數(shù);total_equivalence_class表示等價(jià)類的總個(gè)數(shù)。

定義7(準(zhǔn)確度[5],Precision Metric,PM)一個(gè)表征數(shù)據(jù)表T中屬性A的各屬性值A(chǔ)i泛化所帶來(lái)的損失的量。

式中:NA表示表中屬性的個(gè)數(shù);N表示表中元組的個(gè)數(shù);|DGHAi|表示屬性Ai的泛化層次總高度;h表示當(dāng)前泛化方法下單個(gè)屬性值的泛化高度。

在評(píng)估隱私保護(hù)時(shí),將與文獻(xiàn)[12]相同,使用高危等價(jià)類占比(即高危等價(jià)類占總等價(jià)類的比例)作為評(píng)估指標(biāo)。

定義8(高危等價(jià)類[12]) 如果一個(gè)等價(jià)類M中具有最高敏感等級(jí)的屬性值在該等價(jià)類中的頻率之和是其在整個(gè)數(shù)據(jù)表中的頻率的5倍或以上,那么該等價(jià)類M是一個(gè)高危等價(jià)類。

一般而言,高危等價(jià)類占比越高,屬性值披露風(fēng)險(xiǎn)越大。

3.2 評(píng)估實(shí)驗(yàn)設(shè)計(jì)

在數(shù)據(jù)選用方面,使用相關(guān)研究中被廣為使用的Adult數(shù)據(jù)集。這個(gè)數(shù)據(jù)集來(lái)自UCI Machine Learning Repository,是一個(gè)公開(kāi)數(shù)據(jù)集。它包括了48 842條數(shù)據(jù)記錄。在刪除其中的擁有空值和不確定值得記錄之后,最終得到30 169條數(shù)據(jù)。為方便計(jì)算,隨機(jī)選取其中的30 000條數(shù)據(jù)作為實(shí)驗(yàn)用數(shù)據(jù)集。與相關(guān)研究的各文獻(xiàn)一樣,選取{Age, Work-class, Education, Native-Country, Marital Status, Race, Sex}這幾項(xiàng)作為準(zhǔn)標(biāo)識(shí)符屬性。由于原數(shù)據(jù)集中并未包含敏感數(shù)據(jù)屬性,現(xiàn)為各數(shù)據(jù)項(xiàng)按照如表1所示的頻率,隨機(jī)地分配Disease數(shù)據(jù)項(xiàng)的各屬性值,并且由此可以計(jì)算出相應(yīng)的頻率敏感度wfa。

表3 Disease數(shù)據(jù)項(xiàng)的各屬性值及其相應(yīng)的頻率敏感度wfa

這些屬性值的敏感度分級(jí)以及每個(gè)屬性值相對(duì)應(yīng)的分級(jí)敏感度如表4所示。

表4 Disease數(shù)據(jù)項(xiàng)的各屬性值的敏感度分級(jí)及其相應(yīng)的分級(jí)敏感度wla

實(shí)驗(yàn)中,為每條記錄隨機(jī)生成一個(gè)用戶隱私需求等級(jí)。其具體的分級(jí)如表5所示。

表5 用戶個(gè)人隱私需求等級(jí)及其相應(yīng)的敏感度wapl

實(shí)驗(yàn)中取參數(shù)α=0.5,l=4。實(shí)驗(yàn)使用的CPU為Intel Core i7- 8750H,操作系統(tǒng)為Windows 10,編程語(yǔ)言為Java。實(shí)驗(yàn)中選取AECS和PM作為數(shù)據(jù)效用的度量,使用高位等價(jià)類占比作為隱私保護(hù)程度的度量。由于實(shí)驗(yàn)中整張表格的敏感度值的平均數(shù)為0.567,w的取值如果低于這個(gè)值可能會(huì)導(dǎo)致過(guò)多的數(shù)據(jù)效用損失。因此,實(shí)驗(yàn)中取w=0.65。實(shí)驗(yàn)將本文模型與改進(jìn)前的模型進(jìn)行比較。

3.3 實(shí)驗(yàn)結(jié)果

隨著k的取值的增大,兩種模型的平均等價(jià)類大小都在減小。這是因?yàn)锳ECS的計(jì)算公式排除了k的取值對(duì)于等價(jià)類大小的影響。從圖4中可以看到,在k≤50時(shí),本文模型的AECS均大于(w,l,k)-匿名模型。這是因?yàn)橛捎诒疚哪P驮谟?jì)算綜合敏感度時(shí),是選取了wa和wapl兩者之間的最大值。這一步導(dǎo)致了對(duì)于每一個(gè)敏感屬性值,必定有wgeneral≥wa。在模型參數(shù)w的取值一定的情況下,為了滿足匿名要求,應(yīng)用了個(gè)性化(w,l,k)-匿名模型的數(shù)據(jù)表需要在等價(jià)類中擁有更多的元組,即令等價(jià)類更大,才能滿足同樣的匿名要求。此外,從圖4中同樣可以看出,在k=100時(shí),兩個(gè)模型的AECS大小相等,并且在之后保持了相等的狀態(tài)。這表明隨著k的取值的增大,k逐漸取代匿名模型,成為了對(duì)于數(shù)據(jù)效用的主要影響因素。

圖4 AECS與k的取值關(guān)系

如圖5所示,PM呈現(xiàn)出了相同的趨勢(shì),隨著k值的增大而減小。這是由于隨著k值的增大,等價(jià)類的總體大小在增大,在進(jìn)行數(shù)據(jù)匿名化時(shí)需要對(duì)準(zhǔn)標(biāo)識(shí)符所包含的信息進(jìn)行更大程度的抹除,消除每個(gè)元組的獨(dú)特性,才能讓更多的元組出于同一等價(jià)類中。(w,l,k)-匿名模型在k≤50時(shí),具有相對(duì)于本文模型的更高的PM,但優(yōu)勢(shì)很小,PM差值不足0.05,并且在k=100時(shí)被個(gè)性化(w,l,k)-匿名模型追平。正如文獻(xiàn)[16]所指出的,尋找一個(gè)擁有最高數(shù)據(jù)效用同時(shí)具有最優(yōu)隱私保護(hù)能力的k-匿名數(shù)據(jù)集是一個(gè)NP難問(wèn)題。由于本文方案提出了更高的隱私保護(hù)要求,在數(shù)據(jù)效用方面會(huì)有所犧牲。

圖5 PM與k的取值關(guān)系

在隱私保護(hù)方面的情況如圖6所示。

圖6 高危等價(jià)類占比與k的取值關(guān)系

隨著k值的增大,無(wú)論模型選擇,高危等價(jià)類占比都在減小。這是因?yàn)獒槍?duì)一個(gè)特定數(shù)據(jù)集,數(shù)據(jù)總量是一定的。等價(jià)類的增大將會(huì)導(dǎo)致等價(jià)類總數(shù)的減小,這將導(dǎo)致等價(jià)類中的各屬性值的分布逐漸接近于其在整張數(shù)據(jù)表中的分布。最終,當(dāng)數(shù)據(jù)表內(nèi)所有元組都被劃歸為一個(gè)等價(jià)類時(shí),等價(jià)類中的屬性值分布將與在數(shù)據(jù)表中的分布一致。在k≤50時(shí),本文模型始終具有更低的高危等價(jià)類占比。這是因?yàn)楸疚哪P途哂衅骄笮「蟮牡葍r(jià)類,這使得敏感屬性值的分布相比于(w,l,k)-匿名模型更接近于數(shù)據(jù)表內(nèi)的分布。當(dāng)k≥100時(shí),兩個(gè)模型均不包含高危等價(jià)類。

綜合以上分析,可以得出結(jié)論:個(gè)性化(w,l,k)-匿名模型相比較于(w,l,k)-匿名模型,在實(shí)現(xiàn)了對(duì)用戶隱私的個(gè)性化保護(hù)的同時(shí),犧牲了一定的數(shù)據(jù)效用,但具有更高的隱私保護(hù)能力。

4 結(jié) 語(yǔ)

本文針對(duì)現(xiàn)有的數(shù)據(jù)發(fā)布模型中存在的問(wèn)題,在繼承了量化計(jì)算敏感程度的思路的情況下,對(duì)(w,l,k)-匿名模型進(jìn)行了改進(jìn),得到了一個(gè)能夠考慮用戶自身隱私需求的數(shù)據(jù)發(fā)布模型。該模型在讓數(shù)據(jù)滿足k-匿名和l-多樣性的前提下,通過(guò)量化用戶隱私需求,并將其參與敏感度計(jì)算的方法,使得最終的等價(jià)類劃分能夠體現(xiàn)用戶的個(gè)性化需求。經(jīng)過(guò)實(shí)驗(yàn)證明,本文模型在犧牲了一定的數(shù)據(jù)效用的情況下,能夠有效地個(gè)性化地保護(hù)用戶隱私,并且具有更好的隱私保護(hù)能力。

目前考慮用戶隱私需求的模型大部分單純依賴用戶指定來(lái)確定用戶需求,這一過(guò)程存在較大主觀性。用戶有可能會(huì)高估自身信息所需要的保密等級(jí),而這會(huì)導(dǎo)致毫無(wú)必要的數(shù)據(jù)效用損失。一種能夠客觀評(píng)估用戶個(gè)性化需求是否合理的方法將在未來(lái)的研究中進(jìn)行探討。

猜你喜歡
數(shù)據(jù)表等價(jià)敏感度
湖北省新冠肺炎疫情數(shù)據(jù)表
黨員生活(2020年2期)2020-04-17 09:56:30
全體外預(yù)應(yīng)力節(jié)段梁動(dòng)力特性對(duì)于接縫的敏感度研究
基于列控工程數(shù)據(jù)表建立線路拓?fù)潢P(guān)系的研究
電視臺(tái)記者新聞敏感度培養(yǎng)策略
新聞傳播(2018年10期)2018-08-16 02:10:16
n次自然數(shù)冪和的一個(gè)等價(jià)無(wú)窮大
中文信息(2017年12期)2018-01-27 08:22:58
在京韓國(guó)留學(xué)生跨文化敏感度實(shí)證研究
收斂的非線性迭代數(shù)列xn+1=g(xn)的等價(jià)數(shù)列
Diodes高性能汽車霍爾效應(yīng)閉鎖提供多種敏感度選擇
圖表
環(huán)Fpm+uFpm+…+uk-1Fpm上常循環(huán)碼的等價(jià)性
阿克陶县| 平南县| 米脂县| 浙江省| 海南省| 鹤峰县| 芜湖县| 多伦县| 绥棱县| 松桃| 麟游县| 巴彦淖尔市| 昔阳县| 宜君县| 望都县| 磐安县| 平乐县| 靖西县| 新丰县| 九江县| 高密市| 韶关市| 咸丰县| 遵化市| 新乐市| 黄冈市| 奎屯市| 城固县| 象州县| 乳源| 武穴市| 手游| 茶陵县| 金川县| 庆元县| 博白县| 西畴县| 施秉县| 荔波县| 吉安县| 玛纳斯县|