国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于屬性隱私的統(tǒng)計(jì)查詢(xún)定價(jià)模型

2024-10-14 00:00方嘉豪郭兵
計(jì)算機(jī)應(yīng)用研究 2024年10期

摘 要:現(xiàn)有統(tǒng)計(jì)查詢(xún)定價(jià)模型沒(méi)有考慮查詢(xún)結(jié)果揭露數(shù)據(jù)集敏感屬性的問(wèn)題,難以通過(guò)相應(yīng)地補(bǔ)償數(shù)據(jù)提供方激勵(lì)共享,對(duì)此提出一種基于屬性隱私的定價(jià)模型。首先,基于提出的寬松近似Wasserstein機(jī)制(RAWM)計(jì)算查詢(xún)敏感度,直接計(jì)算輸出分布對(duì)距離的寬松上界以提高效率;然后,以約束屬性隱私損失為前提,根據(jù)查詢(xún)敏感度、噪聲方差、補(bǔ)償參數(shù)對(duì)數(shù)據(jù)提供方進(jìn)行補(bǔ)償;最后,在補(bǔ)償之上運(yùn)用成本加成法設(shè)計(jì)了多個(gè)無(wú)套利定價(jià)函數(shù),可以針對(duì)單補(bǔ)償成本和多邊際成本等場(chǎng)景定價(jià)。實(shí)驗(yàn)結(jié)果表明,查詢(xún)敏感度的計(jì)算時(shí)間從線性復(fù)雜度降低到了常數(shù)復(fù)雜度,在一億數(shù)據(jù)量下僅有0.52%的效用代價(jià);定價(jià)模型能夠提供細(xì)粒度補(bǔ)償以激勵(lì)共享;設(shè)計(jì)的定價(jià)函數(shù)滿(mǎn)足無(wú)套利性。

關(guān)鍵詞:數(shù)據(jù)定價(jià);數(shù)據(jù)共享;屬性隱私;河豚魚(yú)隱私;無(wú)套利

中圖分類(lèi)號(hào):TP301 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)10-014-2978-09

doi:10.19734/j.issn.1001-3695.2024.02.0044

Pricing statistical query based on attribute privacy

Fang Jiahao, Guo Bing

(College of Computer Science, Sichuan University, Chengdu 610065, China)

Abstract:Current statistical query pricing models have not considered the problem that query results reveal sensitive attri-butes of datasets, making it difficult to incentivize sharing by compensating data providers accordingly. Therefore, this paper proposed a pricing model based on attribute privacy. Firstly, the model calculated query sensitivity based on the relaxed approximation Wasserstein mechanism (RAWM) proposed, improving efficiency by directly calculate the relaxed upper bound of output distribution pairs. Then, with bounding privacy loss, the model compensated data providers based on query sensitivity, noise variance and compensation parameters. Finally, by using cost-plus pricing on compensation, this paper designed several arbitrage-free pricing functions, which could be used in scenarios such as single compensation costs and multiple marginal costs. The experiment results show that the running time of calculating query sensitivity is reduced from linear complexity to constant complexity, with a utility cost of only 0.52% when data volume is 100 million. The pricing model provides fine-grained compensation to incentivize sharing. Pricing functions satisfy arbitrage freeness.

Key words:data pricing; data sharing; attribute privacy; pufferfish privacy; arbitrage freeness

0 引言

數(shù)據(jù)共享是數(shù)字經(jīng)濟(jì)的關(guān)鍵環(huán)節(jié)。如何讓社會(huì)各方積累的數(shù)據(jù)流通起來(lái),打破數(shù)據(jù)孤島并盤(pán)活數(shù)據(jù),是當(dāng)今急需研究和解決的問(wèn)題[1]。目前,國(guó)內(nèi)外已經(jīng)出現(xiàn)了如貴陽(yáng)大數(shù)據(jù)交易所[2]、DAWEX[3]等數(shù)據(jù)交易中心和平臺(tái)。查詢(xún)交易市場(chǎng)可以避免直接交易原始數(shù)據(jù)[4]。統(tǒng)計(jì)查詢(xún)服務(wù)是最基本的數(shù)據(jù)服務(wù)形式,如直方圖查詢(xún)、數(shù)據(jù)立方查詢(xún)等[5~7]。

數(shù)據(jù)定價(jià)是解決數(shù)據(jù)共享難題的重要基礎(chǔ)。數(shù)據(jù)質(zhì)量是定價(jià)的重要參考因素。陳思瑩等人[8]綜合考慮了準(zhǔn)確性、完整性、時(shí)效性、一致性四個(gè)數(shù)據(jù)質(zhì)量維度,設(shè)計(jì)了定價(jià)函數(shù)。文獻(xiàn)[9]認(rèn)為現(xiàn)有研究忽略了數(shù)據(jù)信息價(jià)值評(píng)估,用香農(nóng)熵和非噪聲比設(shè)計(jì)了信息質(zhì)量指標(biāo)指導(dǎo)定價(jià)。這些基于數(shù)據(jù)質(zhì)量的方法,都沒(méi)有考慮到數(shù)據(jù)共享對(duì)數(shù)據(jù)敏感屬性的揭露問(wèn)題。

基于模型貢獻(xiàn)衡量的定價(jià)也是重要的定價(jià)思路。劉珂[10]在預(yù)測(cè)任務(wù)中基于Shapley值將特定預(yù)測(cè)結(jié)果與平均預(yù)測(cè)結(jié)果之差作為定價(jià)依據(jù)。Wang等人[11]設(shè)計(jì)了考慮訓(xùn)練數(shù)據(jù)貢獻(xiàn)順序的聯(lián)邦Shapley值以對(duì)訓(xùn)練數(shù)據(jù)估值。Xu等人[12]將模型參數(shù)分布的信息熵減小量作為數(shù)據(jù)貢獻(xiàn)衡量和定價(jià)參考。基于模型貢獻(xiàn)衡量的定價(jià)適用于明確的數(shù)據(jù)應(yīng)用場(chǎng)景,能夠保證合作多方公平利益分配,不適合本文中應(yīng)用場(chǎng)景不明確的統(tǒng)計(jì)查詢(xún)。

此外,也有基于博弈論和拍賣(mài)理論設(shè)計(jì)定價(jià)機(jī)制的方法。盧玉等人[13]設(shè)計(jì)了考慮底價(jià)的數(shù)據(jù)密封拍賣(mài)機(jī)制對(duì)數(shù)據(jù)進(jìn)行定價(jià)。涂輝招等人[14]設(shè)計(jì)了帶有平臺(tái)利潤(rùn)約束的Stackelberg博弈機(jī)制以提升數(shù)據(jù)市場(chǎng)多方效用。Wang等人[15]將眾包數(shù)據(jù)蘊(yùn)涵的個(gè)性化位置隱私作為激勵(lì)雙邊拍賣(mài)定價(jià)的參考。Li等人[16]在基于Stackelberg博弈的數(shù)據(jù)定價(jià)機(jī)制中平衡了隱私和公平。然而這些方法對(duì)于存在敏感屬性顧慮的場(chǎng)景難以指導(dǎo)賣(mài)家出價(jià),導(dǎo)致多方博弈定價(jià)結(jié)果無(wú)法對(duì)賣(mài)家實(shí)現(xiàn)效用最大化。

數(shù)據(jù)安全和隱私是數(shù)據(jù)共享中的重要問(wèn)題,巫朝霞等人[17] 強(qiáng)調(diào)了醫(yī)療數(shù)據(jù)共享的安全性和隱私性?;陔[私補(bǔ)償?shù)亩▋r(jià)是數(shù)據(jù)定價(jià)的重要思路之一。Li等人[18]提出了由統(tǒng)計(jì)查詢(xún)和噪聲量共同確定價(jià)格的個(gè)人數(shù)據(jù)查詢(xún)市場(chǎng),但是要求個(gè)人數(shù)據(jù)之間相互獨(dú)立,針對(duì)數(shù)據(jù)間存在關(guān)聯(lián)的情況,Niu等人[6]通過(guò)在補(bǔ)償函數(shù)中引入一個(gè)表征數(shù)據(jù)關(guān)聯(lián)度的量實(shí)現(xiàn)了更準(zhǔn)確的補(bǔ)償和定價(jià)。Shen等人[19]基于差分隱私框架設(shè)計(jì)了個(gè)人數(shù)據(jù)銀行的查詢(xún)服務(wù)定價(jià)方法。Cai等人[20]通過(guò)量化屬性相關(guān)性實(shí)現(xiàn)更精準(zhǔn)的高維個(gè)人數(shù)據(jù)定價(jià)。然而,這些方法只考慮了對(duì)個(gè)人隱私損失的補(bǔ)償,只適用于個(gè)人數(shù)據(jù),沒(méi)有考慮針對(duì)更廣泛的屬性隱私損失對(duì)數(shù)據(jù)提供方進(jìn)行補(bǔ)償和激勵(lì)。

近年來(lái),越來(lái)越多的研究提到一種新的隱私問(wèn)題,即使是在數(shù)據(jù)集上提供非原始數(shù)據(jù)的數(shù)據(jù)服務(wù),如統(tǒng)計(jì)查詢(xún)和機(jī)器學(xué)習(xí)服務(wù),也會(huì)揭露數(shù)據(jù)集的全局屬性,這些全局屬性蘊(yùn)涵著商業(yè)秘密、安全秘密、知識(shí)產(chǎn)權(quán)等敏感信息[21]。例如,互聯(lián)網(wǎng)視頻公司共享觀看數(shù)據(jù)統(tǒng)計(jì)查詢(xún),會(huì)揭露其流量水平和盈利狀況[22];鐵路局提供某地區(qū)物理車(chē)輛的開(kāi)行記錄統(tǒng)計(jì)查詢(xún),會(huì)揭露車(chē)輛投用和維護(hù)狀態(tài)比例,導(dǎo)致戰(zhàn)時(shí)后勤運(yùn)輸能力等敏感信息被推斷;語(yǔ)音識(shí)別軟件公司提供語(yǔ)音識(shí)別服務(wù),攻擊者可以通過(guò)觀察特殊樣本輸出,反向推斷訓(xùn)練集的特殊口音樣本比例,進(jìn)而挖掘該公司模型領(lǐng)先市場(chǎng)的秘訣[23]。形式化描述敏感屬性保護(hù)問(wèn)題的隱私理論框架被相應(yīng)提出。針對(duì)差分隱私(DP)[24]只能衡量個(gè)人隱私保護(hù)問(wèn)題的不足,Kifer等人[25]對(duì)DP進(jìn)行推廣,提出了可以描述更多隱私保護(hù)場(chǎng)景的河豚魚(yú)隱私定義。Zhang等人[26]針對(duì)敏感屬性保護(hù)問(wèn)題,基于河豚魚(yú)隱私提出了屬性隱私定義,將數(shù)據(jù)集統(tǒng)計(jì)特性和背后的分布參數(shù)作為需要保護(hù)的對(duì)象。然而,上述隱私定義只描述了敏感屬性保護(hù)問(wèn)題,沒(méi)有解決揭露敏感屬性的數(shù)據(jù)定價(jià)問(wèn)題。

隱私定義只能從理論上描述隱私保護(hù)問(wèn)題,而隨機(jī)化機(jī)制是保護(hù)隱私的具體方法。Song等人[27]以滿(mǎn)足河豚魚(yú)隱私要求為目標(biāo)提出了通用但計(jì)算難的Wasserstein機(jī)制(WM)。Zhang等人[26]提出了滿(mǎn)足屬性隱私要求的馬爾可夫毯機(jī)制(MQM)。Chen等人[28]以河豚魚(yú)隱私為基礎(chǔ)針對(duì)敏感屬性保護(hù)問(wèn)題定義提出了近似Wasserstein機(jī)制(AWM)和期望機(jī)制(EVM)。然而這些隨機(jī)化機(jī)制無(wú)法同時(shí)保證高效用和高效率,高效的EVM和MQM存在缺乏合理性或低效用的問(wèn)題,而高效用的WM和AWM存在低效率或無(wú)法精確計(jì)算的問(wèn)題,因此基于這些隨機(jī)化機(jī)制設(shè)計(jì)定價(jià)方法都存在缺陷。

針對(duì)上面提到的問(wèn)題,本文提出一種基于屬性隱私的統(tǒng)計(jì)查詢(xún)定價(jià)模型。首先,提出滿(mǎn)足屬性隱私要求的隨機(jī)化機(jī)制RAWM,并基于RAWM計(jì)算查詢(xún)敏感度,在計(jì)算分布距離時(shí)直接高效計(jì)算寬松上界;然后,綜合查詢(xún)敏感度、噪聲方差、補(bǔ)償參數(shù)設(shè)計(jì)了補(bǔ)償函數(shù);最后,給出了設(shè)計(jì)無(wú)套利定價(jià)函數(shù)的方法,在補(bǔ)償之上使用成本加成法針對(duì)多個(gè)場(chǎng)景設(shè)計(jì)了無(wú)套利定價(jià)函數(shù)。

本文的主要工作如下:

a)首次考慮了包含敏感屬性揭露問(wèn)題的數(shù)據(jù)統(tǒng)計(jì)查詢(xún)定價(jià)問(wèn)題,提出了相應(yīng)的補(bǔ)償方法和定價(jià)方法。

b)首次提出了隨機(jī)化機(jī)制RAWM,并基于RAWM計(jì)算RAWD敏感度作為查詢(xún)敏感度,以極小效用代價(jià)提高了效率。

c)在真實(shí)數(shù)據(jù)集上對(duì)本文定價(jià)模型進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:在一億數(shù)據(jù)量下,本文的查詢(xún)敏感度算法僅以0.52%的效用代價(jià)將計(jì)算時(shí)間從線性復(fù)雜度降低到了常數(shù)復(fù)雜度;模型能夠提供細(xì)粒度補(bǔ)償以激勵(lì)共享;套利攻擊均未成功,驗(yàn)證了定價(jià)函數(shù)的無(wú)套利性。

1 相關(guān)技術(shù)基礎(chǔ)

1.1 屬性隱私

屬性隱私[26]是用于保護(hù)數(shù)據(jù)集敏感屬性的嚴(yán)格隱私定義。屬性隱私是河豚魚(yú)隱私的一個(gè)實(shí)例,而河豚魚(yú)隱私是差分隱私的一個(gè)推廣[25]。河豚魚(yú)隱私由三個(gè)部分組成:一個(gè)數(shù)據(jù)提供方想要保護(hù)的潛在秘密集合S,一個(gè)數(shù)據(jù)提供方希望他人無(wú)法判別的秘密對(duì)集合SP=S×S,以及一類(lèi)代表了攻擊方對(duì)數(shù)據(jù)D生成方式的可能信念的分布集合Θ。通過(guò)對(duì)河豚魚(yú)隱私定義的三個(gè)部分進(jìn)行實(shí)例化,就可以得到屬性隱私定義。

定義1 (,δ)-屬性隱私[26]。讓?zhuān)―j1,…,Djm), j∈[n]表示一條從一組隨機(jī)變量X=(Xj1,…,Xjm)中獨(dú)立同分布采樣得到的m維記錄,其中n是數(shù)據(jù)集記錄數(shù),Xi描述了Di服從的邊緣分布。從每個(gè)隨機(jī)變量Xi選取出一個(gè)分布參數(shù)i,i進(jìn)一步被看做是隨機(jī)變量Φi的一個(gè)實(shí)現(xiàn),其中Φi的取值范圍表示為Ψi。全體Φi構(gòu)成m維隨機(jī)變量Φ=(Φ1,…,Φm),屬性間的關(guān)聯(lián)由Φ服從的聯(lián)合分布描述,其中Φ∈AC,AC表示可能的m維隨機(jī)變量的集合。SC[m]表示數(shù)據(jù)集D敏感屬性列的下標(biāo)集合。給定下面的三元組(S,SP,Θ):

a)秘密集合:S={sia:=1[Φ i=a]:a∈ΨiS,ΨiSΨi,i∈SC} 。

b)秘密對(duì)集合:SP={(sia,sib)∈S×S,i∈SC}。

c) 數(shù)據(jù)分布集合:

Θ是D所有可能數(shù)據(jù)分布θ的集合。對(duì)于每一個(gè)可能的m維隨機(jī)變量Φ∈AC,Θ中都有一個(gè)對(duì)應(yīng)的數(shù)據(jù)分布θΦ∈Θ代表著D總體服從的分布。

一個(gè)隨機(jī)化機(jī)制Euclid Math OneMAp被稱(chēng)為是滿(mǎn)足(,δ)-屬性隱私的,當(dāng)其對(duì)于任意(sa,sb)∈SP,任意θ∈Θ,都滿(mǎn)足

P(Euclid Math OneMAp(D)=O|sa,θ)≤exp()·P(Euclid Math OneMAp(D)=O|sb,θ)+δ

其中:是隱私預(yù)算;δ是近似概率。

為了方便表示秘密集合S和秘密對(duì)集合SP專(zhuān)屬于敏感屬性下標(biāo)i∈SC的子集,本文接下來(lái)用Si表示S專(zhuān)屬于i的子集:Si={sia:=1[Φ i=a]:a∈ΨiS,ΨiSΨi},用SPi表示SP專(zhuān)屬于i的子集:SPi={(sia,sib)∈Si×Si}。

1.2 近似Wasserstein機(jī)制

WM是第一個(gè)可以滿(mǎn)足河豚魚(yú)隱私定義的通用隨機(jī)化機(jī)制,需要計(jì)算查詢(xún)輸出分布對(duì)fa、 fb的∞-Wasserstein距離,計(jì)算過(guò)程可以看作尋找使得概率最大轉(zhuǎn)移代價(jià)最小的聯(lián)合分布[27]。但是當(dāng)fa、 fb的支撐集范圍很大,卻只由極少概率質(zhì)量決定最大轉(zhuǎn)移代價(jià),WM計(jì)算的∞-Wasserstein距離便會(huì)偏大,導(dǎo)致添加過(guò)多的拉普拉斯噪聲,查詢(xún)效用過(guò)差。對(duì)此,相較于WM,近似Wasserstein機(jī)制(AWM)[28]在計(jì)算∞-Wasserstein距離時(shí)忽略聯(lián)合分布支撐集上至多δ概率質(zhì)量,以規(guī)避極小部分概率質(zhì)量的影響,只需要添加適量的噪聲即可實(shí)現(xiàn)河豚魚(yú)隱私保證。AWM計(jì)算出來(lái)的距離被稱(chēng)為δ-近似Wasserstein距離,嚴(yán)格定義如下:

定義2 δ-近似Wasserstein距離[28]。讓fa、 fb表示一對(duì)定義在Euclid ExtraaBp上的概率分布,Γ(fa, fb)表示所有以fa、 fb為邊緣分布的聯(lián)合分布集合。對(duì)于一個(gè)聯(lián)合分布γ∈Γ(fa, fb),讓Rsupp(γ)表示一個(gè)概率值不低于1-δ的支撐集子集,則fa、 fb之間的δ-近似Wasserstein距離被定義為

Wδ(fa, fb)=infγ∈Γ(fa,fb),Rsupp(γ)max(t,s)∈R|t-s|

如圖1所示,對(duì)于圖中兩個(gè)分布,∞-Wasserstein距離為97,而忽略掉概率轉(zhuǎn)移中代價(jià)為97的0.001質(zhì)量后,剩下部分的最壞轉(zhuǎn)移代價(jià)僅為1,也就是說(shuō)δ-近似Wasserstein距離為1,意味著WM添加的噪聲是AWM所添加噪聲的97倍。AWM雖然無(wú)法計(jì)算δ-近似Wasserstein距離的精確解析解,但提供了一種忽略聯(lián)合分布支撐集子集上少量概率的近似計(jì)算思路。

AWM遍歷河豚魚(yú)隱私框架中所有秘密對(duì)(sa,sb)∈SP和數(shù)據(jù)分布θ∈Θ的組合,計(jì)算每一個(gè)組合條件下數(shù)據(jù)分布對(duì)的δ-近似Wasserstein距離,找出最大值,并結(jié)合隱私預(yù)算對(duì)查詢(xún)結(jié)果添加一個(gè)拉普拉斯噪聲,滿(mǎn)足河豚魚(yú)隱私要求。用Lap(λ)表示一個(gè)位置參數(shù)為0,尺度參數(shù)為λ的拉普拉斯分布。用fa、 fb分別表示F(X)|sa,θ和F(X)|sb,θ服從的分布。

定理1 近似Wasserstein機(jī)制:

Euclid Math OneMAp(D)=F(D)+Lapsup(sa,sb)∈SP,θ∈ΘWδ(fa, fb))(1)

滿(mǎn)足(,δ)-河豚魚(yú)隱私[28]。

1.3 無(wú)套利性

在定價(jià)理論中,定價(jià)函數(shù)的無(wú)套利性是一個(gè)重要的性質(zhì),尤其是對(duì)于數(shù)據(jù)定價(jià)[5]。因?yàn)榕c許多傳統(tǒng)商品不同的是,以統(tǒng)計(jì)查詢(xún)?yōu)榇淼臄?shù)據(jù)服務(wù)具有更加豐富的多樣性,更容易發(fā)生套利現(xiàn)象,被買(mǎi)家惡意利用。套利現(xiàn)象描述的是這樣一種行為:一個(gè)狡猾的買(mǎi)家想要購(gòu)買(mǎi)查詢(xún)A,同時(shí)他也注意到他也可以通過(guò)購(gòu)買(mǎi)B和C并組合查詢(xún)結(jié)果得到A的結(jié)果。如果B和C的價(jià)格之和低于A的價(jià)格,那么該買(mǎi)家一定會(huì)選擇購(gòu)買(mǎi)B和C,而不會(huì)購(gòu)買(mǎi)A。一個(gè)合理的定價(jià)函數(shù)應(yīng)該是無(wú)套利的,以避免發(fā)生套利行為。用符號(hào)Q=(F,v)表示一個(gè)統(tǒng)計(jì)查詢(xún)服務(wù),其中v為拉普拉斯噪聲方差。潛在的套利關(guān)系可以由查詢(xún)確定性關(guān)系的符號(hào)Euclid ExtraaAp表示,例如在上面的例子中,假設(shè)服務(wù)的噪聲方差都為0.1,通過(guò)組合查詢(xún)B和C的結(jié)果,可以在不購(gòu)買(mǎi)A的前提下推斷出查詢(xún)A的結(jié)果,則該關(guān)系可以表示為{(B,0.1),(C,0.1)}Euclid ExtraaAp(A,0.1)。

定義3 查詢(xún)確定性[6,18]。查詢(xún)確定性是定義在一個(gè)查詢(xún)服務(wù)多重集合Q={Q1,…,Qt}={(F1,v1),…,(Ft,vt)}和一個(gè)統(tǒng)計(jì)查詢(xún)服務(wù)Q=(F,v)之間的一種關(guān)系。Q確定Q,用符號(hào)表示為QEuclid ExtraaApQ,并且該關(guān)系需要滿(mǎn)足以下性質(zhì):

a)加性,{(F1,v1),…,(Ft,vt)}Euclid ExtraaAp(∑tk=1Fk,∑tk=1vk);

b)標(biāo)量乘性,c∈Euclid ExtraaBp,(F,v)Euclid ExtraaAp(cF,c2v);

c)松弛性,v≥v′,(F,v′)Euclid ExtraaAp(F,v);

d)傳遞性,若Q1Euclid ExtraaApQ1,…,QtEuclid ExtraaApQt且{Q1,…,Qt}Euclid ExtraaApQ,

則∪tk=1QkEuclid ExtraaApQ。

查詢(xún)確定性還有一種更加凝練的表述方式:{(F1,v1),…,

(Ft,vt)}Euclid ExtraaAp(F,v),當(dāng)且僅當(dāng)存在c1,…,ct使得

c1F1+…+ctFt=F和c21v1+…+c2tvt≤v成立?;诓樵?xún)確定性的表述,可以對(duì)無(wú)套利性進(jìn)行嚴(yán)格定義,用符號(hào)π(Q)表示查詢(xún)服務(wù)Q的價(jià)格。

定義4 無(wú)套利性[6,18]。一個(gè)定價(jià)函數(shù)π(·)被稱(chēng)作是無(wú)套利的,或者說(shuō)滿(mǎn)足無(wú)套利性的,如果對(duì)t≥1,只要有{Q1,…,Qt}Euclid ExtraaApQ,那么就有π(Q)≤∑tk=1π(Qk)。

2 定價(jià)模型

本文定價(jià)模型所面向的市場(chǎng)模型為中心化數(shù)據(jù)市場(chǎng)模型,或者說(shuō)為中心化數(shù)據(jù)共享模型。如圖2所示,市場(chǎng)中有數(shù)據(jù)提供方、數(shù)據(jù)管理方和數(shù)據(jù)需求方三類(lèi)角色。數(shù)據(jù)提供方為擁有屬性敏感數(shù)據(jù)集的組織,如企業(yè)和政府等。數(shù)據(jù)管理方為一個(gè)可信的第三方管理者或組織內(nèi)部的數(shù)據(jù)部門(mén),例如不同政府部門(mén)的數(shù)據(jù)交由大數(shù)據(jù)中心進(jìn)行匯聚和托管,企業(yè)內(nèi)部每個(gè)部門(mén)將數(shù)據(jù)交由負(fù)責(zé)開(kāi)發(fā)數(shù)據(jù)中臺(tái)的數(shù)據(jù)部門(mén)進(jìn)行統(tǒng)一管理。數(shù)據(jù)需求方可以是對(duì)統(tǒng)計(jì)查詢(xún)有需求的外部個(gè)人或組織,或者是公司內(nèi)部各部門(mén)、集團(tuán)內(nèi)部各方。

如圖3所示,在該中心化數(shù)據(jù)市場(chǎng)模型基礎(chǔ)上,數(shù)據(jù)提供方使用本文定價(jià)模型,定價(jià)模型包含查詢(xún)敏感度算法、補(bǔ)償方法和定價(jià)方法三個(gè)部分。在查詢(xún)敏感度算法中,數(shù)據(jù)管理方基于本文RAWM,高效地計(jì)算RAWD敏感度作為查詢(xún)敏感度。在補(bǔ)償方法中,數(shù)據(jù)管理方以約束屬性隱私損失為依據(jù),根據(jù)查詢(xún)敏感度等因素,對(duì)數(shù)據(jù)提供方進(jìn)行補(bǔ)償;在定價(jià)方法中,數(shù)據(jù)管理方基于補(bǔ)償進(jìn)行成本加成,針對(duì)多種場(chǎng)景使用不同的無(wú)套利定價(jià)函數(shù)對(duì)統(tǒng)計(jì)查詢(xún)定價(jià)。

2.1 模型假設(shè)

對(duì)于一個(gè)特定的數(shù)據(jù)提供方,其數(shù)據(jù)集表示為D=[D1,…,Dm],Di表示數(shù)據(jù)集在完成特征預(yù)處理后的第i列。原始數(shù)據(jù)集中的每一列可以通過(guò)特征編碼或特征離散化分解為多列。預(yù)處理后的數(shù)據(jù)集有m列,SC[m]表示敏感屬性列的下標(biāo)集合。數(shù)據(jù)集有n行,每行記錄(Dj1,…,Djm), j∈[n]都是獨(dú)立同分布的。數(shù)據(jù)管理方在獲取到數(shù)據(jù)集D后對(duì)數(shù)據(jù)分布進(jìn)行學(xué)習(xí),使用屬性隱私框架進(jìn)行建模,并根據(jù)數(shù)據(jù)提供方的要求在D上對(duì)外提供統(tǒng)計(jì)查詢(xún)服務(wù),記查詢(xún)函數(shù)為F。為了控制查詢(xún)結(jié)果對(duì)敏感屬性的揭露程度,數(shù)據(jù)管理方在查詢(xún)結(jié)果中加入方差為v的隨機(jī)噪聲。因此,查詢(xún)服務(wù)Q可以表示為二元組Q=(F,v),添加噪聲所用的隨機(jī)化機(jī)制表示為Euclid Math OneMAp。由于屬性隱私定義中包含一個(gè)近似概率參數(shù)δ,數(shù)據(jù)市場(chǎng)的各方還約定δ為一個(gè)確定的微小值(如δ=0.001)。數(shù)據(jù)管理方最終返回給數(shù)據(jù)需求方的查詢(xún)結(jié)果為Euclid Math OneMAp(D)而不是F(D)。相應(yīng)地,數(shù)據(jù)管理方對(duì)數(shù)據(jù)需求方收取一定的費(fèi)用,查詢(xún)服務(wù)的價(jià)格表示為π(Q)=π(F,v)。此外,因?yàn)椴樵?xún)服務(wù)揭露了數(shù)據(jù)提供方希望保護(hù)的敏感屬性,數(shù)據(jù)管理方還需要給予數(shù)據(jù)提供方ρ(Q)=ρ(F,v)的補(bǔ)償。

數(shù)據(jù)管理方在使用屬性隱私框架進(jìn)行建模時(shí),需要作一定的假設(shè),因?yàn)樵跊](méi)有假設(shè)的前提下就使用隱私定義會(huì)導(dǎo)致幾乎零效用的查詢(xún)服務(wù)[25]。所作的假設(shè)代表了攻擊者對(duì)數(shù)據(jù)生成方式的信念。既然對(duì)數(shù)據(jù)分布作非常全面的假設(shè)非常不實(shí)用,數(shù)據(jù)管理方合理地約束攻擊者對(duì)數(shù)據(jù)分布的不確定性,每個(gè)數(shù)據(jù)列上的不確定性體現(xiàn)為無(wú)法確定該列分布參數(shù)的取值。對(duì)于數(shù)值列,不確定性體現(xiàn)在分布均值參數(shù)上(如正態(tài)分布的μ參數(shù));對(duì)于布爾值列,不確定性體現(xiàn)在伯努利分布的p參數(shù)上。在對(duì)數(shù)據(jù)集作了如上的假設(shè)后,數(shù)據(jù)管理方進(jìn)行建模。此外,數(shù)據(jù)管理方和數(shù)據(jù)需求方掌握的數(shù)據(jù)集知識(shí)不對(duì)等,因?yàn)閿?shù)據(jù)集D對(duì)數(shù)據(jù)管理方是可見(jiàn)的,所以查詢(xún)結(jié)果對(duì)數(shù)據(jù)管理方表現(xiàn)為F(D)。然而,數(shù)據(jù)集由于不可見(jiàn)性而對(duì)數(shù)據(jù)需求方表現(xiàn)為X,查詢(xún)結(jié)果也相應(yīng)地對(duì)數(shù)據(jù)需求方表現(xiàn)為F(X)。

數(shù)據(jù)管理方向數(shù)據(jù)需求方提供了多種統(tǒng)計(jì)查詢(xún),如直方圖查詢(xún)、數(shù)據(jù)立方查詢(xún)和均值查詢(xún)。所有的統(tǒng)計(jì)查詢(xún)最終都可以歸為求平均和求和兩類(lèi)。例如,比例查詢(xún)可以看作對(duì)服從伯努利分布的數(shù)據(jù)作了平均查詢(xún),計(jì)數(shù)查詢(xún)可以看作對(duì)服從伯努利分布的數(shù)據(jù)作了求和查詢(xún),直方圖查詢(xún)可以看作一組計(jì)數(shù)查詢(xún)查詢(xún)結(jié)果組成的向量。類(lèi)似地,各種復(fù)合的統(tǒng)計(jì)查詢(xún)最終都可以分解成最基本的求平均或求和查詢(xún)。因此,本文接下來(lái)只討論求平均和求和兩種基本的統(tǒng)計(jì)查詢(xún)。兩種查詢(xún)的表達(dá)式不同,但是都可以使用中心極限定理求出查詢(xún)輸出的近似正態(tài)分布,使Xi,i∈[m]表示進(jìn)行統(tǒng)計(jì)查詢(xún)的數(shù)據(jù)列隨機(jī)變量,用μ和σ2表示Xi的期望和方差,即E(Xi)=μ和Var(Xi)=σ2。那么,求平均查詢(xún)可以表示為F(X)=1n∑nj=1Xji~N(μ,σ2n),而求和查詢(xún)可以表示為F(X)=∑nj=1Xji~N(nμ,nσ2)。

2.2 查詢(xún)敏感度算法

查詢(xún)敏感度是一個(gè)反映統(tǒng)計(jì)查詢(xún)和數(shù)據(jù)敏感屬性關(guān)聯(lián)程度的量,查詢(xún)敏感度越大,代表該查詢(xún)對(duì)敏感屬性的揭露程度越高。嚴(yán)格的查詢(xún)敏感度定義應(yīng)該以滿(mǎn)足屬性隱私要求的隨機(jī)化機(jī)制為依據(jù):對(duì)于越敏感的查詢(xún),該隨機(jī)化對(duì)其添加的噪聲越大,說(shuō)明可以從噪聲大小中誘導(dǎo)出一個(gè)用于反映敏感程度的量,進(jìn)而定義查詢(xún)敏感度。例如,WM計(jì)算的最大∞-Wasserstein距離,AWM計(jì)算的最大δ-近似Wasserstein距離,這些量與噪聲尺度參數(shù)呈正比,可以用于定義查詢(xún)敏感度。然而計(jì)算∞-Wasserstein距離或δ-近似Wasserstein距離的時(shí)間復(fù)雜度是O(n),多數(shù)情況下數(shù)據(jù)量n較大。這意味著雖然可以基于WM或AWM定義查詢(xún)敏感度,但是會(huì)導(dǎo)致敏感度計(jì)算成本過(guò)高。

對(duì)此,本節(jié)結(jié)合統(tǒng)計(jì)查詢(xún)輸出分布的近似正態(tài)特征,提出能夠滿(mǎn)足(,δ)-屬性隱私的寬松近似Wasserstein機(jī)制(RAWM),并基于RAWM提出RAWD敏感度算法,將RAWD敏感度作為查詢(xún)敏感度,為后續(xù)補(bǔ)償與定價(jià)奠定基礎(chǔ)。RAWM需要計(jì)算查詢(xún)輸出分布對(duì)的δ-寬松近似Wasserstein距離(δ-RAWD),下面結(jié)合統(tǒng)計(jì)查詢(xún)輸出分布對(duì)的近似正態(tài)特點(diǎn),正式定義δ-RAWD。

定義5 δ-寬松近似Wasserstein距離(δ-RAWD)。對(duì)于統(tǒng)計(jì)查詢(xún)F,給定(sia,sib)∈SP和θ∈Θ,用fa~N(μa,σ2a)和fb~N(μb,σ2b)分別表示F(X)|sia,θ和F(X)|sib,θ近似服從的正態(tài)分布。給定近似概率δ,用ppf表示標(biāo)準(zhǔn)正態(tài)分布的百分點(diǎn)函數(shù)(percent point function, 累積分布函數(shù)的逆函數(shù)),記d=ppf(1-δ/4),則fa與fb之間的δ-寬松近似Wasserstein距離定義為

Wδ(fa,fb)=|μa-μb|+dσa+dσb(2)

如圖4所示,給定兩個(gè)正態(tài)分布fa、 fb,計(jì)算δ-RAWD相當(dāng)于先忽略掉每個(gè)正態(tài)分布左右支撐集上的各δ/4概率質(zhì)量,也即忽略掉每個(gè)正態(tài)分布的δ/2概率質(zhì)量,fa剩下的支撐集子集為R′a=[μa-dσa,μa+dσa],fb剩下的支撐集子集為R′b=[μb-dσb,μb+dσb],由正態(tài)分布性質(zhì)可得P(faR′a)=δ/2和P(fbR′b)=δ/2。根據(jù)布爾不等式,任意以fa、 fb為邊緣分布的聯(lián)合分布γ都滿(mǎn)足P(γR′a×R′b)≤δ,這相當(dāng)于忽略了fa、 fb之間至多δ的概率質(zhì)量映射。δ-RAWD直接選定一個(gè)次優(yōu)聯(lián)合分布γ′,但是不計(jì)算γ′所代表概率質(zhì)量轉(zhuǎn)移過(guò)程的距離,而是計(jì)算R′a、R′b邊界的最大距離|μa-μb|+dσa+dσb,作為最大轉(zhuǎn)移距離的一個(gè)寬松上界,避免了時(shí)間復(fù)雜度為O(n)的∞-Wasserstein距離計(jì)算。δ-RAWD以此解決了數(shù)據(jù)量大時(shí)∞-Wasserstein距離或δ-近似Wasserstein距離計(jì)算成本高的問(wèn)題。

對(duì)于每個(gè)敏感屬性下標(biāo)i∈SC,RAWM遍歷所有秘密對(duì)(sia,sib)∈SP和數(shù)據(jù)分布θ∈Θ的組合,計(jì)算每一個(gè)組合條件下數(shù)據(jù)分布對(duì)fa、 fb的δ-RAWD,找出最大值,并結(jié)合隱私預(yù)算對(duì)查詢(xún)結(jié)果添加一個(gè)拉普拉斯噪聲。

定理2 寬松近似Wasserstein機(jī)制(RAWM):

Euclid Math OneMAp(D)=F(D)+Lapmaxi∈SCsup(sia,sib)∈SPi,θ∈ΘWδ(fa,fb)(3)

滿(mǎn)足(,δ)-屬性隱私。

證明 考慮任意敏感屬性下標(biāo)i∈SA,任意秘密對(duì)(sia,sib)∈SP和數(shù)據(jù)分布θ∈Θ,用fa~N(μa,σ2a)和fb~N(μb,σ2b)分別表示F(X)|sia,θ和F(X)|sib,θ近似服從的正態(tài)分布,記W=maxi∈SAsup(sia,sib)∈SPi,θ∈ΘWδ(fa, fb)。

記d=ppf(1-δ/4)。RAWM對(duì)fa選取支撐集子集R′a=[μa-dσa,μa+dσa],對(duì)fb選取支撐集子集R′b=[μb-dσb,μb+dσb],根據(jù)正態(tài)分布的性質(zhì)可以得到P(faR′a)=δ/2和P(fbR′b)=δ/2。記R′=R′a×R′b,結(jié)合定義5中Wδ(fa,fb)的表達(dá)式有

sup(t,s)∈R′|t-s|≤

|μa-μb|+dσa+dσb=Wδ(fa,fb)≤

maxi∈SAsup(siyZbPEuWrnqWX4h7RY/1b0Q==a,sib)∈SPi,θ∈ΘWδ(fa,fb)=W(4)

任意選取一個(gè)聯(lián)合分布γ′∈Γ(fa,fb),根據(jù)布爾不等式有P(γR′a×R′b)≤δ,即

(t,s)R′γ′(t,s)dtds≤δ(5)

接著,對(duì)于任意滿(mǎn)足P(Euclid Math OneMAp(X)∈O)≥δ的ORange(Euclid Math OneMAp),有

P(Euclid Math OneMAp(X)∈O|sia,θ)=P(F(X)+Z∈O|sia,θ)=

∫t P(F(X)=t|sia,θ)P(Z+t∈O)dt=

∫t ∫s γ′(t,s)P(Z+t∈O)dsdt=

(t,s)∈Rγ′(t,s)P(Z+t∈O)dsdt+(t,s)Rγ′(t,s)P(Z+t∈O)dsdt(6)

由差分隱私的拉普拉斯機(jī)制可得,當(dāng)所添加噪聲Z=Lap(W/ε),對(duì)于任意滿(mǎn)足|t-s|≤W的(t,s)∈R′有

P(Z+t∈O)≤exp()P(Z+s∈O)(7)

然后,對(duì)于式(6)中的兩項(xiàng)進(jìn)行約束,對(duì)于第一項(xiàng),結(jié)合式(4)和(7),有

(t,s)∈Rγ′(t,s)P(Z+t∈O)dsdt≤

exp()(t,s)∈Rγ′(t,s)P(Z+s∈O)dtds(8)

對(duì)于第二項(xiàng),結(jié)合式(5),有

(t,s)Rγ(t,s)P(Z+t∈O)dsdt≤

(t,s)Rγ(t,s)dsdt≤δ(9)

最后,將式(8)(9)代入到式(6),有

P(Euclid Math OneMAp(X)∈O|sia,θ)≤

exp()(t,s)∈Rγ′(t,s)P(Z+s∈O)dtds+δ=

exp()∫s P(F(X)=s|sib,θ)P(Z+s∈O)ds+δ=

exp()P(F(X)+Z∈O|sib,θ)+δ=

exp()P(Euclid Math OneMAp(X)∈O|sib,θ)+δ(10)

證畢。

定理2證明了RAWM是滿(mǎn)足屬性隱私要求的,因此可以基于RAWM定義RAWD敏感度,本文定價(jià)模型將其作為查詢(xún)敏感度。下面對(duì)RAWD敏感度進(jìn)行正式定義。

定義6 RAWD敏感度。對(duì)于敏感屬性下標(biāo)i∈SC和查詢(xún)函數(shù)F,給定θ∈Θ和(sia,sib)∈SPi,用fa和fb分別表示F(X)|sia,θ和F(X)|sib,θ近似服從的正態(tài)分布。給定近似概率δ,則查詢(xún)F在下標(biāo)為i的敏感屬性上的RAWD敏感度為

Wδi(F)=sup(sia,sib)∈SPi,θ∈ΘWδ(fa,fb)(11)

RAWD敏感度相當(dāng)于在全部專(zhuān)屬于敏感屬性下標(biāo)i∈SC的組合條件下,其中的最大δ-RAWD,表示查詢(xún)F在該敏感屬性上的敏感程度。算法1給出了計(jì)算RAWD敏感度的具體步驟:對(duì)于目標(biāo)屬性下標(biāo)為k的統(tǒng)計(jì)查詢(xún)F,算法遍歷所有屬于i的秘密對(duì)(sia,sib)∈SPi和數(shù)據(jù)分布θ∈Θ,在每一個(gè)迭代中,首先計(jì)算目標(biāo)列Xk的條件期望和條件方差,然后根據(jù)F的類(lèi)型和表達(dá)式(已在2.1節(jié)中分析)確定F(Xk)的條件期望和條件方差,得到近似正態(tài)的查詢(xún)輸出分布對(duì)fa、 fb,最后計(jì)算fa、 fb之間的δ-RAWD,如果是已計(jì)算的最大值就保存下來(lái)。遍歷結(jié)束后,返回找到的最大δ-RAWD。

算法1 RAWD敏感度

輸入:數(shù)據(jù)量n;敏感屬性下標(biāo)i∈SC;目標(biāo)屬性下標(biāo)為k的統(tǒng)計(jì)查詢(xún)F;屬性隱私框架(S,SP,Θ);近似概率δ。

輸出:RAWD敏感度Wδi(F)。

1 maxDist←0.0;

2 for all (sia,sib)∈SPi,θ∈Θ: // 遍歷所有條件組合

3 // 計(jì)算目標(biāo)列的條件期望和條件方差

4 μka←E(Xk|Φi=a);σ2ka←Var(Xk|Φi=a);

5 μkb←E(Xk|Φi=b);σ2kb←Var(Xk|Φi=b);

6 // 根據(jù)查詢(xún)類(lèi)型和查詢(xún)表達(dá)式得到輸出分布對(duì)

7 if F屬于求平均類(lèi)查詢(xún):

8 μa←μka;σ2a←σ2ka/n;σ2a←σ2ka/n;σ2b←σ2kb/n

9 else if F屬于求平均類(lèi)查詢(xún):

10 μa←nμka;σ2a←nσ2ka;μb←nμkb;σ2b←nσ2kb;

11 fa←N(μa,σ2a);fb←N(μb,σ2b);

12 // 計(jì)算最大的δ-RAWD并保存

13 dist←Wδ(fa,fb);

14 if dist>maxDist:

15 maxDist←dist;

16 return maxDist

接下來(lái)分析算法1的時(shí)間復(fù)雜度。記(sia,sib)∈SPi和θ∈Θ的組合數(shù)量為,由于算法13行計(jì)算δ-RAWD的時(shí)間復(fù)雜度為O(1),所以算法1的時(shí)間復(fù)雜度為O(),與數(shù)據(jù)量無(wú)關(guān)。如果基于WM或AWM,將算法13行處替換為計(jì)算∞-Wasserstein距離或計(jì)算δ-近似Wasserstein距離,那么整個(gè)算法的時(shí)間復(fù)雜度就會(huì)變?yōu)榕c數(shù)據(jù)量相關(guān)的O(n)。因此,相較于基于WM或AWM的敏感度算法,本文的RAWD敏感度算法更高效。

2.3 補(bǔ)償方法

數(shù)據(jù)提供方因?yàn)槊舾袑傩员唤衣抖谕玫窖a(bǔ)償,揭露的程度由2.2節(jié)計(jì)算的查詢(xún)敏感度和噪聲方差共同決定。查詢(xún)敏感度越高,說(shuō)明統(tǒng)計(jì)查詢(xún)與敏感屬性的關(guān)聯(lián)越強(qiáng)。噪聲方差越大,說(shuō)明查詢(xún)結(jié)果被擾動(dòng)的程度越高,敏感屬性被保護(hù)得更好。由此可以得出,當(dāng)敏感度越高,或者當(dāng)噪聲方差越小,加噪統(tǒng)計(jì)查詢(xún)結(jié)果對(duì)敏感屬性的揭露程度越高。因此,對(duì)數(shù)據(jù)提供方的補(bǔ)償應(yīng)該與查詢(xún)敏感度呈正相關(guān),而和噪聲方差呈負(fù)相關(guān),以實(shí)現(xiàn)更好的激勵(lì)效果。

接下來(lái)從屬性隱私框架的角度,給出一個(gè)使用查詢(xún)敏感度和噪聲方差計(jì)算的屬性隱私損失上界,作為后續(xù)設(shè)計(jì)補(bǔ)償函數(shù)的理論依據(jù)。

定義7 δ-屬性隱私損失。對(duì)于每個(gè)i∈SC,隨機(jī)化機(jī)制Euclid Math OneMAp在敏感屬性i上造成的δ-屬性隱私損失定義為

εδi(Euclid Math OneMAp)=sup(sia,sib)∈SPi,θ∈Θ,ORange(Euclid Math OneMAp)logP(Euclid Math OneMAp(X)∈O|sia,θ)-δP(Euclid Math OneMAp(X)∈O|sib,θ)(12)

其中:輸出集合O滿(mǎn)足P(Euclid Math OneMAp(X)∈O|sia,θ)≥δ。

定理3 給定統(tǒng)計(jì)查詢(xún)F,噪聲方差v,敏感屬性下標(biāo)i∈SC。對(duì)于隨機(jī)化機(jī)制Euclid Math OneMAp(X)=F(X)+Lap(v/2),定義7中Euclid Math OneMAp在i上造成的δ-屬性隱私損失被上界Wδi(F)/v/2約束:

δi(Euclid Math OneMAp)≤Wδi(F)v/2(13)

證明 從屬性隱私框架(S,SP,Θ)中,從秘密集合S和秘密對(duì)集合S中選取屬于i的子集,生成屬性隱私框架(Si,SPi,Θ)。給定一個(gè)隱私預(yù)算,由定理2和定義6可得,按如下方式對(duì)查詢(xún)結(jié)果F(X)添加噪聲:

F(X)+LapWδi(F)(14)

可以滿(mǎn)足(,δ)-屬性隱私,即對(duì)于任意秘密對(duì)(sa,sb)∈SP,任意數(shù)據(jù)分布θ∈Θ,都滿(mǎn)足

P(Euclid Math OneMAp(D)=O|sa,θ)≤exp(),P(Euclid Math OneMAp(D)=O|sb,θ)+δ(15)

當(dāng)不給定,而是給定方差v時(shí),由拉普拉斯分布性質(zhì)可得

=Wδi(F)v/2(16)

將式(10)代入式(9),不等式變換后可得

P(Euclid Math OneMAp(D)=O|sa,θ)-δP(Euclid Math OneMAp(D)=O|sb,θ)≤expWδi(F)v/2(17)

式(10)對(duì)于任意(sia,sib)∈SPi和θ∈Θ都滿(mǎn)足,因此與結(jié)論等價(jià)。

證畢。

定理3給出了屬性隱私損失上界Wδi(F)/v/2,該量與查詢(xún)敏感度正相關(guān),與噪聲方差負(fù)相關(guān),符合本節(jié)開(kāi)頭的分析,是一個(gè)能夠表征統(tǒng)計(jì)查詢(xún)服務(wù)對(duì)敏感屬性揭露程度的量,后面將基于該量設(shè)計(jì)補(bǔ)償函數(shù)。除了查詢(xún)敏感度和噪聲方差兩個(gè)因素以外,不同的敏感屬性的重要程度也不同,有的敏感屬性對(duì)數(shù)據(jù)提供方而言非常重要,而有的不太重要。對(duì)此,補(bǔ)償函數(shù)還需要引入可以由數(shù)據(jù)提供方根據(jù)需要自由設(shè)置的補(bǔ)償參數(shù),以在不同重要程度的敏感屬性上取得不同的補(bǔ)償。

數(shù)據(jù)提供方為數(shù)據(jù)集中的每個(gè)敏感屬性i∈SC設(shè)置兩個(gè)補(bǔ)償參數(shù)αi、βi。當(dāng)一個(gè)統(tǒng)計(jì)查詢(xún)服務(wù)Q=(F,v)請(qǐng)求到來(lái)時(shí),數(shù)據(jù)提供方因Q而在敏感屬性i上應(yīng)得的補(bǔ)償ρi(Q)為

ρi(Q)=αitanh(βiWδi(F)v/2)(18)

數(shù)據(jù)管理方對(duì)于每個(gè)敏感屬性i∈SC,都按式(18)計(jì)算應(yīng)得補(bǔ)償,然后對(duì)每個(gè)敏感屬性上的應(yīng)得補(bǔ)償求和,得到總補(bǔ)償值ρ(Q),在該服務(wù)完成交易后,數(shù)據(jù)管理方就要按照該約定補(bǔ)償值,對(duì)數(shù)據(jù)提供方進(jìn)行補(bǔ)償。總補(bǔ)償值ρ(Q)公式為

ρ(Q)=∑i∈SCρi(Q)(19)

補(bǔ)償ρi(Q)的表達(dá)式中使用了一個(gè)tanh函數(shù),是為了對(duì)補(bǔ)償值進(jìn)行約束,確保補(bǔ)償函數(shù)的有界性。如果不進(jìn)行約束,那么當(dāng)方差v為零時(shí),會(huì)計(jì)算出無(wú)窮大的補(bǔ)償值,即使限制v不為零,當(dāng)v接近零時(shí),也會(huì)計(jì)算出非常大的補(bǔ)償值,這些結(jié)果是不合理的。另外,ρi(Q)的表達(dá)式使用了兩個(gè)補(bǔ)償參數(shù)αi和βi,這兩個(gè)補(bǔ)償參數(shù)都反映了敏感屬性的重要程度,但具體作用不同:αi越大,數(shù)據(jù)提供方在敏感屬性i上應(yīng)得的補(bǔ)償上限越大;βi越大,應(yīng)得補(bǔ)償隨揭露程度提高而接近上限值αi的速率就越大。圖5展示了在不同補(bǔ)償參數(shù)組合下,補(bǔ)償函數(shù)ρi(Q)的圖像,其中橫軸為表征揭露程度的量Wδi(F)/v/2。

2.4 定價(jià)方法

2.3節(jié)描述了如何對(duì)數(shù)據(jù)提供方進(jìn)行補(bǔ)償,以激勵(lì)數(shù)據(jù)提供方共享數(shù)據(jù)。每經(jīng)歷一次統(tǒng)計(jì)查詢(xún)服務(wù),就要對(duì)數(shù)據(jù)提供方進(jìn)行一次補(bǔ)償,因此該補(bǔ)償是統(tǒng)計(jì)查詢(xún)服務(wù)的邊際成本之一。本文定價(jià)模型需要確保數(shù)據(jù)管理方在邊際成本之外可以獲得一定的收益,以對(duì)數(shù)據(jù)管理方同樣形成一定激勵(lì)。定價(jià)除了保證收益外,還必須滿(mǎn)足1.3節(jié)中介紹的無(wú)套利性。

接下來(lái),本節(jié)對(duì)統(tǒng)計(jì)查詢(xún)服務(wù)的無(wú)套利性質(zhì)進(jìn)行更細(xì)致的分析,證明幾個(gè)用于構(gòu)造無(wú)套利定價(jià)函數(shù)的命題,然后針對(duì)多個(gè)可能的場(chǎng)景,應(yīng)用這些命題設(shè)計(jì)出不同的無(wú)套利定價(jià)函數(shù)。

考察一個(gè)在數(shù)據(jù)集X上計(jì)算的復(fù)雜統(tǒng)計(jì)函數(shù)F,根據(jù)2.1節(jié)中的假設(shè),F(xiàn)可以被分解成最基本的求平均查詢(xún)和求和查詢(xún)。于是在X上的所有最基本最小的查詢(xún)可以看作是一個(gè)向量組(F′1,…,F(xiàn)′T),T>0,F(xiàn)可以表示為F=w1F′1+…+wTF′T形式的線性組合,其中wk∈Euclid ExtraaBp。換句話(huà)說(shuō),這個(gè)基本向量組在Euclid ExtraaBp上張成了一個(gè)向量空間V=span(F′1,…,F(xiàn)′T),F(xiàn)可以看作是V中的一個(gè)向量。例如,在醫(yī)院病例數(shù)據(jù)集上查詢(xún)A疾病或B疾病的比例,相當(dāng)于查詢(xún)A疾病比例加上B疾病比例,這里的“A疾病比例”和“B疾病比例”就是最基本最小的查詢(xún),是基本向量組里的2個(gè)向量。在數(shù)學(xué)中有一類(lèi)名為半范數(shù)的函數(shù),它們的性質(zhì)與無(wú)套利定價(jià)函數(shù)所需要滿(mǎn)足的性質(zhì)相近。一個(gè)定義在V上的半范數(shù)是滿(mǎn)足下列條件的實(shí)值函數(shù)g:V→Euclid ExtraaBp。

a)次可加性:g(F1+F2)≤g(F1)+g(F2),F(xiàn)1,F(xiàn)2∈V;

b)正齊次性:g(cF)=|c|g(F),F(xiàn)∈V和c∈Euclid ExtraaBp;

c)非負(fù)性:g(F)≥0,F(xiàn)∈V。

定理4 定義6中的RAWD敏感度Wδi(F)是一個(gè)定義在統(tǒng)計(jì)查詢(xún)向量空間V上的半范數(shù)。

證明 要證明Wδi(F)是一個(gè)半范數(shù),需要分別證明非負(fù)性,正齊次性,次可加性。

對(duì)于非負(fù)性,明顯可以由定義6中Wδi(F)的表達(dá)式得到。

對(duì)于正齊次性作以下表示:對(duì)任意(sia,sib)∈SP和θ∈Θ,用N(μa,σ2a)、N(μb,σ2b)、N(cμa,c2σ2a)、N(cμb,c2σ2b)分別表示F(X)|sia,θ、F(X)|sib,θ、cF(X)|sia,θ、cF(X)|sib,θ近似服從的正態(tài)分布。那么正齊次性可由期望和方差的性質(zhì)推出:

Wδi(cF)=sup(sia,sib)∈SPi,θ∈Θ{|cμa-cμb|+d|c|σa+d|c|σb}=

|c|×sup(sia,sib)∈SP,θ∈Θ{|μa-μb|+dσa+dσb}=

|c|×Wδi(F)(20)

對(duì)于次可加性作以下表示:對(duì)任意(sia,sib)∈SP和θ∈Θ,用N(μ1a,σ21a)、N(μ1b,σ21b)、N(μ2a,σ22a)、N(μ2b,σ22b)、N(μ1a+μ2a,σ21a+σ22a)、N(μ1b+μ2b,σ21b+σ22b)分別表示F1(X)|sia,θ、F1(X)|sib,θ、F2(X)|sia,θ、F2(X)|sib,θ、F1(X)+F2(X)|sia,θ、F1(X)+F2(X)|sib,θ近似服從的正態(tài)分布,可進(jìn)行如下推導(dǎo):

Wδi(F1+F2)=

sup(sia,sib)∈SP,θ∈Θ{|(μ1a+μ2a)-(μ1b+μ2b)|+dσ21a+σ22a+

dσ21b+σ22b}=sup(sia,sib)∈SP,θ∈Θ{|μ1a-μ1b+μ2a-μ2b|+dσ21a+σ22a+

dσ21b+σ22b}≤

sup(sia,sib)∈SP,θ∈Θ{|μ1a-μ1b|+|μ2a-μ2b|+dσ1a+dσ2a+

dσ1b+dσ2b}≤sup(sia,sib)∈SP,θ∈Θ{|μ1a-μ1b|+dσ1a+dσ1b}+

sup(sia,sib)∈SP,θ∈Θ{|μ2a-μ2b|+dσ2a+dσ2b}=

Wδi(F1)+Wδi(F2)(21)

其中:第一個(gè)等式由統(tǒng)計(jì)查詢(xún)函數(shù)的可加性得到;第二個(gè)等式由期望和方差的性質(zhì)得到;第一個(gè)不等式由絕對(duì)值和平方根的次可加性得到,第二個(gè)不等式由上確界(sup)的性質(zhì)得到。

證畢。

定理5 如果g是一個(gè)半范數(shù),那么定價(jià)函數(shù)g2(F)/v滿(mǎn)足無(wú)套利性。

證明 根據(jù)定義3描述的查詢(xún)確定性,下面的查詢(xún)確定性關(guān)系成立:{(F1,v1),…,(Ft,vt)}Euclid ExtraaAp(F,v),當(dāng)且僅當(dāng)存在c1,…,ct使得c1F1+…+ctFt=F和c21v1+…+c2tvt≤v。對(duì)于一個(gè)查詢(xún)確定性關(guān)系{(F1,v1),…,(Ft,vt)}Euclid ExtraaAp(F,v),可推出

∑tk=1π(Fk,vk)=∑kg2(Fk)vk=(∑kg2(Fk)vk)(∑kc2kvk)∑kc2kvk≥

(∑k|ck|g(Fk))2∑kc2kvk=(∑kg(ckFk))2∑kc2kvk≥

g2(F)v=π(F,v)(22)

其中:第一個(gè)不等式由柯西不等式得到,第二個(gè)不等式由半范數(shù)性質(zhì)得到。

證畢。

定理4證明了本文RAWD敏感度是一個(gè)半范數(shù),可以用于設(shè)計(jì)無(wú)套利定價(jià)函數(shù)。定理5給出了無(wú)套利定價(jià)函數(shù)的一個(gè)最簡(jiǎn)單的形式g2(F)/v。接下來(lái),定理6將展示如何利用滿(mǎn)足非遞減性和次可加性的函數(shù)合成更多無(wú)套利定價(jià)函數(shù)。然后,通過(guò)應(yīng)用定理6,推論1將給出一些真實(shí)滿(mǎn)足非遞減性和次可加性的函數(shù)。對(duì)于任意x,y∈Euclid ExtraaBpt,函數(shù)h:(Euclid ExtraaBp+)t→Euclid ExtraaBp+滿(mǎn)足非遞減性,如果x≤y蘊(yùn)涵h(huán)(x)≤h(y);h滿(mǎn)足次可加性,如果h(x+y)≤h(x)+h(y)。

定理6 給定一系列無(wú)套利定價(jià)函數(shù)π1,…πs,s≥1。讓h:(Euclid ExtraaBp+)t→Euclid ExtraaBp+表示一個(gè)滿(mǎn)足非遞減性和次可加性的函數(shù),那么使用h合成的定價(jià)函數(shù)π(Q)=h(π1(Q),…,πs(Q))也是無(wú)套利的。

證明 考慮查詢(xún)確定性關(guān)系{Q1,…,Qt}→Q,其中t≥1,可以推出

π(Q)=h(π1(Q),…,πs(Q))≤h(∑tk=1π1(Qk),…,∑tk=1πs(Qk))≤

∑tk=1h(π1(Qk),…,πs(Qk))=∑tk=1π(Qk)(23)

其中:第一個(gè)不等式由π1,…,πs的無(wú)套利性和h的非遞減性得到,第二個(gè)不等式由h的次可加性得到。

證畢。

推論1 給定一系列無(wú)套利定價(jià)函數(shù)π1,…,πt,t≥1。那么下面列出的定價(jià)函數(shù)也是無(wú)套利的。

a)線性組合:c1π1(Q)+…+ctπt(Q),c1,…,ct≥0;

b)冪函數(shù):πc1(Q),0<c≤1;

c)有界函數(shù):tanh(π1(Q)),sigmoid(π1(Q)),arctan(π1(Q)),π1(Q)π21(Q)+1。

證明 可以驗(yàn)證上面列出的函數(shù)都滿(mǎn)足非遞減性和次可加性。根據(jù)定理6,可以推出上述結(jié)論。證畢。

本文定價(jià)模型采用成本加成定價(jià)法,因?yàn)檠a(bǔ)償是邊際成本之一,所以定價(jià)函數(shù)需要依賴(lài)2.3節(jié)中的補(bǔ)償函數(shù)ρ(Q)。定理7證明了補(bǔ)償函數(shù)ρ(Q)滿(mǎn)足無(wú)套利性,可以用于設(shè)計(jì)更多無(wú)套利定價(jià)函數(shù)。

定理7 補(bǔ)償函數(shù):

ρ(Q)=∑i∈SCαitanhβiWδi(F)v/2(24)

滿(mǎn)足無(wú)套利性。

證明 根據(jù)定理4和5,可得到(Wδi(F))2/v滿(mǎn)足無(wú)套利性。然后,根據(jù)推論1,可以按順序依次證明下列定價(jià)函數(shù)滿(mǎn)足無(wú)套利性:

Wδi(F)v/2 (使用線性組合和冪函數(shù))

tanhβiWδi(F)v/2 (使用線性組合和tanh函數(shù))

∑i∈SCαitanhβiWδi(F)v/2 (使用線性組合)(25)

下面針對(duì)幾個(gè)不同的現(xiàn)實(shí)場(chǎng)景,應(yīng)用本節(jié)給出的幾個(gè)命題設(shè)計(jì)無(wú)套利定價(jià)函數(shù)。首先考慮一個(gè)最基本的場(chǎng)景,統(tǒng)計(jì)查詢(xún)結(jié)果是一維的,并且補(bǔ)償是唯一的邊際成本因素,那么可以在補(bǔ)償ρ(Q)之上乘以一個(gè)不小于1的系數(shù)來(lái)確保收益。用η表示一個(gè)非負(fù)的收益率,那么該場(chǎng)景下的定價(jià)函數(shù)為

π(Q)=(1+η)ρ(Q)=

(1+η)∑i∈SCαitanhβiWδi(F)v/2(26)

由推論1和定理7,該定價(jià)函數(shù)相當(dāng)于在無(wú)套利的補(bǔ)償函數(shù)上復(fù)合了線性組合函數(shù),所以也滿(mǎn)足無(wú)套利性。

接著考慮查詢(xún)結(jié)果多維的場(chǎng)景,例如數(shù)據(jù)需求方請(qǐng)求的是一個(gè)完整的直方圖查詢(xún),直方圖內(nèi)包括了多個(gè)取值的計(jì)數(shù),該直方圖查詢(xún)可以表示為一個(gè)查詢(xún)包F={F1,…,F(xiàn)t},該次統(tǒng)計(jì)查詢(xún)服務(wù)可以看作t個(gè)基本統(tǒng)計(jì)查詢(xún)服務(wù)的集合Q={(F1,v),…,(Ft,v)},那么此時(shí)的邊際成本就是t個(gè)基本服務(wù)的補(bǔ)償之和,該場(chǎng)景下的定價(jià)函數(shù)為

π(Q)=(1+η)∑tk=1ρ(Fk,v)=

(1+η)∑tk=1∑i∈SCαitanhβiWδi(Fk)v/2(27)

由推論1和定理7,該定價(jià)函數(shù)也相當(dāng)于在無(wú)套利的補(bǔ)償函數(shù)上復(fù)合了線性組合函數(shù),所以也滿(mǎn)足無(wú)套利性。

然后,考慮補(bǔ)償是唯一邊際成本,但有其他統(tǒng)計(jì)查詢(xún)價(jià)值因素(如精確度、一致性等)的場(chǎng)景,用∑sk=1wkfactork(Q)表示加權(quán)綜合了其他價(jià)值因素的無(wú)套利定價(jià)函數(shù),用c∈(0,1]表示冪函數(shù)參數(shù)(冪函數(shù)用于價(jià)格折扣),該場(chǎng)景下定價(jià)函數(shù)為

π(Q)=(1+η)ρ(Q)+(∑sk=1wkfactork(Q))c(28)

由推論1和定理7,該定價(jià)函數(shù)相當(dāng)于在無(wú)套利定價(jià)函數(shù)上進(jìn)一步復(fù)合冪函數(shù)和線性組合函數(shù),所以也滿(mǎn)足無(wú)套利性。

最后,考慮有多個(gè)邊際成本因素的場(chǎng)景,將其他滿(mǎn)足無(wú)套利性的邊際成本函數(shù)表示為cost1(Q),…,costs(Q),該場(chǎng)景下定價(jià)函數(shù)為

π(Q)=(1+η)(ρ(Q)+∑sk=1costk(Q))(29)

由推論1和定理7,該定價(jià)函數(shù)相當(dāng)于在無(wú)套利定價(jià)函數(shù)上多次復(fù)合了線性組合函數(shù),所以也滿(mǎn)足無(wú)套利性。現(xiàn)實(shí)中更常見(jiàn)的一種情況是,數(shù)據(jù)管理方根據(jù)生產(chǎn)中每一次查詢(xún)的平均消耗,設(shè)置一個(gè)固定邊際成本,該情況是上述多邊際成本場(chǎng)景的特殊場(chǎng)景,即只有一個(gè)取值固定的cost1(Q)。固定取值成本函數(shù)是無(wú)套利的,因此定價(jià)函數(shù)也是無(wú)套利的。

3 實(shí)驗(yàn)結(jié)果與分析

a)實(shí)驗(yàn)環(huán)境。定價(jià)模型的實(shí)現(xiàn)代碼使用Python 3.8.13編寫(xiě),其中計(jì)算敏感度的部分使用Java 8編寫(xiě)。所有的實(shí)驗(yàn)都運(yùn)行在一臺(tái)擁有2.8 GHz Intel CoreTM i7-7700HQ處理器和16 GB內(nèi)存的物理機(jī)上。

b)數(shù)據(jù)集和分布建模。實(shí)驗(yàn)采用真實(shí)的UCI公開(kāi)數(shù)據(jù)集Adult[29]。該數(shù)據(jù)集包含了來(lái)自不同國(guó)家的48 842條人口普查數(shù)據(jù),擁有年齡、婚姻狀態(tài)和是否高收入等數(shù)據(jù)列。實(shí)驗(yàn)假設(shè)二值型和種類(lèi)型數(shù)據(jù)列上的屬性是服從伯努利分布的,而數(shù)值型數(shù)據(jù)列上的屬性服從連續(xù)分布(如正態(tài)分布)。接著,實(shí)驗(yàn)使用一個(gè)多元正態(tài)分布對(duì)這些分布的均值參數(shù)關(guān)聯(lián)進(jìn)行建模。為了學(xué)習(xí)該多元正態(tài)分布,將數(shù)據(jù)集按照不同的國(guó)家劃分成多個(gè)子集,求出每個(gè)子集的均值參數(shù),然后將每個(gè)子集作為一個(gè)樣本對(duì)多元正態(tài)分布進(jìn)行估計(jì)。在該前提下,算法1復(fù)雜度中的取值為1。

c)查詢(xún)服務(wù)和屬性設(shè)置。數(shù)據(jù)市場(chǎng)各方約定近似概率為δ=0.001。數(shù)據(jù)提供方設(shè)置了兩個(gè)敏感屬性:一是收入超過(guò)50 k的人口比例,二是在民營(yíng)企業(yè)工作的人口比例。數(shù)據(jù)管理方提供數(shù)據(jù)提供方允許的各類(lèi)統(tǒng)計(jì)查詢(xún)。表1列出了不同數(shù)據(jù)列上提供的基本統(tǒng)計(jì)查詢(xún)類(lèi)型,在其之上有更多衍生的統(tǒng)計(jì)查詢(xún),不在表格中一一列出。

3.1 效率與效用平衡

本節(jié)評(píng)估在2.2節(jié)中基于RAWM計(jì)算的RAWD敏感度,從效率和效用兩個(gè)角度評(píng)估。效率即計(jì)算時(shí)間,而效用是隨機(jī)化機(jī)制向查詢(xún)中添加噪聲后的查詢(xún)準(zhǔn)確程度,在隨機(jī)化機(jī)制滿(mǎn)足隱私框架要求的前提下,隨機(jī)化機(jī)制的效用越高,說(shuō)明添加噪聲的大小對(duì)查詢(xún)敏感程度衡量得越緊,效果更好,也意味著基于該隨機(jī)化機(jī)制計(jì)算的查詢(xún)敏感度效果更好。評(píng)估效用采用的指標(biāo)是1-F(X)-Euclid Math OneMAp(X)F(X)+Euclid Math OneMAp(X)[6],其中,F(xiàn)(X)表示真實(shí)查詢(xún)結(jié)果,Euclid Math OneMAp(X)表示經(jīng)隨機(jī)化機(jī)制擾動(dòng)后的查詢(xún)結(jié)果。

實(shí)驗(yàn)對(duì)比的方法有AWM[28]、WM[27]、EVM[28]、MQM[26]。其中主要對(duì)比的方法是AWM,相較于AWM,RAWM(RAWD敏感度)計(jì)算時(shí)間大大減少,但是添加了更多的噪聲,因此會(huì)使查詢(xún)服務(wù)的效用略有下降,也就是說(shuō)RAWD敏感度會(huì)比基于AWM的敏感度效果略差。實(shí)驗(yàn)在不同的參數(shù)配置下模擬了約1 500 000個(gè)查詢(xún)服務(wù),記錄下每個(gè)服務(wù)效用和定價(jià)時(shí)間,繪制結(jié)果與各參數(shù)之間的關(guān)系圖并觀察。在參數(shù)中,數(shù)據(jù)量n范圍為{103,104,105,106,107,108},隱私預(yù)算范圍為{10-6,10-5,10-4,10-3,10-2,10-1,100,101,102,103},近似概率δ范圍為{10-6,10-5,10-4,10-3,10-2}。AWM計(jì)算定義2中的δ-近似Wasserstein距離意味著需要找到最優(yōu)的聯(lián)合分布γ和支撐集子集R組合,但是,目前沒(méi)有可用的解析解或算法能尋找出該最優(yōu)組合[28]。雖然AWM難以準(zhǔn)確計(jì)算,但是其計(jì)算時(shí)間不低于WM,其效用在EVM和WM之間[28]。因此,實(shí)驗(yàn)計(jì)算WM和EVM作為AWM的時(shí)間和效用邊界,并在圖6中將WM的時(shí)間作為AWM的時(shí)間下界,在圖7、8中用一片區(qū)域表示AWM的效用范圍,使用最壞情況下的效用差距(即AWM效用上界和RAWM效用的差距)作為本文RAWM的效用代價(jià)。圖6展示了敏感度計(jì)算時(shí)間與數(shù)據(jù)量n之間的關(guān)系。圖7展示了當(dāng)n=103時(shí)效用與隱私預(yù)算之間的關(guān)系。圖8展示了當(dāng)=10-1時(shí)效用與數(shù)據(jù)量n之間的關(guān)系。圖9展示了當(dāng)=10-1時(shí)效用與近似概率δ之間的關(guān)系。

從圖6可以得出,相較于基于AWM或WM的方法,本文RAWD敏感度將時(shí)間復(fù)雜度從Ω(n)降低到了O(1)?;贓VM的方法也是O(1)復(fù)雜度,但是EVM無(wú)法滿(mǎn)足屬性隱私要求,缺乏合理性。基于MQM的也是O(1)復(fù)雜度。

從圖7可以觀察到,當(dāng)n=103時(shí),在=10-1處,不同方法的效用差距是最明顯的,實(shí)驗(yàn)中當(dāng)n取其他值時(shí),同樣也是在=10-1處差距最大(由于篇幅限制不全部展示)。因此,圖8和9都在固定=10-1的基礎(chǔ)上對(duì)比效用。圖7的=10-1處對(duì)應(yīng)了圖8的n=103處。

從圖8可以得出,MQM效用太低,RAWD效用低于EVM、AWM、WM三個(gè)方法。然而隨著數(shù)據(jù)量n變大, EVM、AWM、WM三個(gè)方法與RAWD之間的效用差距越來(lái)越小,特別地,當(dāng)n=108時(shí),RAWD和AWM的效用差距不超過(guò)0.52%。說(shuō)明在大數(shù)據(jù)量下,RAWD也能取得很好的效用。

從圖9可以得出,RAWD的效用會(huì)隨著近似概率δ的增加而略微增加,影響不大,因此本文定價(jià)模型對(duì)δ取固定值。

綜上,EVM缺乏合理性,MQM時(shí)間復(fù)雜度也為O(1)但效用過(guò)差,因此都不如本文的RAWD敏感度。對(duì)于AWM和WM,RAWD效用略差但大大減小了計(jì)算時(shí)間,因?yàn)槎鄶?shù)情況下數(shù)據(jù)量n是一個(gè)比較大的值,所以本文RAWD敏感度將定價(jià)模型中查詢(xún)敏感度的計(jì)算時(shí)間復(fù)雜度從Ω(n)降低到了O(1),僅僅付出了很低的效用代價(jià)。

3.2 細(xì)粒度補(bǔ)償

本節(jié)評(píng)估在2.3節(jié)中設(shè)計(jì)的補(bǔ)償函數(shù)。評(píng)估方式為在一個(gè)數(shù)據(jù)列上模擬同方差的多個(gè)服務(wù),觀察補(bǔ)償值分布是否分散,是否能夠區(qū)分不同服務(wù)對(duì)敏感屬性的不同揭露程度。選取的數(shù)據(jù)列包括age、education-num、hours-per-week、marital-status。服務(wù)方差統(tǒng)一為0.01。兩個(gè)敏感屬性的補(bǔ)償參數(shù)都為αi=5,βi=1,所以補(bǔ)償?shù)娜≈捣秶鸀椋?,10]。在不同數(shù)據(jù)列上模擬統(tǒng)計(jì)查詢(xún)服務(wù)的補(bǔ)償分布如圖10所示。

觀察圖10可以發(fā)現(xiàn),在每個(gè)數(shù)據(jù)列上模擬統(tǒng)計(jì)查詢(xún)服務(wù)的補(bǔ)償分布在區(qū)間的不同部分中,可以區(qū)分一個(gè)數(shù)據(jù)列上統(tǒng)計(jì)查詢(xún)服務(wù)對(duì)敏感屬性的不同揭露程度,并且不同數(shù)據(jù)列上的總體補(bǔ)償水平也有不同,例如education-num列上的補(bǔ)償比age列上的補(bǔ)償總體要高,這是因?yàn)閑ducation-num列和敏感屬性(收入超過(guò)50 k的人口比例,在民營(yíng)企業(yè)工作的人口比例)之間的關(guān)聯(lián)更大,相應(yīng)地,education-num列上的查詢(xún)比age列上的查詢(xún)對(duì)敏感屬性揭露程度更高。以上分析說(shuō)明,本文設(shè)計(jì)的補(bǔ)償函數(shù)能夠?qū)?shù)據(jù)提供方進(jìn)行細(xì)粒度補(bǔ)償,合理反映統(tǒng)計(jì)查詢(xún)服務(wù)對(duì)敏感屬性的揭露程度,形成更好的激勵(lì)效果。

3.3 無(wú)套利性

本節(jié)評(píng)估在2.4節(jié)中設(shè)計(jì)的無(wú)套利定價(jià)函數(shù)。評(píng)估無(wú)套利性使用的指標(biāo)為套利攻擊成本∑tk=1π(Qk)和目標(biāo)查詢(xún)價(jià)格π(Q)的累積比例[6]。當(dāng)攻擊成本和目標(biāo)價(jià)格的比率小于1時(shí),稱(chēng)為一次成功的套利攻擊。累積比例曲線上的一個(gè)點(diǎn)代表攻擊成本和目標(biāo)價(jià)格比例小于該點(diǎn)的套利攻擊比例,也就是說(shuō),累積比例曲線在點(diǎn)1處的值代表了成功套利攻擊的比例。實(shí)驗(yàn)?zāi)M了兩種套利攻擊,分別為查詢(xún)攻擊和套利攻擊。查詢(xún)套利攻擊可表示為{(F1,v/t),…,(Ft,v/t)}Euclid ExtraaAp(F,v);方差套利攻擊可表示為{(F,tv)1,…,(F,tv)t}Euclid ExtraaAp(F,v)。實(shí)驗(yàn)?zāi)M了約40 000次套利攻擊,查詢(xún)套利攻擊的參數(shù)t取值范圍為{2,3,4,5},方差套利攻擊的參數(shù)t取值范圍為{2,10,25,50}。圖11展示了查詢(xún)套利攻擊的累積比例曲線。圖12展示了方差套利攻擊的累積比例曲線。

觀察圖11、12可以發(fā)現(xiàn),累積比例曲線在成本比例為1時(shí)都為0%。這說(shuō)明沒(méi)有任何攻擊的成本比例小于1,所有的套利攻擊都沒(méi)有成功,驗(yàn)證了定價(jià)函數(shù)的無(wú)套利性。此外,隨著參數(shù)t的增加,累積比例曲線呈現(xiàn)右移的趨勢(shì),這與直覺(jué)一致,因?yàn)閰?shù)t也代表了套利攻擊的查詢(xún)個(gè)數(shù),查詢(xún)個(gè)數(shù)更多會(huì)導(dǎo)致攻擊成本比例更高。

4 結(jié)束語(yǔ)

本文針對(duì)現(xiàn)有統(tǒng)計(jì)查詢(xún)定價(jià)模型沒(méi)有考慮查詢(xún)結(jié)果揭露數(shù)據(jù)集敏感屬性的問(wèn)題,提出了基于屬性隱私的統(tǒng)計(jì)查詢(xún)定價(jià)模型。模型提出了RAWM,基于RAWM提出RAWD敏感度作為查詢(xún)敏感度,可以在常數(shù)時(shí)間復(fù)雜度內(nèi)計(jì)算,使用查詢(xún)敏感度、噪聲方差、補(bǔ)償參數(shù)綜合地計(jì)算補(bǔ)償,針對(duì)多個(gè)場(chǎng)景,在補(bǔ)償之上使用成本加成定價(jià)法設(shè)計(jì)了多個(gè)無(wú)套利定價(jià)函數(shù)。在公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,模型中的查詢(xún)敏感度算法很好地實(shí)現(xiàn)了效用和效率的平衡,模型能夠提供細(xì)粒度補(bǔ)償以更好地激勵(lì)共享,模型設(shè)計(jì)的定價(jià)函數(shù)滿(mǎn)足無(wú)套利性。

但是,本文定價(jià)模型仍有不足。例如只能對(duì)統(tǒng)計(jì)查詢(xún)服務(wù)進(jìn)行定價(jià),無(wú)法衡量機(jī)器學(xué)習(xí)服務(wù)對(duì)數(shù)據(jù)集敏感屬性的揭露;只能將數(shù)據(jù)集的分布參數(shù)視為敏感屬性,沒(méi)有考慮當(dāng)敏感屬性是數(shù)據(jù)集的復(fù)雜特征表達(dá)式時(shí)該如何定價(jià)。

參考文獻(xiàn):

[1]江東, 袁野, 張小偉, 等. 數(shù)據(jù)定價(jià)與交易研究綜述[J]. 軟件學(xué)報(bào), 2023, 34(3): 1396-1424. (Jiang Dong, Yuan Ye, Zhang Xiao-wei,et al. A survey on data pricing and trading research[J]. Journal of Software, 2023, 34(3): 1396-1424.)

[2]DAWEX. Global big data exchange[EB/OL]. (2024-04-03). https://www.gzdex.com.cn/.

[3]DAWEX. Sell, buy and share data[EB/OL]. (2024-04-03). https://www. dawex.com/en/.

[4]Zhang Mengxiao, Beltrán F, Liu Jiamou. A survey of data pricing for data marketplaces[J]. IEEE Trans on Big Data, 2023, 9(4): 1038-1056.

[5]Koutris P, Upadhyaya P, Balazinska M,et al. query-based data pricing[J]. Journal of the ACM, 2015, 62(5): 1-44.

[6]Niu Chaoyue, Zheng Zhenzhe, Wu Fan,et al. ERATO: trading noisy aggregate statistics over private correlated data[J]. IEEE Trans on Knowledge & Data Engineering, 2021, 33(3): 975-990.

[7]He Zaobo, Cai Zhipeng. Trading aggregate statistics over private Internet of Things data[J]. IEEE Trans on Computers, 2024, 73(2): 394-407.

[8]陳思瑩, 張丹, 丁小歐, 等. 基于數(shù)據(jù)質(zhì)量的公平數(shù)據(jù)定價(jià)[J]. 大數(shù)據(jù), 2024, 10(2): 54-67. (Chen Siying, Zhang Dan, Ding Xiaoou,et al. Fair data pricing based on data quality[J]. Big Data Research, 2024, 10(2): 54-67.)

[9]Yu Mingkai, Wang Jianxiao, Yan Jie,et al. Pricing information in smart grids: a quality-based data valuation paradigm[J]. IEEE Trans on Smart Grid, 2022, 13(5): 3735-3747.

[10]劉珂. 基于Shapley值的冷鏈物流檢測(cè)信息特征組合定價(jià)研究[D]. 重慶: 重慶郵電大學(xué), 2022. (Liu Ke. Shapley value-based pricing for feature combination of detection information in cold chain logistics[D]. Chongqing: Chongqing University of Posts and Telecommunications, 2022.)

[11]Wang Tianhao, Rausch J, Zhang Ce,et al. A principled approach to data valuation for federated learning[M]// Yang Qiang, Fan Lixin, Yu Han. Federated learning: privacy and incentive. Cham: Springer International Publishing, 2020: 153-167.

[12]Xu Anran, Zheng Zhenzhe, Li Qinya,et al. VAP: online data valuation and pricing for machine learning models in mobile health[J]. IEEE Trans on Mobile Computing, 2024, 23(5): 5966-5983.

[13]盧玉, 王靜宇, 劉立新, 等. 拍賣(mài)機(jī)制驅(qū)動(dòng)的數(shù)據(jù)激勵(lì)共享方案[J]. 計(jì)算機(jī)科學(xué)與探索,2024,18(8):2203-2220. (Lu Yu, Wang Jingyu, Liu Lixin,et al. Auction mechanism driven data incentive sharing solution[J]. Journal of Frontiers of Computer Science and Technology, 2024,18(8):2203-2220.)

[14]涂輝招, 劉建泉, 遇澤洋, 等. 基于改進(jìn)型Stackelberg博弈的自動(dòng)駕駛測(cè)試數(shù)據(jù)定價(jià)模型[J]. 同濟(jì)大學(xué)學(xué)報(bào): 自然科學(xué)版, 2023, 51(11): 1735-1744. (Tu Huizhao, Liu Jianquan, Yu Ze-yang,et al. Pricing model of autonomous vehicle testing data based on evolved Stackelberg game[J]. Journal of Tongji University: Natural Science, 2023, 51(11): 1735-1744.)

[15]Wang Jiandong, Liu Hao, Dong Xuewen,et al. Personalized location privacy trading in double auction for mobile crowdsensing[J]. IEEE Internet of Things Journal, 2022, 10(10): 8971-8983.

[16]Li Chuang, He Aoli, Wen Yanhua,et al. Optimal trading mechanism based on differential privacy protection and Stackelberg game in big data market[J]. IEEE Trans on Services Computing, 2023, 16(5): 3550-3563.

[17]巫朝霞, 唐靖蕾, 苗志偉. 云環(huán)境下支持多授權(quán)機(jī)構(gòu)的醫(yī)療數(shù)據(jù)安全共享方案[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(12): 3800-3804. (Wu Chaoxia, Tang Jinglei, Miao Zhiwei. Medical data secure sharing scheme supporting multi-authority in cloud environment[J]. Application Research of Computers, 2023, 40(12): 3800-3804.)

[18]Li Chao, Li D Y, Miklau G,et al. A theory of pricing private data[J]. Communications of the ACM, 2017, 60(12): 79-86.

[19]Shen Yuncheng, Guo Bing, Shen Yan,et al. Personal big data pricing method based on differential privacy[J]. Computers & Security, 2022, 113: 102529.

[20]Cai Hui, Yang Yuanyuan, Fan Weibei,et al. Towards correlated data trading for high-dimensional private data[J]. IEEE Trans on Parallel and Distributed Systems, 2023, 34(3): 1047-1059.

[21]董愷, 蔣馳昊, 李想, 等. 基于代理訓(xùn)練集的屬性推理攻擊防御方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2024, 47(4): 907-923. (Dong Kai, Jiang Chihao, Li Xiang,et al. Defending against property inference attacks based on agent training datasets[J]. Chinese Journal of Compu-ters, 2024, 47(4): 907-923.)

[22]Manousis A, Shah H, Milner H,et al. The shape of view: an alert system for video viewership anomalies[C]// Proc of the 21st ACM Internet Measurement Conference. New York: ACM Press, 2021: 245-260.

[23]Ateniese G, Mancini L V, Spognardi A,et al. Hacking smart machines with smarter ones: how to extract meaningful data from machine learning classifiers[J]. International Journal of Security and Networks, 2015, 10(3): 137-150.

[24]Dwork C, Roth A. The algorithmic foundations of differential privacy[J]. Foundations and Trends in Theoretical Computer Science, 2014, 9(3-4): 211-407.

[25]Kifer D, Machanavajjhala A. Pufferfish: a framework for mathematical privacy definitions[J]. ACM Trans on Database Systems, 2014, 39(1): 1-36.

[26]Zhang Wanrong, Ohrimenko O, Cummings R. Attribute privacy: framework and mechanisms[C]// Proc of ACM Conference on Fairness, Accountability, and Transparency. New York: ACM Press, 2022: 757-766.

[27]Song Shuang, Wang Yizhen, Chaudhuri K. Pufferfish privacy mechanisms for correlated data[C]// Proc of ACM International Conference on Management of Data. New York: ACM Press, 2017: 1291-1306.

[28]Chen M, Ohrimenko O. Protecting global properties of datasets with distribution privacy mechanisms[C]// Proc of the 26th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2023: 7472-7491.

[29]Becker B, Kohavi R. Adult[DB/OL]. (1996-04-30). https://archive.ics.uci.edu/dataset/2/adult.