国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向高維數(shù)據(jù)發(fā)布的差分隱私算法及應用綜述

2024-12-01 00:00:00龍春秦澤秀李麗莎李婧楊帆魏金俠付豫豪

摘要:隨著大數(shù)據(jù)和機器學習技術的進一步發(fā)展,處理具有幾十上百維特征的復雜結(jié)構和關系且蘊含豐富語義信息的高維數(shù)據(jù)成為一項挑戰(zhàn)。在保障個人隱私不被泄露的前提下,如何安全地使用這些高維數(shù)據(jù),成為當前的一個重要話題。我們查閱資料發(fā)現(xiàn):關于差分隱私技術本身的綜述很多,但是面向高維數(shù)據(jù)發(fā)布的差分隱私算法及應用的綜述卻很少。基于此,本文通過對差分隱私在高維數(shù)據(jù)領域的應用進行綜述,深入了解不同方法在保護高維數(shù)據(jù)隱私方面的優(yōu)劣,并指導面向高維數(shù)據(jù)發(fā)布的差分隱私算法未來研究的方向,從而更好地應對隱私保護和數(shù)據(jù)分析的挑戰(zhàn)。本文首先介紹了差分隱私的原理和特性,總結(jié)了當前差分隱私技術本身的研究工作。然后從數(shù)據(jù)降維和數(shù)據(jù)合成兩個角度分析了差分隱私在高維數(shù)據(jù)環(huán)境中的應用,探討了差分隱私面臨的問題和挑戰(zhàn),并提出了初步的解決方法,旨在更好地解決當前高維數(shù)據(jù)保護和使用的問題。最后,本文提出了未來可能的研究方向以促進技術交流,推動差分隱私在高維數(shù)據(jù)應用中的進一步突破。

關鍵詞:差分隱私;高維數(shù)據(jù);擾動機制;隱私分配

1 "引言

隨著大數(shù)據(jù)和機器學習技術的迅速發(fā)展,越來越多的敏感數(shù)據(jù)被收集和分析[1],例如個人健康信息、金融記錄和個人行為數(shù)據(jù)等。然而,由于企業(yè)和組織對用戶隱私數(shù)據(jù)的不當收集、存儲和使用導致了隱私泄露事件和隱私侵犯事件頻繁發(fā)生,這嚴重影響了個人和企業(yè)的隱私安全。2021年10月,醫(yī)療中心Broward Health的網(wǎng)站遭到攻擊,超130萬個人信息泄露;2022年6月,F(xiàn)lagstar銀行遭黑客攻擊,150萬客戶的數(shù)據(jù)泄露。另外,表1展示了2023年第一季度的重大數(shù)據(jù)泄露事件,這些事件凸顯了在數(shù)字時代強有力的隱私保護措施的重要性,尤其是在醫(yī)療健康、電子商務和金融安全等領域。在上述背景下,加強隱私保護措施已成為當務之急。只有通過加強數(shù)據(jù)保護技術、完善隱私保護法律法規(guī)、加強數(shù)據(jù)安全意識教育等措施,才能有效應對不斷演變的隱私安全挑戰(zhàn),確保用戶個人隱私和數(shù)據(jù)安全不受侵犯。

歐盟于2018年出臺《通用數(shù)據(jù)保護條例(GDPR)》[2],規(guī)定了如何處理個人數(shù)據(jù),包括數(shù)據(jù)主體的知情同意、數(shù)據(jù)保護官員的指定、數(shù)據(jù)遷移權、數(shù)據(jù)泄露通知等。它還強調(diào)了個人數(shù)據(jù)的可控性和可訪問性,為數(shù)據(jù)保護設定了嚴苛的標準。同年,加州發(fā)布《加州消費者隱私法案(CCPA)》[3]。該法案為加州居民更好地保護個人數(shù)據(jù),包括請求數(shù)據(jù)的訪問和刪除,要求企業(yè)提供透明的數(shù)據(jù)處理政策。2021年中國的《中華人民共和國數(shù)據(jù)安全法》[4]開始施行,它加強了對個人數(shù)據(jù)的保護,包括明確個人數(shù)據(jù)的定義和分類、規(guī)定數(shù)據(jù)處理原則、加強跨境數(shù)據(jù)傳輸?shù)谋O(jiān)管等。這些法規(guī)的實施促使企業(yè)和研究機構尋求更加高效和合規(guī)的隱私保護技術,特別是在處理包含豐富個人信息的高維數(shù)據(jù)時。在這樣的環(huán)境下,各種數(shù)據(jù)保護技術蓬勃發(fā)展。

差分隱私[5]是一種先進的隱私保護技術,它通過在數(shù)據(jù)發(fā)布或查詢過程中添加噪聲來保護個體的隱私。差分隱私技術被認為是保護數(shù)據(jù)隱私的有效手段,已經(jīng)被諸如Microsoft、Google等科技巨頭在其數(shù)據(jù)收集和分析中采用[6-7],美國國家標準與技術研究所(NIST)也發(fā)布了差分隱私標準的草案,并鼓勵其在各個領域的采用[8]。

李曉曄、李楊和趙禹齊等人[9-11]的三篇綜述概括了差分隱私的各種保護方法及其在不同場景下的應用,并分析了該領域未來的研究方向。與此同時,高志強和葉青青等人[12-13]對中心化差分隱私和本地化差分隱私進行了綜述,總結(jié)了差分隱私技術所面臨的主要問題和解決方案。近年來,隨著差分隱私研究的不斷增加,劉俊旭和Ahmed等人[14-15]總結(jié)了差分隱私在機器學習和深度學習中的應用情況,分析了當前研究的動態(tài)并對未來的研究方向進行了展望??租曟玫热薣16]對差分隱私在K-means算法中的應用進行了總結(jié),展望了基于差分隱私的K-means算法的未來發(fā)展趨勢。此外,王騰等人[17]綜述了聯(lián)邦學習中的幾種隱私保護技術,其中包括以差分隱私為基礎的隱私保護技術,探討了聯(lián)邦學習中隱私保護的若干關鍵問題,并提出了未來的研究方向。

我們查閱資料發(fā)現(xiàn):關于差分隱私的綜述很多,但是在面向高維數(shù)據(jù)發(fā)布的差分隱私算法及應用的綜述卻很少。當前面對越來越復雜的高維數(shù)據(jù),差分隱私在該領域的綜述顯得尤為必要。通過對差分隱私在高維數(shù)據(jù)領域的應用進行綜述,深入了解不同方法在保護高維數(shù)據(jù)隱私方面的優(yōu)劣,并指導未來研究的方向,從而更好地應對隱私保護和數(shù)據(jù)分析的挑戰(zhàn)。

Narayanan等人[18]認為高維數(shù)據(jù)是指每一條記錄都包含許多屬性的數(shù)據(jù),而Wang等人[19]認為高維數(shù)據(jù)是指每一條記錄的維度都大于等于二,褚雪君和Amaratunga等人[20-21]認為高維數(shù)據(jù)是指每一條記錄具有幾十上百維特征。這里采納廣泛使用的褚雪君等人關于高維數(shù)據(jù)的定義,認為具有復雜的結(jié)構和關系,蘊含豐富語義信息,通常具有幾十上百維特征的數(shù)據(jù)是高維數(shù)據(jù)。傳統(tǒng)的差分隱私都是保護單個屬性或是某幾個屬性,但Sweeney證明[22]87%的美國人可以通過郵編、出生日期和性別這三個組合屬性唯一識別,所以如果假設數(shù)據(jù)集中的屬性可分為隱私屬性和公共屬性,然后只保護某幾個隱私屬性,這是不合理的。因為隱私屬性和公共屬性并不存在明顯的分界,任何屬性組合皆有可能泄漏個人的獨有特征規(guī)律。針對這種有幾十上百維特征的數(shù)據(jù),并沒有特別適合的保護方法??偟膩碚f,直接將傳統(tǒng)的保護低維數(shù)據(jù)的差分隱私方法推廣到高維數(shù)據(jù),會出現(xiàn)以下問題[23-24]:(1)與低維數(shù)據(jù)相比,高維數(shù)據(jù)的屬性過多,想達到與低維數(shù)據(jù)相同的隱私保護效果,高維數(shù)據(jù)需要添加更多的噪聲。增加噪音可以提高隱私保護級別,但會降低數(shù)據(jù)的效用;(2)面向高維數(shù)據(jù)發(fā)布的差分隱私保護技術往往需要在隱私和效用之間做出權衡,但目前沒有很好的方法,來平衡兩者之間的關系。

這種情況要求業(yè)界開發(fā)新的算法和技術,更好地適應高維數(shù)據(jù)的特點。隨著技術的不斷發(fā)展,出現(xiàn)了更多更復雜的應用場景,如何在保護數(shù)據(jù)隱私的同時保持數(shù)據(jù)的高效利用,仍然需要進一步探索。希望本綜述可以給研究者提供不同思路,幫助其探索和改進差分隱私在高維數(shù)據(jù)環(huán)境中的應用,解決當前數(shù)據(jù)科學領域面臨的高維數(shù)據(jù)的保護和使用問題。

本文組織如下。引言部分詳細介紹了本文的主題,即面向高維數(shù)據(jù)的差分隱私算法及應用研究。通過強調(diào)高維數(shù)據(jù)集發(fā)布的隱私保護現(xiàn)狀,突顯了這一領域的研究意義?;A知識部分首先明確了差分隱私的定義和性質(zhì),為讀者奠定了深入理解的基礎。隨后,詳細介紹了差分隱私的擾動機制,以便讀者了解在隱私保護中采用的基本原理。第3部分,面向高維數(shù)據(jù)的差分隱私發(fā)布技術。將該章節(jié)分為數(shù)據(jù)降維和數(shù)據(jù)合成兩大類,系統(tǒng)分析了當前高維數(shù)據(jù)差分隱私發(fā)布技術的現(xiàn)狀。第4部分,面向高維數(shù)據(jù)發(fā)布的差分隱私技術的應用。本章節(jié)將探討差分隱私技術在處理高維數(shù)據(jù)時在不同領域中的應用場景,深入研究現(xiàn)有的成果和挑戰(zhàn)。第5部分,問題和挑戰(zhàn)。在問題和挑戰(zhàn)章節(jié),對現(xiàn)有研究不足進行總結(jié),并提供解決思路。通過對當前研究存在的問題的深入分析,為未來研究方向的預測提供了有力支持。最后的結(jié)束語部分對全文內(nèi)容進行了全面的總結(jié)和分析,強調(diào)研究的重要性和成果。

2 "基礎知識

差分隱私[5](Differential Privacy)是一種非常嚴謹且有效的隱私保護技術,它的主要功能是在收集和分析個體數(shù)據(jù)時,保護個體的隱私信息不被泄露。本章接下來將介紹差分隱私的定義,然后再介紹擾動機制的研究現(xiàn)狀。

2.1 "差分隱私相關概念

2.1.1 "差分隱私

一個隨機算法A,當且僅當對于任意鄰近數(shù)據(jù)集D和D',以及任意輸出O,滿足如下條件:

則稱隨機算法A滿足差分隱私。

其中,Pr[A(*)=O]是指向算法A輸入數(shù)據(jù)集*時,輸出O的概率。上面這個條件將相鄰數(shù)據(jù)集D和D'的查詢結(jié)果相同的概率限制在了一個范圍內(nèi),這樣的話,無論攻擊者的背景知識如何,他都無法推斷出具有很高置信度的個體信息,由此可以保護數(shù)據(jù)集。當ε越接近于0,即eε越接近于1時,輸出O的概率也應該越接近,這樣隨機算法A的輸入對輸出O的影響就應該越小。最理想的情況,ε=0,Pr[A(D)=O]= Pr[A(D')=O],即無論輸入數(shù)據(jù)集多相近,隨機算法A輸出O的概率都應該是一樣的。應該如何控制輸出O的概率,使得滿足上述條件呢?

假設有一個癌癥患者數(shù)據(jù)集D,需要在不泄露隱私的情況下,發(fā)布下面這個查詢結(jié)果。

設這個查詢?yōu)镸(D),為滿足差分隱私,向M(D)的結(jié)果中添加噪聲Y,得到最后的發(fā)布結(jié)果A(D)=M(D)+Y。如果查詢M(D)的結(jié)果為O的概率和加噪操作A(D)的結(jié)果為O的概率滿足上式,就說最后發(fā)布的這個結(jié)果滿足差分隱私。

2.1.2 "敏感度

敏感度直接決定加入的噪聲量的大小,它是指刪

除數(shù)據(jù)集中任意一條記錄可以對最后查詢結(jié)果造成多大的改變。即查詢函數(shù)f(·)最大的變化范圍,比如查詢數(shù)量,敏感度就是1。

全局敏感度:設有函數(shù)f:D→Rd,D為輸入數(shù)據(jù)集,輸出R為d維實數(shù)向量。對于任意的鄰近數(shù)據(jù)集D和D',ΔGf= ||f(D)-f(D')||1稱為函數(shù)f的全局敏感度。其中,||f(D)-f(D')|| 1之間的1-階范數(shù)距離。

函數(shù)的全局敏感度由函數(shù)本身決定,不同函數(shù)的全局敏感度可能不同。有的函數(shù)的全局敏感度較大(如中位數(shù)函數(shù)),有的函數(shù)的全局敏感度較?。ㄈ缬嫈?shù)函數(shù),全局敏感度為1)。中位數(shù)函數(shù):設數(shù)據(jù)集中有n個數(shù)據(jù),x1=x2=...=xi=a,xi+1=...=xn=b,當修改一個數(shù)據(jù)時,可能對結(jié)果造成較大的影響。如果全局敏感度較大,必須添加足夠大的噪聲才能保證數(shù)據(jù)的隱私安全,這使得數(shù)據(jù)效用減小。為解決這個問題,有人提出了局部敏感度。

2.1.3 "差分隱私的性質(zhì)

當遇到復雜的隱私保護問題時,需要多次使用差分隱私。在這種情況下,為了保證整體的隱私預算,需要進行合理的隱私預算分配。在分配過程中,可以利用差分隱私技術的組合性質(zhì):

序列組合性[16]:設有算法M1,M2,...,Mn,隱私保護預算分別為ε1,ε2,...,εn,那么對于同一數(shù)據(jù)集D,由這些算法構成的算法M(M1(D),M2(D),...,Mn(D))提供 差分隱私保護。

說明:如果算法序列的輸入是同一個數(shù)據(jù)集,則這個算法序列的隱私預算為所有算法的隱私預算總和。

并行組合性[16]:設有算法M1,M2,...,Mn,其隱私保護預算分別為ε1,ε2,...,εn,那么對于不相交的數(shù)據(jù)集D1,D2,...,Dn,由這些算法構成的組合算法M(M1(D1), M2(D2),...,Mn(Dn))提供max(εi)-差分隱私保護。

說明:如果算法序列的輸入是不相交的數(shù)據(jù)集,則這個算法序列的隱私預算為算法序列中最大的隱私預算。

2.2 "擾動機制

差分隱私于2006年提出,由于它具有強隱私保障,還可以量化隱私可能泄露的程度,所以自提出以來逐漸成為隱私保護領域的標準。一般來說,使用差分隱私有四個步驟,收集數(shù)據(jù)、擾動數(shù)據(jù)、發(fā)布數(shù)據(jù)、使用數(shù)據(jù)。在這四個步驟中,最為核心的步驟就是擾動數(shù)據(jù),差分隱私的擾動機制一般分為三類:針對連續(xù)數(shù)據(jù)的擾動機制、針對離散數(shù)據(jù)的擾動機制和其他擾動機制(見表2)。

2.2.1 "連續(xù)數(shù)據(jù)的擾動機制

最經(jīng)典的連續(xù)數(shù)據(jù)擾動方法是拉普拉斯機制[5],通過在真實數(shù)據(jù)上添加符合拉普拉斯分布的噪聲來保護原始數(shù)據(jù),適用于連續(xù)數(shù)據(jù)。拉普拉斯機制簡單直觀、強隱私保證、適用性廣泛,適用于各種類型的查詢和數(shù)據(jù)集。因此,拉普拉斯機制在實際場景中被廣泛應用。

拉普拉斯機制:給定數(shù)據(jù)集D,設函數(shù)f:D→Rd,為滿足ε-差分隱私,拉普拉斯機制的返回結(jié)果為

M(D)=f(D)+Y

其中,M是隨機算法,M(D)是最后返回的結(jié)果(查詢之后擾動的結(jié)果);f是查詢函數(shù),f(D)是查詢結(jié)果;Y是拉普拉斯隨機噪聲,是獨立同分布的隨機變量,服從尺度參數(shù)b為 的拉普拉斯分布。

2.2.2 "離散數(shù)據(jù)的擾動機制

拉普拉斯機制是簡單地對輸出的數(shù)值結(jié)果中加入噪聲實現(xiàn)差分隱私,而對于離散型數(shù)據(jù)而言,它的輸出是一組不相關的元素。經(jīng)典的離散數(shù)據(jù)擾動方法有隨機響應技術(Randomized Response Technique)、指數(shù)機制(Exponential Mechanism)、k-RR及其優(yōu)化機制、RAPPOR及其優(yōu)化機制等。

(1)隨機響應技術

隨機響應技術[25]是當被詢問一個問題時,回答者以一定概率給出準確的答案,也以一定概率給出隨機的答案,這種隨機性保護了回答者的個人隱私,因為無法確定回答者的回答是否真實,同時,由于隨機響應的答案數(shù)量足夠多,可以通過統(tǒng)計分析得出準確的答案。適用于離散型數(shù)據(jù)或二進制數(shù)據(jù)的發(fā)布場景,例如對于是否患有某種疾病、是否購買某種商品等情況的調(diào)查統(tǒng)計,隨機響應技術可以在保護個體隱私的同時提供一定程度的數(shù)據(jù)分析準確性。隨機響應技術簡單易行,可以很容易地與現(xiàn)有的數(shù)據(jù)收集和發(fā)布系統(tǒng)集成,但是當數(shù)據(jù)量不夠時,或者可能的回答超出兩種時,這個方法就無法使用。舉個例子:假定有n個用戶,其中艾滋病患者的真實比例為π,其統(tǒng)計量為 。用戶在提交答案前需要按照一個擾動概率p進行擾動,即用戶以概率p回答真實的答案,1-p回答虛假的答案。則最后收集到的回答“是”和“否”的比例如下:

P(Xi=是)=πρ+(1-π)(1-ρ)

P(Xi=否)=π(1-ρ)+(1-π)ρ

顯然,這不是π無偏估計,因此需要修正。假定回答“是”的人數(shù)有n1,通過極大似然估計可以得到修正后的統(tǒng)計結(jié)果為: 。同時,為了保證算法滿足差分隱私,隱私預算應該設置為: 。

(2)指數(shù)機制

指數(shù)機制[26]不僅考慮了查詢結(jié)果中的每個元素的概率分布,還考慮了元素之間的相對重要性。指數(shù)機制的思想是基于數(shù)據(jù)項之間的敏感度來確定輸出結(jié)果的概率分布,使得概率與敏感度成指數(shù)關系。這樣,具有較高敏感度的數(shù)據(jù)項將具有較低的概率被輸出,從而保護隱私。指數(shù)機制適用于需要發(fā)布查詢結(jié)果的場景并且需要保護用戶的隱私,如數(shù)據(jù)分析、統(tǒng)計查詢等。

指數(shù)機制:設隨機化算法M輸入為數(shù)據(jù)集D,輸出為一個實體對象Ri∈R,μ(D,R)為效用函數(shù),?μ為函數(shù)μ(D,R)的敏感度,若以正比于 的概率從輸入中選擇并輸出Ri,則算法M是滿足差分隱私。

(3)k-RR及其優(yōu)化機制

隨著人們對數(shù)據(jù)保護需求的增多,這些經(jīng)典的擾動方法已經(jīng)不能滿足需求,于是很多學者提出新的數(shù)據(jù)擾動方法,或是對這些經(jīng)典方法進行修改以適應新需求。Kairouz等人[27]將隨機響應技術擴展到多個候選值的情況,提出一種新的隨機響應技術k-RR。它適用于需要在保護隱私的同時提供更高的數(shù)據(jù)效用的場景,特別是在需要發(fā)布數(shù)據(jù)時保持數(shù)據(jù)的分布特性或者提供更精確的結(jié)果時使用。

k-RR機制:對于任意的輸入R∈X,其響應輸出R′∈X的方式如下公式所示:

即有 的概率擾動為原來的結(jié)果(真實值),以 的概率擾動為其余k-1個結(jié)果中的其中一個,使其滿足差分隱私。

為解決k-RR機制需要知道變量的定義域才能進行加噪的問題,Kairouz等人[28]在k-RR機制的基礎上引入哈希映射和分組操作,提出了O-RR方法。O-RR方法無需預先知道變量的定義域,可以直接進行隨機響應。Ma等人[29]采用Hadamard響應算法在降低通信成本的同時,提高了結(jié)果的準確性。隨著屬性數(shù)量的增加,屬性值組合的數(shù)量呈指數(shù)增長,極大地影響了隨機響應估計的計算成本和準確性。Kikuchi等人[30]提出一種技術RR-Ind-Joint,將所有屬性獨立隨機化,然后將這些隨機化矩陣聚合為單個聚合矩陣,之后再估計多維聯(lián)合概率分布。聚合隨機化矩陣的逆矩陣可以在輕量級計算成本和可管理的存儲需求下有效地計算。

為更好地進行統(tǒng)計工作Erlingsson等人改進隨機響應技術的思想,提出了RAPPOR方法[6],這個方法將數(shù)據(jù)編碼為一系列的值,然后進行擾動,數(shù)據(jù)中心接收到數(shù)據(jù)之后,再按規(guī)則進行聚合。這個方法和隨機響應技術一樣,可以將擾動后的數(shù)據(jù)聚合在一起,以獲得整體統(tǒng)計信息,而不泄露個體數(shù)據(jù)。

(4)RAPPOR及其優(yōu)化機制

RAPPOR方法:假設總共有n個用戶端,第i個用戶端Ui對應某個敏感取值xi∈Χ,且|Χ|=k,現(xiàn)在希望統(tǒng)計取值xi(1≤i≤k)的頻數(shù),RAPPOR方法分為兩部分,客戶端擾動數(shù)據(jù)如圖1所示,數(shù)據(jù)收集者收集數(shù)據(jù)如圖2所示。RAPPOR適用于需要同時考慮局部和全局敏感度的場景,它通過將局部擾動和全局擾動相結(jié)合,以最大限度地保護隱私,并在數(shù)據(jù)發(fā)布中提供高效的數(shù)據(jù)利用。

用戶端:

① 使用h個哈希函數(shù)將客戶端的值v哈希到大小為k的布隆過濾器B上;

② 永久隨機響應:將前一步哈希得到的布隆過濾器B擾動為B′。即將每一位Bi擾動為Bi′。

③ 瞬時隨機響應:分配大小為k的位數(shù)組S并初始化為0。數(shù)組S中各位為1的概率:

④ 報告:向服務器發(fā)送S。

數(shù)據(jù)收集者:

① 客戶被分配成為m個群組之一的永久成員,客戶端提交報告時,也需要說明其屬于哪個群組;

② 統(tǒng)計群組中每一位上1的個數(shù),組成一個向量Y;

③ 候選串個數(shù)為M,將每一個候選串的Bloom Filter映射值拼接,得到映射矩陣X;

④ 利用Lasso回歸,求Ymk×1=Xmk×M × βM×1系數(shù)βM×1,這個系數(shù)(M維向量)就是每個候選串出現(xiàn)的次數(shù)。

針對RAPPOR方法需要預先知道變量定義域的問題,Kairouz等人[28]提出O-RAPPOR方法解決這一問題。O-RAPPOR和O-RR相同,都是通過引入了哈希映射和分組的操作,解決RAPPOR需要知道變量定義域才能進行擾動的問題。Murakami等人根據(jù)實際需求對RAPPOR進行了改進,提出了效用優(yōu)化本地差分隱私[31]。這種方法中敏感數(shù)據(jù)只能擾動為敏感數(shù)據(jù),也可以個性化地將自己獨有的敏感數(shù)據(jù)擾動為敏感數(shù)據(jù),這樣不僅可以進一步提高數(shù)據(jù)的可用性,還可以個性化地保護用戶的隱私。這類方法在簡單的問題中效果較好,但是在數(shù)據(jù)量大,維度高,連續(xù)數(shù)據(jù)和離散數(shù)據(jù)組合的時候,并不方便使用。

(5)其他擾動機制

在多維數(shù)據(jù)中,會出現(xiàn)連續(xù)數(shù)據(jù)和離散數(shù)據(jù)組合的問題,Duchi等人[32]提出了一種在LDP下擾動多維數(shù)字元組的方法。這種方法可以在包含連續(xù)數(shù)據(jù)和離散數(shù)據(jù)的多維數(shù)據(jù)情況下使用,同時能夠得到方差較小的統(tǒng)計結(jié)果。但當ε較大時,Duchi等人提出的這種方法的性能比不上拉普拉斯機制?;谏鲜鰡栴},Ning等人[33]提出了新的差分隱私擾動方法混合機制。與Duchi等人提出的方法相比,這種方法易于實現(xiàn)也易于理解,同時可以實現(xiàn)漸近最優(yōu)誤差。

3 "面向高維數(shù)據(jù)的差分隱私發(fā)布技術現(xiàn)狀

隨著數(shù)字化進程的加快,使得所擁有的數(shù)據(jù)量越來越大,數(shù)據(jù)結(jié)構越來越復雜,數(shù)據(jù)特點逐漸由低維向高維轉(zhuǎn)變。當前高維數(shù)據(jù)發(fā)布的算法主要是簡單的基于降維的方法,如Li等人[34]提出的方法,該方法首先使用主成分分析降低數(shù)據(jù)的維度,然后通過引入敏感偏好理論設計隱私保護,設計出了可以對敏感屬性進行分級保護的高維數(shù)據(jù)集發(fā)布算法。但各種特征降維方法的計算復雜度,會隨著數(shù)據(jù)維度的增加而迅速增加。另外,將數(shù)據(jù)降維保護后再發(fā)布數(shù)據(jù),會減少數(shù)據(jù)的屬性,導致數(shù)據(jù)的效用大大降低。且這種傳統(tǒng)的數(shù)據(jù)保護技術并沒有數(shù)學上嚴格定義的隱私保障,未必能夠抵抗不同背景知識的攻擊者。

隨著差分隱私的不斷發(fā)展完善,人們將其拓展至高維數(shù)據(jù)領域,期望差分隱私可以在保證高維數(shù)據(jù)安全的情況下,發(fā)布效用更高的數(shù)據(jù)。但處理高維數(shù)據(jù)時,直接使用傳統(tǒng)的差分隱私技術面臨諸多挑戰(zhàn)。因為高維數(shù)據(jù)通常具有復雜的結(jié)構和關系,使用傳統(tǒng)差分隱私方法可能會導致數(shù)據(jù)效用低下和隱私保護不足。這種情況要求開發(fā)新的算法和技術,以更好地適應高維數(shù)據(jù)的特點?;谏鲜鲂枨?,面向高維數(shù)據(jù)的差分隱私發(fā)布技術逐漸發(fā)展起來。

差分隱私在高維數(shù)據(jù)發(fā)布中的應用主要分為兩類。第一類是基于數(shù)據(jù)降維的方法,它通過對降維后的數(shù)據(jù),或是降維過程進行加噪,以此來保護數(shù)據(jù);另外還有數(shù)據(jù)合成的方法,他們結(jié)合機器學習的方法,學習數(shù)據(jù)集的分布特征,合成新的數(shù)據(jù)集,然后再發(fā)布。

3.1 "數(shù)據(jù)降維

Chaudhuri等人[35]將指數(shù)機制用在主成分分析選擇k維子空間的階段,由此將差分隱私和主成分分析(PCA)結(jié)合,提出了基于差分隱私可用于高維數(shù)據(jù)發(fā)布的數(shù)據(jù)保護算法PPCA。具體過程如算法1所示。首先輸入矩陣Xd×k、隱私預算ε、維數(shù)k,然后計算 ,再通過A去計算賓厄姆分布,即 。

另外,Jiang等人[36]提出PPDP方法,將隱私預算分為兩部分,分別是用于主成分分析中去構建噪聲協(xié)方差矩陣的部分,和用于主成分分析中對投影矩陣加噪的部分,通過這兩部分的操作將差分隱私的拉普拉斯機制和主成分分析結(jié)合。具體步驟如下:

1) 給定一個矩陣Xn×p,假設矩陣中的每個元素的取值都在[0, 1],計算∑x∈Xx和∑x∈XxxT。

2) 在∑x∈Xx的每個元素和∑x∈XxxT的上三角加上Lap(2s/ε),得到x和xxT的噪聲和,然后將∑x∈XxxT的下三角對稱地填充上三角。

3) 用樣本數(shù)n除以噪聲和,得到E[X]noisy和E[XXT]noisy。

4) 步驟3確保 =E[XXT]noisy-E[X]noisyE[X]Tnoisy是對稱矩陣??蓪ζ溥M行特征分解 ,并從 中選擇特征值最大的k ≤ p個特征向量組成 。

5) 在(X-E[X]noisy) "上添加噪聲Lap(2 ),乘以 ,并在每個樣本上添加E[X]noisy,得到噪聲X。

Yang等人[37]通過分析發(fā)現(xiàn),在同一個環(huán)境中,先對數(shù)據(jù)進行加噪處理的方法和先對數(shù)據(jù)進行特征選擇處理的方法相比較,先對數(shù)據(jù)進行加噪處理的方法保護效果更好。由于不同的降維方法適用于不同的機器學習,降維后的數(shù)據(jù)很難適用于大多數(shù)模型訓練,隨著機器學習的進一步發(fā)展,這類方法的研究逐漸減少。

3.2 "數(shù)據(jù)合成

目前,針對高維數(shù)據(jù)的差分隱私發(fā)布技術主要采用數(shù)據(jù)合成方法。本文收集了2014年到2023年期間的相關論文進行了分析比較。其中,諸如PrivBayes[38]、SS-PrivBayes[39]、DP-SUBN[40]、MEPrivBayes[41]等方法均采用了貝葉斯網(wǎng)絡建模。PrivBayes方法和SS-PrivBayes方法通過構建貝葉斯網(wǎng)絡模型來理解數(shù)據(jù)屬性之間的相互關系,他們適用于處理大規(guī)模數(shù)據(jù)和高相關性的高維數(shù)據(jù);而DP-SUBN方法則考慮到了分布式多方環(huán)境的需求,適用于在分布式多方環(huán)境中發(fā)布高維數(shù)據(jù)的情況;MEPrivBayes則解決了貝葉斯網(wǎng)絡結(jié)構不穩(wěn)定和隱私預算分配不合理的問題,適用于解決現(xiàn)有基于貝葉斯網(wǎng)絡的差分隱私高維數(shù)據(jù)發(fā)布方法中數(shù)據(jù)可用性不穩(wěn)定的問題。此外,PrivMN[42]方法利用馬爾可夫模型表示屬性之間的關系,適用于處理實際應用中變量之間的關系無法確定的情況。而LoPub[43]、PrivIncr[44]和PrivHDP[23]等方法則通過估計數(shù)據(jù)的聯(lián)合概率分布或概率圖模型,然后對數(shù)據(jù)進行降維采樣,由此得到合成數(shù)據(jù),適用于在分布式用戶場景下實現(xiàn)本地隱私保護和數(shù)據(jù)發(fā)布。上述這些方法豐富了差分隱私發(fā)布技術的應用領域,并為處理高維數(shù)據(jù)提供了多樣化的選擇。

表3整理了面向高維數(shù)據(jù)的差分隱私發(fā)布技術,其中介紹了PrivBayes、SS-PrivBayes、DP-SUBN等方法的主要思路,并從通信成本、計算復雜度、數(shù)據(jù)效用等不同的維度分析各個方法。

Zhang等人[38]提出了一種用于發(fā)布高維數(shù)據(jù)的差分隱私方法PrivBayes,通過將噪聲注入低維邊緣概率集合P中,避免了維度詛咒。PrivBayes具體流程如圖3所示,首先構建一個貝葉斯網(wǎng)絡N,以簡潔建模數(shù)據(jù)集D中屬性之間的相關性,并利用低維度的邊緣概率來近似表示數(shù)據(jù)集D的分布。然后,對P中的每個邊緣概率進行注入噪聲,以確保差分隱私。最后,通過使用注入噪聲后的邊緣概率集合P和貝葉斯網(wǎng)絡N,構建了對數(shù)據(jù)集D的分布的近似表示,并從近似分布中對元組進行采樣,以構建合成數(shù)據(jù)集。該方法通信成本低,靈活性高,數(shù)據(jù)效用低。

隨后,Li等人[39]提出SS-PrivBayes算法,解決基于貝葉斯網(wǎng)絡的差分隱私保護發(fā)布方法[38]在數(shù)據(jù)量大、相關性高時,數(shù)據(jù)實用性較差的問題。它通過使用更精確的平滑敏感度來減少額外的噪聲,提高數(shù)據(jù)實用性,降低數(shù)據(jù)失真,適用于處理大數(shù)據(jù)量和高相關性數(shù)據(jù)。該方法與PrivBayes相比通信成本降低,數(shù)據(jù)效用提高,通信成本增加。

Cheng等人[40]提出貝葉斯網(wǎng)絡差分隱私順序更新(DP-SUBN)方法,解決分布式多方環(huán)境中發(fā)布高維數(shù)據(jù)時,管理者半可信的問題。DP-SUB中生成合成

數(shù)據(jù)集的方式是各方和管理員先以順序的方式協(xié)作確定最適合集成數(shù)據(jù)集的貝葉斯網(wǎng)絡。該方法核心是構建搜索邊界,用以指導各方更新先驗知識。通過精確和啟發(fā)式的方法,利用屬性對之間的相關性構建搜索邊界,并提出了非重疊覆蓋設計(NOCD)方法來私下量化屬性對的相關性,進而設計了確定NOCD中最優(yōu)參數(shù)的動態(tài)規(guī)劃方法。該方法數(shù)據(jù)效用高,靈活性高,但是計算復雜、通信成本高,且依賴先驗知識。

Lu等人[41]對PrivBayes算法[38]進行改進,提出MEPrivBayes方法。它從貝葉斯結(jié)構不穩(wěn)定和隱私預算分配策略不合理兩個方面,解決現(xiàn)有基于貝葉斯網(wǎng)絡的差分隱私高維數(shù)據(jù)發(fā)布方法中數(shù)據(jù)可用性不穩(wěn)定的問題。MEPrivBayes方法分為三個步驟,具體流程見圖4。首先構建k度貝葉斯網(wǎng)絡,選擇最大AMIC對應的節(jié)點作為第一個節(jié)點,解決隨機選擇第一個節(jié)點的貝葉斯網(wǎng)絡結(jié)構不穩(wěn)定問題。然后在d-k聯(lián)合概率分布中加入噪聲,以滿足ε-差分隱私。最后從貝葉斯網(wǎng)絡中采樣,生成模擬數(shù)據(jù)集。該方法通信成本高,數(shù)據(jù)效用高。

Wei等人[42]結(jié)合馬爾可夫模型提出一種新的方法PrivMN,它利用馬爾可夫模型來表示屬性之間的相互關系,解決實際應用中變量之間的關系無法確定的問題,然后利用近似推理計算差分隱私下高維數(shù)據(jù)的聯(lián)合分布。這種方法通過優(yōu)化推理過程來處理高維數(shù)據(jù)

中普遍存在的數(shù)據(jù)稀疏問題,從而減少噪聲,保持數(shù)據(jù)的實用性。具體來說分為如下四個部分。該方法靈活性高,數(shù)據(jù)效用較高,但是計算復雜,通信成本高,且依賴先驗知識。

(1)表示屬性關系。使用圖形模型表示屬性之間的關系,建立馬爾可夫模型。

(2)近似推斷。根據(jù)聚類圖置信度傳播的方法對模型進行近似推斷,由此得到低維邊際表。

(3)生成噪聲邊際表。通過拉普拉斯機制向低維邊際表中添加噪聲,得到噪聲邊際表。

(4)發(fā)布合成數(shù)據(jù)集。將噪聲邊際表與馬爾可夫模型相結(jié)合,生成合成數(shù)據(jù)集。

Ren等人[43]提出的發(fā)布高維數(shù)據(jù)的LoPub方法。首先每個用戶通過RAPPOR方法對元組進行擾動,然后將其發(fā)送給數(shù)據(jù)收集者;數(shù)據(jù)收集者估計數(shù)據(jù)的聯(lián)合概率分布,并對數(shù)據(jù)進行數(shù)據(jù)降維;再使用前面估計的聯(lián)合概率分布去合成一個數(shù)據(jù)集。這種方法在構建聯(lián)合概率分布時注入大量的噪聲,從而降低了合成數(shù)據(jù)的質(zhì)量。具體來說分為如下四個模塊??偟膩碚f,該方法通信成本高,計算復雜,但是數(shù)據(jù)效用低。

(1)本地隱私保護。通過引入局部轉(zhuǎn)換過程和隨機響應技術,將原始多維數(shù)據(jù)記錄以局部隱私的形式隱藏在分布式用戶中,并將經(jīng)過本地隱私保護的數(shù)據(jù)發(fā)送至中央服務器進行聚合。

(2)多維分布估計。提出了多維聯(lián)合分布估計方案,包括基于EM的高維估計、基于Lasso的快速估計和在精度和效率之間取得平衡的混合方法。

(3)降維。本文提出了一種降維方法,將高維屬

性劃分為緊湊的低維屬性簇,考慮了異構屬性,并利用互信息和無向依賴圖來度量和建模屬性相關性,同時引入啟發(fā)式修剪方案以提高相關性識別過程的效果。

(4)合成新數(shù)據(jù)集。根據(jù)每個屬性簇上估計的聯(lián)合分布或條件分布對每個低維數(shù)據(jù)集進行采樣,從而合成一個新的隱私保護數(shù)據(jù)集。

Liu等人[44]提出基于增量學習的概率圖構建方法合成數(shù)據(jù),提高合成數(shù)據(jù)質(zhì)量,解決LoPub[43]需要計算大量屬性對的邊緣值來構建PGM,且不能很好地計算PGM中大團的邊緣分布,從而降低了合成數(shù)據(jù)的質(zhì)量。它逐漸修剪具有弱相關性的邊緣(屬性對),并將更多的數(shù)據(jù)和隱私預算分配給有用的邊緣,從而提高模型的準確性。該方法計算復雜,但是數(shù)據(jù)效用高,靈活性高。

蔡夢男等人[23]針對現(xiàn)有方案在構建概率圖模型和計算大規(guī)模屬性子集的聯(lián)合分布時存在的高計算復雜度問題,提出了一種本地差分隱私下的高維數(shù)據(jù)發(fā)布方法PrivHDP。它在用戶本地對數(shù)據(jù)進行擾動,保證每個用戶的輸出滿足本地差分隱私,將擾動后的數(shù)據(jù)發(fā)送到服務器。然后使用兩種分布估計方案計算成對屬性的邊緣分布,并根據(jù)估計誤差的影響選擇適當?shù)姆椒ê蛿_動機制。再引入新的相關性度量方法,結(jié)合閾值過濾技術構建Markov網(wǎng),生成一組屬性子集。將屬性子集的聯(lián)合分布分解為條件概率的乘積,消除條件獨立性,得到更精確的聯(lián)合分布。最后根據(jù)屬性子集的聯(lián)合分布和子集間的相關性,對低維屬性數(shù)據(jù)集進行采樣,得到近似原始數(shù)據(jù)的合成數(shù)據(jù)集。該方法靈活性高,數(shù)據(jù)效用高,但計算復雜,通信成本高。

4 "面向高維數(shù)據(jù)發(fā)布的差分隱私技術的應用

在現(xiàn)代數(shù)據(jù)科學中,面向高維數(shù)據(jù)發(fā)布的差分隱私技術的應用日益受到關注。隨著大數(shù)據(jù)時代的到來,人們對數(shù)據(jù)隱私和安全的重視程度不斷增強,尤其是涉及個人敏感信息的高維數(shù)據(jù)。在這種背景下,差分隱私技術作為一種有效的隱私保護機制,被廣泛應用于高維數(shù)據(jù)發(fā)布中。本章將探討差分隱私技術在處理高維數(shù)據(jù)時在不同領域中的應用場景和挑戰(zhàn)。

4.1 "在醫(yī)療健康領域的應用

在醫(yī)療領域,數(shù)據(jù)通常是高維的,其中涉及患者的個人隱私信息,包括疾病診斷、治療記錄、基因信息等,具有高度敏感性和隱私性[45]。然而,醫(yī)療研究和數(shù)據(jù)分析需要對這些數(shù)據(jù)進行共享和分析,以促進疾病診斷、藥物研發(fā)等工作。這就帶來了一個挑戰(zhàn),即如何在共享數(shù)據(jù)時保護患者的隱私,同時又能夠提供有效的數(shù)據(jù)分析和挖掘[46]。差分隱私為解決這一問題提供了一種有效的解決方案。通過差分隱私技術,醫(yī)療數(shù)據(jù)的發(fā)布者可以在不泄露患者個人信息的前提下,共享醫(yī)療數(shù)據(jù)給醫(yī)療研究機構、醫(yī)生或者其他合法的數(shù)據(jù)分析者。

白伍彤等人[47]提出了一項基于差分隱私的健康醫(yī)療數(shù)據(jù)保護方案。針對醫(yī)療數(shù)據(jù)的高維度和高敏感性,該方案首先對數(shù)據(jù)進行匿名化處理,然后將數(shù)據(jù)分為連續(xù)數(shù)據(jù)和離散數(shù)據(jù),并分別加入噪聲。此外,該方案還設置了誤差參數(shù)和誤差統(tǒng)計個數(shù),通過調(diào)節(jié)這兩個參數(shù)來平衡隱私保護和數(shù)據(jù)效用之間的關系。最后,為了進一步保證數(shù)據(jù)的安全性,數(shù)據(jù)以加密方式存儲,只有使用者在獲得授權密碼后才能解密并使用數(shù)據(jù)。

Zhang等人[48]提出了一種基于屬性相關性的分類樹差分隱私數(shù)據(jù)發(fā)布算法(ACDP-Tree)。該算法首先對HIS原始數(shù)據(jù)集進行預處理,刪除其中的識別屬性,并對每個離散的準識別屬性進行泛化處理,以建立屬性泛化樹。其次,通過屬性相關性評價方法來評估準識別屬性與敏感屬性之間的相關性強度。值越小,表示隱私保護程度越高。對于數(shù)據(jù)集中的離散數(shù)據(jù),根據(jù)屬性泛化樹進行迭代分割;而對于連續(xù)數(shù)據(jù),則利用索引機制找出最佳的分割點,并逐步進行迭代分割。在分割完成后,對葉節(jié)點進行計數(shù)并添加拉普拉斯噪聲,以后續(xù)發(fā)布葉節(jié)點數(shù)據(jù)。

榮劍[49]提出了一種基于差分隱私保護的電子病歷數(shù)據(jù)安全風險監(jiān)測系統(tǒng)。通過對傳統(tǒng)風險監(jiān)測系統(tǒng)采用差分隱私保護模式進行系統(tǒng)優(yōu)化,構建了電子醫(yī)療記錄數(shù)據(jù)安全風險監(jiān)測系統(tǒng)的硬件框架,從而確保了數(shù)據(jù)安全監(jiān)測系統(tǒng)的安全性能。在這個系統(tǒng)中,還建立了敏感性差分隱私算法,通過增加噪聲變量來進一步保護數(shù)據(jù)隱私。隨后,對電子醫(yī)療記錄數(shù)據(jù)進行分析,以獲取更高安全性的數(shù)據(jù)信息。最后,采用模糊分析方法發(fā)送安全預警信息,從而實現(xiàn)了數(shù)據(jù)安全的改善。這些措施的實施有效地提高了數(shù)據(jù)的安全性,為醫(yī)療數(shù)據(jù)的使用和共享提供了可靠的保障。

總體而言,差分隱私技術在醫(yī)療數(shù)據(jù)發(fā)布中的應用可概括為以下幾個方面:(1)數(shù)據(jù)共享與合作研究:醫(yī)療機構或研究機構可能需要共享醫(yī)療數(shù)據(jù)以進行合作研究,如疾病預測、流行病學調(diào)查等。差分隱私技術可以保證在共享數(shù)據(jù)時不泄露患者的隱私信息,同時又能夠保持數(shù)據(jù)的有效性。(2)藥物研發(fā)與臨床試驗:利用差分隱私技術,醫(yī)藥公司可以共享臨床試驗數(shù)據(jù)或病患基因信息給研究人員,用于藥物研發(fā)和個性化的治療。通過保護患者隱私,差分隱私技術有助于推動醫(yī)藥研發(fā)的進程。(3)個性化醫(yī)療與診斷:基于大規(guī)模醫(yī)療數(shù)據(jù)的個性化醫(yī)療已成為醫(yī)療領域的熱點。差分隱私技術可以幫助醫(yī)生或醫(yī)療研究人員在不暴露患者隱私的情況下,利用醫(yī)療數(shù)據(jù)進行個性化診斷和治療方案制定。(4)公共衛(wèi)生政策:政府部門或公共衛(wèi)生機構可能需要使用醫(yī)療數(shù)據(jù)來制定公共衛(wèi)生政策或應對突發(fā)傳染病。差分隱私技術可以在確保數(shù)據(jù)安全的同時,為政府部門提供足夠的數(shù)據(jù)支持。

差分隱私技術在面向高維數(shù)據(jù)發(fā)布的醫(yī)療應用中具有廣泛的應用前景,可以為醫(yī)療研究、臨床實踐和公共衛(wèi)生政策提供安全可靠的數(shù)據(jù)共享解決方案,從而促進醫(yī)療領域的發(fā)展和進步。

4.2 "在金融領域的應用

金融數(shù)據(jù)通常涉及個人賬戶信息、交易記錄、財務報表等,這些數(shù)據(jù)包含著大量的敏感信息,如個人身份、財務狀況等,因此需要進行有效的隱私保護[50]。同時,金融機構和監(jiān)管部門需要對這些數(shù)據(jù)進行分析和共享,以支持風險評估、反欺詐、信用評分等業(yè)務活動[51-52]。在這種情況下,差分隱私技術成為一種理想的隱私保護和數(shù)據(jù)共享解決方案。

鄧蔚等人[53]提出了一種基于樹模型的差分隱私保護算法,并在金融數(shù)據(jù)集上進行了實驗驗證。該算法采用了CART決策樹,并將差分隱私保護機制融入其中,形成了差分隱私保護的決策樹。接著,他們將CART決策樹與隨機森林相結(jié)合,并與差分隱私算法相融合。在處理多個連續(xù)特征的情況下,將隱私保護預算平均分配給各個連續(xù)特征,并為離散特征保留了一份。通過索引機制選擇最佳的連續(xù)特征及其分裂點,并計算其相應的基尼指數(shù)。針對每個離散特征,比較其在不同分裂方式下的基尼指數(shù),選擇最小的作為最佳的分裂特征,直至預算耗盡或滿足停止條件。隨機森林的差分隱私保護算法采用了相同的策略,生成適合數(shù)據(jù)集的CART決策樹。

Byrd等人[54]為解決金融領域中數(shù)據(jù)隱私和安全性問題,提出了一種基于差分隱私的安全多方計算框架,應用于金融領域中的聯(lián)邦學習。該框架中,差分隱私被用于聯(lián)邦學習場景中,以確保參與者在共同進行模型訓練時不會泄露其私密數(shù)據(jù)。通過將差分隱私技術與安全多方計算相結(jié)合,參與者可以在加密狀態(tài)下進行計算,而無需揭示原始數(shù)據(jù)。這樣一來,即使在聯(lián)網(wǎng)學習過程中,各方之間進行數(shù)據(jù)交互,也能夠保護數(shù)據(jù)的隱私性。

總體而言,差分隱私技術在金融領域的數(shù)據(jù)發(fā)布中的應用可概括為以下幾個方面:(1)保護金融機構和客戶的隱私。金融機構可能需要共享客戶數(shù)據(jù)給第三方服務提供商或數(shù)據(jù)分析公司,以進行客戶畫像、精準營銷等活動。通過應用差分隱私技術,可以在不暴露客戶個人敏感信息的前提下,共享數(shù)據(jù)給其他機構,從而保護客戶隱私。(2)幫助金融監(jiān)管部門進行數(shù)據(jù)分析和監(jiān)管。監(jiān)管部門需要對金融機構的交易數(shù)據(jù)進行監(jiān)控和分析,以發(fā)現(xiàn)潛在的風險和違規(guī)行為。通過差分隱私技術,監(jiān)管部門可以在保護個人隱私的同時,獲取足夠的數(shù)據(jù)支持,實現(xiàn)對金融市場的監(jiān)管。(3)金融數(shù)據(jù)的合成和共享。金融機構可能需要生成合成數(shù)據(jù)集,用于模型訓練、算法測試等目的,而合成數(shù)據(jù)集必須保持原始數(shù)據(jù)的特征和分布。通過差分隱私技術,可以在保護數(shù)據(jù)隱私的同時,生成具有相似統(tǒng)計特性的合成數(shù)據(jù),用于數(shù)據(jù)共享和數(shù)據(jù)分析。

差分隱私技術在金融領域的應用涵蓋了數(shù)據(jù)隱私保護、監(jiān)管數(shù)據(jù)分析和數(shù)據(jù)共享等多個方面。它為金融機構、監(jiān)管部門和數(shù)據(jù)分析公司提供了一種安全可靠的數(shù)據(jù)共享和分析解決方案,有助于推動金融行業(yè)的數(shù)字化轉(zhuǎn)型和發(fā)展。

綜上所述,面向高維數(shù)據(jù)發(fā)布的差分隱私應用在保護個人隱私的同時,為數(shù)據(jù)分析和共享提供了一種有效的解決方案。通過不斷地研究和創(chuàng)新,可以進一步提高差分隱私在高維數(shù)據(jù)領域的應用效果,推動隱私保護和數(shù)據(jù)分析的發(fā)展。

5 "問題與挑戰(zhàn)

5.1 "現(xiàn)有研究的不足

就差分隱私的擾動技術來說,當前大部分離散數(shù)據(jù)擾動方法都側(cè)重于平衡計算復雜度,適用范圍等方面的問題。但是值得注意的是,收集離散數(shù)據(jù)的基本問題沒有得到充分地解決,離散數(shù)據(jù)擾動方法擾動的數(shù)據(jù)效用并不高?,F(xiàn)有的大部分方法都未考慮候選值本身的差異,平等地將每個數(shù)據(jù)擾動到其他的候選值,這種做法在一定程度上,影響了數(shù)據(jù)的效用。

針對基于差分隱私的高維數(shù)據(jù)發(fā)布技術現(xiàn)狀來說,當前差分隱私在高維數(shù)據(jù)發(fā)布中的應用研究主要偏向于使用數(shù)據(jù)合成方法對數(shù)據(jù)進行處理之后再發(fā)布,不可否認,這種方法優(yōu)勢很多,但是也存在如下問題:這樣發(fā)布的數(shù)據(jù)蘊含的原始信息會降低,很難再用于統(tǒng)計工作;合成數(shù)據(jù)可能無法完全模擬真實世界的復雜性和多樣性,如果將數(shù)據(jù)用于訓練,模型在合成數(shù)據(jù)上表現(xiàn)良好并不一定能夠很好地泛化到真實數(shù)據(jù)。

而差分隱私在深度學習中的應用中,直接將差分隱私作用于模型的方法能很好保護模型,但他并不能使得最后的模型性能最優(yōu)。而直接使用隱私保護后發(fā)布的高維數(shù)據(jù),無法抵御模型反演攻擊的問題,難以保障模型的安全性。

5.2 "未來研究的方向

在面對當前研究存在的不足時,為了推動差分隱私領域的進一步發(fā)展,我們提出了一系列簡明而實用的解決方案。這些方案旨在應對離散數(shù)據(jù)擾動方法、基于差分隱私的高維數(shù)據(jù)發(fā)布以及差分隱私與深度學習融合等方面的問題。通過更智能的擾動策略、更高效的差分隱私方法以及兼顧隱私與模型性能的深度學習模型設計。除此之外,我們還期望為未來研究提供有益的指導和啟示。

5.2.1改進差分隱私算法

從第三節(jié)的分析可以看出,現(xiàn)有的大多數(shù)解決方案都側(cè)重于復雜的數(shù)據(jù)類型或復雜的數(shù)據(jù)分析任務。但是值得注意的是,收集離散數(shù)據(jù)的基本問題沒有得到充分解決。當前大部分離散數(shù)據(jù)的加噪方法都是未考慮候選值本身的差異,平等地將數(shù)據(jù)擾動到各個候選值,這種做法在一定程度上,影響了數(shù)據(jù)的效用。比如針對離散數(shù)據(jù)擾動方法,可以考慮候選值本身的差異,而非平等擾動所有候選值。這種個性的擾動策略有助于提高數(shù)據(jù)效用,實現(xiàn)隱私與數(shù)據(jù)質(zhì)量的平衡。未來研究方向可考慮改進差分隱私算法,減少噪音引入,進一步提高高維數(shù)據(jù)發(fā)布中的隱私保護效果,提高數(shù)據(jù)質(zhì)量仍然值得研究。

5.2.2 基于差分隱私的高維數(shù)據(jù)發(fā)布

當前高維數(shù)據(jù)發(fā)布領域使用的隱私保護方法偏向于發(fā)布合成后的數(shù)據(jù),但合成數(shù)據(jù)無法完全模擬真實高維數(shù)據(jù)的復雜性和多樣性。所以研究人員可以從改進噪聲添加策略、查詢優(yōu)化技術等方面探索更高效、更精確的用于高維數(shù)據(jù)的差分隱私方法,以平衡隱私保護和數(shù)據(jù)分析的準確性。而為了達到維持高維度和反映真實多樣性的目標,可能需要采用更先進的算法和模型。

5.2.3差分隱私與深度學習的融合

隨著數(shù)字化進程加快,具有復雜的結(jié)構和關系,蘊含豐富語義信息,通常具有幾十上百維特征的高維數(shù)據(jù)越來越多。直接使用這些高維數(shù)據(jù)來進行模型訓練,會泄露敏感信息,所以保護訓練數(shù)據(jù)中的敏感信息成了一個重要課題。雖然當前差分隱私和深度學習結(jié)合的工作已經(jīng)非常多了,但是通過上面的分析可以看到,在隱私保護和數(shù)據(jù)效用的權衡上,仍然存在問題。所以未來可以更注重平衡隱私與模型性能,結(jié)合高維數(shù)據(jù)和差分隱私的特性進行研究??赡艿慕鉀Q方案包括改進模型結(jié)構、訓練算法和梯度更新機制,設計更隱私友好、兼顧效用的深度學習模型。這些簡單而有前瞻性的建議有望為當前研究提供有效的方向。

6 "結(jié)束語

本文介紹了差分隱私的原理和特性,總結(jié)歸納了差分隱私當前在高維數(shù)據(jù)中的應用等工作。希望通過本文,為研究者提供一個全面的視角,推動其對差分隱私領域更進一步的探索。高維數(shù)據(jù)的發(fā)布與保護是數(shù)據(jù)科學領域亟待解決的難題,希望本綜述對當前數(shù)據(jù)科學領域面臨的高維數(shù)據(jù)保護和使用問題產(chǎn)生積極的影響,為未來的研究和應用提供有益的啟示,促使更多前沿技術的涌現(xiàn),推動差分隱私在高維數(shù)據(jù)應用中取得更大突破。

參考文獻

[1] Zeng D D, Liu Y, Yan P, et al. Location-aware real-time recommender systems for Brick-and-Mortar Retailers[J]. INFORMS Journal on Computing, 2021, 33:1608-1623. https://doi.org/10.1287/ijoc.2020. 1020.

[2] The EU General Data Protection Regulation (GDPR). [EB/OL]. . https://eur-lex.europa.eu/eli/reg/2016/679/oj.

[3] The California Consumer Privacy Act (CCPA) [EB/OL]. https://cdp. cooley.com/ccpa-2018/.

[4] Data Security Law of the People's Republic of China [EB/OL]. [2021-06-13]. https://www.gov.cn/xinwen/2021-06/11/content_5616919.htm.

[5] Dwork C, McSherry F, Nissim K, et al. Calibrating Noise to Sensitivity in Private Data Analysis[C]. Theory of Cryptography Conference, Lecture Notes in Computer Science, 2006. https://doi. org/10.1007/11681878_14.

[6] Erlingsson ú, Korolova A, Pihur V. RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response[C]. Proceedings of the 2014 ACM SIGSAC Conference on Computer and Communications Security, 2014. https://doi.org/10.1145/2660267. 2660348.

[7] Ding X, Wang C, Choo K R, et al. A novel privacy preserving framework for large scale graph data publishing[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 33: 331-343. https://doi. org/10.1109/TKDE.2019.2931903.

[8] Draft NIST Privacy Framework: A Tool for Improving Privacy through Enterprise Risk Management. [EB/OL]. https://www.nist.gov/ system/files/documents/2020/01/16/NIST%20Privacy%20Framework_V1.0.pdf.

[9] Li X Y, Sun Z L, Deng J B, et al. A comprehensive review of privacy protection technologies[J]. Computer Science, 2013, 40(S2): 199-202.

[10] Li Y, Wen W, Xie G Q. A review of differential privacy protection research[J]. Journal of Computer Applications Research, 2012, 29(9): 3201-3205+3211.

[11] Zhao Y Q, Yang M. A review of research progress on differential privacy[J]. Journal of Computer Science, 2023, 50(4): 265-276.

[12] Gao Z Q, Wang Y T. Research progress on differential privacy techniques[J]. Journal of Communications, 2017, 38(S1): 151-155.

[13] Ye Q Q, Meng X F, Zhu M J, et al. A review of local differential privacy research[J]. Journal of Software, 2018, 29(7): 1981-2005.

[14] Liu J X, Meng X F. A review of privacy protection in machine learning[J]. Journal of Computer Research and Development, 2020, 57(2): 346-362.

[15] Ouadrhiri A E, Abdelhadi A M. Differential privacy for deep and federated learning: a survey[J]. IEEE Access, 2022, 10: 22359-22380. https://ieeexplore.ieee.org/document/9714350.

[16] Kong Y T, Tan F X, Zhao X, et al. A review of research on optimization of k-means algorithm based on differential privacy[J]. Journal of Computer Science, 2022, 49(2): 162-173.

[17] Wang T, Huo Z, Huang Y X, et al. A review of privacy protection technologies in federated learning[J]. Journal of Computer Applications, 2023, 43(2): 437-449.

[18] Narayanan A, Shmatikov V. Robust De-anonymization of Large Sparse Datasets[C]. 2008 IEEE Symposium on Security and Privacy (sp 2008), 2008. https://ieeexplore.ieee.org/document/4531148.

[19] Wang Z, Scott D W. Nonparametric Density Estimation for High- Dimensional Data—Algorithms and Applications[EB/OL]. https:// arxiv.org/abs/1904.00176.

[20] Chu X J. Research on High-Dimensional Data Publishing Method Meeting Local Differential Privacy[D]. Guizhou University, 2022. DOI: 10.27047/d.cnki.ggudu.2022.002172.

[21] Amaratunga D, Cabrera J, Shkedy Z. Exploration and Analysis of DNA Microarray and Other High-Dimensional Data (2nd edition) [EB/OL]. https://onlinelibrary.wiley.com/doi/pdf/10.1002/9781118364505. fmatter.

[22] Sweeney L. k-Anonymity: A model for protecting privacy[J]. Int. J. Uncertain. Fuzziness Knowl. Based Syst., 2002, 10: 557-570. https://doi.org/10.1142/S0218488502001648.

[23] Cai M G, Shen G H, Huang Z Q, et al. High-dimensional data publishing method under local differential privacy[J]. Journal of Computer Science, 2024, 51(2): 322-332.

[24] Zhang X, Chen H. A review of high-dimensional data publishing with differential privacy[J]. Journal of Intelligent Systems, 2021, 16(6): 989-998.

[25] Warner S L. Randomized response: a survey technique for eliminating evasive answer bias[J]. Journal of the American Statistical Association, 1965, 60(309): 63-6.. Warner-Randomized-Response-2283137.pdf (ncsu.edu).

[26] McSherry F, Talwar K. Mechanism Design via Differential Privacy[C]. 48th Annual IEEE Symposium on Foundations of Computer Science (FOCS'07), 2007. https://doi.org/10.1109/FOCS.2007.41.

[27] Kairouz P, Oh S, Viswanath P. Extremal Mechanisms for Local Differential Privacy[C]. J. Mach. Learn. Res., 2016. https://jmlr.org/ papers/v17/15-135.html.

[28] Kairouz P, Bonawitz K A, Ramage D. Discrete Distribution Estimation under Local Privacy[C]. International Conference on Machine Learning. 2016. https://proceedings.mlr.press/v48/kairouz16. html.

[29] Ma X, Liu H, Guan S. Improving the Effect of Frequent Itemset Mining with Hadamard Response under Local Differential Privacy[C]. 2021 IEEE 20th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom), 2021. https://doi.org/10.1109/TrustCom53373.2021.00072.

[30] Kikuchi H. Castell: Scalable Joint Probability Estimation of Multi-dimensional Data Randomized with Local Differential Privacy[EB/OL]. https://arxiv.org/abs/2212.01627.

[31] Murakami T, Kawamoto Y. Utility-Optimized Local Differential Privacy Mechanisms for Distribution Estimation[C]. USENIX Security Symposium. 2019. https://www.usenix.org/conference/ usenixsecurity19/presentation/murakami.

[32] Duchi J C, Wainwright M J, Jordan M I. Minimax optimal procedures for locally private estimation[J]. Journal of the American Statistical Association, 2016, 113: 182 - 201. https://arxiv.org/abs/1604.02390.

[33] Wang N, Xiao X, Yang Y D, et al. Collecting and Analyzing Multidimensional Data with Local Differential Privacy[C]. 2019 IEEE 35th International Conference on Data Engineering (ICDE), 2019. https://ieeexplore.ieee.org/document/8731512/.

[34] Li W, Zhang X, Li X, et al. "PPDP-PCAO: An efficient high-dimensional data releasing method with differential privacy protection[J]. IEEE Access, 2019, 7: 176429-176437. https:// ieeexplore.ieee.org/document/8924645.

[35] Chaudhuri K, Sarwate A D, Sinha K. A near-optimal algorithm for differentially-private principal components[J]. Journal of Machine Learnning Research, 2013, 14: 2905-2943. https://dl.acm.org/doi/10. 5555/2567709.2567754.

[36] Jiang X, Ji Z, Wang S, et al. Differential-Private Data Publishing Through Component Analysis[J]. Transactions on data privacy, 2013, 6(1): 19-34 . https://www.tdp.cat/issues11/abs.a109a12.php.

[37] Yang J, Li Y. Differentially private feature selection[C]//2014 International Joint Conference on Neural Networks (IJCNN), 2014. https://www.sciencedirect.com/science/article/pii/S1877050914010412?via%3Dihub.

[38] Zhang J, Cormode , Procopiuc C M, et al. PrivBayes: private data release via bayesian networks[C]. Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data. 2014. https://dl.acm.org/doi/10.1145/2588555.2588573.

[39] Li M, Ma X. Bayesian Networks-Based Data Publishing Method Using Smooth Sensitivity[C]. 2018 IEEE Intl Conf on Parallel amp; Distributed Processing with Applications, Ubiquitous Computing amp; Communications, Big Data amp; Cloud Computing, Social Computing amp; Networking, Sustainable Computing amp; Communications (ISPA/IUCC/ BDCloud/SocialCom/SustainCom), 2018. https://ieeexplore.ieee.org/ document/8672292.

[40] Cheng X, Tang P, Su S, et al. Multi-Party High-Dimensional Data Publishing Under Differential Privacy[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 32: 1557-1571. https:// ieeexplore.ieee.org/document/8673599/.

[41] Lu X, Piao C, Han J. Differential Privacy High-dimensional Data Publishing Method Based on Bayesian Network[C]. 2022 International Conference on Computer Engineering and Artificial Intelligence (ICCEAI), 2022. https://ieeexplore.ieee.org/document/ 9853392.

[42] Wei F., Zhang W, Chen Y, et al. Differentially Private High- Dimensional Data Publication via Markov Network[C]. Security and Privacy in Communication Networks. 2018. https://link.springer. com/chapter/10.1007/978-3-030-01701-9_8.

[43] Ren X, Yu C, Yu W, et al. LoPub: High-Dimensional Crowdsourced Data Publication With Local Differential Privacy[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(9): 2151-2166. https://ieeexplore.ieee.org/document/8306916.

[44] Liu G, Tang P, Hu C, et al. Multi-Dimensional Data Publishing With Local Differential Privacy[C]. International Conference on Extending Database Technology. 2023. https://openproceedings.org/2023/conf/ edbt/paper-210.pdf.

[45] Ray P, Reddy S S, Banerjee T S. Various dimension reduction techniques for high dimensional data analysis: a review[J]. Artificial Intelligence Review, 2021, 54: 3473-3515. https://link.springer.com/ article/10.1007/s10462-020-09928-0.

[46] Chen Y. Research on health and medical data sharing and personal information protection [J]. Journal of Intelligence, 2023, 42(5): 192-199.

[47] Bai W T, Chen L X. A health medical data protection scheme based on differential privacy[J]. Computer Applications and Software, 2022, 39 (8): 304-311.

[48] Zhang S, Li X. Differential privacy medical data publishing method based on attribute correlation[J]. Scientific Reports, 2022, 12. https://www.nature.com/articles/s41598-022-19544-3.pdf.

[49] Rong J. An electronic medical record data security risk monitoring system based on differential privacy protection[J]. Automation Technology and Applications, 2022, 41(12): 169-172.

[50] Tan L. Theory and Application of Dimensionality Reduction for High- dimensional Data [D]. National University of Defense Technology, 2005.

[51] Yuan K, Cheng Y. Data risks of financial technology and its prevention and control strategies [J]. Journal of Beijing University of Aeronautics and Astronautics (Social Sciences Edition), 2023, 36(2): 46-58.

[52] Zhu Z W, Zhang X. A brief analysis of privacy computing applications in the financial field[J]. Research on Financial Development, 2023(3): 90-92.

[53] Deng W, Chen X T, Zhang Q H, et al. Differential privacy protection algorithm based on Tree Models[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2020, 32(5): 848-856.

[54] Byrd D, Polychroniadou A. Differentially private secure multi-party computation for federated learning in financial applications[C]. Proceedings of the First ACM International Conference on AI in Finance. 2020. https://dl.acm.org/doi/10.1145/3383455.3422562.

引用格式:龍春,秦澤秀,李麗莎,李婧,楊帆,魏金俠,付豫豪.面向高維數(shù)據(jù)發(fā)布的差分隱私算法及應用綜述[J].農(nóng)業(yè)大數(shù)據(jù)學報,2024,6(2):170-184. DOI:10.19788/j.issn.2096-6369.200001.

CITATION: LONG Chun,, QIN ZeXiu, LI LiSha, LI Jing, YANG Fan, WEI JinXia, FU YuHao. Survey of Differential Privacy Algorithms and Applications for High- Dimensional Data Publishing[J]. Journal of Agricultural Big Data,2024,6(2):170-184. DOI:10.19788/j.issn.2096-6369.200001.

Survey of Differential Privacy Algorithms and Applications for High- Dimensional Data Publishing

LONG Chun1,2*, QIN ZeXiu1,2, LI LiSha1,2, LI Jing1, YANG Fan1, WEI JinXia1,2, FU YuHao1

1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100083, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: With the further development of big data and machine learning technologies, handling high-dimensional data with complex structures, relationships, and rich semantic information containing dozens to hundreds of features has become a challenge. Safely utilizing such high-dimensional data, while ensuring the privacy of individuals, has become a significant topic today. Upon reviewing existing literature, we found numerous reviews on differential privacy technology itself, but few on the algorithms and applications of differential privacy specifically tailored for high-dimensional data. Therefore, this paper provides a review of the application of differential privacy in the field of high-dimensional data, aiming to delve into the strengths and weaknesses of different methods in protecting the privacy of high-dimensional data and to guide future research directions for differential privacy algorithms tailored for high-dimensional data publishing. Firstly, this paper introduces the principles and characteristics of differential privacy, summarizing the current research work on the technology itself. Then, it analyzes the application of differential privacy in high-dimensional data environments from the perspectives of data dimensionality reduction and data synthesis, discussing the challenges and issues faced by differential privacy and proposing preliminary solutions to better address the issues of privacy protection and data analysis in the current high-dimensional data landscape. Lastly, potential future research directions are proposed to facilitate technological exchange and further advancements in the application of differential privacy in high-dimensional data settings.

Keywords: differential privacy; high-dimensional data; perturbation mechanism; privacy allocation

墨江| 常宁市| 历史| 桦甸市| 凭祥市| 新田县| 奉化市| 白沙| 会同县| 宜川县| 绍兴县| 忻城县| 临洮县| 阿勒泰市| 正镶白旗| 璧山县| 青河县| 绥中县| 韩城市| 剑川县| 临桂县| 沈丘县| 咸宁市| 云梦县| 上杭县| 胶州市| 永城市| 永清县| 荔波县| 儋州市| 宝清县| 天镇县| 桃江县| 政和县| 乡城县| 高邑县| 电白县| 得荣县| 堆龙德庆县| 闽侯县| 普兰店市|