国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計機(jī)器學(xué)習(xí)算法的隱私保護(hù)在數(shù)據(jù)發(fā)布與數(shù)據(jù)挖掘中的應(yīng)用分析

2022-04-02 21:47:09曹憲趙雪昆
關(guān)鍵詞:機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘

曹憲 趙雪昆

關(guān)鍵詞 差分隱私 數(shù)據(jù)發(fā)布 匿名隱私 數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí)

1引言

目前,數(shù)據(jù)產(chǎn)業(yè)面臨新的機(jī)遇,只有遵循數(shù)據(jù)流通、數(shù)據(jù)共享、數(shù)據(jù)開放才能更好地挖掘數(shù)據(jù)的價值和激發(fā)市場的活力,從而使公共利益最大化。同時,數(shù)字化也面臨各種挑戰(zhàn),如數(shù)據(jù)安全和隱私數(shù)據(jù)泄露事件頻發(fā),且數(shù)據(jù)確權(quán)歸屬矛盾也很突出。因此,在實現(xiàn)數(shù)據(jù)價值同時,有效保護(hù)敏感信息不被泄露顯得尤為重要。

概率論與數(shù)理統(tǒng)計是數(shù)據(jù)統(tǒng)計中常用的技術(shù),在隱私保護(hù)場景中也起到了重要的作用。在我國的“個人信息法”中,針對數(shù)據(jù)處理者提出明確要求:數(shù)據(jù)處理者處理的個人信息應(yīng)采取相應(yīng)的加密、去標(biāo)識化等安全技術(shù)措施。在加密、去標(biāo)識化技術(shù)中,常常會采用統(tǒng)計類算法。數(shù)據(jù)發(fā)布者針對數(shù)據(jù)發(fā)布前采用統(tǒng)計類算法或是其他數(shù)據(jù)脫敏技術(shù)對數(shù)據(jù)集進(jìn)行敏感信息的保護(hù)處理工作,可以使發(fā)布信息的內(nèi)容無法確定個體信息,從而對數(shù)據(jù)進(jìn)行保護(hù)。

2隱私保護(hù)技術(shù)

關(guān)于數(shù)據(jù)泄露以及數(shù)據(jù)安全威脅, 威瑞森(Verizon)發(fā)布的《數(shù)據(jù)泄露調(diào)查報告》(DBIR)提出了重要觀點。從2008 年起, Verizon 每年都會發(fā)布DBIR。2019 年的DBIR 對41686 起安全事件(其中有2013 起數(shù)據(jù)泄露事件)進(jìn)行了分析,由73 個數(shù)據(jù)源提供數(shù)據(jù),其中66 個數(shù)據(jù)源是Verizon 之外的組織,這些組織是來自世界各地的公共或私有實體。報告顯示,69%的安全事件是外部人員所為;34%的違規(guī)行為涉及內(nèi)容參與者;2%涉及合作伙伴;5%涉及多方當(dāng)事人;39%的數(shù)據(jù)泄露事件的主使是有組織犯罪集團(tuán);23%的數(shù)據(jù)泄露事件被確定為有民族或國家行為者參與。從報告中可以分析出,泄露的數(shù)據(jù)屬性包括憑據(jù)信息、個人信息(比如社會安全號碼、保險相關(guān)信息、姓名、地址和其他容易盈利的數(shù)據(jù))、醫(yī)療信息、銀行卡信息、支付信息等。因此,保護(hù)隱私數(shù)據(jù)和防止敏感數(shù)據(jù)泄露問題,是我們目前面臨的最大挑戰(zhàn)。作為數(shù)據(jù)挖掘與信息共享應(yīng)用的重要環(huán)節(jié),數(shù)據(jù)發(fā)布和數(shù)據(jù)挖掘中的隱私保護(hù)成為當(dāng)前的研究熱點[1] 。

所謂隱私保護(hù)是指隱藏數(shù)據(jù)持有者的個人身份信息與敏感數(shù)據(jù)信息。常用的隱私保護(hù)技術(shù)包括數(shù)據(jù)匿名技術(shù)、數(shù)據(jù)擾動技術(shù)、數(shù)據(jù)加密技術(shù)。

數(shù)據(jù)匿名技術(shù)可以針對需要發(fā)布的數(shù)據(jù)進(jìn)行發(fā)布限制,從而保護(hù)原始個體敏感數(shù)據(jù)不被泄露。常見的數(shù)據(jù)匿名技術(shù)如下:一是選擇性地發(fā)布一部分,如刪除姓名、身份證號等敏感信息再對數(shù)據(jù)進(jìn)行發(fā)布,以保護(hù)敏感數(shù)據(jù)。二是發(fā)布精度較低的數(shù)據(jù),如聚類方法中概括性的數(shù)據(jù)內(nèi)容,針對年齡發(fā)布一段數(shù)據(jù)或是針對身份匯總發(fā)布數(shù)據(jù),從而保護(hù)原始個體數(shù)據(jù)的安全性。其他方式:隱藏敏感信息,如替換、重寫、散列、固定值偏移等。該技術(shù)主要對數(shù)據(jù)的可用性和隱私披露風(fēng)險進(jìn)行平衡。

數(shù)據(jù)擾動技術(shù)可以擾動原始數(shù)據(jù)或是在原始數(shù)據(jù)中增加噪音,以此實現(xiàn)隱私保護(hù)。其主要原理是讓數(shù)據(jù)中的個體失真,從而不能確定數(shù)據(jù)的唯一性,但同時又能保證數(shù)據(jù)不變,如采用數(shù)據(jù)變換、合成偽數(shù)據(jù)、差分隱私等方法實現(xiàn)隱私保護(hù)。其優(yōu)點是執(zhí)行效率高,缺點是由于數(shù)據(jù)增加了噪音,數(shù)據(jù)缺損較大,所以會存在一定的差異項。本文研究的重點是增加擾動技術(shù)以及實際統(tǒng)計數(shù)據(jù)的準(zhǔn)確性[2] ,比較適用于數(shù)據(jù)統(tǒng)計領(lǐng)域。

數(shù)據(jù)加密技術(shù)可對敏感數(shù)據(jù)進(jìn)行加密,以實現(xiàn)隱私保護(hù)。其特點主要是計算開銷大、通信代價高。常見的加密技術(shù)可以應(yīng)用到聯(lián)邦學(xué)習(xí)中的安全多方計算、同態(tài)加密等。數(shù)據(jù)加密技術(shù)不是本文討論的重點內(nèi)容。

3統(tǒng)計機(jī)器學(xué)習(xí)在隱私保護(hù)中的應(yīng)用

統(tǒng)計機(jī)器學(xué)習(xí)基于對數(shù)據(jù)的初步認(rèn)識以及對學(xué)習(xí)目的進(jìn)行分析,選擇合適的數(shù)學(xué)模型,擬定超參數(shù),并輸入樣本數(shù)據(jù),依據(jù)一定的策略,運用合適的學(xué)習(xí)算法對模型進(jìn)行訓(xùn)練,最后運用訓(xùn)練好的模型對數(shù)據(jù)進(jìn)行分析預(yù)測[3] 。統(tǒng)計機(jī)器學(xué)習(xí)的三要素是模型、算法、策略。針對隱私保護(hù)的應(yīng)用場景,大部分的研究在于對模型的選擇、減少策略損失和風(fēng)險上以及應(yīng)用具體的學(xué)習(xí)模型的方法。兩種常用的隱私保護(hù)方式為聚類算法和差分隱私法。

3.1聚類算法在數(shù)據(jù)匿名隱私技術(shù)方面的應(yīng)用

聚類以統(tǒng)計分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法為基礎(chǔ),是統(tǒng)計學(xué)的一個重要分支。聚類屬于無監(jiān)督學(xué)習(xí),其通過樣本相似度或距離對數(shù)據(jù)進(jìn)行劃分,形成類或是簇(類或是簇事先并不知道),使得最終的類的數(shù)據(jù)差異性小,類外的數(shù)據(jù)差異性大。該聚類方式也常應(yīng)用在數(shù)據(jù)匿名隱私技術(shù)中。在面對數(shù)據(jù)發(fā)布時,采用聚類的方式,將數(shù)據(jù)劃分成不同的類別,形成不同的數(shù)據(jù)組,組內(nèi)的數(shù)據(jù)相似度高,組外的數(shù)據(jù)相似度低,然后將聚類的數(shù)據(jù)進(jìn)行發(fā)布,從而保護(hù)原始數(shù)據(jù)不被泄露,實現(xiàn)匿名隱私保護(hù)。通過聚類實現(xiàn)的隱私保護(hù)比基于數(shù)據(jù)擾動方式實現(xiàn)匿名技術(shù)數(shù)據(jù)的信息缺損要小。尤其是在數(shù)據(jù)挖掘中,通過聚類的方式實現(xiàn)個體信息的隱藏,優(yōu)勢更為突出。

常用的聚類算法:層次聚類和K 均值聚類。應(yīng)用在數(shù)據(jù)匿名隱私技術(shù)中,基于聚類研究的數(shù)據(jù)類型方向主要是關(guān)系型數(shù)據(jù)和事務(wù)型數(shù)據(jù)。針對聚類方法研究方向或是應(yīng)用場景,一方面主要在于數(shù)據(jù)的劃分方法上,針對不同的數(shù)據(jù)類型或是屬性,進(jìn)行不同方式的劃分。比如,針對年齡數(shù)據(jù)需要調(diào)整劃分方式,確定匿名組的規(guī)模上界;針對人種不同(如有色人種和白種人),采用空間多維劃分的方式進(jìn)行劃分;針對復(fù)雜網(wǎng)絡(luò)模型,先通過聚類算法生成K 度向量,再采用Havel 定理的貪心策略重構(gòu)圖,保證重構(gòu)圖與原圖的高度相似,從而保護(hù)網(wǎng)絡(luò)數(shù)據(jù)隱私;針對軌跡數(shù)據(jù)的隱私保護(hù)發(fā)布,采用基于網(wǎng)格的聚類方法等。另一方面主要是在數(shù)據(jù)的發(fā)布方式上,比如全量數(shù)據(jù)發(fā)布采用的聚類方式以及增量數(shù)據(jù)發(fā)布采用的聚類方式方法。其他方面研究面向的是多敏感屬性的隱私數(shù)據(jù)發(fā)布技術(shù),針對的是多敏感屬性的多樣性,能夠解決多敏感屬性發(fā)布中的刪除和泄露問題。

常見的聚類應(yīng)用是K?匿名聚類,其原理是通過聚類分析技術(shù)將敏感數(shù)據(jù)劃分成不同的類,類內(nèi)數(shù)據(jù)高度相似,類之間差異較大,然后對每個類通過局部重編碼的匿名策略將其轉(zhuǎn)化為滿足K?匿名約束條件的等價類。目前,出現(xiàn)了很多關(guān)于聚類的K?匿名隱私保護(hù)算法的研究,大部分研究集中在針對聚類的中心位置、聚類成員的大小以及聚類策略效率選擇上。優(yōu)化K?匿名聚類,可以提高數(shù)據(jù)發(fā)布的效率和準(zhǔn)確性。gzslib202204022147

3.2基于差分隱私的隱私保護(hù)方法

差分隱私技術(shù)是數(shù)據(jù)擾動技術(shù)的實現(xiàn)方式之一。

差分隱私的定義建立在對隨機(jī)算法的約束上,其主要是通過聚合查詢結(jié)果添加隨機(jī)噪音的方式來保護(hù)個人信息。該模型由德沃柯(Dwork)等人于2006 年提出。保護(hù)模型的基本原理是對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換或者是對統(tǒng)計結(jié)果添加噪音來達(dá)到隱私保護(hù)效果。該保護(hù)方法可以有效防止攻擊者利用背景知識進(jìn)行攻擊,同時差分隱私采用的是統(tǒng)計學(xué)模型,方便了數(shù)據(jù)工具的使用以及定量分析和證明。該模型被廣泛應(yīng)用于隱私保護(hù)數(shù)據(jù)發(fā)布與隱私保護(hù)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域。

3.2.1數(shù)據(jù)發(fā)布場景應(yīng)用

在數(shù)據(jù)發(fā)布場景下,除了可以采用聚類的方式進(jìn)行數(shù)據(jù)發(fā)布,同時也可以采用差分隱私保護(hù)技術(shù)。差分隱私保護(hù)數(shù)據(jù)發(fā)布研究的是如何在滿足差分隱私的條件下保證發(fā)布數(shù)據(jù)或查詢結(jié)果的精確性。常見的差分隱私數(shù)據(jù)發(fā)布有交互模式和非交互析模式兩種。其處理方式各有特色,但是目標(biāo)一致,即在滿足差分隱私的同時,盡可能提高數(shù)據(jù)的可用性[4] 。

在交互模式下,數(shù)據(jù)查詢者只能看到被差分隱私算法轉(zhuǎn)換出來的數(shù)據(jù),不能看到數(shù)據(jù)的全貌,從而保護(hù)數(shù)據(jù)集中的個體隱私。常用的發(fā)布技術(shù)為基于直方圖的信息發(fā)布,其優(yōu)點是敏感度小,分析簡單,噪聲可以控制在較小范圍內(nèi)。在該模式下,主要解決如何以較小的隱私預(yù)算與較低的誤差來進(jìn)行查詢,如交互模式下的線性與批量查詢。

在非交互模式下,數(shù)據(jù)管理者預(yù)先根據(jù)數(shù)據(jù)信息的特點來設(shè)計要發(fā)布的統(tǒng)計信息,并將經(jīng)過隱私保護(hù)的數(shù)據(jù)進(jìn)行發(fā)布。此時,數(shù)據(jù)查詢者只能對發(fā)布后的合成數(shù)據(jù)庫進(jìn)行查詢或者挖掘任務(wù)并獲得近似結(jié)果。

常用的發(fā)布技術(shù)有分組發(fā)布、列聯(lián)表發(fā)布等。在該模式下,提高發(fā)布數(shù)據(jù)的可用性是研究的重點。

3.2.2數(shù)據(jù)挖掘場景應(yīng)用

數(shù)據(jù)挖掘研究要解決的是數(shù)據(jù)挖掘領(lǐng)域高層隱私需求帶來的問題,如top?k 頻次算法、k?means 算法、隨機(jī)決策數(shù)樹算法、基于SVN 的分類算法、logistic 回歸算法、頻繁項集挖掘、K 最近鄰算法等。其主要目的是設(shè)計如何在保證數(shù)據(jù)安全和性能的前提下,獲得最優(yōu)的數(shù)據(jù)挖掘模型[5] 。

從應(yīng)用效率以及用戶的可信度上進(jìn)行劃分,可以將隱私保護(hù)數(shù)據(jù)挖掘分為可信模式和非可信模式。

在非可信模式下,默認(rèn)用戶是不可信任的,只提供查詢能力,當(dāng)用戶提交查詢申請,隱私保護(hù)系統(tǒng)根據(jù)查詢請求,通過差分隱私算法生成結(jié)果集。在該模型中,比較常用的挖掘方法包含分類和聚類。在可信模式下,默認(rèn)用戶是可信任的,用戶能夠直接訪問數(shù)據(jù)集并執(zhí)行挖掘算法操作,通過設(shè)計滿足隱私保護(hù)的數(shù)據(jù)挖掘算法發(fā)布數(shù)據(jù)結(jié)果。在該模型中,比較常用的挖掘方法有分類/ 回歸和頻繁項集挖掘??尚拍J降臄?shù)據(jù)利用度較高,數(shù)據(jù)挖掘的算法更靈活。

3.2.3聯(lián)邦學(xué)習(xí)

為了讓數(shù)據(jù)實現(xiàn)開放共享,打破“數(shù)據(jù)孤島”,防止數(shù)據(jù)隱私出現(xiàn)泄露等問題,2016 年谷歌提出了聯(lián)邦學(xué)習(xí)。聯(lián)邦學(xué)習(xí)原本用于解決Android 手機(jī)終端用戶在本地更新模型的問題,其設(shè)計目標(biāo)是在保障大數(shù)據(jù)交換時的信息安全,保護(hù)終端數(shù)據(jù)和個人數(shù)據(jù)隱私,保證合法合規(guī)的前提下,在多參與方或多計算結(jié)點之間開展高效率的機(jī)器學(xué)習(xí)。聯(lián)邦學(xué)習(xí)本質(zhì)上是一種分布式機(jī)器學(xué)習(xí)技術(shù),或機(jī)器學(xué)習(xí)框架。

在聯(lián)邦學(xué)習(xí)中,差分隱私方法主要應(yīng)用于縱向聯(lián)邦學(xué)習(xí)框架,涉及多方安全計算模型?,F(xiàn)有研究文獻(xiàn)將縱向聯(lián)邦學(xué)習(xí)中的差分隱私方式分為三種模式。(1)本地差分隱私,通過本地增加噪音的方式,實現(xiàn)對數(shù)據(jù)差分隱私保護(hù),保護(hù)過程全部在客戶端實現(xiàn)。比如可以在手機(jī)、平板電腦等小型設(shè)備上訓(xùn)練模型。但是本地差分隱私也存在弊端,一方面是訓(xùn)練的數(shù)據(jù)樣本大的時候無法滿足需求,訓(xùn)練的準(zhǔn)確度較低。另一方面,在高維數(shù)據(jù)下,本地差分隱私的可用性和隱私性難以平衡。(2)中心化差分隱私,通過在中心數(shù)據(jù)服務(wù)器上針對各個采集節(jié)點增加噪音的方式,實現(xiàn)隱藏各個節(jié)點的貢獻(xiàn),不暴露參與訓(xùn)練的用戶數(shù)據(jù),從而實現(xiàn)差分隱私保護(hù),其優(yōu)于本地差分隱私。中心化差分隱私最大的缺點是在多個計算數(shù)據(jù)方中間需要有一個可信的服務(wù)器,服務(wù)器的安全性成為最大的問題。(3)分布式差分隱私,其在中心化差分隱私的基礎(chǔ)上進(jìn)行了優(yōu)化,存在多個可信中心節(jié)點,每個用戶將數(shù)據(jù)發(fā)送到不同的可信中心節(jié)點上,各個可信中心節(jié)點負(fù)責(zé)對用戶發(fā)送過來的數(shù)據(jù)進(jìn)行聚合和隱私保護(hù),然后通過多方安全計算或同態(tài)加密以及差分隱私方式發(fā)送到服務(wù)器上,確保服務(wù)器只能得到聚合結(jié)果,得不到具體數(shù)據(jù)。分布式差分隱私最大的缺點是需要一個可信的中間節(jié)點,而且通信開銷較大。

4總結(jié)和展望

基于機(jī)器學(xué)習(xí)的保護(hù)方法在隱私保護(hù)場景下得到了很多可證明的安全模型,并在數(shù)據(jù)發(fā)布、數(shù)據(jù)挖掘、多方聯(lián)合學(xué)習(xí)等方面取得了突破。本文主要介紹了現(xiàn)有的隱私保護(hù)技術(shù)以及機(jī)器學(xué)習(xí)在隱私保護(hù)場景下的應(yīng)用理論。

本文提出了針對隱私保護(hù)算法的幾大熱點研究趨勢。

4.1隱私保護(hù)在大數(shù)據(jù)環(huán)境下的應(yīng)用

從IT 時代到DT 時代,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘是實現(xiàn)數(shù)據(jù)智能化的必要手段。例如,我們?nèi)粘5馁徫镄畔?、行程信息等通過數(shù)據(jù)聚類、基線分析、時間序列、回歸等方法,可以分析出數(shù)據(jù)價值和數(shù)據(jù)規(guī)律。而整個過程會涉及隱私泄露的問題。無論采用哪種數(shù)據(jù)隱私保護(hù)技術(shù),最重要的是在滿足保護(hù)隱私的前提下使數(shù)據(jù)可用性最大化。未來的研究需要關(guān)注隱私性和可用性的平衡以及大數(shù)據(jù)環(huán)境下的隱私保護(hù)和信息安全問題。如果能夠在數(shù)據(jù)挖掘中平衡好數(shù)據(jù)可用性、隱私性和數(shù)據(jù)量等問題,我們的研究就能獲得巨大進(jìn)步。

4.2隱私保護(hù)在無監(jiān)督學(xué)習(xí)下的應(yīng)用挑戰(zhàn)

目前,隱私保護(hù)大多應(yīng)用在有監(jiān)督領(lǐng)域, 通過人工標(biāo)記數(shù)據(jù)的隱私保護(hù)方法來實現(xiàn)有監(jiān)督下的隱私保護(hù)。但隨著技術(shù)的發(fā)展,無監(jiān)督學(xué)習(xí)下的隱私計算準(zhǔn)確性和精度的問題也亟須解決?,F(xiàn)在針對無監(jiān)督學(xué)習(xí)的隱私計算存在一定的問題,如通過聚類的方法進(jìn)行數(shù)據(jù)發(fā)布,如果數(shù)據(jù)內(nèi)容是攻擊者利用背景知識或是已知的信息內(nèi)容可以推算出來的,那很容易出現(xiàn)隱私泄露的問題。而解決此問題的方式是匿名和差分隱私,差分隱私可以實現(xiàn)聚類分析下的隱私保護(hù),但是實現(xiàn)方式和誤差的精確度需要進(jìn)一步研究[6] 。

4.3多種技術(shù)結(jié)合的隱私保護(hù)方法

通過對隱私保護(hù)在機(jī)器學(xué)習(xí)中的應(yīng)用進(jìn)行分析,我們可以采用聚類、差分隱私、加密等的技術(shù)實現(xiàn)隱私保護(hù),但是任何一種隱私保護(hù)算法在實際應(yīng)用中都存在或多或少的問題,不能滿足所有場景,所以我們應(yīng)該針對不同的分析場景,如數(shù)據(jù)發(fā)布、數(shù)據(jù)挖掘、聯(lián)邦學(xué)習(xí)等,按照實際的業(yè)務(wù)情況,進(jìn)行組合技術(shù)保護(hù),這在一定程度上可以實現(xiàn)功能互補(bǔ),提升隱私保護(hù)效果。

4.4針對行業(yè)屬性的數(shù)據(jù)挖掘隱私保護(hù)算法以

猜你喜歡
機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
阿拉尔市| 多伦县| 屯留县| 张家港市| 修水县| 唐山市| 天峻县| 绿春县| 永德县| 诸城市| 邻水| 舟山市| 丰顺县| 日照市| 磐安县| 芮城县| 拜城县| 平南县| 和林格尔县| 广灵县| 福贡县| 长汀县| 汕尾市| 榆林市| 晋中市| 太康县| 宿州市| 泗阳县| 宜阳县| 宁安市| 蒲江县| 陆良县| 奇台县| 巴彦淖尔市| 栖霞市| 平阴县| 谷城县| 嘉祥县| 松阳县| 太白县| 江北区|