吳超超+李偉春
摘要:近年來,信息技術(shù)發(fā)展迅速,且被廣泛應(yīng)用到信息、通訊、工業(yè)生產(chǎn)、企業(yè)營(yíng)銷等社會(huì)生產(chǎn)、生活的各個(gè)領(lǐng)域。作為信息技術(shù)的重要組成部分,數(shù)據(jù)挖掘技術(shù)不僅關(guān)系著人們對(duì)各類信息數(shù)據(jù)的收集和利用情況,而且對(duì)于信息技術(shù)的整體發(fā)展也具有重要的影響。為了使信息技術(shù)下人們的隱私得到更好的保護(hù),本文從數(shù)據(jù)挖掘技術(shù)的角度出發(fā),通過對(duì)數(shù)據(jù)挖掘技術(shù)的相關(guān)概念進(jìn)行分析,在結(jié)合其在隱私保護(hù)方面技術(shù)分類的基礎(chǔ)上,對(duì)基于隱私保護(hù)的數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘展開了深入研究。
關(guān)鍵詞:隱私保護(hù);數(shù)據(jù)挖掘;數(shù)據(jù)關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)05(c)-0000-00
計(jì)算機(jī)信息時(shí)代的來臨在為人們的日常生產(chǎn)、生活帶來較大便利的同時(shí),也對(duì)個(gè)人、群體以及相關(guān)組織、機(jī)構(gòu)的隱私產(chǎn)生了較大威脅,因隱私泄露而導(dǎo)致的社會(huì)沖突也在不斷加劇,故為了在大數(shù)據(jù)時(shí)代下,進(jìn)一步保護(hù)人們的隱私,本文對(duì)基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)做出了系統(tǒng)的分析和研究。
1 數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘又稱為數(shù)據(jù)采礦,是通過相關(guān)算法在大量的數(shù)據(jù)中搜索并找出隱藏在其中各類信息的技術(shù)。數(shù)據(jù)挖掘在研究過程中主要借助了以下兩方面領(lǐng)域的研究思想,首先是統(tǒng)計(jì)學(xué)的抽樣以及估計(jì)與假設(shè)檢驗(yàn),通過在大量的數(shù)據(jù)中挑選出可能蘊(yùn)含可用信息的數(shù)據(jù),進(jìn)而對(duì)數(shù)據(jù)中蘊(yùn)含的信息進(jìn)行假設(shè)和檢驗(yàn)分析;其次是基于人工智能識(shí)別與計(jì)算機(jī)網(wǎng)絡(luò)學(xué)習(xí)的搜索算法,通過對(duì)樣本數(shù)據(jù)進(jìn)行優(yōu)化、計(jì)算和處理,進(jìn)而得到所需信息[1]。然而,隨著數(shù)據(jù)挖掘技術(shù)的日益發(fā)展,使得在發(fā)現(xiàn)知識(shí)和信息的同時(shí),人們的隱私權(quán)也收到了嚴(yán)重的威脅。因此,數(shù)據(jù)挖掘工作者有必要也必須在進(jìn)行數(shù)據(jù)挖掘的同時(shí),做好數(shù)據(jù)源以及相關(guān)挖掘結(jié)果的隱私保護(hù)工作。
2 基于隱私保護(hù)的數(shù)據(jù)挖掘分類
不同的分類標(biāo)準(zhǔn)所對(duì)應(yīng)的隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)也存在較大差異,以基本策略為依據(jù),可將基于隱私的數(shù)據(jù)挖掘方法分為:(1)數(shù)據(jù)擾亂法。通過在研究過程中對(duì)數(shù)據(jù)進(jìn)行隨機(jī)變換,或?qū)?shù)據(jù)進(jìn)行離散與添加噪聲,以達(dá)到對(duì)原始數(shù)據(jù)進(jìn)行干擾的目的,其代表算法為MASK法;(2)查詢限制法。通過對(duì)數(shù)據(jù)進(jìn)行隱藏、抽樣和劃分,以達(dá)到盡量避免數(shù)據(jù)挖掘者擁有完整原始數(shù)據(jù)的目的,在此基礎(chǔ)上,借助分布式計(jì)算或是概率統(tǒng)計(jì),獲得所需的數(shù)據(jù)挖掘結(jié)果。但在利用查詢限制法進(jìn)行隱私保護(hù)時(shí),經(jīng)常存在一個(gè)問題,即所提供的數(shù)據(jù)全部為真實(shí)的原始數(shù)據(jù),雖然不完整,但也會(huì)降低對(duì)隱私的保護(hù)效果。以隱私保護(hù)的結(jié)束為依據(jù),可將相關(guān)的數(shù)據(jù)挖掘方法分為:(1)啟發(fā)式技術(shù)。啟發(fā)式技術(shù)又稱為掃描技術(shù),通過將數(shù)據(jù)挖掘的經(jīng)驗(yàn)和相關(guān)知識(shí)移植到檢查病毒的軟件當(dāng)中,進(jìn)而查找出可能存在侵犯用戶隱私的惡意程序或代碼;(2)密碼技術(shù)。密碼技術(shù)是研究如何較為隱蔽地傳遞信息的一門技術(shù),通過應(yīng)用分組密碼和流密碼等相關(guān)技術(shù),從而對(duì)陌生的數(shù)據(jù)訪問請(qǐng)求進(jìn)行攔截,以達(dá)到保護(hù)隱私的作用;(3)重構(gòu)技術(shù)。通過利用數(shù)據(jù)重構(gòu)技術(shù),通過結(jié)果轉(zhuǎn)換以及格式變換和類型替換等方式對(duì)數(shù)據(jù)空間的結(jié)構(gòu)和格式做出調(diào)整,在實(shí)現(xiàn)異構(gòu)數(shù)據(jù)與多源數(shù)據(jù)有效融合的基礎(chǔ)上,降低隱私數(shù)據(jù)被篡改或盜用的可能[2]。
3 基于隱私保護(hù)的數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
3.1集中式數(shù)據(jù)隱私保護(hù)
集中式數(shù)據(jù)隱私保護(hù)的關(guān)聯(lián)規(guī)則挖掘技術(shù)在隱私保護(hù)中的應(yīng)用主要體現(xiàn)在源數(shù)據(jù)保護(hù)和規(guī)則隱藏兩方面。在源數(shù)據(jù)的保護(hù)方面的數(shù)據(jù)挖掘技術(shù)主要包括了基于數(shù)據(jù)擾亂以及分布重構(gòu)關(guān)聯(lián)規(guī)則算法,即當(dāng)前應(yīng)用較為廣泛的MASK算法,此算法通過對(duì)數(shù)據(jù)進(jìn)行擾亂以及分布重構(gòu),來達(dá)到隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘的目的。具體方法為:通過將原始數(shù)據(jù)作為保密數(shù)據(jù)(保密目標(biāo)),使其服從于未知分布U,引入一組擾動(dòng)數(shù)據(jù),令其分布特定分布R,并輸入隨機(jī)擾動(dòng)后的數(shù)據(jù);對(duì)隨機(jī)擾動(dòng)后的數(shù)據(jù)進(jìn)行存儲(chǔ),另引入一組擾動(dòng)數(shù)據(jù),使其仍然服從于特定分布R,作用后,將原始數(shù)據(jù)U輸出。在此過程中,加入隨機(jī)擾動(dòng)數(shù)據(jù)后,在降低了侵犯隱私行為成功的可能性的同時(shí),也使得數(shù)據(jù)挖掘工作人員獲得了其想要得到了目標(biāo)數(shù)據(jù)[3]。
在規(guī)則隱藏方面,則主要體現(xiàn)在Alog系列的相關(guān)算法上,例如MinFIA以及MaxFIA和Native算法等,需要說明的是,各類算法所要隱藏的同一數(shù)據(jù)庫中的不同敏感規(guī)則,其彼此間是相互獨(dú)立的,其大都通過借助降低置信度以及支持度來達(dá)到對(duì)相關(guān)數(shù)據(jù)挖掘規(guī)則進(jìn)行隱藏的目的。近年來,關(guān)于集中式數(shù)據(jù)隱私保護(hù)的規(guī)則隱藏方面的研究頗受關(guān)注,相關(guān)的規(guī)則隱藏方法還包括:(1)數(shù)據(jù)替代法,通過以隨機(jī)數(shù)據(jù)代替原始數(shù)據(jù),以達(dá)到降低隱藏規(guī)則中項(xiàng)目支持度與可信度的目的,此外,對(duì)數(shù)據(jù)挖掘后所殘留的非敏感性規(guī)則還具有較小的影響,進(jìn)而從整體上提高所挖掘的數(shù)據(jù)的質(zhì)量;(2)刪除項(xiàng)與增加項(xiàng)的結(jié)合。通過將刪除項(xiàng)和增加項(xiàng)進(jìn)行隨機(jī)結(jié)合,從而使原有規(guī)則的支持度發(fā)生變更,此方法的好處在于,所產(chǎn)出的規(guī)則相異度與規(guī)則丟失率能夠得到有效降低,從而達(dá)到對(duì)目標(biāo)數(shù)據(jù)進(jìn)行保護(hù)的目的。
3.2分布式數(shù)據(jù)隱私保護(hù)
分布式環(huán)境中,用戶隱私關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵在于對(duì)全局頻繁項(xiàng)集進(jìn)行計(jì)算,同時(shí),加強(qiáng)對(duì)加密技術(shù)的應(yīng)用,以確保相關(guān)隱私信息不會(huì)外泄。就現(xiàn)階段而言,分布式數(shù)據(jù)關(guān)聯(lián)規(guī)則的隱私保護(hù)方法主要包括了安全交集大小運(yùn)算、安全求并集運(yùn)算以及安全與運(yùn)算等算法。而分布式數(shù)據(jù)的隱私保護(hù)主要包括兩方面,分別為水平分布下隱私保護(hù)的關(guān)聯(lián)規(guī)則挖掘與垂直分布下的隱私保護(hù)關(guān)聯(lián)規(guī)則的挖掘。
在水平分布的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘方面,除了需要對(duì)結(jié)果進(jìn)行正確挖掘外,還需要對(duì)實(shí)施保護(hù)的相關(guān)開銷以及通信代價(jià)與安全強(qiáng)度進(jìn)行計(jì)算。例如,可先運(yùn)用數(shù)學(xué)方法對(duì)不同分布站點(diǎn)的數(shù)據(jù)進(jìn)行變換,而后,恢復(fù)全局計(jì)數(shù)項(xiàng)集的支持度,以此,來搜索并發(fā)現(xiàn)數(shù)據(jù)挖掘時(shí)的全局頻繁集,進(jìn)而找出并確定關(guān)聯(lián)規(guī)則[4]。在垂直分布的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘方面,在同一時(shí)間內(nèi),以不同站點(diǎn)的數(shù)據(jù)為依據(jù),對(duì)所有項(xiàng)集的計(jì)數(shù)進(jìn)行計(jì)算,進(jìn)而找出超過閥值的支持度全局頻繁集,以達(dá)到對(duì)數(shù)據(jù)進(jìn)行保護(hù)的目的。
結(jié)論:本文通過對(duì)數(shù)據(jù)挖掘的概念以及隱私保護(hù)的必要性進(jìn)行分析,在對(duì)不同依據(jù)下數(shù)據(jù)挖掘的隱私保護(hù)方法進(jìn)行分類的基礎(chǔ)上,分別從集中式數(shù)據(jù)隱私保護(hù)和分布式數(shù)據(jù)隱私保護(hù)兩方面對(duì)基于隱私保護(hù)的數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法做出了全面的論述和分析。研究結(jié)果表明,源數(shù)據(jù)與隱藏規(guī)則保護(hù)方法能夠較好地滿足集中式數(shù)據(jù)隱私保護(hù)的要求,而以數(shù)學(xué)方法和全局頻繁集算法為主的水平分布與垂直分布隱私保護(hù)能夠加好地實(shí)現(xiàn)分布式數(shù)據(jù)的隱私保護(hù)。可見,未來加強(qiáng)對(duì)基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)方面的研究,對(duì)于在保證用戶隱私的前提下,提高數(shù)據(jù)挖掘效率,具有重要的歷史作用和現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1]李學(xué)國(guó),馮剛.面向社交網(wǎng)絡(luò)隱私保護(hù)的數(shù)據(jù)挖掘方法研究[J].科技通報(bào),2013,01(18):128-131.
[2]張海濤,黃慧慧,徐亮,等.隱私保護(hù)數(shù)據(jù)挖掘研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2013,12(15):3529-3535.
[3]崔春英,喬蕊.基于隱私保持的分布式數(shù)據(jù)挖掘技術(shù)研究[J].電腦編程技巧與維護(hù),2012,10(09):52-53.
[4]李玲娟,鄭少飛.基于數(shù)據(jù)處理的數(shù)據(jù)挖掘隱私保護(hù)技術(shù)分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,03(09):94-97.