(天津?yàn)I海職業(yè)學(xué)院,天津 300451)
在每個(gè)行業(yè)都一樣,每個(gè)企業(yè)都想通過(guò)數(shù)據(jù)挖掘獲取有用的數(shù)據(jù),但又不想私有的信息被別人獲取,所以,在數(shù)據(jù)挖掘過(guò)程中隱私保護(hù)平臺(tái)的開(kāi)發(fā)設(shè)計(jì)顯得尤為重要。
對(duì)數(shù)據(jù)挖掘的定義非常的多,表達(dá)的方式也是不一樣的。單單從技術(shù)的角度來(lái)看的話,數(shù)據(jù)挖掘主要從大量的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中獲取隱藏在其中的、不被人們掌握的、但是又非常重要的信息和知識(shí)的過(guò)程;換商業(yè)的角度來(lái)看的話,數(shù)據(jù)挖掘就是一種非常新穎的商業(yè)信息處理技術(shù)。主要是對(duì)商業(yè)數(shù)據(jù)庫(kù)進(jìn)行處理,從這些繁瑣的數(shù)據(jù)中進(jìn)行抽取、轉(zhuǎn)化、分析及處理,進(jìn)而獲取能夠輔助商業(yè)決策的重要信息,也就是從一個(gè)龐大的數(shù)據(jù)庫(kù)中自動(dòng)獲取相應(yīng)的商業(yè)模式。
隱私在不同的環(huán)境中的定義也是不一樣的。在數(shù)據(jù)挖掘過(guò)程中涉及到的隱私主要有兩點(diǎn),分別為:一是個(gè)人隱私。其主要指的是能夠?qū)τ脩舻纳矸輼?biāo)識(shí)進(jìn)行確認(rèn)的數(shù)據(jù),比如:姓名、性別、年齡、電話號(hào)碼等,或者是由于用戶的某些習(xí)慣產(chǎn)生的一些個(gè)人信息,例如:購(gòu)物信息、保險(xiǎn)信息等;二是公共隱私。這一方面主要指的是兩個(gè)或者更多的機(jī)構(gòu)為了共同的利益,聯(lián)合在一起進(jìn)行數(shù)據(jù)挖掘,并且在挖掘過(guò)程中并不希望自己的信息被對(duì)方獲取。隱私保護(hù)的主要目的是通過(guò)使用合理的方法對(duì)初始數(shù)據(jù)進(jìn)行處理,將私有的信息數(shù)據(jù)進(jìn)行加密,在挖掘之后這些數(shù)據(jù)依舊是私有的。在進(jìn)行隱私保護(hù)的過(guò)程中不斷要對(duì)初始的私人信息進(jìn)行保護(hù),還要對(duì)在挖掘過(guò)程中出現(xiàn)的敏感信息進(jìn)行保護(hù),最后還要對(duì)數(shù)據(jù)挖掘過(guò)程中出現(xiàn)的結(jié)果進(jìn)行考慮,防止出現(xiàn)一些重要的隱私信息。
再進(jìn)行保護(hù)平臺(tái)設(shè)計(jì)過(guò)程中一定要對(duì)數(shù)據(jù)挖掘的隱私保護(hù)分類進(jìn)行探討,其中包含:數(shù)據(jù)的分布方式、算法評(píng)估,并通過(guò)對(duì)這些方面的充分考慮進(jìn)行數(shù)據(jù)挖掘的隱私保護(hù)平臺(tái)的開(kāi)發(fā)與設(shè)計(jì)。
1.數(shù)據(jù)的分布方式
依據(jù)數(shù)據(jù)的分布情況,可以將數(shù)據(jù)具體的隱私保護(hù)技術(shù)可以劃分為:集中數(shù)據(jù)和分布式數(shù)據(jù)兩種。其中分布式數(shù)據(jù)的隱私保護(hù)技術(shù)還可以繼續(xù)分類,劃分成垂直分割和水平分割的隱私保護(hù)技術(shù)。垂直分割主要指的是數(shù)據(jù)按照屬性分賽在不同的機(jī)構(gòu)和組織中,水平分割則是數(shù)據(jù)依照記錄分布在不同的機(jī)構(gòu)和組織中。
2.數(shù)據(jù)修改
在數(shù)據(jù)挖掘的隱私保護(hù)平臺(tái)開(kāi)發(fā)設(shè)計(jì)過(guò)程中一定要重視隱私數(shù)據(jù),確保其不會(huì)被泄露出去,所以在進(jìn)行保護(hù)的時(shí)候,原始數(shù)據(jù)在進(jìn)行公布之前一定先要對(duì)其進(jìn)行更改、偽裝,并且修改的方式一定要和隱私保護(hù)策略進(jìn)行結(jié)合。經(jīng)常使用的修改方法有以下四種:(1)值替代方法。此方法主要是將初始數(shù)據(jù)的屬性更改成其它的值,或者使用一個(gè)符號(hào)替換存在的值,進(jìn)而來(lái)確保隱私信息和敏感數(shù)據(jù);(2)聚集方法。這種方法主要是將大量的原始數(shù)據(jù)進(jìn)行合并或?qū)⑵涑橄鬄槠渌鼘哟蔚臄?shù)據(jù);(3)取樣方法。也就是我們經(jīng)常說(shuō)的抽樣,在大量的數(shù)據(jù)中抽取一些樣本數(shù)據(jù);(4)交換方法。對(duì)記錄數(shù)據(jù)進(jìn)行交換。
3.數(shù)據(jù)的挖掘方法
現(xiàn)在的數(shù)據(jù)隱藏技術(shù)大多數(shù)是在不同算法中進(jìn)行的,在數(shù)據(jù)挖掘過(guò)程中,采用的算法不同,則使用的技術(shù)就不一樣。例如:決策樹(shù)、聚類分析等方法。
4.被保護(hù)的隱私對(duì)象
數(shù)據(jù)挖掘這一過(guò)程主要是對(duì)初始數(shù)據(jù)的隱藏或者采用隱含規(guī)則進(jìn)行隱藏。一般情況下的隱藏規(guī)則要比偽裝方法復(fù)雜的多,很多情況下對(duì)敏感數(shù)據(jù)進(jìn)行隱藏還具有對(duì)其他重要數(shù)據(jù)進(jìn)行保護(hù)的作用。
5.隱私保護(hù)技術(shù)
此技術(shù)主要是用來(lái)對(duì)數(shù)據(jù)進(jìn)行修改,分成以下三種:(1)將啟發(fā)式的隱私保護(hù)技術(shù)作為基礎(chǔ),對(duì)初始數(shù)據(jù)的一些特定值進(jìn)行修改,并不是全部,降低數(shù)據(jù)挖掘過(guò)程中偏差出險(xiǎn)率;(2)以密碼為基礎(chǔ)的保護(hù)技術(shù)。利用數(shù)據(jù)密碼的方式來(lái)對(duì)數(shù)據(jù)進(jìn)行加密,最為常用的方法是多方安全計(jì)算方法,參與計(jì)算的單位機(jī)構(gòu)只能得到自己應(yīng)得的數(shù)據(jù),而其他參與者是不能獲取的;(3)重構(gòu)技術(shù)方式來(lái)進(jìn)行加密。此方法主要通過(guò)將數(shù)據(jù)進(jìn)行轉(zhuǎn)化后,通過(guò)對(duì)初始數(shù)據(jù)的從新編排進(jìn)而實(shí)現(xiàn)重構(gòu)。
1.集中式數(shù)據(jù)分布設(shè)計(jì)
此分部主要包含:聚類的隱私保護(hù)、分類的隱私保護(hù)、重構(gòu)技術(shù)。聚類的隱私保護(hù)主要通過(guò)對(duì)初始數(shù)據(jù)進(jìn)行幾何變換,比如:平移、縮放、旋轉(zhuǎn)等方法進(jìn)行的。這種方法主要是將旋轉(zhuǎn)變換作為基礎(chǔ)的,所以在變化前后對(duì)數(shù)據(jù)挖掘的結(jié)果是一樣的。但是由于旋轉(zhuǎn)角度和旋轉(zhuǎn)的范圍要依據(jù)數(shù)據(jù)隱私要求的最低限度來(lái)確定,所以,在數(shù)據(jù)挖掘過(guò)程中如果對(duì)隱私保護(hù)的要求非常高的時(shí)候,這種算法就有可能出現(xiàn)旋轉(zhuǎn)角度不適合的情況。分類的隱私保護(hù)算法主要通過(guò)使用參變量的方法將數(shù)據(jù)進(jìn)行降級(jí)。與此同時(shí),還應(yīng)該對(duì)降級(jí)前和降級(jí)后的數(shù)據(jù)值的熵來(lái)進(jìn)行數(shù)據(jù)的計(jì)算,通過(guò)兩者的差值與數(shù)據(jù)庫(kù)挖掘數(shù)據(jù)前后的置信度的降低速度比較快,進(jìn)而來(lái)判斷數(shù)據(jù)庫(kù)的修改是否合理。重構(gòu)技術(shù)主要氛圍兩方面,其一為:數(shù)值型數(shù)據(jù)的重構(gòu)技術(shù);另一個(gè)為:二進(jìn)制數(shù)據(jù)及分類數(shù)據(jù)的重構(gòu)技術(shù)。
2.分布式數(shù)據(jù)分布設(shè)計(jì)
此方法主要分為垂直分布和水平分布。垂直分布數(shù)據(jù)主要是根據(jù)屬性分布情況,再根據(jù)發(fā)現(xiàn)項(xiàng)集的支持技術(shù)進(jìn)行數(shù)據(jù)挖掘的。所以,挖掘的數(shù)據(jù)中能夠安全的將某個(gè)項(xiàng)集的支持技術(shù)計(jì)算出來(lái),那么此數(shù)據(jù)的檢察技術(shù)及預(yù)先設(shè)定的閾值進(jìn)行比較,進(jìn)而來(lái)判斷該項(xiàng)集的頻繁性。水平分布主要是根據(jù)數(shù)據(jù)的記錄點(diǎn)進(jìn)行對(duì)隱私的保護(hù)。主要實(shí)在數(shù)據(jù)挖掘過(guò)程中,各個(gè)站點(diǎn)不用知道其它站點(diǎn)的工作情況就能進(jìn)行數(shù)據(jù)關(guān)聯(lián)。參與者不想泄露自己的信息,進(jìn)而出現(xiàn)了第三方,要求各方都要按照預(yù)定協(xié)議進(jìn)行,合作方只需要向第三方發(fā)送數(shù)據(jù),通過(guò)第三方對(duì)數(shù)據(jù)的處理,來(lái)確保各方的隱私。
通過(guò)本文對(duì)基于數(shù)據(jù)挖掘的隱私保護(hù)平臺(tái)開(kāi)發(fā)設(shè)計(jì)的介紹與分析,對(duì)數(shù)據(jù)挖掘隱私保護(hù)平臺(tái)開(kāi)發(fā)設(shè)計(jì)提供了幾種安全算法,每一種隱私保護(hù)技術(shù)都擁有各自的特點(diǎn),在需求不同的情況下,對(duì)技術(shù)的要求也是不相同的,并且在數(shù)據(jù)挖掘過(guò)程中是不存在通用算法的,算法本身的擴(kuò)展性比較弱,不同算法的各項(xiàng)性能也都存在著缺陷,所以在日后的工作中應(yīng)該大力尋找新的計(jì)算方法,進(jìn)而將隱私保護(hù)平臺(tái)建立的更加完善,進(jìn)而提升數(shù)據(jù)挖掘工作中的隱私保密性。
參考文獻(xiàn):
[1]王滟方,謝文閣.?dāng)?shù)據(jù)挖掘的隱私保護(hù)研究[J].大眾科技,2010,(10).
[2]賈哲.分布式環(huán)境中信息挖掘與隱私保護(hù)相關(guān)技術(shù)研究[D].信息安全,北京郵電大學(xué),2012.