陳麗珊
(福建廣播電視大學莆田分校,福建莆田,351100)
數(shù)據(jù)挖掘中敏感信息安全問題的探討
陳麗珊
(福建廣播電視大學莆田分校,福建莆田,351100)
本文主要介紹在數(shù)據(jù)挖掘中敏感信息的安全防護,給出了幾種敏感信息安全的解決方案,提出對建立數(shù)據(jù)挖掘系統(tǒng)信息安全防護系統(tǒng)的幾點看法。
數(shù)據(jù)挖掘;敏感數(shù)據(jù);敏感知識;安全防護
移動通信、計算機、泛在網(wǎng)絡(luò)等技術(shù)的迅猛發(fā)展,使得數(shù)據(jù)呈現(xiàn)爆炸式增長、位置隨機分布等特點,為使得這些數(shù)據(jù)能夠被有效利用,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。當前數(shù)據(jù)挖掘中廣泛采用的方法有關(guān)聯(lián)規(guī)則挖掘、聚類挖掘、分類預測等,這些方法主要是對隱藏在海量數(shù)據(jù)中的知識進行挖掘,同時也需要有效避免敏感信息泄露。如何在數(shù)據(jù)發(fā)布過程中防止敏感知識、敏感數(shù)據(jù)泄露已成為信息安全領(lǐng)域和數(shù)據(jù)挖掘領(lǐng)域的重要課題,以敏感信息安全防護技術(shù)為前提的數(shù)據(jù)挖掘技術(shù)是實現(xiàn)互聯(lián)網(wǎng)+時代發(fā)展的重要影響因素。針對敏感知識和敏感數(shù)據(jù)這兩類敏感信息安全問題,本文主要對聚類挖掘和關(guān)聯(lián)規(guī)則挖掘技術(shù)及實現(xiàn)算法進行介紹,對常用的隱私保護技術(shù)進行了介紹,最后建立了敏感信息安全防護技術(shù)的評價指標體系。
(一)數(shù)據(jù)挖掘技術(shù)的發(fā)展現(xiàn)狀
信息爆炸與知識匱乏是人類社會進入信息時代的特有矛盾,如何有效實現(xiàn)在海量信息中抽取有用的知識,是當下信息科學的熱點研究領(lǐng)域之一。數(shù)據(jù)挖掘技術(shù)就是要從海量的、模糊的、有偏差的、隨機的、不完全的數(shù)據(jù)中提取隱含其中的潛在有用數(shù)據(jù),實現(xiàn)潛在有用信息和知識的發(fā)現(xiàn)。數(shù)據(jù)挖掘技術(shù)的應(yīng)用在單一數(shù)據(jù)庫時代就已開始,到現(xiàn)如今泛在信息的數(shù)據(jù)挖掘,數(shù)據(jù)挖掘技術(shù)正在不斷發(fā)展與成熟,同時企業(yè)、組織機構(gòu)對數(shù)據(jù)分析的迫切需求,使得數(shù)據(jù)挖掘技術(shù)正在不斷的應(yīng)用中發(fā)揮其獨特魅力。以數(shù)據(jù)挖掘技術(shù)為核心的商業(yè)智能技術(shù)為例,已廣泛應(yīng)用于軍隊管理、教育預測、公共環(huán)境監(jiān)測和防護等諸多方面,通過商業(yè)智能技術(shù)將獲得的數(shù)據(jù)以分析結(jié)果的形式展現(xiàn)在決策人員面前,大大提高了社會運行效率。
1.數(shù)據(jù)挖掘相關(guān)技術(shù)原理
在介紹數(shù)據(jù)挖掘技術(shù)的基本發(fā)展現(xiàn)狀的基礎(chǔ)上,著重介紹當前比較流行的聚類挖掘和關(guān)聯(lián)規(guī)則挖掘兩種數(shù)據(jù)挖掘技術(shù)的基本原理及相應(yīng)的算法。
(1)聚類挖掘的原理及算法
聚類挖掘技術(shù)是指通過一定的分類原則,將物理抽象對象根據(jù)原則分為不同的組,組內(nèi)的物理抽象對象是高度相似的,并能夠通過原則進行描述,而不同組之間的物理抽象對象關(guān)聯(lián)度較低。根據(jù)不同的聚類原則,可將聚類挖掘技術(shù)分為劃分聚類分析方法、分層聚類分析方法、基于密度的聚類分析方法等,在實際使用中即可作為數(shù)據(jù)挖掘的工具使用,也可作為數(shù)據(jù)準備的預處理工具。典型應(yīng)用場景為對企業(yè)的客戶群進行歸類分析,劃定客戶等級或類型,并分析不同等級或類型客戶的行為。
(2)關(guān)聯(lián)規(guī)則挖掘的原理及算法
關(guān)聯(lián)規(guī)則挖掘技術(shù)則是通過數(shù)據(jù)發(fā)現(xiàn)兩個研究對象之間的關(guān)聯(lián),根據(jù)關(guān)聯(lián)度實現(xiàn)從已知事務(wù)去推斷另一事務(wù)出現(xiàn)的可信概率。關(guān)聯(lián)規(guī)則挖掘技術(shù)的典型算法為Apriori算法,通過兩階段分析形成事務(wù)間關(guān)聯(lián)規(guī)則:第一步尋找頻繁項集,第二步對頻繁項集分析,推導出關(guān)聯(lián)規(guī)則,通過關(guān)聯(lián)規(guī)則就可以分析事務(wù)之間的關(guān)聯(lián)度,從而為用戶提供有用的信息。典型應(yīng)用場景為商場/超市的購物籃分析,可通過Apriori算法分析客戶的購買習慣,即購買一件貨物后最有可能購買的另一件貨物,從而優(yōu)化商場/超市的貨品擺放位置,提升銷售額。
(3)數(shù)據(jù)挖掘的基本流程
①數(shù)據(jù)準備:要達到數(shù)據(jù)挖掘的目的,在開始之前的數(shù)據(jù)準備是必不可少的,也是非常重要的環(huán)節(jié),直接影響數(shù)據(jù)挖掘最終結(jié)果的可信度。數(shù)據(jù)準備通常包括數(shù)據(jù)收集、數(shù)據(jù)選取、數(shù)據(jù)預處理三個基本步驟,對數(shù)據(jù)集的規(guī)模、質(zhì)量等進行預先處理。②數(shù)據(jù)收集:根據(jù)數(shù)據(jù)挖掘的具體要求,收集相關(guān)數(shù)據(jù),形成數(shù)據(jù)集。在收集過程中可能需要對多個數(shù)據(jù)源的某些數(shù)據(jù)進行讀取,也可能是結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)混合,也有可能需要在互聯(lián)網(wǎng)上抓取目標數(shù)據(jù),這就需要采用不同的數(shù)據(jù)收集工具,完成目標數(shù)據(jù)倉庫的建立。③數(shù)據(jù)選?。涸跀?shù)據(jù)收集過程中,可能會將無關(guān)數(shù)據(jù)也采集到了數(shù)據(jù)倉庫中,這就需要根據(jù)數(shù)據(jù)挖掘的任務(wù)需求,對數(shù)據(jù)倉庫中的數(shù)據(jù)進行篩選。④數(shù)據(jù)預處理:在數(shù)據(jù)收集過程中,數(shù)據(jù)源的數(shù)據(jù)可能是異構(gòu)的、不完整的并且地理上是散布的,存在大量的冗余大數(shù)據(jù)及無用數(shù)據(jù),為避免數(shù)據(jù)挖掘算法陷入無效的海量數(shù)據(jù)處理過程,這就需要對數(shù)據(jù)進行預處理,如缺失數(shù)據(jù)合理填補、數(shù)據(jù)噪聲濾波等等。
(二)模式發(fā)現(xiàn)及評估
該步驟主要目的是通過分析數(shù)據(jù)倉庫中預處理完畢的數(shù)據(jù)文件,發(fā)現(xiàn)其中的規(guī)律,從而選擇較為合適的數(shù)據(jù)挖掘技術(shù),并采用高效的算法實現(xiàn)數(shù)據(jù)采集、分析,挖掘潛在有用知識。
(三)結(jié)果的表示及評估
通過模式發(fā)現(xiàn)及評估之后,得到了海量數(shù)據(jù)的挖掘結(jié)果,獲取了數(shù)據(jù)倉庫中數(shù)據(jù)的潛在有用信息,包括規(guī)則、規(guī)律、模式等等。在結(jié)果表示及評估階段,則是需要利用數(shù)據(jù)可視化工具,將這些有用信息進行表示,結(jié)合具體的業(yè)務(wù)背景,對獲取的信息進行評估。數(shù)據(jù)挖掘結(jié)果評估是一個反復過程,通過挖掘結(jié)果與預期結(jié)果的比對,需要適時對數(shù)據(jù)挖掘流程進行調(diào)整,以獲得數(shù)據(jù)挖掘預期結(jié)果。
在數(shù)字化時代以前,個人及企業(yè)等實體的數(shù)據(jù)信息流通性較差,且大都保存在可信的政府結(jié)構(gòu)內(nèi)部。隨著移動互聯(lián)網(wǎng)時代的來臨,個人及企業(yè)等實體的數(shù)據(jù)信息流動性增強,大量的企業(yè)為獲取市場信息,也能夠獲取并掌握海量的個人及企業(yè)等實體數(shù)據(jù),即便是個人也可能掌握有海量的數(shù)據(jù)信息,在某些方面數(shù)據(jù)掌握的完整性甚至超過政府機構(gòu)。這些海量數(shù)據(jù)在移動互聯(lián)網(wǎng)時代能夠為企業(yè)及個人創(chuàng)造價值。與此同時,這些海量數(shù)據(jù)的快速流動,也為個人及企業(yè)敏感數(shù)據(jù)信息帶來了危害,數(shù)據(jù)一旦泄露將造成個人隱私侵犯及企業(yè)機密暴露。近年來,移動互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)泄露事件已經(jīng)表明,敏感信息安全問題必須引起足夠重視。
(一)敏感知識安全問題
通過數(shù)據(jù)挖掘工具的敏感知識包括范圍性、大概值、存在性等方面知識。范圍性敏感知識則是指對原始數(shù)據(jù)的概括性描述,雖然從數(shù)據(jù)挖掘結(jié)果中無法得到敏感原始數(shù)據(jù)的精確值,但通過對結(jié)果的合理推斷,可以反推敏感核心數(shù)據(jù)的大概范圍,這也會造成敏感信息泄露。大概性敏感知識則是指通過查詢、分析數(shù)據(jù)挖掘結(jié)果從而確定某個敏感數(shù)據(jù)的出現(xiàn)概率。如通過對個人信息關(guān)系表的查詢,可通過多次查詢,成功推測出某個個人的隱私數(shù)據(jù)。存在性敏感知識則是指數(shù)據(jù)本身是否包含某個敏感數(shù)據(jù),數(shù)據(jù)值本身并不影響該知識的表達,通過查詢數(shù)據(jù)挖掘結(jié)果,判斷該敏感數(shù)據(jù)是否為空,能夠查詢則可能導致敏感信息泄露。否定結(jié)果的敏感知識則是指通過對數(shù)據(jù)挖掘結(jié)果進行否定結(jié)果查詢,從而得知某些敏感數(shù)據(jù)是否存在于數(shù)據(jù)挖掘的數(shù)據(jù)集中,從而導致敏感信息泄露。
(二)敏感數(shù)據(jù)安全問題
敏感數(shù)據(jù)一般是指個人或企業(yè)的原始隱私數(shù)據(jù),原始隱私數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化的描述性語言出現(xiàn)。結(jié)構(gòu)化數(shù)據(jù)主要存在于公司或個人的業(yè)務(wù)應(yīng)用程序、企業(yè)數(shù)據(jù)庫、企業(yè)信息管理系統(tǒng)、個人或企業(yè)存儲設(shè)備/備份存儲設(shè)備以及第三方服務(wù)提供商的存儲設(shè)備中。非結(jié)構(gòu)化描述性語言則散布于個人或企業(yè)的整個終端設(shè)備中,包括PC機、移動智能終端、可移動存儲設(shè)備等網(wǎng)絡(luò)終端上。原始的數(shù)據(jù)挖掘技術(shù)就是基于這些敏感數(shù)據(jù)進行的,因此原始的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)交給數(shù)據(jù)挖掘技術(shù),一旦泄露,將對個人或企業(yè)造成極大影響。
(三)數(shù)據(jù)挖掘中敏感信息安全保護技術(shù)
現(xiàn)有的數(shù)據(jù)挖掘中敏感信息安全防護技術(shù)根據(jù)數(shù)據(jù)分布不同、數(shù)據(jù)處理算法不同、數(shù)據(jù)挖掘算法不同、敏感信息的保護對象不同可以進行不同分類。根據(jù)敏感信息安全問題的分類,這里主要介紹敏感知識安全防護技術(shù)和敏感數(shù)據(jù)安全防護技術(shù)兩類。
對敏感知識安全防護技術(shù)主要是將數(shù)據(jù)挖掘中所發(fā)現(xiàn)的敏感知識或全部知識作為防護對象。根據(jù)知識的表達方式,可將其分為基于頻繁模式、基于關(guān)聯(lián)規(guī)則、基于統(tǒng)計學原理等多種不同敏感知識保護模式,這里主要對基于知識匿名化的敏感知識保護技術(shù)。
對敏感數(shù)據(jù)安全防護技術(shù)主要是將原始敏感數(shù)據(jù)或全部原始數(shù)據(jù)作為防護對象。根據(jù)采用的安全防護技術(shù)原理的差異,可將其實現(xiàn)分為基于數(shù)據(jù)干擾的安全防護技術(shù)、基于安全多方計算的安全防護技術(shù)、基于數(shù)據(jù)匿名化的安全防護技術(shù)等不同模式,這里主要介紹基于數(shù)據(jù)干擾和知識匿名化的敏感數(shù)據(jù)安全防護模式。
1.基于數(shù)據(jù)干擾的模式
從數(shù)據(jù)挖掘的應(yīng)用背景來看,通常是對海量數(shù)據(jù)進行處理,以發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的統(tǒng)計規(guī)律,因此數(shù)據(jù)本身的精確性通常不影響海量數(shù)據(jù)挖掘的結(jié)果。因此,對于需要保護原始數(shù)據(jù)精確值的統(tǒng)計項,在不影響數(shù)據(jù)分布特性的前提下,可通過模糊化處理,以實現(xiàn)敏感數(shù)據(jù)的安全防護?;诖耍紨?shù)據(jù)擁有者在提供數(shù)據(jù)的過程中,可通過數(shù)據(jù)干擾算法實現(xiàn)數(shù)據(jù)原始值的隱藏,而數(shù)據(jù)挖掘算法基于隱藏原始數(shù)據(jù)的模糊數(shù)據(jù)進行知識挖掘。當然,在進行數(shù)據(jù)干擾的過程中,不能影響數(shù)據(jù)分布特性。假如模糊處理后的數(shù)據(jù)改變了分布特性,此時,就需要提供數(shù)據(jù)干擾算法的基本參數(shù),已達到知識發(fā)現(xiàn)與敏感數(shù)據(jù)安全防護的目的。
2.基于知識匿名化的模式
由于知識與數(shù)據(jù)、知識與知識、數(shù)據(jù)與數(shù)據(jù)之間存在關(guān)聯(lián)性,數(shù)據(jù)挖掘結(jié)果的直接表示可能會給攻擊者推理出原始敏感信息的機會,從而造成敏感數(shù)據(jù)泄露。因此,在完成數(shù)據(jù)挖掘后,對挖掘結(jié)果的表示進行處理。以現(xiàn)有研究成果來看,主要是將數(shù)據(jù)共享匿名化的安全防護模式引入到海量數(shù)據(jù)挖掘過程中,從而實現(xiàn)敏感信息安全防護。雖然在知識表示的過程實現(xiàn)了匿名化,但這一處理的結(jié)果也會造成信息損失,從而使得最終展示結(jié)果的可信度降低。
3.敏感信息安全防護技術(shù)評估準則
通過上述典型的數(shù)據(jù)挖掘中敏感信息安全防護技術(shù)的介紹分析,可以看出在特定背景下對敏感信息安全防護及數(shù)據(jù)挖據(jù)效率進行合理評價是十分有必要的??偟目磥?,數(shù)據(jù)挖掘中敏感信息安全防護技術(shù)綜合評價指標包括以下幾個方面:
(1)有效性
有效性指數(shù)據(jù)挖掘有效性和敏感數(shù)據(jù)保護的有效性,既要能夠有效保護敏感數(shù)據(jù)安全,也要能夠準確處理海量數(shù)據(jù),在算法的設(shè)計過程中必須兼顧這兩方面需求。在對敏感信息安全防護技術(shù)進行評估時,通常會根據(jù)數(shù)據(jù)敏感信息的含量對這兩個方面進行加權(quán)分析。
(2)復雜性
復雜性是指算法的時間和空間的復雜度,復雜度的高低直接決定了算法的計算效率。當然,在現(xiàn)在云計算環(huán)境下,通信的復雜度逐漸成為算法復雜度的主要影響因素。
(3)可擴展性
無論何種數(shù)據(jù)挖掘算法,在數(shù)據(jù)量增加時,處理效率必然會降低??蓴U展性則是評估算法在數(shù)據(jù)量增加時,處理效率的下降水平。通常來說,越復雜的處理算法,可擴展性越低。
基于敏感信息安全防護需求,以數(shù)據(jù)挖掘過程中存在的敏感信息泄露為研究對象,介紹了數(shù)據(jù)挖掘技術(shù)的發(fā)展現(xiàn)狀、流行技術(shù)及算法,并針對數(shù)據(jù)挖掘中比較容易導致敏感信息泄露的敏感知識和敏感數(shù)據(jù)兩個方面,對敏感信息安全問題進行詳細分析,最后介紹了數(shù)據(jù)挖掘中基于數(shù)據(jù)垂直分布和基于密碼學技術(shù)的敏感信息安全防護技術(shù),并對敏感信息安全防護技術(shù)評估進行簡單分析。當然,從技術(shù)上能夠一定程度上的防范敏感數(shù)據(jù)的泄露,但從制度上也應(yīng)該進行杜絕。因此從法律法規(guī)方面加強敏感數(shù)據(jù)安全保護也是十分必要的。這也是下一步研究的重點,即如何從法規(guī)制度上來確保敏感數(shù)據(jù)保存在合適安全的范圍內(nèi),如確保數(shù)據(jù)獲取的合法性和公正性、數(shù)據(jù)使用銷毀的及時性等等。
[1]陳曉明,李軍懷,彭軍等.隱私保護數(shù)據(jù)挖掘算法綜述[J].計算機科學,2007,34(6):183-186.
[2]胡水晶.大數(shù)據(jù)挖掘的隱私風險及應(yīng)對策略[J].科技管理研究,2015(9):154-160.
[3]顧鋮,朱保平,張金康.一種改進的隱私保護關(guān)聯(lián)規(guī)則挖掘算法[J].南京航空航天大學學報,2015,47(1):119-124.
[4]吳偉民,黃煥坤.基于差分隱私保護的DP—DBScan聚類算法研究[J].計算機工程與科學,2015,37(4):830-834.
[5]李光,惠萌.改進的使用非負矩陣分解的隱私保護分類方法[J].計算機工程與應(yīng)用,2015,(21):1-5.
[6]Kisilevich S,Rokach L,Elovici Y,et al.Efficient Multidimensional Suppression for K-Anonymity[J].IEEE Transactions on Knowledge&Data Engineering,2010,22(3):334-347.
[7]李洪成,吳曉平,陳燕.MapReduce框架下支持差分隱私保護的k-means聚類方法[J].通信學報,2016,37(2):124-130.
[責任編輯:鐘 晴]
TP309.2
A
1008-7346(2016)05-0019-04
2016-08-10
陳麗珊,女,福建莆田人,福建廣播電視大學莆田分校講師。