肖 潔,袁 嵩,譚 天
(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065)
大數(shù)據(jù)時(shí)代數(shù)據(jù)隱私安全研究
肖 潔,袁 嵩,譚 天
(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065)
近年來(lái),利用數(shù)據(jù)分析的方法從大數(shù)據(jù)中挖掘出有價(jià)值信息的大數(shù)據(jù)應(yīng)用發(fā)展極為迅速,為人們的日常生活帶來(lái)了極大的便利。然而,隨著隱私泄露事件的屢屢發(fā)生,隱私安全問(wèn)題引起了社會(huì)的廣泛關(guān)注。文中對(duì)當(dāng)下已然產(chǎn)生的各種數(shù)據(jù)隱私問(wèn)題進(jìn)行分析,將一系列的數(shù)據(jù)隱私保護(hù)方式進(jìn)行綜合,從數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理以及數(shù)據(jù)共享的角度出發(fā),結(jié)合現(xiàn)有的數(shù)據(jù)處理技術(shù)給出在數(shù)據(jù)加密、數(shù)據(jù)防護(hù)、匿名保護(hù)技術(shù)等不同方面的保護(hù)措施以應(yīng)對(duì)數(shù)據(jù)在處理、傳輸、共享中存在的安全隱患。由于使用云計(jì)算平臺(tái)來(lái)存儲(chǔ)和分析大數(shù)據(jù)的方式被廣泛應(yīng)用,而云平臺(tái)的流動(dòng)性、跨界的融合性以及動(dòng)態(tài)的變化特性增加了隱私泄露的風(fēng)險(xiǎn),文中還研究了基于云存儲(chǔ)及云處理的大數(shù)據(jù)保護(hù),以期解決隱私泄露問(wèn)題。
大數(shù)據(jù);隱私保護(hù);數(shù)據(jù)處理;數(shù)據(jù)存儲(chǔ);數(shù)據(jù)加密
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,全球數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng)。數(shù)據(jù)挖掘技術(shù)將這些之前無(wú)法聚合的數(shù)據(jù)聚集起來(lái),從海量的、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫(kù)中更迅速并且精確地發(fā)現(xiàn)有價(jià)值的信息。通過(guò)分析這些信息然后做出歸納性的推理,從中挖掘出潛在的模式,幫助人們做出正確決策。然而,科學(xué)技術(shù)是把雙刃劍,在為人類(lèi)生活帶來(lái)巨大便利的同時(shí),大數(shù)據(jù)背后所隱藏的安全隱患也是不容小覷的。隨著虛擬化、云計(jì)算等新技術(shù)的廣泛應(yīng)用,互聯(lián)網(wǎng)隱私泄密事件屢見(jiàn)不鮮。如何能夠在享受到大數(shù)據(jù)時(shí)代下便利生活的同時(shí)有效避免其所帶來(lái)的威脅,也成了目前研究的熱點(diǎn)。
無(wú)論是閱讀網(wǎng)站還是購(gòu)物網(wǎng)站,都存在根據(jù)對(duì)用戶(hù)瀏覽頁(yè)面停留時(shí)間、瀏覽內(nèi)容等數(shù)據(jù)的分析后產(chǎn)生的用戶(hù)可能感興趣內(nèi)容的推薦,這在很大程度上方便了用戶(hù)在網(wǎng)上進(jìn)行目標(biāo)性極強(qiáng)的瀏覽與選擇??墒窃讷@得方便快捷的個(gè)性化服務(wù)的背后,卻在某種程度上暴露了自己的隱私。使用互聯(lián)網(wǎng)時(shí),信息在不知不覺(jué)中就被記錄下來(lái);手機(jī)通話(huà)時(shí),通話(huà)對(duì)象與通話(huà)時(shí)間,甚至通話(huà)地點(diǎn)均在運(yùn)營(yíng)商的掌控之中;發(fā)表言論或者分享照片時(shí),互聯(lián)網(wǎng)運(yùn)營(yíng)商便可獲得用戶(hù)喜好……隨著數(shù)據(jù)采集技術(shù)的發(fā)展,個(gè)人的興趣習(xí)慣、身體特征等隱私信息可以在用戶(hù)毫無(wú)察覺(jué)的情況下被更容易地獲取。大數(shù)據(jù)時(shí)代產(chǎn)生的眾多精細(xì)化的數(shù)據(jù),可以用來(lái)描述各種物體、社會(huì)和整個(gè)環(huán)境的行為。通過(guò)分析處理這些數(shù)據(jù),可以大大減少社會(huì)的復(fù)雜度,提高人們認(rèn)識(shí)世界、改造世界的能力,輔助人們做出重要決策。這些信息若被有效地利用確實(shí)會(huì)給人類(lèi)生活帶來(lái)諸多便利,但是若對(duì)其無(wú)限制甚至惡意利用,所造成的后果將是無(wú)法估量的。
2014年2月,全球最大的比特幣交易平臺(tái)Mt.Gox由于交易系統(tǒng)出現(xiàn)漏洞,75萬(wàn)個(gè)比特幣以及Mt.Gox自身賬號(hào)中約10萬(wàn)個(gè)比特幣被竊,損失估計(jì)達(dá)到4.67億美元,被迫宣布破產(chǎn)。2014年3月,有安全研究人員在第三方漏洞收集平臺(tái)上曝出攜程安全支付日志可遍歷下載導(dǎo)致大量用戶(hù)銀行卡信息泄露。2014年4月Heartbleed漏洞被曝用于竊取服務(wù)器敏感信息,黑客利用OpenSSL漏洞發(fā)動(dòng)攻擊,非法獲取了有些網(wǎng)站的用戶(hù)信息。2014年9月,大約有500萬(wàn)谷歌的賬戶(hù)和密碼的數(shù)據(jù)庫(kù)被泄露給一家俄羅斯互聯(lián)網(wǎng)網(wǎng)絡(luò)安全論壇。2014年12月,索尼影業(yè)公司被黑客攻擊,攝制計(jì)劃、明星隱私、未發(fā)表的劇本等敏感數(shù)據(jù)都被黑客竊取并公布在網(wǎng)絡(luò)上,甚至包括到索尼影業(yè)員工的個(gè)人信息。2014年12月25日,大量12306用戶(hù)數(shù)據(jù)在互聯(lián)網(wǎng)瘋傳,內(nèi)容包括用戶(hù)賬號(hào)、明文密碼、身份證號(hào)碼、手機(jī)號(hào)碼和電子郵箱等[1]。
上述事件凸顯了互聯(lián)網(wǎng)金融在網(wǎng)絡(luò)安全威脅面前的脆弱性,同時(shí)反映出信息若是遭遇入侵,不論是社會(huì)、企業(yè)還是個(gè)人都將遭受巨大的損失?;谠朴?jì)算的網(wǎng)絡(luò)化社會(huì)為大數(shù)據(jù)提供了一個(gè)開(kāi)放的環(huán)境。正是由于平臺(tái)暴露的原因,擁有巨大潛藏價(jià)值的大數(shù)據(jù)更容易遭到黑客的攻擊。大數(shù)據(jù)一旦遭受攻擊,失竊的數(shù)據(jù)量無(wú)疑將會(huì)是巨大的。以前,這些對(duì)人們的生活并不會(huì)造成很大的影響。因?yàn)槊鎸?duì)海量冗雜的數(shù)據(jù),即使刻意尋找也會(huì)消耗大量的時(shí)間和精力才能獲得某些有價(jià)值的信息。如今,大數(shù)據(jù)的分析能力導(dǎo)致看似簡(jiǎn)單的信息也可能被挖掘出其中的隱私。這些隱私一旦遭到惡意使用,將會(huì)嚴(yán)重影響人們的正常生活。
數(shù)據(jù)作為企業(yè)和公共組織越來(lái)越重要的資產(chǎn),其安全防護(hù)也隨之越發(fā)重要。近年來(lái)頻發(fā)的安全問(wèn)題讓越來(lái)越多的人關(guān)注安全防護(hù),隱私泄露問(wèn)題已經(jīng)令人無(wú)法忽視。生活在智能化的時(shí)代,避免數(shù)據(jù)的傳輸與分享從而切斷隱私泄露根源顯然是不可能事件,如何加強(qiáng)對(duì)數(shù)據(jù)的保護(hù)與加密成為了隱私保護(hù)的新命題。
3.1 數(shù)據(jù)存儲(chǔ)防護(hù)
想要解決大數(shù)據(jù)的存儲(chǔ)安全問(wèn)題,數(shù)據(jù)加密必不可缺[2]。大數(shù)據(jù)安全服務(wù)設(shè)計(jì)根據(jù)安全存儲(chǔ)的要求將大數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)集的任何存儲(chǔ)空間,通過(guò)安全套接層(SSL)協(xié)議加密[3]的方式實(shí)現(xiàn)在數(shù)據(jù)集的節(jié)點(diǎn)和應(yīng)用程序之間移動(dòng)保護(hù)大數(shù)據(jù)。與應(yīng)用層協(xié)議獨(dú)立無(wú)關(guān)是SSL協(xié)議的最大優(yōu)勢(shì),同時(shí),高層的應(yīng)用層協(xié)議能透明地建立于SSL協(xié)議之上,SSL協(xié)議在應(yīng)用層協(xié)議通信之前就已經(jīng)將加密算法、通信密鑰的協(xié)商以及服務(wù)器認(rèn)證工作完成。為保證通信的私密性,在此之后應(yīng)用層協(xié)議所傳送的數(shù)據(jù)均得到了加密。如此便可在一定程度上減少數(shù)據(jù)被竊取與篡改的風(fēng)險(xiǎn),使得數(shù)據(jù)安全得到保護(hù)。同時(shí)用軟件或硬件設(shè)備對(duì)向網(wǎng)絡(luò)上傳或從網(wǎng)絡(luò)下載的數(shù)據(jù)流進(jìn)行有選擇的控制。設(shè)置好規(guī)則指定哪些類(lèi)型的數(shù)據(jù)包被允許通過(guò),哪些類(lèi)型的數(shù)據(jù)包將會(huì)被阻止,使得數(shù)據(jù)包在從英特網(wǎng)向內(nèi)部網(wǎng)絡(luò)傳輸數(shù)據(jù)以及從內(nèi)部網(wǎng)絡(luò)向英特網(wǎng)傳輸數(shù)據(jù)的過(guò)程中能被控制是否通過(guò)。一旦發(fā)現(xiàn)非常態(tài)數(shù)據(jù),可以自動(dòng)阻止并切斷數(shù)據(jù)的傳輸,進(jìn)一步提高了安全性。
目前,普遍采用虛擬化海量存儲(chǔ)技術(shù)[4]來(lái)存儲(chǔ)數(shù)據(jù),大數(shù)據(jù)多被存儲(chǔ)于云端。由于數(shù)據(jù)在云端集中,其巨大的流動(dòng)性、跨界的融合性以及動(dòng)態(tài)的變化等特點(diǎn)使得數(shù)據(jù)在傳輸時(shí)的保密性受到極大威脅。作為第三方的云平臺(tái)在服務(wù)器故障的情況下,自身有可能將數(shù)據(jù)泄露;一旦被非法接入,數(shù)據(jù)將面臨被竊取、篡改、偽造等的風(fēng)險(xiǎn)。因此,數(shù)據(jù)擁有者通過(guò)拆分、加密后才將數(shù)據(jù)上傳存放在云端,用戶(hù)下載后經(jīng)解密方可使用。這樣一來(lái),即使數(shù)據(jù)在傳輸或存放的過(guò)程中意外丟失,也會(huì)因?yàn)閷?shí)現(xiàn)加密避免發(fā)生機(jī)密信息泄露的情況。孫辛未等在文獻(xiàn)[5]中提出,在上傳數(shù)據(jù)前,將數(shù)據(jù)按照比特位進(jìn)行拆分后重新組裝形成多個(gè)數(shù)據(jù)文件之后再分別上傳到云存儲(chǔ)服務(wù)器。下載時(shí),先將所有數(shù)據(jù)文件下載,通過(guò)位合并再恢復(fù)成原始文件。利用移位和擴(kuò)散的基本思想設(shè)計(jì)出的位拆分技術(shù)對(duì)數(shù)據(jù)隱私具有一定的保護(hù)作用,同時(shí)該方法不依賴(lài)于密鑰,通過(guò)匯編語(yǔ)言編寫(xiě)核心代碼以及調(diào)整代碼順序的方式對(duì)BSBC隱私保護(hù)技術(shù)的代碼進(jìn)行了優(yōu)化,加快了數(shù)據(jù)拆分和合并的速度,進(jìn)一步提高了隱私保護(hù)技術(shù)的性能,對(duì)于存儲(chǔ)在云端的數(shù)據(jù)有著很大的應(yīng)用意義。
大數(shù)據(jù)在存儲(chǔ)階段面臨隱私泄露風(fēng)險(xiǎn)的主要原因是大數(shù)據(jù)的完整性驗(yàn)證協(xié)議采用了第三方審計(jì)機(jī)構(gòu)。因此,大數(shù)據(jù)存儲(chǔ)方面的主要隱私保護(hù)問(wèn)題是如何設(shè)計(jì)一種安全高效的、能夠阻止數(shù)據(jù)擁有者的數(shù)據(jù)泄露給第三方審計(jì)機(jī)構(gòu)的大數(shù)據(jù)完整性驗(yàn)證協(xié)議[2]。曹夕等綜合考慮云存儲(chǔ)網(wǎng)絡(luò)環(huán)境的特性以及安全需求,設(shè)計(jì)了一種云存儲(chǔ)數(shù)據(jù)完整性驗(yàn)證(CS—DIV)協(xié)議[6]。該協(xié)議通過(guò)隨機(jī)抽查客戶(hù)端上傳到云端的數(shù)據(jù)文件及其校驗(yàn)標(biāo)簽的方式,讓服務(wù)器生成指定數(shù)據(jù)塊的驗(yàn)證證據(jù)并返回,之后再對(duì)數(shù)據(jù)文件的完整性進(jìn)行判斷。該協(xié)議對(duì)于不同類(lèi)型的文件均具有良好的適應(yīng)性。通過(guò)檢查較小文件所有的數(shù)據(jù)塊的方式來(lái)保證結(jié)果的有效性。而對(duì)于較大的文件,則通過(guò)檢查其中的部分?jǐn)?shù)據(jù)塊以概率來(lái)保證數(shù)據(jù)的完整性,如此便可減小對(duì)系統(tǒng)資源以及網(wǎng)絡(luò)帶寬的消耗。同時(shí),該協(xié)議的有效執(zhí)行只需要系統(tǒng)少量的存儲(chǔ)和通信開(kāi)銷(xiāo),并且隨著文件的增大,驗(yàn)證所花的時(shí)間也仍然可以保持在一個(gè)低值水平,這滿(mǎn)足了云存儲(chǔ)中海量數(shù)據(jù)對(duì)處理效率的要求。該協(xié)議能夠以較低的存儲(chǔ)、通信以及時(shí)間開(kāi)銷(xiāo)有效地驗(yàn)證云存儲(chǔ)數(shù)據(jù)的完整性,同時(shí)又能抵抗惡意服務(wù)器欺騙和惡意客戶(hù)端攻擊,實(shí)現(xiàn)了對(duì)數(shù)據(jù)完整性的保護(hù),提高了整個(gè)云存儲(chǔ)系統(tǒng)的可靠性和穩(wěn)定性。
3.2 數(shù)據(jù)處理防護(hù)
大數(shù)據(jù)是龐大而又復(fù)雜數(shù)據(jù)集的匯集,只有經(jīng)過(guò)分析挖掘后才能產(chǎn)生有用信息,體現(xiàn)出其價(jià)值。由于大數(shù)據(jù)具有數(shù)據(jù)多樣性、數(shù)據(jù)處理速度快、數(shù)據(jù)價(jià)值密度低等重要的特性,使得傳統(tǒng)的數(shù)據(jù)分析與處理方式不再完全適用,因此目前對(duì)大數(shù)據(jù)的處理方式大多是在Hadoop的框架上采用Mapreduce的模式對(duì)海量數(shù)據(jù)進(jìn)行分布式的處理[7]。這種數(shù)據(jù)處理方式在某種程度上講能夠適應(yīng)大數(shù)據(jù)的特性,并且具有低成本、高可擴(kuò)展性、可容錯(cuò)性的優(yōu)勢(shì),也能最大限度地利用機(jī)器資源。但是Mapreduce的數(shù)據(jù)處理模式過(guò)于復(fù)雜靈活,有著很強(qiáng)的依賴(lài)性,并且運(yùn)行效率較低,而Hadoop對(duì)數(shù)據(jù)的聚合也增加了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
ZhangKH等提出的面向大數(shù)據(jù)的隱私感知混合云計(jì)算模式Sedic[8]在開(kāi)源的Hadoop的模式上增加了隱私模塊。在用戶(hù)指定敏感數(shù)據(jù)之后將計(jì)算任務(wù)分割,把隱私數(shù)據(jù)留在私有云中處理,其他數(shù)據(jù)交由公有云計(jì)算。這樣一來(lái)既可以保證有效利用低計(jì)算成本的公有云,同時(shí)也可以保障敏感數(shù)據(jù)在私有云中的隱私性。陳志偉等提出了一種基于RSA和Paillier的同態(tài)云計(jì)算方案[9],該方案可實(shí)現(xiàn)公有云服務(wù)器的密文數(shù)據(jù)處理,無(wú)需解密密文可對(duì)其執(zhí)行操作便能實(shí)現(xiàn)對(duì)明文數(shù)據(jù)的各種計(jì)算。對(duì)于某些用戶(hù)不愿意公開(kāi)的密文數(shù)據(jù),云端只需完成相關(guān)計(jì)算便可將所需數(shù)據(jù)的密文值返回。云端服務(wù)器在此操作過(guò)程中不接觸明文,在某種程度上保護(hù)了用戶(hù)隱私。由于通信鏈路和公有云服務(wù)器數(shù)據(jù)都是以RSA或Paillier加密的密文形式存在的,而未采用填充方案的RSA和Paillier是抗選擇明文攻擊(ChosenPlaintextAttack,CPA)的,所以該方案的密文數(shù)據(jù)符合CPA安全。此外出現(xiàn)在通信鏈路中的數(shù)據(jù)僅僅只是整個(gè)密文數(shù)據(jù)以及用戶(hù)操作的一部分,即使這部分?jǐn)?shù)據(jù)被竊取,竊聽(tīng)者也無(wú)法根據(jù)某次竊取的數(shù)據(jù)將明文或用戶(hù)的操作請(qǐng)求恢復(fù),保證了用戶(hù)數(shù)據(jù)和請(qǐng)求的安全。在計(jì)算過(guò)程中該方案采用的是同態(tài)加密,密文規(guī)模是可以調(diào)控的,具有很好的同態(tài)操作深度。同時(shí)與基于格的全同態(tài)方案相比,基于整數(shù)域上的更容易實(shí)現(xiàn)和理解。雖然該方案在耗時(shí)方面有所增加,但是卻擁有更好的可行性和安全性,能夠很好地保護(hù)用戶(hù)的隱私安全。徐計(jì)等提出的基于粒計(jì)算的大數(shù)據(jù)處理方法[10]有助于提高數(shù)據(jù)處理的速度和效率,并且對(duì)隱私保護(hù)也有一定的作用。目前,粒計(jì)算已經(jīng)成為發(fā)展迅速的一種信息處理方式,被很多學(xué)者列為處理大數(shù)據(jù)的首要方法。信息?;母拍钍墙⒒谕獠渴澜绲?、有效的、以用戶(hù)為中心,同時(shí)簡(jiǎn)化對(duì)物理世界和虛擬世界的認(rèn)識(shí),對(duì)于現(xiàn)今在大數(shù)據(jù)處理中面臨的挑戰(zhàn)有著十分重要的意義。粒化不僅可以實(shí)現(xiàn)對(duì)原始數(shù)據(jù)量的壓縮,而且能夠在一定程度上排除噪聲和不精確數(shù)據(jù)的影響。更重要的是,信息粒結(jié)構(gòu)可以隱藏細(xì)節(jié)信息。隱私信息一般是以最細(xì)粒度原始數(shù)據(jù)的形式存在,采用粒計(jì)算處理將數(shù)據(jù)粒化之后,在傳輸和處理的過(guò)程中,規(guī)避了隱私泄露的風(fēng)險(xiǎn)。
3.3 數(shù)據(jù)共享防護(hù)
對(duì)于大數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)(或稱(chēng)關(guān)系數(shù)據(jù))而言,數(shù)據(jù)發(fā)布匿名保護(hù)是實(shí)現(xiàn)其隱私保護(hù)的核心關(guān)鍵技術(shù)與基本手段,目前仍處于不斷發(fā)展與完善階段[11]。而對(duì)于云共享中的數(shù)據(jù)來(lái)說(shuō),采用數(shù)據(jù)加密技術(shù)與數(shù)據(jù)水印技術(shù)相結(jié)合的方式,不僅能夠監(jiān)控?cái)?shù)據(jù)防止其被篡改或偽造,而且能夠保護(hù)隱私不被窺探與竊取。早期k匿名保護(hù)技術(shù)[12]使用最為普遍,不過(guò)其容易產(chǎn)生對(duì)某個(gè)屬性匿名處理不足的現(xiàn)象而被攻擊者利用。針對(duì)這種情況,l-diversity模型匿名保護(hù)技術(shù)[13]被提出?;诰垲?lèi)的l-diversity匿名保護(hù)方法在滿(mǎn)足l-diversity模型的約束條件下,采用基于距離的層次化聚類(lèi)算法劃分元組,對(duì)不同類(lèi)型的準(zhǔn)標(biāo)識(shí)符使用不同的概化策略,并依據(jù)數(shù)據(jù)概化前后屬性值不確定性程度的變化描述數(shù)據(jù)概化帶來(lái)的信息損失。同現(xiàn)有的l-diversity模型相比,該方法不僅能夠較好地保護(hù)用戶(hù)的敏感信息,而且在一定程度上降低了概化處理帶來(lái)的信息損失。針對(duì)在數(shù)據(jù)共享中所需的敏感屬性的保護(hù),王智慧等在文獻(xiàn)[14]中提出的L-Clustering不僅滿(mǎn)足結(jié)果數(shù)據(jù)集符合l-diversity模型,而且消除了傳統(tǒng)數(shù)據(jù)概化處理時(shí)的概念層次結(jié)構(gòu)限制。在數(shù)據(jù)共享中對(duì)數(shù)據(jù)進(jìn)行匿名保護(hù),防止與個(gè)體相關(guān)的敏感屬性值泄漏。同時(shí)采取更為靈活的數(shù)據(jù)概化策略,利用基于聚類(lèi)的思想來(lái)尋找合適的概化方案,從而有效地減少在實(shí)現(xiàn)匿名保護(hù)時(shí)概化處理所帶來(lái)的信息損失。通過(guò)數(shù)據(jù)匿名化實(shí)現(xiàn)隱私保護(hù),為數(shù)據(jù)在傳輸過(guò)程中的隱私問(wèn)題提供一定的保障。
對(duì)于云共享而言,訪(fǎng)問(wèn)權(quán)限控制與數(shù)據(jù)加密是安全防護(hù)的關(guān)鍵。訪(fǎng)問(wèn)權(quán)限控制確保合法用戶(hù)才能訪(fǎng)問(wèn)云存儲(chǔ)數(shù)據(jù),數(shù)據(jù)加密限制擁有解密密鑰的用戶(hù)才能對(duì)存儲(chǔ)在云端的數(shù)據(jù)進(jìn)行下載并解密。劉孟占等提出的基于密文規(guī)則的屬性基加密技術(shù)的云存儲(chǔ)數(shù)據(jù)共享機(jī)制[15]通過(guò)制定合適的訪(fǎng)問(wèn)結(jié)構(gòu)來(lái)實(shí)現(xiàn)細(xì)粒度訪(fǎng)問(wèn)權(quán)限控制。只需修改訪(fǎng)問(wèn)結(jié)構(gòu)的撤銷(xiāo)操作機(jī)制解決了公鑰基礎(chǔ)設(shè)施(PublicKeyInfrastructure,PKI)機(jī)制中用戶(hù)撤銷(xiāo)操作需要重復(fù)執(zhí)行大量非對(duì)稱(chēng)加密操作帶來(lái)的系統(tǒng)擴(kuò)展性問(wèn)題。數(shù)據(jù)使用公鑰加密技術(shù)加密,解密密鑰使用屬性加密(Ciphertext-PolicyABE,CP_ABE)技術(shù)加密,數(shù)據(jù)擁有者在共享數(shù)據(jù)時(shí)對(duì)共享用戶(hù)發(fā)放CP_ABE私鑰。當(dāng)共享用戶(hù)的私鑰滿(mǎn)足密文的訪(fǎng)問(wèn)結(jié)構(gòu)時(shí)便可獲得解密密鑰,而后方能解密加密數(shù)據(jù)。CP_ABE加密技術(shù)具有靈活的訪(fǎng)問(wèn)權(quán)限控制、簡(jiǎn)單的用戶(hù)撤銷(xiāo)操作以及無(wú)需獲取用戶(hù)的公鑰證書(shū)等優(yōu)勢(shì),在一定程度上避免了PKI機(jī)制存在的系統(tǒng)擴(kuò)展性問(wèn)題。在用戶(hù)進(jìn)行數(shù)據(jù)共享時(shí),訪(fǎng)問(wèn)權(quán)限控制和用戶(hù)撤銷(xiāo)操作不會(huì)向云存儲(chǔ)服務(wù)提供商泄露任何機(jī)密數(shù)據(jù),確保了數(shù)據(jù)在不可信域中的機(jī)密性,達(dá)到了保護(hù)用戶(hù)數(shù)據(jù)隱私安全的目的。云平臺(tái)作為第三方,存在遭受外部攻擊以及系統(tǒng)故障等安全風(fēng)險(xiǎn),除此之外對(duì)于參與計(jì)算的動(dòng)態(tài)數(shù)據(jù),云服務(wù)提供商可能窺探用戶(hù)在使用服務(wù)過(guò)程中產(chǎn)生的數(shù)據(jù)流和隱私信息。面對(duì)云服務(wù)下數(shù)據(jù)的機(jī)密性、隱私性、可靠性等方面可能存在安全風(fēng)險(xiǎn)的情況,數(shù)字水印技術(shù)被用于監(jiān)控?cái)?shù)據(jù),保障數(shù)據(jù)安全。數(shù)字水印技術(shù)是將一些標(biāo)識(shí)信息直接嵌入數(shù)字載體當(dāng)中,但不影響原載體的使用價(jià)值,也不容易被人的知覺(jué)系統(tǒng)(如視覺(jué)或聽(tīng)覺(jué)系統(tǒng))覺(jué)察或注意到,是信息隱藏技術(shù)的一個(gè)重要研究方向。通過(guò)這些隱藏在載體中的信息,可以判斷并確認(rèn)信息是否被篡改。作為標(biāo)識(shí)信息的數(shù)字水印應(yīng)在保證不會(huì)被篡改或偽造的同時(shí)保證極低的誤檢率,從而使得在被保護(hù)內(nèi)容發(fā)生變化時(shí)做出相應(yīng)的變化,以便檢測(cè)出被保護(hù)內(nèi)容的變更。魯棒數(shù)字水印[16]目前廣泛用于在數(shù)字作品中標(biāo)識(shí)著作權(quán)信息,利用這種水印技術(shù)在多媒體內(nèi)容的數(shù)據(jù)中嵌入創(chuàng)建者、所有者的標(biāo)識(shí)信息。在發(fā)生版權(quán)糾紛時(shí),可用于確認(rèn)數(shù)據(jù)的版權(quán)所有者,并能通過(guò)序列號(hào)追蹤違反協(xié)議的用戶(hù)。將這種水印技術(shù)移植到數(shù)據(jù)保護(hù)中可以監(jiān)控?cái)?shù)據(jù),防止數(shù)據(jù)被惡意篡改,同時(shí)魯棒數(shù)字水印還能夠抵抗一些惡意攻擊。
大數(shù)據(jù)使人類(lèi)生活變得方便而又高效,但是頻發(fā)的隱私泄露問(wèn)題卻給在享受便利生活的人們敲響了警鐘,隱私安全問(wèn)題得到了社會(huì)的普遍關(guān)注。文中從安全威脅事件切入,分別給出在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與數(shù)據(jù)共享方面的相應(yīng)保護(hù)措施,采用多種加密方式對(duì)數(shù)據(jù)進(jìn)行層層加密來(lái)保護(hù)數(shù)據(jù),利用水印技術(shù)監(jiān)控?cái)?shù)據(jù)是否被篡改。運(yùn)用多種方法保護(hù)使數(shù)據(jù)在存儲(chǔ)和傳輸過(guò)程中不被竊取,希望能對(duì)隱私防護(hù)有所幫助。隨著隱私防護(hù)技術(shù)的不斷發(fā)展,相信人們能更安心地享受大數(shù)據(jù)時(shí)代的智能化生活。
[1]CCTIME.2014年全球14大網(wǎng)絡(luò)安全事件5個(gè)在中國(guó)[EB/OL].2015-01-20.http://www.cctime.com/html/2015-1-20/2015120161127366.htm.
[2] 黃劉生,田苗苗,黃 河.大數(shù)據(jù)隱私保護(hù)密碼技術(shù)研究綜述[J].軟件學(xué)報(bào),2015,26(4):945-959.
[3] 鐘 軍,吳雪陽(yáng),江一民,等.一種安全協(xié)議的安全性分析及攻擊研究[J].計(jì)算機(jī)工程與科學(xué),2014,36(6):1077-1082.
[4] 劉正偉,文中領(lǐng),張海濤.云計(jì)算和云數(shù)據(jù)管理技術(shù)[J].計(jì)算機(jī)研究與發(fā)展,2012,49(S):26-31.
[5] 孫辛未,張 偉,徐 濤.面向云存儲(chǔ)的高性能數(shù)據(jù)隱私保護(hù)方法[J].計(jì)算機(jī)科學(xué),2014,41(5):137-142.
[6] 曹 夕,許 力,陳蘭香.云存儲(chǔ)系統(tǒng)中數(shù)據(jù)完整性驗(yàn)證協(xié)議[J].計(jì)算機(jī)應(yīng)用,2012,32(1):8-12.
[7] 孫彥超,王興芬.基于Hadoop框架的MapReduce計(jì)算模式的優(yōu)化設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2014,41(11A):333-336.
[8]ZhangKH,ZhouXY,ChenYY,etal.Sedic:privacy-awaredataintensivecomputingonhybridclouds[C]//Proceedingsofthe18thACMconferenceoncomputerandcommunicationssecurity.Chicago,U.S.:ACM,2011:515-525.
[9] 陳志偉,杜 敏,楊亞濤,等.基于RSA和Paillier的同態(tài)云計(jì)算方案[J].計(jì)算機(jī)工程,2013,39(7):35-39.
[10] 徐 計(jì),王國(guó)胤,于 洪.基于粒計(jì)算的大數(shù)據(jù)處理[J].計(jì)算機(jī)學(xué)報(bào),2015,38(8):1497-1517.
[11] 馮登國(guó),張 敏,李 昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):246-258.
[12] 劉 斐,樊 華,金松昌,等.一種新型k匿名隱私保護(hù)算法[J].信息網(wǎng)絡(luò)安全,2012(8):199-202.
[13] 劉雅輝,張鐵贏,靳小龍,等.大數(shù)據(jù)時(shí)代的個(gè)人隱私保護(hù)[J].計(jì)算機(jī)研究與發(fā)展,2015,52(1):229-247.
[14] 王智慧,許 儉,汪 衛(wèi),等.一種基于聚類(lèi)的數(shù)據(jù)匿名方法[J].軟件學(xué)報(bào),2010,21(4):680-693.
[15] 劉孟占,印凱澤.基于密文規(guī)則的屬性基加密技術(shù)的云存儲(chǔ)數(shù)據(jù)共享機(jī)制[J].計(jì)算機(jī)應(yīng)用,2013,33(S2):133-135.
[16] 史寶明,李恒杰,賀元香,等.基于微遺傳算法與SVD的魯棒性數(shù)字水印技術(shù)研究[J].蘭州文理學(xué)院學(xué)報(bào):自然科學(xué)版,2014,28(6):45-49.
ResearchonDataPrivacyinBigDataAge
XIAOJie,YUANSong,TANTian
(CollegeofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430065,China)
Inrecentyears,bigdataanalysisandapplicationusedfordiggingoutvaluableinformationhasdevelopedrapidlyandbroughtgreatconvenienceforpeople.However,theprivacyleakincidentsoccurfrequentlyinbigdataage,theprivacysecurityhascausedtheextensiveconcern.Inthispaper,throughanalyzingthecurrentdataprivacyproblems,basedonaseriesofprivacypreservationways,fromtheperspectiveofdatastorage,dataprocessinganddatasharing,combinedwiththecurrenttechnologyofdataprocessing,thecorrespondingprotectionmeasuresindataencryption,dataprotectionandanonymousprotectiontechnologyareproposedtodealwiththesafehiddentroubleinthedataprocessing,transmissionandsharing.Thecloudcomputingplatformhasbeenwidelyused,anditsliquidity,cross-borderfusionanddynamicchangesincreasetheriskofprivacy.Therefore,thebigdatasecuritybasedoncloudstorageandcloudprocessingisstudiedinthispaper,inordertosolvetheproblemofprivacyleak.
bigdata;privacypreservation;dataprocessing;datastorage;dataencryption
2015-05-06
2015-08-12
時(shí)間:2016-05-05
湖北省高等學(xué)校2014年省級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(201410488037)
肖 潔(1994-),女,研究方向?yàn)檐浖こ?;?嵩,博士,副教授,研究方向?yàn)橹悄苡?jì)算。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0814.020.html
TP
A
1673-629X(2016)05-0091-04
10.3969/j.issn.1673-629X.2016.05.019