劉孟旭
摘 要 大數(shù)據(jù)環(huán)境下,隱私面臨前所未有的挑戰(zhàn),部分傳統(tǒng)隱私保護(hù)技術(shù)面臨失效,如何合理選擇隱私保護(hù)技術(shù)是一個(gè)具有挑戰(zhàn)性的任務(wù)。本文分析了常用的隱私保護(hù)技術(shù)及其局限性,討論了大數(shù)據(jù)環(huán)境下的隱私保護(hù)的新挑戰(zhàn),為大數(shù)據(jù)應(yīng)用實(shí)踐中建立合理的隱私管理方案提供參考。
關(guān)鍵詞 大數(shù)據(jù);隱私泄露;匿名化技術(shù);差分隱私
大數(shù)據(jù)技術(shù)與經(jīng)濟(jì)社會(huì)的交匯融合引發(fā)了數(shù)據(jù)迅猛增長(zhǎng),數(shù)據(jù)已成為國(guó)家基礎(chǔ)性戰(zhàn)略資源。大數(shù)據(jù)在帶來(lái)了巨大效益的同時(shí),也給用戶隱私保護(hù)方面的帶來(lái)了前所未有的挑戰(zhàn)。
1 數(shù)據(jù)隱私的范圍
隱私的界定應(yīng)以法律為依據(jù),我國(guó)《中華人民共和國(guó)刑法》、《中華人民共和國(guó)民法總則》、《中華人民共和國(guó)網(wǎng)絡(luò)安全法》、《消費(fèi)者權(quán)益保護(hù)法》、《中華人民共和國(guó)電子商務(wù)法》等有多部法律、法規(guī)、規(guī)章涉及個(gè)人信息保護(hù),《中華人民共和國(guó)個(gè)人信息保護(hù)法》也已列入十三屆全國(guó)人大常委會(huì)立法規(guī)劃。梳理現(xiàn)行和即將出臺(tái)的法律法規(guī)以及國(guó)家標(biāo)準(zhǔn)規(guī)范,數(shù)據(jù)隱私主要包括身份信息、健康生理、財(cái)產(chǎn)狀況、社交行為、行蹤軌跡等反映特定主體活動(dòng)情況的各種信息[1]。
2 數(shù)據(jù)隱私泄露現(xiàn)狀
據(jù)中消協(xié)11月28日發(fā)布《100款A(yù)pp個(gè)人信息收集與隱私政策測(cè)評(píng)報(bào)告》,10類App普遍存在涉嫌過(guò)度收集個(gè)人信息的情況,59款A(yù)pp涉嫌過(guò)度收集“位置信息”,28 款A(yù)pp涉嫌過(guò)度收集“通訊錄信息”,23 款A(yù)pp涉嫌過(guò)度收集“身份信息”。全球范圍內(nèi),2018年6月,美國(guó)Exactis公司泄露約3.4億條記錄,涉及2.3億人隱私信息,泄露原因是數(shù)據(jù)庫(kù)暴露在可公開(kāi)訪問(wèn)網(wǎng)絡(luò)且未采取任何有效的安全防護(hù)措施[2]。
3 數(shù)據(jù)隱私技術(shù)
數(shù)據(jù)隱私保護(hù)的常用技術(shù)包括數(shù)據(jù)加密、匿名化以及數(shù)據(jù)溯源等技術(shù),數(shù)據(jù)加密技術(shù)主要解決數(shù)據(jù)存儲(chǔ)、計(jì)算以及通信的安全性,匿名化技術(shù)主要解決數(shù)據(jù)加工處理、挖掘分析以及數(shù)據(jù)發(fā)布時(shí)防止敏感信息泄露。
3.1 數(shù)據(jù)加密技術(shù)
目前數(shù)據(jù)加密技術(shù)主要包括安全多方計(jì)算、密文檢索、同態(tài)加密等是常用的密碼技術(shù),主要解決數(shù)據(jù)存儲(chǔ)、通信和分析應(yīng)用的安全性。安全多方計(jì)算可以解決一組互不信任的參與方之間保護(hù)隱私的協(xié)同計(jì)算問(wèn)題,并確保除了用戶的輸入以及輸出信息外,不會(huì)額外地暴露信息。加密存儲(chǔ)和密文在較高的安全前提下,提供較高的檢索效率。
3.2 匿名化技術(shù)
是隱私保護(hù)最常用的技術(shù)手段,通常采用抑制、泛化等操作隱藏或者模糊數(shù)據(jù)以及數(shù)據(jù)源。泛化是指對(duì)數(shù)據(jù)進(jìn)行更加概括、抽象的描述,而抑制則是指不發(fā)布某些數(shù)據(jù)項(xiàng),常見(jiàn)的數(shù)據(jù)隱私保護(hù)的模型有k-匿名化(K-Anonymity)、l-多樣化(L-Diversity)、T-closeness模型、差分隱私(ε-differential privacy)等模型的及其改進(jìn)算法,以滿足不同的應(yīng)用場(chǎng)景需求。
準(zhǔn)標(biāo)識(shí)符是指結(jié)合一定的外部信息能夠以較高的概率確定一條用戶記錄,k-匿名化模型要求發(fā)布的數(shù)據(jù)中存在一定數(shù)量(至少為k) 的在準(zhǔn)標(biāo)識(shí)符上不可區(qū)分的記錄,使?jié)撛诘墓粽邿o(wú)法區(qū)分隱私信息所屬的個(gè)體。k-匿名的缺陷是未對(duì)等價(jià)類中的敏感屬性進(jìn)行約束,例如,某等價(jià)類中任意一個(gè)敏感屬性取值相同,則攻擊者可以推理出該敏感值[3]。
l-多樣化(L-Diversity)模型在k-匿名化的基礎(chǔ)上要求每個(gè)等價(jià)類至少包含L個(gè)不同的敏感屬性值,雖然l-多樣化保證了敏感屬性的多樣性,卻忽視了敏感屬性的全局分布。T-closeness模型在l-多樣化基礎(chǔ)上,考慮了敏感屬性的分布問(wèn)題,要求所有等價(jià)類中敏感屬性值的分布盡量接近該屬性的全局分布。
3.3 差分隱私(ε-differential privacy)
是嚴(yán)格的、可證明的隱私保護(hù)模型,ε是隱私保護(hù)參數(shù)(ε越小隱私保護(hù)程度越高,輸出擾動(dòng)越大)來(lái)調(diào)整數(shù)據(jù)的實(shí)用性和隱私性。實(shí)際應(yīng)用中,實(shí)施的難度和成本較高,為了平衡隱私性與可用性,ε參數(shù)的選擇是個(gè)具有挑戰(zhàn)性的問(wèn)題。
4 大數(shù)據(jù)環(huán)境下的新挑戰(zhàn)
大數(shù)據(jù)具有規(guī)模大、來(lái)源多、動(dòng)態(tài)更新等特點(diǎn),傳統(tǒng)的隱私保護(hù)技術(shù)都可能失效或面臨新的挑戰(zhàn)。
首先,數(shù)據(jù)加密技術(shù)面臨的挑戰(zhàn)。許多密碼技術(shù)是基于內(nèi)存計(jì)算的,不適應(yīng)大數(shù)據(jù)分布式存儲(chǔ)和并行計(jì)算環(huán)境,面臨可擴(kuò)展性差、計(jì)算代價(jià)高,不適應(yīng)新型計(jì)算框架等方面的問(wèn)題。
其次,匿名化技術(shù)面臨的挑戰(zhàn)。匿名化模型和差分隱私保護(hù)模型都假設(shè)數(shù)據(jù)集的數(shù)據(jù)是相互獨(dú)立的,大數(shù)據(jù)的大規(guī)模性、高速性、多樣性、相關(guān)性以及多個(gè)異構(gòu)數(shù)據(jù)源的融合可能使原有的隱私保護(hù)方案失效。
最后,大數(shù)據(jù)分析和融合面給隱私保護(hù)帶來(lái)了新挑戰(zhàn)。新型計(jì)算框架、高性能算法、更加復(fù)雜的分析模型可以挖掘出大數(shù)據(jù)中的異常點(diǎn)、頻繁模式、分類模式、數(shù)據(jù)之間的相關(guān)性以及用戶行為模式等信息,從而泄露用戶隱私信息或也為攻擊者更豐富的背景知識(shí)[4]。
5 結(jié)束語(yǔ)
大數(shù)據(jù)在當(dāng)前具有廣闊的發(fā)展前景,但同時(shí)面臨的隱私挑戰(zhàn)和風(fēng)險(xiǎn)也是空前的。大數(shù)據(jù)隱私保護(hù)不僅僅是技術(shù)方面的問(wèn)題,它還涉及法律法規(guī)、監(jiān)管模式、宗教等諸多方面,需要各界共同努力才能實(shí)現(xiàn)。
參考文獻(xiàn)
[1] 中消協(xié).100款A(yù)pp個(gè)人信息收集與隱私政策測(cè)評(píng)報(bào)告(2018年)[EB/OL]. http://wemedia.ifeng.com/90478388/wemedia.shtml,2018-11-29.
[2] 張嘯劍,孟小峰.面向數(shù)據(jù)發(fā)布和分析的差分隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):927-949.
[3] Sweeney L.k-anonymity:Amodel for protection privacy. International Journal Uncertainty[J].Fuzzines and Knowledge-based Sys Tems,2002,10(5):557-570.
[4] 張俊,蕭小奎.數(shù)據(jù)分享中的差分隱私保護(hù)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2014,10(6):44-51.