劉孟旭
摘? 要: 大數(shù)據(jù)創(chuàng)造經(jīng)濟(jì)和社會效益的同時,也為隱私保護(hù)以及數(shù)據(jù)安全帶來前所未有的風(fēng)險。目前,隱私已經(jīng)成為大數(shù)據(jù)應(yīng)用領(lǐng)域亟待突破的難題,本文分析了隱私保護(hù)的現(xiàn)狀與挑戰(zhàn),提出了一個以數(shù)據(jù)為核心的、全生命周期的、系統(tǒng)性的隱私動態(tài)防護(hù)技術(shù)框架,以降低大數(shù)據(jù)應(yīng)用實踐中的泄露風(fēng)險,探索行之有效的隱私管理解決方案。
關(guān)鍵詞: 大數(shù)據(jù);隱私風(fēng)險;動態(tài)隱私防護(hù)框架;隱私泄露
中圖分類號: TP391.41? ? 文獻(xiàn)標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.07.035
【Abstract】: Big data bring about not only significant economic and social benefits,but also great risks and challenges on privacy protection. Currently,privacy has been considered as one of the greatest problems related big data. This paper analyzes the challenges, and provides a data-centric, life-cycle, systematic and dynamic privacy protection technology framework, in order to reduce the risk of privacy leakage in the practice of big data applications and explore effective privacy management solutions.
【Key words】: Big data; Privacy risk; Dynamic privacy preserving framework; Privacy leakage
0? 引言
促進(jìn)大數(shù)據(jù)發(fā)展已經(jīng)納入國家戰(zhàn)略規(guī)劃[1],2017年11月河南省獲批社會信用體系與大數(shù)據(jù)融合發(fā)展試點省,成為全國首批2個試點省份之一,在創(chuàng)新大數(shù)據(jù)應(yīng)用、提高政府治理能力方面探索可供全國推廣和借鑒的經(jīng)驗。
1? 隱私保護(hù)現(xiàn)狀堪憂
近年來,數(shù)據(jù)泄露事件頻繁發(fā)生,2018年8月28日上海警方通報華住酒店集團(tuán)5億條用戶入住登記身份信息泄露,12月28日北京市警方通報疑似12306鐵路訂票網(wǎng)站用戶數(shù)據(jù)470余萬條信息泄露,犯罪嫌疑人相繼落網(wǎng)。全球范圍內(nèi),據(jù)公共數(shù)據(jù)泄露事件嚴(yán)重程度指數(shù)(Breach Level Index)報告顯示,自2013年以來已有近150億條數(shù)據(jù)泄露,2019年平均每天有超過600萬條數(shù)據(jù)遭到入侵或泄露,最令人擔(dān)憂的是泄露的數(shù)據(jù)中只有不到4%的經(jīng)過加密。2018年6月,美國Exactis公司泄露約3.4億條記錄,涉及2.3億人隱私信息,泄露原因是數(shù)據(jù)庫暴露在可公開訪問網(wǎng)絡(luò)且未采取安全防護(hù)措施。
2? 大數(shù)據(jù)隱私保護(hù)的新挑戰(zhàn)
數(shù)據(jù)隱私保護(hù)的常用技術(shù)包括密碼技術(shù)、匿名化以及數(shù)據(jù)溯源等技術(shù)。密碼技術(shù)包括安全多方計算[3]、密文檢索、同態(tài)加密等技術(shù),主要解決數(shù)據(jù)存儲和通信的安全性。匿名化技術(shù)采用抑制[4]、泛化[5]、剖析、切片、分離等操作隱藏或者模糊數(shù)據(jù)等操作是隱私保護(hù)的最主要的一種技術(shù)手段。匿名化技術(shù)和密碼技術(shù)都面臨可擴展性差、計算代價高、不適應(yīng)分布式存儲和新型的計算框架等方面的挑戰(zhàn)技術(shù)方案的可行性。此外,匿名化技術(shù)的隱私保護(hù)模型一般假設(shè)數(shù)據(jù)集的數(shù)據(jù)是相互獨立的[6-7],大數(shù)據(jù)的大規(guī)模性、高速性、多樣性、相關(guān)性以及多個異構(gòu)數(shù)據(jù)源的融合使傳統(tǒng)的隱私保護(hù)方案失效。
大數(shù)據(jù)分析和融合給隱私保護(hù)帶來了新挑戰(zhàn),
高性能算法、更加復(fù)雜的分析模型、新型計算框架可以快速挖掘出大數(shù)據(jù)中的異常點、決策樹、時序模式、關(guān)聯(lián)規(guī)則以及用戶行為模式等信息[9],從而泄露隱私信息或為攻擊提供了攻擊的背景知識。
3? 數(shù)據(jù)隱私防護(hù)體系
針對大數(shù)據(jù)環(huán)境下隱私數(shù)據(jù)面臨高風(fēng)險、低防護(hù)的現(xiàn)狀,解決問題的當(dāng)務(wù)之急是針對不同類型的風(fēng)險,探索一個行之有效的隱私防護(hù)框架。
3.1? 隱私防護(hù)框架的目標(biāo)
建立隱私防護(hù)技術(shù)框架的目標(biāo)是合理利用已有隱私保護(hù)技術(shù),降低政府部門、互聯(lián)網(wǎng)企業(yè)、數(shù)據(jù)
中心等在大數(shù)據(jù)應(yīng)用實踐中隱私泄露風(fēng)險,因此方案的可行性和有效性也至關(guān)重要。大數(shù)據(jù)環(huán)境下,網(wǎng)絡(luò)攻擊和安全風(fēng)險呈現(xiàn)多層次、系統(tǒng)性、高速性、復(fù)雜多變等特征,因此任何孤立的、靜態(tài)的保護(hù)手段都可能失效,為此必須做好隱私管理的頂層設(shè)計,建立覆蓋數(shù)據(jù)全生命周期的、系統(tǒng)性的、動態(tài)演化的隱私防護(hù)體系。
3.2? 數(shù)據(jù)隱私動態(tài)防護(hù)框架
本文主要從技術(shù)的角度探討隱私問題,法律規(guī)范與管理體系方面的不再詳述,數(shù)據(jù)隱私動態(tài)防護(hù)技術(shù)框架包括隱私識別體系、隱私管理服務(wù)體系、風(fēng)險監(jiān)測評估體系、動態(tài)反饋體系四大基本組成部分,如圖1。
(1)隱私識別體系
隱私識別體系根據(jù)隱私保護(hù)方案實現(xiàn)隱私數(shù)據(jù)范圍界定、權(quán)限管理和隱私策略等形成隱私管理的知識庫,為隱私管理服務(wù)系統(tǒng)、風(fēng)險監(jiān)測評估和應(yīng)急反饋提供支撐。隱私保護(hù)方案根據(jù)法律法規(guī)、標(biāo)準(zhǔn)規(guī)范,綜合考慮應(yīng)用需求、部署環(huán)境、數(shù)據(jù)資產(chǎn)價值、管理目標(biāo)等制定。
(2)隱私管理服務(wù)體系
隱私管理服務(wù)體系按照預(yù)定義隱私保護(hù)策略,對外提供統(tǒng)一的隱私管理和數(shù)據(jù)服務(wù)。系統(tǒng)應(yīng)能按
照根據(jù)隱私保護(hù)策略選用包括匿名化技術(shù)、差分隱私保護(hù)技術(shù)[8]、隱私信息檢索技術(shù)、安全多方計算技術(shù)、數(shù)據(jù)加密技術(shù)等隱私保護(hù)技術(shù),提供數(shù)據(jù)存儲和通信、加工處理、融合分析、應(yīng)用、銷毀以及等不同層次隱私防護(hù)。應(yīng)滿足不同應(yīng)用場景的需求,包括支持統(tǒng)計查詢、數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能等不同層次的分析需;支持格式化數(shù)據(jù)、半個格式化數(shù)據(jù)、流數(shù)據(jù)、多媒體等不同數(shù)據(jù)類型的發(fā)布需求;支持直方圖、top-k查詢、范圍統(tǒng)計查詢等不同類型的查詢需求[11]。
(3)風(fēng)險監(jiān)測與評估體系
隱私風(fēng)險監(jiān)測與評估體系主要完成主動探測風(fēng)險、違規(guī)審計、風(fēng)險評估。應(yīng)具備主動發(fā)現(xiàn)、分析和發(fā)布風(fēng)險的能力,指導(dǎo)上層隱私管理技術(shù)體系如何選擇相應(yīng)技術(shù)的能力。
(4)動態(tài)反饋體系
動態(tài)反饋體系針對網(wǎng)絡(luò)攻擊、安全漏洞、安全事件以及安全策略變化等動態(tài)因素做出響應(yīng)和反饋,并與其他系統(tǒng)形成有機聯(lián)動,完成系統(tǒng)迭代更新和自身的演化升級,并按照升級后的隱私策略進(jìn)行隱私防護(hù)并對外提供服務(wù)。
本文提出據(jù)隱私動態(tài)防護(hù)技術(shù)框架是我們在實踐的基礎(chǔ)上對隱私管理的理論探索和經(jīng)驗總結(jié),隨著大數(shù)據(jù)應(yīng)用的深入和隱私保護(hù)技術(shù)發(fā)展,未來不斷會有新的、更完善的隱私保護(hù)框架與機制的出? 現(xiàn)[2]。大數(shù)據(jù)隱私不僅僅是技術(shù)方面的問題,還涉及法律法規(guī)、標(biāo)準(zhǔn)規(guī)范、監(jiān)管模式等諸多方面,需要各方的共同努力才能實現(xiàn)。
參考文獻(xiàn)
[1]?????? 國務(wù)院. 促進(jìn)大數(shù)據(jù)發(fā)展行動綱要, 國務(wù)院, 2015.
[2]?????? 工業(yè)和信息化部. 大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年),工業(yè)和信息化部, 2016
[3]?????? Sheikh R, Mishra D K, Kumar B, Secure multiparty computation: From millionaires problem to anonymizer[J] Information Security Journal: A Global Perspective 2011, 20(1): 25- 33
[4]?????? Wang K, Fung B C M, Yu P S. Handicapping attackers confidence: An alternative to k-anonymization[J] knowledge and information system, 2007 11(3): 345-368
[5]?????? Fung B C M, Wang K, Yu P S. anonymizing classification data for privacy preservation[J] IEEE Trans on Knowledge and Data Engineering, 2007, 19(5): 711-725
[6]?????? Sweeney L. k-Anonymity: A model for protecting privacy[J] International Journal of Uncertainty, Fuzziness and Knowledge-Based System 2002, 10(5): 557-570.
[7]?????? Sweeney L. k-Anonymity: Achieving k-anonymity privacy protection using generalization and suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems.
[8]?????? 張嘯劍, 孟小峰. 面向數(shù)據(jù)發(fā)布和分析的差分隱私保護(hù)[J].計算機學(xué)報, 2014, 37(4): 927-949.
[9]?????? The Internet Association, “Comments Concerning Big Data and the Consumer Privacy Bill of Rights.” pp. 1-15, 2014
[10]??? 劉向宇, 王斌 ,楊曉春. 社會網(wǎng)絡(luò)數(shù)據(jù)發(fā)布隱私保護(hù)技術(shù)綜述[J]. 軟件學(xué)報, 2014, 25(3): 576-590.
[11]??? 周長利, 馬春光, 楊松濤. 路網(wǎng)環(huán)境下保護(hù)LBS位置隱私的連續(xù)KNN查詢方法[J]. 計算機研究與發(fā)展, 2015, 52(11): 2628-2644.