李璐 焦程鵬
摘 要:隨著數(shù)據(jù)價值的體現(xiàn),大數(shù)據(jù)技術(shù)得到了飛速發(fā)展,在海量數(shù)據(jù)資源為各行業(yè)提供可用信息、決策依據(jù)和高品質(zhì)服務(wù)的同時,也給網(wǎng)絡(luò)安全、個人隱私安全帶來了新的挑戰(zhàn)。論文通過剖析大數(shù)據(jù)技術(shù)特點和其引發(fā)的安全風(fēng)險事件,結(jié)合我國網(wǎng)絡(luò)信息安全管理現(xiàn)狀,從管理策略和技術(shù)保障等方面完善并規(guī)范數(shù)據(jù)的分類分級管理,并針對大數(shù)據(jù)全生命周期涉及的各環(huán)節(jié)建立健全的流程規(guī)范提出建議,促進我國大數(shù)據(jù)技術(shù)良性循環(huán)發(fā)展。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);信息安全;數(shù)據(jù)泄露;保護策略
中圖分類號:TP393.08 文獻標識碼:A
1 引言
大數(shù)據(jù)作為信息化時代最具價值的無形資產(chǎn)和戰(zhàn)略資源,已與人們生活密不可分,為國家戰(zhàn)略規(guī)劃、社會干預(yù)及金融、醫(yī)療、農(nóng)業(yè)等不同行業(yè)的預(yù)測分析起到重大參考作用。由于大數(shù)據(jù)技術(shù)具備對分散數(shù)據(jù)進行匯聚、挖掘和分析的能力,易發(fā)生敏感信息的提取和泄露。同時,大數(shù)據(jù)面臨安全監(jiān)管難、技術(shù)濫用、存儲和安全防護難度大等系列管理問題,直接影響到個人隱私、行業(yè)敏感信息乃至國家信息安全等保障工作。
本文針對大數(shù)據(jù)技術(shù)特點,對其發(fā)展所引發(fā)的相關(guān)問題和解決策略進行闡述和分析。
2 大數(shù)據(jù)技術(shù)
大數(shù)據(jù),從一般意義上來說,是指無法在合理時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進行收集、處理和分析的數(shù)據(jù)集合[1]。IBM對海量數(shù)據(jù)進行研究并總結(jié)出大數(shù)據(jù)的5V特性:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)[2]。
大數(shù)據(jù)技術(shù)是對海量數(shù)據(jù)及多樣化的數(shù)據(jù)類型進行了提煉、整合及優(yōu)化,進而加快分析能力和提高獲取所需信息的效率。如圖1所示,采集、存儲、處理和輸出四部分為大數(shù)據(jù)技術(shù)架構(gòu)的基本單元。
2.1 數(shù)據(jù)采集
大數(shù)據(jù)來源一般可分為線上行為數(shù)據(jù)和內(nèi)容數(shù)據(jù)。其中,線上數(shù)據(jù)包括頁面數(shù)據(jù)、交互數(shù)據(jù)、會話數(shù)據(jù)等;內(nèi)容數(shù)據(jù)包括應(yīng)用日志、電子文檔、機器數(shù)據(jù)等。大數(shù)據(jù)采集和傳統(tǒng)數(shù)據(jù)采集在兩個方面有所不同:其一,最初采集到的數(shù)據(jù)稱為原始數(shù)據(jù),其數(shù)量級一般可達到TB級、PB級及ZB級別;其二,由于所采集的數(shù)據(jù)來源廣泛、復(fù)雜,形成了多樣性的數(shù)據(jù)特點。按照數(shù)據(jù)類型一般可分為三種:一是結(jié)構(gòu)化數(shù)據(jù),如普通純文本數(shù)據(jù);二是非結(jié)構(gòu)化數(shù)據(jù),如圖片、聲音、視頻等無法直接知其內(nèi)容的數(shù)據(jù);三是半結(jié)構(gòu)化數(shù)據(jù),其特點是結(jié)構(gòu)變化較大,不能通過簡單建立一個表和數(shù)據(jù)相對應(yīng)。大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集區(qū)別如表1所示。
2.2 數(shù)據(jù)存儲和處理
面對井噴式增長的數(shù)據(jù),為提高所采集數(shù)據(jù)質(zhì)量,需對原始數(shù)據(jù)進行預(yù)處理。通過對海量數(shù)據(jù)進行分類、篩選和清洗,剔除重復(fù)或錯誤等污點數(shù)據(jù),規(guī)范存儲數(shù)據(jù)的種類及格式,以真實性、準確性為目的來提高對數(shù)據(jù)訪問及使用的效率。由于采集的數(shù)據(jù)類型各異,存儲方式也由最初的關(guān)系型數(shù)據(jù)庫、文件服務(wù)器演變到更適合非結(jié)構(gòu)化數(shù)據(jù)的NoSQL數(shù)據(jù)存儲,提高了數(shù)據(jù)的可擴展性及可用性。
隨著業(yè)務(wù)需求和針對性各異,已初步處理的原始數(shù)據(jù)會被進一步加工。利用集群高速運算能力,結(jié)合模糊邏輯、集合理論或是專家系統(tǒng)等優(yōu)化算法對所存儲的海量數(shù)據(jù)進行挖掘和分析處理,提取更具價值的元數(shù)據(jù)。由于元數(shù)據(jù)是將原始數(shù)據(jù)進行整合、提煉,可為用戶提供更具針對性的信息,因此元數(shù)據(jù)較原始數(shù)據(jù)具有更高的存儲和使用價值。原始處理與元數(shù)據(jù)關(guān)系如圖2所示。
2.3 數(shù)據(jù)輸出和使用
輸出的數(shù)據(jù)根據(jù)用途的不同,最終以使用、共享、交易等方式,成為針對性產(chǎn)品或者服務(wù)提供給所需用戶。
經(jīng)聚合、分析后的數(shù)據(jù)更具決策價值,其結(jié)果應(yīng)用在科學(xué)、醫(yī)療、商業(yè)、國家安全等各大領(lǐng)域。由于各領(lǐng)域存在相互影響關(guān)系,多元化數(shù)據(jù)再次聚合分析可輸出更加準確的預(yù)測信息,如Google Flu Trends網(wǎng)站根據(jù)人們對流感相關(guān)詞條搜索的頻次,從而預(yù)測世界各地流感爆發(fā)情況[3]。因此,大數(shù)據(jù)正以獨特的經(jīng)濟價值呈現(xiàn)并流轉(zhuǎn)在數(shù)據(jù)生態(tài)圈中,形成密不可分的供應(yīng)關(guān)系。
3 大數(shù)據(jù)形勢和安全挑戰(zhàn)
雖然大數(shù)據(jù)分析為企業(yè)發(fā)展、城市服務(wù)、國家戰(zhàn)略等各個方面提供重要信息和決策依據(jù),具有持續(xù)挖掘和分析價值,但隨之帶來一系列問題:數(shù)據(jù)的使用權(quán)和歸屬權(quán)變得模糊,個人隱私、企業(yè)內(nèi)部數(shù)據(jù)乃至國家的敏感信息被挖掘曝光。因此,在借鑒傳統(tǒng)IT(Information Technology)安全防護的基礎(chǔ)上,DT(Data Technology)時代應(yīng)針對大數(shù)據(jù)技術(shù)特點完善安全管理策略,圍繞數(shù)據(jù)生命周期各個環(huán)節(jié)明確監(jiān)管要求,減少并避免因大數(shù)據(jù)的野蠻發(fā)展對個人、企業(yè)甚至國家造成損失[4]。
大數(shù)據(jù)及其相關(guān)技術(shù)帶來的風(fēng)險主要有三個方面。
3.1 大數(shù)據(jù)技術(shù)風(fēng)險
大數(shù)據(jù)技術(shù)是對數(shù)據(jù)處理、分析的一種操作方式,大數(shù)據(jù)技術(shù)具備對分散數(shù)據(jù)進行聚合、挖掘的能力,非敏感的數(shù)據(jù)片段關(guān)聯(lián)在一起,加以推理分析處理,存在披露敏感信息的風(fēng)險[5]。由于數(shù)據(jù)的掌握及應(yīng)用情況已成為企業(yè)之間乃至國家之間的關(guān)鍵競爭力,眾領(lǐng)域根據(jù)業(yè)務(wù)發(fā)展需要,采集并存儲了大量原始數(shù)據(jù),這些海量數(shù)據(jù)涉及到政治、軍事、能源、金融、農(nóng)業(yè)、公共衛(wèi)生等各類關(guān)鍵基礎(chǔ)信息,一旦放松對大數(shù)據(jù)技術(shù)的使用管理,將造成大量敏感數(shù)據(jù)泄露[6]。
在如今媒體開放時代,網(wǎng)絡(luò)、期刊等公眾平臺在方便民眾、企業(yè)了解新聞實事獲取信息的同時,也對不法分子、敵對組織敞開了可用資源。如發(fā)生在我國軍事論壇上,某軍迷通過分析發(fā)動機聲音的頻譜進而得出殲-20戰(zhàn)斗機發(fā)動機型號的“泄密”事件,而軍迷僅從公開渠道獲取數(shù)據(jù)和材料,并結(jié)合自身所掌握的知識,進行縝密的邏輯推導(dǎo),總結(jié)每種航空發(fā)動機聲音具備的不同特征,列出了包括殲20、蘇-27、F-15等不同戰(zhàn)機發(fā)動機的諧波圖,最終得出中國殲-20戰(zhàn)機所使用發(fā)動機型號,并將結(jié)論發(fā)布于網(wǎng)上。由于這類數(shù)據(jù)獲取途徑處于法律的灰色地帶,說敏感卻又不涉密,卻易被公民以公開渠道獲得并加以分析,進而導(dǎo)致敏感信息披露。
3.2 基礎(chǔ)設(shè)施風(fēng)險
目前,我國自主生產(chǎn)的軟硬件基礎(chǔ)產(chǎn)品在市場占有率較低,導(dǎo)致基礎(chǔ)設(shè)施供應(yīng)鏈國產(chǎn)化情況不容樂觀,如HP、IBM占據(jù)了服務(wù)器的主流市場; Windows操作系統(tǒng)的PC市場占據(jù)國內(nèi)不低于97.1%的份額;處理器市場份額也主要由Intel和AMD兩大寡頭占據(jù)。由于大數(shù)據(jù)平臺作為運載海量數(shù)據(jù)生命周期的關(guān)鍵基礎(chǔ)設(shè)施,對其可用性、可靠性要求較高,企業(yè)多采用國外高性能軟硬件產(chǎn)品,因此其供應(yīng)鏈的協(xié)調(diào)、優(yōu)化、控制等管理過程存在較大風(fēng)險,進而導(dǎo)致基礎(chǔ)設(shè)施安全自主可控能力較弱,一旦國外在供應(yīng)鏈環(huán)節(jié)對我方進行干擾,將影響以此為基礎(chǔ)的系列生產(chǎn)與工作[7]。
在國防制造業(yè)上,基礎(chǔ)設(shè)施存在的數(shù)據(jù)泄露風(fēng)險較為突出。部分重點行業(yè)的高精端生產(chǎn)、加工環(huán)節(jié)多采用國外進口工控設(shè)備,其專有的軟硬件和通信協(xié)議由國外廠家提供并專人運維。經(jīng)調(diào)研,部分工控設(shè)備在保障期正常運行的前提下,其內(nèi)置遠程傳輸、無線設(shè)備、GPS定位系統(tǒng)等模塊無法擅自拆除,存在重要數(shù)據(jù)流向不可控的風(fēng)險,存在國外賣方收集工控設(shè)備的位置、工作時間和加工量等信息的風(fēng)險,如被國外情報部門獲取并對這些數(shù)據(jù)加以分析、推導(dǎo),可掌握我方已購單位所從事加工制造等具體工作,對軍事部署、武器裝備、最新技術(shù)等國防安全保障方面造成威脅。
3.3 安全管理機制風(fēng)險
目前,我國對大數(shù)據(jù)全生命周期仍缺少全面的管理制度,存在政策法規(guī)覆蓋的盲區(qū)[8]。部分企業(yè)存在重視大數(shù)據(jù)帶來的經(jīng)濟效益而忽略安全投入的現(xiàn)象,將數(shù)據(jù)換取最大利益的野蠻式生長,易造成數(shù)據(jù)隨意買賣、甚至數(shù)據(jù)打包出境等惡劣事件。
而我國目前已頒布的數(shù)據(jù)使用標準、規(guī)范的實施效果方面也不容樂觀,仍存在行為符合性監(jiān)管空白。如2014年某行旅網(wǎng)站出現(xiàn)數(shù)據(jù)庫被黑客脫庫,導(dǎo)致大量用戶隱私數(shù)據(jù)泄露。追其原因,一是技術(shù)防護手段不足,二是在用戶敏感信息存儲管理上違背了PCI DSS國際安全標準規(guī)定,最終導(dǎo)致了個人隱私數(shù)據(jù)泄露的重大事件。
4 大數(shù)據(jù)安全保護策略
以推進基礎(chǔ)設(shè)施國產(chǎn)化為基礎(chǔ),實現(xiàn)各行業(yè)、領(lǐng)域自主可控的發(fā)展平臺,通過行政管理策略和技術(shù)保障策略約束并規(guī)范大數(shù)據(jù)生命周期的運行,促進大數(shù)據(jù)供應(yīng)鏈的良性循環(huán)。
4.1 構(gòu)建大數(shù)據(jù)保護基本框架
針對大數(shù)據(jù)技術(shù)發(fā)展帶來的安全風(fēng)險,應(yīng)盡快完善國內(nèi)大數(shù)據(jù)安全防護框架,借鑒國外和企業(yè)已有的數(shù)據(jù)保護法律架構(gòu)和先進的管理辦法,成立大數(shù)據(jù)安全保障相關(guān)組織和部門,建立健全的法律法規(guī)及相關(guān)政策;針對不同領(lǐng)域特點和安全需求,各行業(yè)應(yīng)盡快出臺標準和實施指南,形成相關(guān)指導(dǎo)文件,以數(shù)據(jù)架構(gòu)驅(qū)動并提高企業(yè)架構(gòu)治理的成熟度,加強內(nèi)控和監(jiān)管,做好事前預(yù)防、事中監(jiān)督和事后問責(zé)制等系列工作。完善并規(guī)范數(shù)據(jù)的分類分級管理,針對數(shù)據(jù)生命周期涉及的各環(huán)節(jié)建立健全的流程規(guī)范。大數(shù)據(jù)安全框架示意圖如圖3所示。
4.2 數(shù)據(jù)分類分級
雖然部分公司企業(yè)基于傳統(tǒng)信息安全基礎(chǔ),針對其商業(yè)運營信息有相應(yīng)使用規(guī)定,但所保護的數(shù)據(jù)類型的覆蓋面較窄,僅關(guān)注與其利益密切相關(guān)的數(shù)據(jù),而連帶收集的其他信息,如與個人、政府相關(guān)的數(shù)據(jù)則管理松散。
因此,為統(tǒng)籌管理數(shù)據(jù),方便提供有針對性的保護,可將數(shù)據(jù)按照政府?dāng)?shù)據(jù)、關(guān)鍵基礎(chǔ)設(shè)施數(shù)據(jù)、個人信息等不同類型進行劃分,結(jié)合所收集數(shù)據(jù)敏感程度,建立相關(guān)標準,細化數(shù)據(jù)分級標準的粒度;平衡公民知情權(quán)和敏感信息、隱私之間的關(guān)系,明確應(yīng)公開、透明的數(shù)據(jù),將與國家、個人、商業(yè)等敏感數(shù)據(jù)分別進行重點保護,以安全有效的管理方式促進數(shù)據(jù)良性循環(huán)并產(chǎn)生價值。
美國在大數(shù)據(jù)分類保護方面形成較為完善的規(guī)則,出臺了系列法案值得我們參考。其中,《愛國者法案》對維護國防、政府連續(xù)性、經(jīng)濟繁榮等至關(guān)重要的網(wǎng)絡(luò)和物理基礎(chǔ)設(shè)施服務(wù)進行定義和分類,明確敏感數(shù)據(jù)出處和范圍;《信息自由法》對是否應(yīng)公開的政府信息數(shù)據(jù)進行了描述和說明,明確指出保密文件、個人隱私、政府內(nèi)部組織、商業(yè)秘密、商業(yè)與財務(wù)信息、執(zhí)法文件、金融監(jiān)督材料、地質(zhì)信息、機關(guān)內(nèi)部人事規(guī)則及根據(jù)其他法律規(guī)定例外的信息因敏感而不可公開。
4.3 構(gòu)建大數(shù)據(jù)生命周期管控措施
為減少大數(shù)據(jù)使用帶來的安全風(fēng)險,應(yīng)加強對大數(shù)據(jù)生命周期各環(huán)節(jié)管控能力,針對大數(shù)據(jù)的收集、利用、管理等方面開展風(fēng)險分析,及時填補安全治理漏洞,形成安全可控的數(shù)據(jù)產(chǎn)業(yè)鏈。數(shù)據(jù)生命周期包含如圖4所示環(huán)節(jié)。
(1)數(shù)據(jù)收集。隨著數(shù)據(jù)資產(chǎn)價值重視程度提高,數(shù)據(jù)收集技術(shù)和渠道呈紛雜野蠻的趨勢發(fā)展。因此,數(shù)據(jù)收集作為生命周期的第一個環(huán)節(jié),應(yīng)投入相應(yīng)的重視并加強管控力度,強調(diào)并規(guī)范數(shù)據(jù)獲取中涉及的義務(wù)、方式與渠道,如企業(yè)在數(shù)據(jù)收集過程中,以足夠引起用戶注意的方式告知用戶被采集信息及用途,并需獲得用戶的同意;通過法律法規(guī)及宣傳加強個人及企業(yè)對數(shù)據(jù)的保護意識,整合現(xiàn)有數(shù)據(jù)收集工具和流程,通過合法渠道和技術(shù)手段收集所需數(shù)據(jù),嚴懲并杜絕黑市交易與買賣數(shù)據(jù)現(xiàn)象。
(2)數(shù)據(jù)存儲。隨著云計算、大數(shù)據(jù)技術(shù)的快速發(fā)展,跨境存儲在全球各地的數(shù)據(jù)中心已成為大規(guī)模數(shù)據(jù)發(fā)展趨勢,同時也帶來較大的安全風(fēng)險[9]。面對國內(nèi)行業(yè)因業(yè)務(wù)需要跨境存儲、國外公司進入國內(nèi)市場提供服務(wù)支持兩種情況,在遵守服務(wù)器所在國(地)的相關(guān)法律的同時,急需完善我國數(shù)據(jù)落地存儲相關(guān)法律法規(guī),以公平的協(xié)議維護數(shù)據(jù)存儲權(quán)利[10]。
在存儲個人信息方面,應(yīng)尊重個人隱私和個人財產(chǎn)安全。由于個人成長過程會在工作學(xué)習(xí)、生活消費等各方面各階段持續(xù)留存?zhèn)€人相關(guān)信息,因此應(yīng)對此類數(shù)據(jù)存儲時間提出限制要求,如對不再活躍賬號的相關(guān)信息不可永久性存儲。
(3)數(shù)據(jù)處理和使用。大數(shù)據(jù)技術(shù)存在將不敏感數(shù)據(jù)片段匯聚、挖掘、推理得出敏感信息的風(fēng)險,因此應(yīng)嚴格規(guī)范對數(shù)據(jù)的挖掘、聚合等分析操作。加強基于數(shù)據(jù)內(nèi)容的安全訪問控制和上下文訪問控制策略,對基于一組敏感信息的上下文分析行為進行記錄和審計,防止數(shù)據(jù)聚合技術(shù)的濫用;明確數(shù)據(jù)在分享、交易、管理等過程中涉及的社會關(guān)系,以及數(shù)據(jù)之間的邏輯關(guān)系;對敏感數(shù)據(jù)的存儲采取單元抑制、數(shù)據(jù)庫分離、噪聲和擾動等手段,通過加入干擾項來防止敏感數(shù)據(jù)推理事件發(fā)生;確定主體對客體的執(zhí)行操作,明確訪問授權(quán)原則,為使用和管理數(shù)據(jù)的人員分配相應(yīng)權(quán)限和期限,通過技術(shù)和管理手段提高數(shù)據(jù)處理及使用的安全保障措施。
(4)數(shù)據(jù)傳輸。目前,數(shù)據(jù)跨境流動分為兩種模式:一是數(shù)據(jù)過境傳輸;二是數(shù)據(jù)被境外訪問。企業(yè)通過數(shù)據(jù)跨境流動擴展了業(yè)務(wù)范圍,提高了服務(wù)水平,但也隨之涉及敏感數(shù)據(jù)跨境問題。因此,需要進一步明確數(shù)據(jù)分類和限制要求,建立符合我國國情的數(shù)據(jù)跨境管理策略,規(guī)范可跨境流通的數(shù)據(jù)類型;限制數(shù)據(jù)共享及交易范圍,追蹤及管控數(shù)據(jù)出境行為;加強跨疆界數(shù)據(jù)保護和執(zhí)法的合作力度,推進國際合作,邀請多方參與程序和行為準則的制定環(huán)節(jié),以有效執(zhí)法和企業(yè)問責(zé)制為前提,承認彼此的數(shù)據(jù)保護框架,在數(shù)據(jù)價值保護上達成一致,打破受制于人的局面。
(5)數(shù)據(jù)銷毀。目前,數(shù)據(jù)銷毀方式分為兩種類型,邏輯銷毀和物理銷毀。針對不同存儲方式的數(shù)據(jù)明確其銷毀方式,結(jié)合已認證、認可的銷毀工具產(chǎn)品,嚴格遵循國內(nèi)、國際標準實施銷毀流程,并評估此銷毀方式后數(shù)據(jù)可恢復(fù)性,以達到可信銷毀目的。
5 結(jié)束語
大數(shù)據(jù)技術(shù)帶來了發(fā)展機遇也帶來了安全風(fēng)險和挑戰(zhàn),利用大數(shù)據(jù)技術(shù)加快經(jīng)濟發(fā)展的同時,應(yīng)及時加強相應(yīng)安全保障措施。通過建立大數(shù)據(jù)安全保護框架,加強約束力度和合理引導(dǎo),完善相關(guān)政策法規(guī),結(jié)合技術(shù)安全保障措施,提升國家大數(shù)據(jù)安全治理能力,形成大數(shù)據(jù)開發(fā)、利用的良性循環(huán)。以國家安全為前提,積極推動大數(shù)據(jù)發(fā)展戰(zhàn)略,提供平穩(wěn)、安全、高效的經(jīng)濟運行機制,多方面入手達到大數(shù)據(jù)技術(shù)自主可控的目標。
參考文獻
[1] 齊愛民, 盤佳.數(shù)據(jù)權(quán)、數(shù)據(jù)主權(quán)的確立與大數(shù)據(jù)保護的基本原則[J].蘇州大學(xué)學(xué)報: 哲學(xué)社會科學(xué)版,2015(1) : 65.
[2] 李清泉, 李德仁.大數(shù)據(jù)GIS[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2014.6:39卷第六期.
[3] 李國杰, 程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域[J].中國科學(xué)院院刊,2012.27(6):647~657.
[4] 馮偉.大數(shù)據(jù)時代面臨的信息安全機遇和挑戰(zhàn)[J].中國科技投資, 2012(34): 49~53.
[5] 王文超, 石海明, 曾華鋒.芻議大數(shù)據(jù)時代的國家信息安全[J].國防科技, 2013, 34(2): 1~5.
[6] 聶元銘. 大數(shù)據(jù)及其安全研究[J].信息安全與通信, 2013(5):15~16.
[7] 劉正偉,張華忠,文中領(lǐng),等.海量數(shù)據(jù)持續(xù)數(shù)據(jù)保護技術(shù)研究 及實現(xiàn)[J].計算機研究與發(fā)展, 2012(s1): 37~41.
[8] 王珊,王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、 現(xiàn)狀與展望[J].計算機學(xué)報,2011,34(10):17411752.
[9] 肖新斌,史召臣.云計算引發(fā)的安全風(fēng)險[J]. 信息安全與技術(shù),2011,(06):13-14.
[10] 胡光永.基于云計算的數(shù)據(jù)安全存儲策略研究[J].計算機測量與控制,2011,19(10):2539-2541.