曾中良
(中國煙草總公司云南省公司信息中心 云南 650031)
對于“大數(shù)據(jù)”(Big data),研究機構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要在新型處理模式下才能具備更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
從技術(shù)上看,大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘(SaaS),但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫(PaaS)和云存儲、虛擬化技術(shù)(IaaS)。
大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應用,具有數(shù)據(jù)量大、查詢分析復雜等特點。大數(shù)據(jù)的 4個“V”,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡日志、視頻、圖片、地理位置信息等等都屬于該范疇。第三,處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”——Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。
簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。
眾所周知,企業(yè)數(shù)據(jù)本身就蘊藏著價值,但是將有用的數(shù)據(jù)與沒有價值的數(shù)據(jù)進行區(qū)分看起來可能是一個棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對于企業(yè)的運轉(zhuǎn)至關重要,但是其他數(shù)據(jù)也擁有轉(zhuǎn)化為價值的力量。一段記錄人們?nèi)绾卧谀纳痰隇g覽購物的視頻、人們在購買您的服務前后的所作所為、是什么吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,透過特殊的棱鏡觀察,將其與其他數(shù)據(jù)集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發(fā)生天翻地覆的轉(zhuǎn)變。
正如Gartner所說:“大數(shù)據(jù)安全是一場必要的斗爭”。大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)領域,逐漸成為一種生產(chǎn)要素發(fā)揮著重要作用。大數(shù)據(jù)所含信息量較高,雖然相對價值密度較低,但是對它里面所蘊藏的潛在信息,隨著快速處理和分析提取技術(shù)的發(fā)展,可以快速捕捉到有價值的信息以提供參考決策。然而,大數(shù)據(jù)掀起新一輪生產(chǎn)率提高和消費者盈余浪潮的同時,隨著而來的是信息安全的挑戰(zhàn)。
網(wǎng)絡化社會的形成,為大數(shù)據(jù)在各個行業(yè)領域?qū)崿F(xiàn)資源共享和數(shù)據(jù)互通搭建平臺和通道。基于云計算的網(wǎng)絡化社會為大數(shù)據(jù)提供了一個開放的環(huán)境,分布在不同地區(qū)的資源可以快速整合,動態(tài)配置,實現(xiàn)數(shù)據(jù)集合的共建共享。正因為平臺的暴露,使得蘊含著海量數(shù)據(jù)和潛在價值的大數(shù)據(jù)更容易吸引黑客的攻擊,對于攻擊者而言,相對低的成本可以獲得“滾雪球”的收益。從近年來在互聯(lián)網(wǎng)上發(fā)生的用戶賬號的信息失竊等連鎖反應可以看出,大數(shù)據(jù)更容易吸引黑客。
在大數(shù)據(jù)之前,我們通常將數(shù)據(jù)存儲分為關系型數(shù)據(jù)庫和文件服務器兩種。對于將占數(shù)據(jù)總量80%以上的非結(jié)構(gòu)化數(shù)據(jù),雖然 NoSQL數(shù)據(jù)存儲具有可擴展性和可用性等優(yōu)點,利于趨勢分析,為大數(shù)據(jù)存儲提供了初步解決方案。但是 NoSQL數(shù)據(jù)存儲仍存在以下問題:一是相對于嚴格訪問控制和隱私管理的SQL技術(shù),目前NoSQL還無法沿用SQL的模式,而且適應NoSQL的存儲模式并不成熟;二是雖然NoSQL軟件從傳統(tǒng)數(shù)據(jù)存儲中取得經(jīng)驗,但 NoSQL仍然存在各種漏洞,畢竟它使用的是新代碼。三是由于 NoSQL服務器軟件沒有內(nèi)置足夠的安全,所以客戶端應用程序需要內(nèi)建安全因素,這又反過來導致產(chǎn)生了諸如身份驗證、授權(quán)過程和輸入驗證等大量的安全問題。
隨著計算機網(wǎng)絡技術(shù)和人工智能的發(fā)展,為大數(shù)據(jù)自動收集效率以及智能動態(tài)分析性提供方便。但是,技術(shù)發(fā)展也增加了大數(shù)據(jù)的安全風險。一方面,大數(shù)據(jù)本身的安全防護存在漏洞。雖然云計算對大數(shù)據(jù)提供了便利,但對大數(shù)據(jù)的安全控制力度仍然不夠,API訪問權(quán)限控制以及密鑰生成、存儲和管理方面的不足都可能造成數(shù)據(jù)泄漏。而且大數(shù)據(jù)本身可以成為一個可持續(xù)攻擊的載體,被隱藏在大數(shù)據(jù)中的惡意軟件和病毒代碼很難發(fā)現(xiàn),從而達到長久攻擊的目的。另一方面,攻擊的技術(shù)提高了。在用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取價值信息的同時,攻擊者也在利用這些大數(shù)據(jù)技術(shù)進行攻擊。
當然,大數(shù)據(jù)也為數(shù)據(jù)安全的發(fā)展提供了新機遇。大數(shù)據(jù)正在為安全分析提供新的可能性,對海量數(shù)據(jù)的分析有助于更好地跟蹤網(wǎng)絡異常行為,對實時安全和應用數(shù)據(jù)結(jié)合在一起的數(shù)據(jù)進行預防性分析,可防止詐騙和黑客入侵。網(wǎng)絡攻擊行為總會留下蛛絲馬跡,這些痕跡都以數(shù)據(jù)的形式隱藏在大數(shù)據(jù)中,從大數(shù)據(jù)的存儲、應用和管理等方面層層把關,可以有針對性地應對數(shù)據(jù)安全威脅。
基于云計算架構(gòu)的大數(shù)據(jù),數(shù)據(jù)的存儲和操作都是以服務的形式提供。目前,大數(shù)據(jù)的安全存儲采用虛擬化海量存儲技術(shù)來存儲數(shù)據(jù)資源,涉及數(shù)據(jù)傳輸、隔離、恢復等的問題。解決大數(shù)據(jù)的安全存儲,一是數(shù)據(jù)加密。在大數(shù)據(jù)安全服務的設計中,大數(shù)據(jù)可以按照數(shù)據(jù)安全存儲的需求,被存儲在數(shù)據(jù)集的任何存儲空間,通過SSL(安全套接層)加密,實現(xiàn)數(shù)據(jù)集的節(jié)點和應用程序之間移動保護大數(shù)據(jù)。在大數(shù)據(jù)的傳輸服務過程中,加密為數(shù)據(jù)流的上傳與下載提供有效的保護。應用隱私保護和外包數(shù)據(jù)計算,屏蔽網(wǎng)絡攻擊。目前,PGP和TrueCrypt等程序都提供了強大的加密功能。二是分離密鑰和加密數(shù)據(jù)。使用加密把數(shù)據(jù)使用與數(shù)據(jù)保管分離,把密鑰與要保護的數(shù)據(jù)隔離開。同時,定義產(chǎn)生、存儲、備份、恢復等密鑰管理生命周期。三是使用過濾器。通過過濾器的監(jiān)控,一旦發(fā)現(xiàn)數(shù)據(jù)離開了用戶的網(wǎng)絡,就自動阻止數(shù)據(jù)的再次傳輸。四是數(shù)據(jù)備份。通過系統(tǒng)容災、敏感信息集中管控和數(shù)據(jù)管理等產(chǎn)品,實現(xiàn)端對端的數(shù)據(jù)保護,確保大數(shù)據(jù)損壞情況下有備無患和安全管控。
隨著大數(shù)據(jù)應用所需的技術(shù)和工具快速發(fā)展,大數(shù)據(jù)應用安全策略主要從以下幾方面著手:一是防止APT攻擊。借助大數(shù)據(jù)處理技術(shù),針對APT安全攻擊隱蔽能力強、長期潛伏、攻擊路徑和渠道不確定等特征,設計具備實時檢測能力與事后回溯能力的全流量審計方案,提醒隱藏有病毒的應用程序。二是用戶訪問控制。大數(shù)據(jù)的跨平臺傳輸應用在一定程度上會帶來內(nèi)在風險,可以根據(jù)大數(shù)據(jù)的密級程度和用戶需求的不同,將大數(shù)據(jù)和用戶設定不同的權(quán)限等級,并嚴格控制訪問權(quán)限。而且,通過單點登錄的統(tǒng)一身份認證與權(quán)限控制技術(shù),對用戶訪問進行嚴格的控制,有效地保證大數(shù)據(jù)應用安全。三是整合工具和流程。通過整合工具和流程,確保大數(shù)據(jù)應用安全處于大數(shù)據(jù)系統(tǒng)的頂端。整合點平行于現(xiàn)有的連接的同時,減少通過連接企業(yè)或業(yè)務線的SIEM工具的輸出到大數(shù)據(jù)安全倉庫,以防止這些被預處理的數(shù)據(jù)被暴露算法和溢出加工后的數(shù)據(jù)集。同時,通過設計一個標準化的數(shù)據(jù)格式簡化整合過程,同時也可以改善分析算法的持續(xù)驗證。四是數(shù)據(jù)實時分析引擎。數(shù)據(jù)實時分析引擎融合了云計算、機器學習、語義分析、統(tǒng)計學等多個領域,通過數(shù)據(jù)實時分析引擎,從大數(shù)據(jù)中第一時間挖掘出黑客攻擊、非法操作、潛在威脅等各類安全事件,第一時間發(fā)出警告響應。
通過技術(shù)措施來保護大數(shù)據(jù)的安全必然重要,但管理也很關鍵。大數(shù)據(jù)的管理安全策略主要有:一是規(guī)范建設。大數(shù)據(jù)建設是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,一套規(guī)范的運行機制、建設標準和共享平臺建設至關重要。規(guī)范化建設可以促進大數(shù)據(jù)管理過程的正規(guī)有序,實現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡互連、數(shù)據(jù)集成、資源共享,在統(tǒng)一的安全規(guī)范框架下運行。二是建立以數(shù)據(jù)為中心的安全系統(tǒng)。基于云計算的大數(shù)據(jù)存儲在云共享環(huán)境中,為了大數(shù)據(jù)的所有者可以對大數(shù)據(jù)使用進行控制,可以通過建設一個基于異構(gòu)數(shù)據(jù)為中心的安全方法,從系統(tǒng)管理上保證大數(shù)據(jù)的安全。三是融合創(chuàng)新。大數(shù)據(jù)是在云計算的基礎上提出的新概念,大數(shù)據(jù)時代應以智慧創(chuàng)新理念融合大數(shù)據(jù)與云計算,以智能管道與聚合平臺為基礎,提升數(shù)據(jù)流量規(guī)模、層次及內(nèi)涵,在大數(shù)據(jù)流中提升知識價值洞察力。積極創(chuàng)造大數(shù)據(jù)公司技術(shù)融合平臺,尋找數(shù)據(jù)洪流大潮中新的立足點,特別是在數(shù)據(jù)挖掘、人工智能、機器學習等新技術(shù)的創(chuàng)新應用融合創(chuàng)新。
大數(shù)據(jù)是信息化時代的“石油”。大數(shù)據(jù)轉(zhuǎn)化為信息和知識的速度與能力將成為這個時代的核心競爭力之一,而大數(shù)據(jù)面臨的安全挑戰(zhàn)卻不容忽視。只有大數(shù)據(jù)技術(shù)和大數(shù)據(jù)安全“兩條腿”走路時,大數(shù)據(jù)才可以真正成為這個時代的驅(qū)動力量。
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展.2013.
[2]陳明奇,姜禾.大數(shù)據(jù)時代的美國信息網(wǎng)絡安全新戰(zhàn)略分析[J].信息網(wǎng)絡安全.2012.
[3]王珊,王會舉,覃雄派,周烜.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報.2011.
[4]肖新斌,史召臣.云計算引發(fā)的安全風險[J].信息安全與技術(shù).2011.
[5]胡光永.基于云計算的數(shù)據(jù)安全存儲策略研究[J].計算機測量與控制.2011.