崔洪剛 唐浩 汪永超
【摘 要】隨著社會的不斷發(fā)展,人們采用傳統的設備和工具來處理龐大的數據流已經顯示出其在擴展性和分析技術上的劣勢。當前主流的大數據處理新技術通常選擇在云計算環(huán)境下搭建Hadoop完成存儲和分析。本文首先分析了現行的大數據運用模式,分析了在Hadoop不同階段操作過程中所存在的安全威脅,進而根據安全風險給出了對應的安全策略。
【關鍵詞】大數據;云計算;安全風險
隨著社會的不斷發(fā)展,人們在日常工作和生活中的信息交流量越來越大,需要處理的數據變得越來越多。對于如此龐大的數據流依舊采用傳統的設備和工具來處理,已經顯示出其在擴展性和分析技術上的劣勢,無法有效地獲得蘊藏在大數據中的潛在價值。同時,大數據還體現出了多樣態(tài)勢的數據組成方式,這樣的結構相應增長了常規(guī)數據計算和處理的難度。要想滿足大數據的運用要求,需要廣泛研究新技術。
1 大數據運用模式
云計算的實現,對于設備的要求是相當嚴格的。首先需要通過小型的計算機和單體化的數據中心向大型的計算中心傳輸數據,這些計算中心能夠通過專業(yè)的存儲和計算能力實現計算機在硬件和軟件上的資源共享。企業(yè)在使用云計算的服務和相關功能時,并不需要再花費更多的預算和實際費用在購買大型的基礎設備方面,也就不需要對更多的設備進行安裝調試和維護工作,僅僅需要與云計算服務商簽訂一定的使用協議,就能享受其提供的相應云計算服務,在一定的計費周期內按計時或計件方式支付相應的服務費用。
云計算服務商自身的發(fā)展離不開對龐大的數據流進行存儲和計算的能力。因此,云計算服務商在當前的數據處理與管理方面被認定為選擇信息服務外包的最佳對象。大數據時代的很多運用都離不開云計算的強大機制和功能。而Hadoop作為支持大數據分析和處理的技術實施方案,最初的設定出發(fā)點是基于Google開發(fā)的云計算中的映射歸約編程模型(Map Reduce),并積極吸收谷歌三大技術之一谷歌文件系統(Google File System,簡稱GFS)的開源性設計。Hadoop的運用通過其中的核心技術HDFS(Hadoop Distributed File System)以及Map Reduce為云計算的大數據運用提供了一種計算框架。HDFS以及 Map Reduce都是針對分布式運算的相關技術,HDFS作為能夠顯示成獨立磁盤的多機器系統,所提供的是文件系統依然是分布式的,在系統吞吐量方面具有很大優(yōu)勢。而Map Reduce屬于分布式處理模型。Hadoop的建立通過搭建可靠的共享存儲和分析系統來促進大數據的運用處理。當前的技術競爭環(huán)境下,世界上已經出現了很多的自發(fā)性群體,通過組織自建集群的方式來運行Hadoop,當前更多的人群和組織依然選擇通過更加直接和有效的方式來完成Hadoop的組建和服務,選擇租賃性價比更為合理的硬軟件,搭建匹配的運行平臺供Hadoop運行或提供迅速完成目標任務的可靠服務。
2 大數據安全風險分析
云計算的特點是由云服務商將已經外包的數據集中分析后進行處理,外包方能夠共享到相應的服務。當數據的支配權全部屬于云計算服務商后,相當于所有用戶對于眼前的物理資源雖能接觸到卻沒有直接的使用和控制權利。云端服務器重,存儲的大數據一般都有慣用的排位方式,即使用明文方式。在一定的權限下,云計算服務商們基本都會對數據的基層控制權全盤接收,在這樣的情況下,懷有惡意的云計算服務商們對于數據安全來講,具有相當嚴重的危險,很多用戶的數據面臨被盜用丟失,而且往往選擇在用戶不知情的前提下,同時云計算平臺也可能受到非授權人進行數據讀取,往往受到不明的攻擊使自身的安全機制失效或被非法控制,給大數據安全帶來了威脅。Hadoop的版本樣式發(fā)展到Cloudera CDH3后,來自于Kerberos隨設定的身份識別認證機制和依據ACL成立的訪問控制機制被創(chuàng)立和使用,但是這樣的安全機制卻依然顯得薄弱,由于Kerberos的認證機制僅僅運用于客戶機、密鑰分發(fā)中心、服務器之間,僅僅是針對機器級別的安全認證,并未對Hadoop運用平臺本身進行認證。而基于ACL的訪問控制策略需要通過在啟用ACL之后,其配置的9條屬限制了用戶與組成員對Hadoop中資源的訪問以及其他關鍵性節(jié)點間的通信,但是需要注意的是,該機制的運行離不開管理員對整個系統的設置。因此,往往出現控制列表被訪問后在服務器中內容易被不法分子或者自動運行程序進行更改,而且更改的程度往往騙過了人們的防備。依據ACL成立的訪問控制策略在粒度方面的設計上細度不夠,涉及用戶信息的隱私字段就不能夠在映射歸約編程模型中實現細粒度保護。訪問控制列表常常會調整不同用戶的不同操作習慣,但是這些更改過程是相對繁瑣的,而且風險安保方面也存在較多隱患。通過上述可知,Hadoop的運行所建立和應用的安全機制并不真正安全。
3 提高安全保護的有效策略
真正考慮數據的安全風險,應該對于用戶的隱私保護也同樣考慮在內。對于可能發(fā)生的大數據應用安全風險,可以積極嘗試運用如下相關策略:
第一,需要對云計算服務商和使用者的身份信息及平臺進行完整性驗證。使用云計算的用戶,對于Kerberos的雙向認證要有所了解,要靈活應用這一原理在平臺收發(fā)請求時進行認證,這樣的做法進一步提高了用戶和云計算服務商兩方身份認證方面的完整性信息安全。
第二,在確認了用戶和云服務商之間身份的真實可靠之后,平臺整體上的安全性能還需要進行嚴格的驗證。鑒于此,可以采用有關的算法和模型等構件合理的協議,配合TPM完成對云計算可信環(huán)境的構建,平臺環(huán)境構建完成后還需要對系統的可信鏈展開完善,確保云平臺無較大的安全風險。
第三,需要在數據使用過程中監(jiān)控行為請求,云服務商一般情況下會有很大的概率接觸到某些無理化的數據請求,只有建立更加嚴格和規(guī)范的監(jiān)控機制才能管理非法數據,進而對非法運算和錯誤的輸出結果也能完成實時監(jiān)控。可以考慮借助利用LSM的訪問控制策略,通過hook函數進行內核程序的控制,對合法行為予以同行,準許訪問數據,對不可信的可疑行為,直接拒絕后設立記憶點,確保數據的正確流向。
4 結語
對于大數據應用中可能存在的風險,應充分考慮監(jiān)控云計算服務商的可疑行為,杜絕直接更改文件權限獲取數據內容,也應該避免數據計算者可以對于相關數據的獲取也可以直接通過計算程序輸出隱私字段等方式來實現,通過一定的安全策略,來提高大數據運用中云計算服務的使用。
【參考文獻】
[1]馬媛.基于Hadoop的云計算平臺安全機制研究[J].信息安全與保密通信,2012(6):89-92.
[2]周天陽,朱俊虎,王清賢.基于VMM的Rootkit及其監(jiān)測技術研究[J].計算機科學,2011,12(38):77-80.
[3]李虹,李昊.可信云安全的關鍵技術與實現[M].北京:人民郵電出版社,2010.
[責任編輯:王楠]