大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全技術分析

2022-02-13 05:47田沛霖

甘肅科技縱橫 2022年9期

田沛霖

（復旦大學文獻信息中心，上海 200433）

隨著大數(shù)據(jù)技術的發(fā)展，各行各業(yè)都積累并存儲了海量的相關數(shù)據(jù)，其附屬的分析機構可以利用數(shù)據(jù)挖掘技術從中獲取更有價值的信息［1］。但在面臨海量數(shù)據(jù)的收集、傳輸、存儲和分析挖掘時，鑒于大數(shù)據(jù)特別的“4V+1C”新特征，傳統(tǒng)的數(shù)據(jù)安全技術并不能滿足新形勢下的數(shù)據(jù)安全需求［2］，而企事業(yè)單位中承載極大數(shù)據(jù)量的信息系統(tǒng)一旦發(fā)生安全問題，造成泄密事件，勢必會導致企事業(yè)單位的公信力、經(jīng)濟效益大幅降低，同時伴有經(jīng)濟活動參與單位或個人信息泄露等次生災害，產(chǎn)生連帶效應造成巨大損失，甚至危害國家安全：如2015年5月美國國稅局系統(tǒng)遭到攻擊導致10 萬納稅人永久信息遭到泄露事件，造成國稅局的退稅服務系統(tǒng)被迫關閉，納稅人的退稅資金的安全受到威脅。所以如何利用大數(shù)據(jù)技術保護大數(shù)據(jù)環(huán)境下數(shù)據(jù)的安全性的問題應運而生。

1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)安全問題分析

1.1 “大數(shù)據(jù)”的作用

在大數(shù)據(jù)環(huán)境下，“大數(shù)據(jù)”與數(shù)據(jù)安全問題的關系有兩方面：大數(shù)據(jù)既是“保護對象”，又是“保護手段”。一方面，大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全主體是大數(shù)據(jù)的安全；另一方面，大數(shù)據(jù)分析等安全技術也是信息系統(tǒng)防范外界攻擊的重要手段。

1.2 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全挑戰(zhàn)

大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲單位往往具有強大的數(shù)據(jù)體系，但也很容易存在網(wǎng)絡問題，如出現(xiàn)漏洞，用戶的相關數(shù)據(jù)很容易被不法分子利用或者進行售賣，對個人數(shù)據(jù)安全造成嚴重威脅［3］。同時，為實現(xiàn)大數(shù)據(jù)的有效處理，相關工作也引入了分布式的計算與存儲框架，這些新型框架也帶來了新的安全風險。在這樣的安全環(huán)境下，信息泄露的風險時刻存在，不法分子利用大數(shù)據(jù)的技術便利進行大規(guī)模的犯罪活動，會阻礙社會和諧穩(wěn)定發(fā)展。大數(shù)據(jù)面臨的數(shù)據(jù)安全問題主要集中在隱私泄露、外界攻擊和數(shù)據(jù)存儲3個方面。

1.2.1 隱私泄露

數(shù)據(jù)隱私即數(shù)據(jù)收集與數(shù)據(jù)傳播間的關系，涉及公共隱私預期、技術、法律與政治等多領域要素。企業(yè)本身對數(shù)據(jù)的保護程度不夠造成了用戶隱私在系統(tǒng)未被攻擊的情況下的可能泄露。如在匿名問題中，企業(yè)僅關注了對用戶標識符的消除，而忽略了對IP 地址、HASH值等亦能反映用戶特征的數(shù)據(jù)，導致某些用戶在系統(tǒng)中的行為日志記錄項即使被匿名化處理，仍能精確地定為于特定用戶；或者匿名信息在與其他未匿名化處理的數(shù)據(jù)源結合時，通過行為匹配，匿名信息的用戶就有被識別的可能。

1.2.2 外界攻擊

大數(shù)據(jù)由于其體量大，多樣性豐富的特點，更容易成為黑客攻擊的目標：攻擊規(guī)模大的數(shù)據(jù)集合使黑客在所獲數(shù)據(jù)量與努力值相比的“收益率”大大提高，這驅(qū)動黑客傾向于攻擊大數(shù)據(jù)信息系統(tǒng)。

黑客的攻擊通常具有很強的目的性，在編輯攻擊大數(shù)據(jù)信息系統(tǒng)的程序時，會針對系統(tǒng)的防御架構，因此更容易破壞系統(tǒng)數(shù)據(jù)安全體系，造成數(shù)據(jù)泄露與損失。此外，隨著數(shù)據(jù)安全技術的不斷提升，大數(shù)據(jù)信息系統(tǒng)的安全性也顯著提升，近年來雖然沒有發(fā)生大規(guī)模的黑客攻擊事件，但黑客仍會進行較小規(guī)模的入侵，在用戶未察覺的情況下盜取用戶信息，這種攻擊方式對數(shù)據(jù)安全造成了很大影響，不僅會導致信息系統(tǒng)崩潰，而且會使大量數(shù)據(jù)泄露。

1.2.3 數(shù)據(jù)存儲

傳統(tǒng)數(shù)據(jù)安全體系傾向于將數(shù)據(jù)虛擬化統(tǒng)一存儲，這會帶來兩方面的問題：（1）存儲設備經(jīng)常會是異構的，其虛擬化存儲功能難于統(tǒng)一部署和管理；（2）虛擬化存儲的實現(xiàn)過程是在相同物理介質(zhì)上混合存儲不同密級數(shù)據(jù)，加之用戶并不清晰自己的數(shù)據(jù)以何種存儲方式存儲在何種地方的何種介質(zhì)中，容易造成數(shù)據(jù)的越權訪問，進而可能導致數(shù)據(jù)泄露。

通過分析與傳統(tǒng)數(shù)據(jù)安全體系特點的比對，發(fā)現(xiàn)實現(xiàn)大數(shù)據(jù)安全的捷徑是在傳統(tǒng)數(shù)據(jù)安全體系框架中，補充對于由大數(shù)據(jù)帶來的數(shù)據(jù)安全風險的防護功能。

外界攻擊是使數(shù)據(jù)安全發(fā)生問題的最高頻原因，因此也是研究探討技術的主要涉及領域。

2 相關技術的國內(nèi)外研究現(xiàn)狀

2.1 基于H adoop的安全架構

Hadoop是一個使用Java編寫的開源分布式軟件框架，其以可靠、高效、可伸縮的方式對大數(shù)據(jù)進行分布式處理，在存儲和計算方面與普通的現(xiàn)有的單節(jié)點計算相比具有顯著優(yōu)勢，在全球范圍內(nèi)應用廣泛。汪來富等［4］研究了基于Hadoop 的大數(shù)據(jù)安全架構，主要設計了一種Hadoop的技術架構，以分層、分功能模塊的形式對可能存在的威脅情報進行滾動分析和動態(tài)更新。

但大數(shù)據(jù)分布式計算天生的缺點是難于保證異構平臺、各數(shù)據(jù)結點間的一致性和安全性，較大的數(shù)據(jù)冗余、難以及時準確地定位、沒有嵌入安全傳輸層協(xié)議TSL都使其安全機制非常薄弱。

2.2 威脅情報系統(tǒng)

威脅情報是通過大數(shù)據(jù)、分布式系統(tǒng)等方式獲取的漏洞、威脅、特征、行為等的知識集合及可操作性建議［5］，其基于攻擊者的視角，依靠廣泛的可見性及對互聯(lián)網(wǎng)威脅的全方位理解，對傳統(tǒng)防御方式進行了邏輯上的補充，從而幫助管理者全方位地了解可能的威脅，并采取準確的行動以消弭損失。宋曉峰等［5］研究了私有威脅情報系統(tǒng)的構建，設計通過爬取、流量分析等方式采集威脅情報數(shù)據(jù)，利用大數(shù)據(jù)和機器學習技術構建私有威脅情報系統(tǒng)，以獲取可疑IP、域名或HASH值的詳細威脅報告。

2.3 A PT 攻擊檢測

APT（Advanced Persisted Threat）攻擊是針對重要數(shù)據(jù)進行的一系列多方位多方法的持續(xù)攻擊行為，在發(fā)動攻擊前收集被攻擊對象的業(yè)務流程和目標系統(tǒng)等相關信息。在收集過程中，APT 攻擊會主動挖掘目標受信系統(tǒng)和應用程序的漏洞，利用其組建攻擊者所需的網(wǎng)絡，并利用漏洞進行精確攻擊。周濤［6］研究了5種APT 攻擊檢測方案，其研究的主要思想是借助大數(shù)據(jù)分析技術，綜合以深度學習為基礎的網(wǎng)絡異常行為和異常流量檢測、未知行為沙箱行為檢測、攻擊溯源等檢測技術，對APT 攻擊鏈的7個階段進行全面關聯(lián)檢測。文獻同時為不同檢測技術和APT攻擊鏈不同階段間建立了邏輯關系模型。

2.4 網(wǎng)絡隔離

網(wǎng)絡隔離技術是指把兩個或兩個以上可以路由的網(wǎng)絡通過不可路由的協(xié)議進行數(shù)據(jù)交換，從而達到隔離的目的。范浩［7］提出了采用內(nèi)墻和外墻兩種模式隔離網(wǎng)絡的方法：內(nèi)墻防護數(shù)據(jù)系統(tǒng)，只與特定的業(yè)務系統(tǒng)交互；外墻防護業(yè)務系統(tǒng)，避免攻擊滲透到內(nèi)網(wǎng)。

但2018年11月初發(fā)生的伊朗核設施遭到以色列“震網(wǎng)”病毒攻擊導致癱瘓的事件向我們證明了即使是與外界物理、通信都隔離的系統(tǒng)也有被攻擊的可能，這說明網(wǎng)絡隔離的方法從邏輯上仍需改變。

2.5 身份認證

身份認證技術是當前應用最廣泛的數(shù)據(jù)安全防護策略，即系統(tǒng)在對操作者身份加以識別時，以特定數(shù)據(jù)為依據(jù)，對用戶進行認定并授權。因此，可利用身份認證技術，借助個性化指令、個性化認證密鑰的應用，判斷當前操作者是否合法，以此推動數(shù)據(jù)安全防線的構建。高陽等［8］提出通過數(shù)字證書、虹膜識別等身份認證方式來授予用戶接觸數(shù)據(jù)的權限。但這種單一的身份認證方式在用戶、硬件上均有其局限性：用戶的專屬標識可能會被盜取、木馬截獲或因經(jīng)濟利益出賣；忘記攜帶或認證過程過于繁瑣也會對日常工作造成很多負擔。

2.6 安全規(guī)則挖掘

數(shù)據(jù)安全技術可以通過數(shù)據(jù)挖掘來建立安全規(guī)則，保證數(shù)據(jù)信息的安全，其主要手段是聚類分析，按照數(shù)據(jù)中所發(fā)現(xiàn)對象的描述信息和關系信息對數(shù)據(jù)對象進行分組。譚正云［9］提出運用K-means 的聚類型數(shù)據(jù)挖掘算法探索并求證數(shù)據(jù)安全規(guī)則，從而實現(xiàn)防火墻或入侵檢測的功能，研究也對K-means 算法做了相關改進：突破了其數(shù)據(jù)項僅適用于數(shù)字的情況的限制、采用了基于密度的自動聚類，在很大程度上克服了算法的初始條件敏感性和可能的聚類失效問題。

3 技術缺陷的解決方案探索

經(jīng)過對大數(shù)據(jù)環(huán)境下數(shù)據(jù)安全技術研究現(xiàn)狀的探索，研究發(fā)現(xiàn)在這些主流技術中，基于Hadoop 的安全架構、網(wǎng)絡隔離與身份認證技術存在較明顯的問題，是下面研究探索解決方案的對象。

3.1 解決思路與實施辦法

根據(jù)問題的難易程度與現(xiàn)實狀況，研究采取文獻研究法、功能分析法、個案分析法與描述性研究法解決問題：針對Hadoop 平臺架構的安全機制問題，通過查閱相關文獻資料并嘗試總結歸納以得出解決方案；針對網(wǎng)絡隔離與身份認證技術，由其實現(xiàn)的機制及反映缺陷的案例入手，從整個業(yè)務流程角度探索技術路線的優(yōu)化方案。

3.2 解決方案

3.2.1 Hadoop平臺架構的安全機制

（1）針對其數(shù)據(jù)結點難于準確定位與平臺安全性的問題，可以采用基于密鑰-證書系統(tǒng)的結點認證措施以識別并及時阻斷惡意結點，保護數(shù)據(jù)通道；并依據(jù)不同密級與權限，為不同應用程序與用戶分發(fā)不同級別的密鑰。相關認證與密鑰授權服務可基于Kerberos 身份認證機制實現(xiàn)［10］：即在安全性不確定的網(wǎng)絡通信環(huán)境下，實體使用Kerberos 機制以安全的方式向另一個實體證明其身份，其核心是密鑰分發(fā)中心，基于系統(tǒng)-單一用戶間記載每個Kerberos 用戶的密鑰數(shù)據(jù)庫，密鑰分發(fā)中心為需要進行通信的兩實體間建立臨時會話密鑰，從而加密其交互信息。該機制的實現(xiàn)首先要在Hadoop集群的每個節(jié)點上配置Kerberos認證并安裝密鑰分發(fā)中心，建立對應的數(shù)據(jù)庫，最后配置Hadoop 集群使用Kerberos認證。

（2）針對其沒有嵌入安全傳輸層協(xié)議TLS的問題，可以在Hadoop的各數(shù)據(jù)結點間、數(shù)據(jù)結點與應用程序間嵌入TLS組件，保障服務器與代理間的交互，并對用戶的訪問進行加密保護，以設計出可靠的安全通信機制。

3.2.2 網(wǎng)絡隔離的脆弱性

從伊朗核設施遭“震網(wǎng)”病毒攻擊一事來看，只注重物理上的防御機制是不夠的：（1）要從管理層面，嚴控供應鏈管理，從源頭保障設備的安全性；加強從業(yè)人員的保密意識，防止系統(tǒng)漏洞信息外泄或被盜；同時，要做好移動存儲介質(zhì)的管控，減少惡意代碼和病毒的傳播；（2）要從技術層面，做好網(wǎng)絡流量監(jiān)測審計、設置安全設備進行網(wǎng)絡邊界防護、安全域劃分和控制系統(tǒng)主機防護等措施，廣泛采用各種安全技術，從技術層面加強系統(tǒng)安全防護能力。

只有實現(xiàn)保密單位“人防”、“物防”和“技防”三位一體，才能切實增強系統(tǒng)抵御如APT攻擊等破壞、竊取數(shù)據(jù)行為的能力，通過網(wǎng)絡實現(xiàn)數(shù)據(jù)安全防護。

3.2.3 身份認證的局限性與不便性

（1）增強對涉密人員關于涉密數(shù)據(jù)的保密意識的培訓，加強對間諜及危險行為的甄別、抵制能力，嚴防特異性數(shù)據(jù)的泄露。

（2）從立法角度對針對涉密數(shù)據(jù)的違規(guī)行為進行限制，違者嚴懲。

（3）運用大數(shù)據(jù)綜合分析手段，結合用戶生物特征及行為特征的特異性，進行多維度身份識別，如可以結合指紋控制系統(tǒng)和視網(wǎng)膜控制系統(tǒng)共同參與身份認證；也可以采取動態(tài)電子口令認證的形式來進一步強化數(shù)據(jù)的安全性。

（4）在加強對合法用戶獲取數(shù)據(jù)時的安全性的控制的同時，也需要加強對非法用戶入侵的管理和防范，可以通過建立黑名單系統(tǒng)，在云端加強數(shù)據(jù)安全防護能力。這一來防止敵對分子僅使用某一項授權特征即獲得數(shù)據(jù)權限，二來多維度身份識別使用戶不再為缺失某一項特征而煩惱，提高了系統(tǒng)的友好程度。

3.3 解決方案的不足之處與未來技術發(fā)展的可行路徑

（1）研究針對Hadoop 平臺架構安全機制提出的解決方案未能從實際操作的角度開展實驗，完成并演示Kerberos認證機制和嵌入TLS組件的具體實現(xiàn)流程，后續(xù)有條件可以對相關操作進行詳細論述。

（2）在探索網(wǎng)絡隔離的解決方案時，未找到“震網(wǎng)”病毒所涉及技術的細節(jié)，因此在“技防”領域不能列舉出采用的針對性技術，后續(xù)可以嘗試深入了解“震網(wǎng)”病毒及其攻擊原理與應對技術，從而更具體、更針對性探討相應的數(shù)據(jù)安全問題。

4 結論與討論

伴隨著大數(shù)據(jù)的快速發(fā)展與廣泛應用，相關的數(shù)據(jù)安全問題也日益凸顯。大數(shù)據(jù)作為一種技術，可以與其他各種技術相結合，為作為數(shù)據(jù)源的自身提供安全防護。通過對流行技術的分析與對其缺陷的調(diào)查，不難發(fā)現(xiàn)只有全面完整的安全技術體系才能為大數(shù)據(jù)產(chǎn)業(yè)鏈的各階段提供可靠的數(shù)據(jù)安全保障。通過技術調(diào)研，研究發(fā)現(xiàn)在當前主流的數(shù)據(jù)安全技術中，基于Hadoop 的安全架構、網(wǎng)絡隔離與身份認證技術有較大改進空間，所以相關研究人員需要從整體和細節(jié)兩方面入手，積極創(chuàng)新現(xiàn)有的數(shù)據(jù)安全技術研究方法和研究內(nèi)容，從而更加有效地保障大數(shù)據(jù)的安全和可靠，提高大數(shù)據(jù)所參與行業(yè)的信息安全水平，進而促進大數(shù)據(jù)相關產(chǎn)業(yè)的蓬勃發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡