蘇禮
【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)安全;數(shù)據(jù)隱私;危機(jī);數(shù)據(jù)加密
隨著大數(shù)據(jù)時(shí)代的到來,當(dāng)下社會(huì)的各行各業(yè)都發(fā)生了巨大的轉(zhuǎn)變,人們的工作和生活實(shí)現(xiàn)了信息化與智能化的轉(zhuǎn)變,利用計(jì)算機(jī)網(wǎng)絡(luò)為基礎(chǔ)的通信、網(wǎng)絡(luò)服務(wù)等信息基礎(chǔ)設(shè)施在人們的生活中也扮演著越來越重要的角色。近年來,隨著傳感器等研究領(lǐng)域的不斷創(chuàng)新,移動(dòng)設(shè)備、云計(jì)算系統(tǒng)、社交媒體、物聯(lián)網(wǎng)等計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,面對(duì)互聯(lián)網(wǎng)海量的數(shù)據(jù)業(yè)務(wù)、數(shù)據(jù)迭代更新等特點(diǎn),各類數(shù)據(jù)所存在的安全問題凸顯,因此研究新形勢(shì)下大數(shù)據(jù)的信息安全及安全預(yù)防技術(shù)具有非常重要的意義。世界各地也在積極探索大數(shù)據(jù)背景下的信息安全等相關(guān)技術(shù),在保障大數(shù)據(jù)穩(wěn)步發(fā)展的前提下,通過大數(shù)據(jù)的應(yīng)用,為我國(guó)的經(jīng)濟(jì)提升和社會(huì)穩(wěn)定提供充分的保障,同時(shí)維護(hù)大數(shù)據(jù)信息的使用安全,達(dá)到數(shù)據(jù)技術(shù)的可持續(xù)發(fā)展。
(一)大數(shù)據(jù)的概念及發(fā)展
大數(shù)據(jù)一般是指以計(jì)算機(jī)和網(wǎng)絡(luò)為基礎(chǔ)的,通過數(shù)據(jù)的分類、挖掘等方法,獲取數(shù)據(jù)潛在的內(nèi)部規(guī)律,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)分析,得出新信息,找出有價(jià)值有意義的數(shù)據(jù),通常與云計(jì)算有著緊密地聯(lián)系。同時(shí)要求對(duì)數(shù)據(jù)信息處理更加的高效、并且智能地從海量信息中找到可以進(jìn)行利用的數(shù)據(jù)。大數(shù)據(jù)不單單是指數(shù)據(jù)規(guī)模大、數(shù)據(jù)數(shù)量多,尤其是數(shù)據(jù)的類型較為復(fù)雜多變,例如包括視頻音頻、文字圖片等等。當(dāng)今聊天工具、直播平臺(tái)和微博博客以及購物平臺(tái)等信息傳播方式的轉(zhuǎn)變,產(chǎn)生了越來越多的數(shù)據(jù),因此對(duì)數(shù)據(jù)的處理質(zhì)量也有著較高的要求,尤其對(duì)這些海量數(shù)據(jù)的分類及安全性的研究,一直是許多科研工作者廣泛研究的課題之一[1]。
大數(shù)據(jù)按四個(gè)V對(duì)數(shù)據(jù)進(jìn)行了分類,即速度、種類、真實(shí)性、體積。這些特征性為大數(shù)據(jù)的識(shí)別提供了獨(dú)特的功能,同時(shí),這些特點(diǎn)也導(dǎo)致了數(shù)據(jù)隱私技術(shù)和數(shù)據(jù)安全問題的產(chǎn)生[2]。在本文中,筆者針對(duì)這些問題和挑戰(zhàn),提出了一種在工具和技術(shù)方面的補(bǔ)救方法。
(二)大數(shù)據(jù)面臨的主要挑戰(zhàn)
大數(shù)據(jù)面臨的主要挑戰(zhàn)主要分為以下幾部分,即不安全的計(jì)算能力、輸入和驗(yàn)證過濾、精細(xì)訪問控制、不安全的存儲(chǔ)數(shù)據(jù)、隱私問題等。大數(shù)據(jù)背景下的信息安全涉及范圍較廣,一般可分為:系統(tǒng)安全、環(huán)境安全、程序安全、數(shù)據(jù)安全四個(gè)方面。當(dāng)下進(jìn)入大數(shù)據(jù)時(shí)代下,網(wǎng)絡(luò)信息已滲透到每一個(gè)人的工作和生活中,因?yàn)樵诨ヂ?lián)網(wǎng)中充斥著大量流動(dòng)的信息,因此大數(shù)據(jù)的信息安全即成為網(wǎng)絡(luò)應(yīng)用中最突出的問題之一??紤]到以上場(chǎng)景中的這些挑戰(zhàn),我們可以使用一些大數(shù)據(jù)工具和技術(shù)加以優(yōu)化[3]。
大數(shù)據(jù)的體系結(jié)構(gòu)包含許多技能,例如開發(fā)可靠的自動(dòng)化數(shù)據(jù)管道。實(shí)際上,大數(shù)據(jù)沒有特定的標(biāo)準(zhǔn)化體系架構(gòu),這也是一項(xiàng)新的研究領(lǐng)域,例如速度、體積、延遲、真實(shí)性、可擴(kuò)展性等特征,容錯(cuò)也剛剛成為大數(shù)據(jù)架構(gòu)的關(guān)鍵和重要特征。大數(shù)據(jù)還有許多其他的內(nèi)在屬性,如自動(dòng)分層、容易轉(zhuǎn)移等[4]。除了傳統(tǒng)的數(shù)據(jù)源之外,還可以使用許多其他在線資源來完成數(shù)據(jù)源整合。Map-Reduce提供了更靈活、更強(qiáng)大的執(zhí)行編程范式框架,程序分為多個(gè)數(shù)據(jù)節(jié)點(diǎn)執(zhí)行各自的數(shù)據(jù)節(jié)點(diǎn),最后將其縮減為單個(gè)集合的結(jié)果。
(一)大數(shù)據(jù)安全面臨的挑戰(zhàn)
大數(shù)據(jù)的安全機(jī)制并非普遍薄弱,點(diǎn)對(duì)點(diǎn)的安全機(jī)制是大數(shù)據(jù)處理方面最好的機(jī)制之一。通過使用并行性、自動(dòng)分層等特性,可獲得更加有效的安全機(jī)制[5]。
1、數(shù)據(jù)挖掘中的隱私問題:數(shù)據(jù)挖掘概念在隱私方面存在許多問題,而且給分析結(jié)果賦予了很多挑戰(zhàn),比如信息披露、公私密鑰的披露等。
2、不安全的數(shù)據(jù)存儲(chǔ):數(shù)據(jù)的身份驗(yàn)證和授權(quán)是最主要的問題,從數(shù)據(jù)的存儲(chǔ)到交付至數(shù)據(jù)管理節(jié)點(diǎn),可能經(jīng)歷不安全的數(shù)據(jù)計(jì)算、身份驗(yàn)證、授權(quán)、數(shù)據(jù)加密和不安全的介質(zhì)等。
3、不安全的計(jì)算:不受信任的計(jì)算編程范式。攻擊者使用不安全的數(shù)據(jù)計(jì)算來獲取數(shù)據(jù)中的敏感和機(jī)密信息等資源,不僅會(huì)造成信息的泄露,還會(huì)破壞數(shù)據(jù),導(dǎo)致分析和預(yù)測(cè)的結(jié)果不準(zhǔn)確或無效。
4、在DOS輸入驗(yàn)證和過濾中:拒絕服務(wù)(DOS)也將影響在輸入驗(yàn)證中和訪問大規(guī)模并行編程語言的禁用。由于大數(shù)據(jù)需要收集各種輸入信息,因此,它需要一個(gè)更嚴(yán)謹(jǐn)和更可靠的驗(yàn)證輸入,以及一個(gè)過濾惡意數(shù)據(jù)的過濾器。
考慮到上述這些挑戰(zhàn),可以通過某些方案加以解決,如密碼學(xué)、安全計(jì)算數(shù)據(jù)存儲(chǔ)、實(shí)施綜合輸入驗(yàn)證等。處理大數(shù)據(jù)需要更快計(jì)算響應(yīng)時(shí)間,并加入安全含義。本文將在下面的章節(jié)中,討論上述兩個(gè)解決方案[6]。
(二)大數(shù)據(jù)安全的密碼解決方案
在Hadoop中,沒有算法來加密或解密機(jī)載數(shù)據(jù),即本地?cái)?shù)據(jù)和HDFS文件系統(tǒng)。Hadoop工作在Linux平臺(tái),所以它使用Linux本地系統(tǒng)作為臨時(shí)存儲(chǔ)系統(tǒng)。在Map-Reduce任務(wù)處理后,Map-Reduce的輸入進(jìn)入本地以及HDFS(在用戶的幫助下)。Hadoop只有一個(gè)端到端的安全系統(tǒng)Kerberos。Kerberos是一種基于跟蹤用戶對(duì)特定服務(wù)的訪問和系統(tǒng)限制決策的服務(wù)。僅提供安全網(wǎng)關(guān)來限制訪問Hadoop環(huán)境中不需要的或未經(jīng)授權(quán)的用戶和服務(wù),基本可以認(rèn)為是Hadoop的策略管理器。首先假設(shè),如果未經(jīng)授權(quán)的用戶獲得了Hadoop環(huán)境的許可,那么整個(gè)Hadoop系統(tǒng)就會(huì)受到損害,它將導(dǎo)致數(shù)據(jù)失竊或數(shù)據(jù)丟失,為了確保這個(gè)循環(huán)漏洞,我們可以創(chuàng)建一個(gè)RSA+AES加密和解密算法的系統(tǒng),這樣,即使Hadoop系統(tǒng)受到威脅,HDFS或本地中的數(shù)據(jù)也不會(huì)受到影響。數(shù)據(jù)在加密和解密時(shí),只提供一次寫入和多次讀取的機(jī)會(huì),并被保存在文件系統(tǒng)中,用戶使用密鑰組合以及一些支持的文件來打開(解密)該文件以供使用。這是一個(gè)自動(dòng)化的過程,如果用戶在讀取文件后關(guān)閉此文件,并要求再次讀取該數(shù)據(jù)文件時(shí),則需要提供密鑰和使用文件組合來再次讀取[7]。
MapReduce框架能夠使用分布式計(jì)算來處理數(shù)據(jù)。這是一個(gè)編程模型和一個(gè)處理大數(shù)據(jù)的分布式計(jì)算框架??捎糜诰帉懽詣?dòng)可擴(kuò)展云環(huán)境中的分布式應(yīng)用程序。此框架可自動(dòng)擴(kuò)展和并行化算法,負(fù)責(zé)對(duì)數(shù)據(jù)的數(shù)據(jù)新型分區(qū)、調(diào)度、同步和處理故障,讓程序員更專注于開發(fā)算法并盡可能的減少后臺(tái)任務(wù)。MapReduce被認(rèn)為是最可持續(xù)和最強(qiáng)大的大數(shù)據(jù)下的編程范式。
在大數(shù)據(jù)隱私范式中,對(duì)敏感和機(jī)密數(shù)據(jù)的隔離非常重要。幾乎所有內(nèi)部和外部數(shù)據(jù)來源的過濾都必須是強(qiáng)制性的。需要對(duì)大數(shù)據(jù)源和解決方案進(jìn)行關(guān)鍵性輸入驗(yàn)證和過濾特性的評(píng)估,從而證實(shí)數(shù)據(jù)源能否進(jìn)行擴(kuò)大數(shù)據(jù)需求和安全問題處理。通常有兩種預(yù)防的方法,攻擊,當(dāng)存在不安全的隱患時(shí)映射器保護(hù)數(shù)據(jù),同時(shí)完整地保護(hù)映射;為敏感數(shù)據(jù)啟用數(shù)據(jù)節(jié)點(diǎn)加密,驗(yàn)證所有相關(guān)組件的API安全的正確配置等。這些算法用于數(shù)據(jù)的分析和預(yù)測(cè),必須及時(shí)驗(yàn)證分類和回歸,以便敏感數(shù)據(jù)得到及時(shí)敏感化。當(dāng)然,這也會(huì)降低敏感和機(jī)密數(shù)據(jù)的泄露率,但這是為大數(shù)據(jù)中使用的預(yù)防措施而建立的測(cè)試和分析,這點(diǎn)很重要,而且必須經(jīng)過滲透測(cè)試。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,與之相關(guān)的安全問題也在發(fā)展,數(shù)據(jù)安全問題必須成為人類一直研發(fā)和發(fā)展的重要課題之一。只有新創(chuàng)建的海量數(shù)據(jù)形式,要配有新的應(yīng)用程序和驅(qū)動(dòng)算法來進(jìn)行數(shù)據(jù)分析,并開發(fā)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)安全技術(shù),也相應(yīng)研發(fā)維護(hù)數(shù)據(jù)安全和隱私策略的特殊方法,才能不斷的應(yīng)對(duì)和解決不斷變化的數(shù)據(jù)安全問題。