胡如會(huì) 曾造 賀道德
摘要:針對(duì)信息時(shí)代中大數(shù)據(jù)在管理及使用方面的安全問題,提出在可信計(jì)算下,通過加密數(shù)據(jù)、度量平臺(tái)完整性、檢測用戶身份認(rèn)證等方式,實(shí)現(xiàn)網(wǎng)絡(luò)主動(dòng)防御,確保大數(shù)據(jù)在存儲(chǔ)、傳輸、認(rèn)證整個(gè)信息處理過程中可控、可信、可管,使大數(shù)據(jù)更加安全有效。
關(guān)鍵詞:可信計(jì)算;大數(shù)據(jù);存儲(chǔ);傳輸;認(rèn)證
中圖分類號(hào):TP309.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2017)10-0016-03
1.引言
21世紀(jì)的今天,是一個(gè)全新的互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,數(shù)據(jù)以每年50%的比率遞增,每兩年翻一番。在數(shù)據(jù)公開的信息社會(huì)中,不管你是否愿意,任何人、任何公司或機(jī)構(gòu)都可以了解你。美國政府將大數(shù)據(jù)比喻為“未來的新石油”,一個(gè)國家對(duì)大數(shù)據(jù)的占有和控制將成為海、陸、空之外的另一種國家核心資產(chǎn),是綜合國力的重要組成部分。在國內(nèi),政府各個(gè)部門都擁有很多原始數(shù)據(jù),如金融數(shù)據(jù)、信用數(shù)據(jù)、交通數(shù)據(jù)、住房數(shù)據(jù)、醫(yī)療數(shù)據(jù)、教育數(shù)據(jù)等。這些數(shù)據(jù)在每個(gè)部門都是獨(dú)立的、靜態(tài)的,如果將這些獨(dú)立的數(shù)據(jù)關(guān)聯(lián)起來,對(duì)其進(jìn)行分析和統(tǒng)一管理,其價(jià)值是無法估量的。隨著大數(shù)據(jù)的進(jìn)一步集中和互聯(lián)網(wǎng)技術(shù)的發(fā)展,傳統(tǒng)的信息安全技術(shù)已成為大數(shù)據(jù)快速發(fā)展的瓶頸。大數(shù)據(jù)的安全問題會(huì)因?yàn)閿?shù)據(jù)規(guī)模、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)等因素而面臨新的安全威脅與挑戰(zhàn)。傳統(tǒng)的“封堵查殺”防護(hù)機(jī)制并不能有效地保障數(shù)據(jù)在互聯(lián)網(wǎng)中的安全,互聯(lián)網(wǎng)的可信運(yùn)行才是保障大數(shù)據(jù)安全的關(guān)鍵。面對(duì)大數(shù)據(jù)安全的威脅性和脆弱性,可信計(jì)算可以從根本上轉(zhuǎn)變“封堵查殺”的被動(dòng)防御模式,使攻擊者進(jìn)不去,進(jìn)去后非授權(quán)者拿不到數(shù)據(jù),竊取保密信息后無法破解,基本實(shí)現(xiàn)大數(shù)據(jù)在網(wǎng)絡(luò)中的主動(dòng)免疫和可信管理。因此,本文通過分析可信計(jì)算與大數(shù)據(jù)的關(guān)系,針對(duì)大數(shù)據(jù)的安全問題,對(duì)可信計(jì)算下大數(shù)據(jù)的安全存儲(chǔ)、安全傳輸、安全認(rèn)證方面作了進(jìn)一步探討和論述。
2.可信計(jì)算與大數(shù)據(jù)
可信計(jì)算(Trusted Computing)指計(jì)算機(jī)系統(tǒng)所提供的服務(wù)是可信賴的,是一種運(yùn)算和防護(hù)并存的信息安全新技術(shù),使計(jì)算結(jié)果總是與預(yù)期一樣,全程可測可控,具有狀態(tài)度量、保密存儲(chǔ)和身份識(shí)別等功能,使系統(tǒng)和網(wǎng)絡(luò)安全可信。可信計(jì)算以TPM(Trusted Platform Module)設(shè)備作為基礎(chǔ),其基本思想是在計(jì)算機(jī)系統(tǒng)上置入一個(gè)可信平臺(tái)模塊硬件芯片TPM,以其作為平臺(tái)的信任根,再從信任根開始到硬件、操作系統(tǒng)、應(yīng)用層建立一條信任鏈,逐級(jí)測試、逐級(jí)驗(yàn)證,將信任擴(kuò)展到整個(gè)計(jì)算機(jī)平臺(tái),確保整個(gè)信息系統(tǒng)的可信。大數(shù)據(jù)(Big Data),在IT行業(yè)又稱巨量數(shù)據(jù)集合,是指“無法用現(xiàn)有的軟件工具搜索、存儲(chǔ)、提取、分析、共享和處理的海量的、復(fù)雜的、多樣的數(shù)據(jù)集合?!本S基百科將大數(shù)據(jù)定義為:“無法在一定時(shí)間內(nèi)使用常規(guī)數(shù)據(jù)庫管理工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集?!痹诰S克托·邁爾一舍恩伯格編寫的《大數(shù)據(jù)時(shí)代》中用5個(gè)“v”來概括了大數(shù)據(jù)特征:Volume(大量)、VelociIv(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。大數(shù)據(jù)本質(zhì)上還是數(shù)據(jù),是互聯(lián)網(wǎng)發(fā)展到現(xiàn)階段的一種表象或特征,其已經(jīng)滲透到每一個(gè)行業(yè)領(lǐng)域,成為重要的生產(chǎn)因素。隨著大數(shù)據(jù)的快速發(fā)展,未來幾年數(shù)據(jù)泄露將會(huì)泛濫,數(shù)據(jù)泄露事件的增長率也許會(huì)達(dá)到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障。以服務(wù)為中心的計(jì)算任務(wù)中,大數(shù)據(jù)的應(yīng)用需要可信作為發(fā)展前提,需要可信度量作為基礎(chǔ)。如果沒有相應(yīng)的可信機(jī)制,將無法保證大數(shù)據(jù)在存儲(chǔ)、傳輸、認(rèn)證方面的安全。
3.可信計(jì)算下的大數(shù)據(jù)安全
3.1可信安全存儲(chǔ)
大數(shù)據(jù)中非結(jié)構(gòu)化的數(shù)據(jù)占主流,傳統(tǒng)的數(shù)據(jù)處理技術(shù)不能有效地處理半結(jié)構(gòu)化和非結(jié)構(gòu)化的多維數(shù)據(jù),面對(duì)復(fù)雜多樣的大數(shù)據(jù)存儲(chǔ),目前的數(shù)據(jù)存儲(chǔ)管理模式容易造成數(shù)據(jù)失竊和篡改。大數(shù)據(jù)的安全存儲(chǔ)涉及3個(gè)方面的問題:(1)數(shù)據(jù)的存儲(chǔ)環(huán)境是否安全可靠;(2)采用何種存儲(chǔ)方式存儲(chǔ)才能確保數(shù)據(jù)不被攻擊和泄露;(3)如何保障數(shù)據(jù)存儲(chǔ)機(jī)制的安全??尚庞?jì)算是目前大數(shù)據(jù)安全的一種新技術(shù),是從使用終端開始主動(dòng)防范攻擊,其有別于傳統(tǒng)的安全防御機(jī)制。針對(duì)大數(shù)據(jù)安全存儲(chǔ)的存儲(chǔ)環(huán)境、存儲(chǔ)方式和存儲(chǔ)保護(hù)等3個(gè)問題,利用可信計(jì)算技術(shù)設(shè)計(jì)了大數(shù)據(jù)安全存儲(chǔ)方案,如圖l所示。這種技術(shù)以可信平臺(tái)模塊TPM作為信任根,通過可信計(jì)算提供的安全特性來提高大數(shù)據(jù)的存儲(chǔ)安全。
存儲(chǔ)環(huán)境的安全可靠是大數(shù)據(jù)存儲(chǔ)的前提,內(nèi)置于計(jì)算機(jī)系統(tǒng)中的TPM作為一個(gè)可信的信任根,通過完整性度量機(jī)制來判斷大數(shù)據(jù)存儲(chǔ)環(huán)境是否被攻擊和篡改。完整性度量就是對(duì)當(dāng)前大數(shù)據(jù)系統(tǒng)平臺(tái)運(yùn)行狀態(tài)的收集,其度量過程也就是信任鏈的建立過程。目前主流的度量方法有基于屬性的度量、基于二進(jìn)制的度量和基于語義的度量。大數(shù)據(jù)系統(tǒng)平臺(tái)從信任根開始啟動(dòng),先度量系統(tǒng)BIOS,將度量結(jié)果通過擴(kuò)展方式存儲(chǔ)到對(duì)應(yīng)的系統(tǒng)平臺(tái)狀態(tài)寄存器PCR(Platform State Register)中,由此繼續(xù)往下度量操作系統(tǒng)啟動(dòng)模塊、系統(tǒng)內(nèi)核、系統(tǒng)上的應(yīng)用程序,并為它們建立起一條信任鏈,每完成一次度量,都把度量值存儲(chǔ)到PCR中,平臺(tái)狀態(tài)一旦被度量和存儲(chǔ),攻擊者就無法偽造平臺(tái)的狀態(tài)來竊取數(shù)據(jù)。如圖2,用戶訪問大數(shù)據(jù)平臺(tái)時(shí),通過平臺(tái)完整性報(bào)告的度量值與已存儲(chǔ)的度量標(biāo)準(zhǔn)參考值進(jìn)行比對(duì),依靠可信平臺(tái)來鑒定存儲(chǔ)值的完整性,如果一致則說明存儲(chǔ)環(huán)境完整可信,否則表明系統(tǒng)啟動(dòng)過程中數(shù)據(jù)發(fā)生了改變。
要確保大數(shù)據(jù)不被攻擊和泄露,加密存儲(chǔ)是關(guān)鍵。大數(shù)據(jù)在被上傳到服務(wù)器后,一方面服務(wù)器出現(xiàn)故障會(huì)導(dǎo)致數(shù)據(jù)泄漏,另一方面服務(wù)器被非法入侵后,數(shù)據(jù)存在被竊取和篡改的風(fēng)險(xiǎn)。如果數(shù)據(jù)擁有者在將數(shù)據(jù)上傳服務(wù)器之前就對(duì)大數(shù)據(jù)進(jìn)行拆分、加密,即使大數(shù)據(jù)在傳輸或存儲(chǔ)過程中丟失,也會(huì)因?yàn)槭孪燃用芏粫?huì)發(fā)生信息泄露。加密算法是把明文變成密文,密文再變回明文,變不回來的不能算是加密。目前市場上基于可信計(jì)算技術(shù)常用的加密算法是RSA公鑰加密算法和ECC橢圓曲線加密算法。RSA加密算法是目前最具影響力的公鑰加密算法,RSA加密算法已被ISO推薦為公鑰數(shù)據(jù)加密標(biāo)準(zhǔn)。ECC橢圓曲線加密算法是目前已知的公鑰體制中,對(duì)每比特所提供加密強(qiáng)度最高的一種體制,具有大數(shù)運(yùn)算、大容量存儲(chǔ)等特點(diǎn)。加密算法的安全性取決于密鑰的安全性,由于公共大數(shù)據(jù)平臺(tái)的用戶眾多,大數(shù)據(jù)服務(wù)系統(tǒng)需要管理大量的用戶密鑰。一旦用戶密鑰泄露,與之相關(guān)的大數(shù)據(jù)資源將會(huì)被竊取和篡改,將給用戶帶來不可估算的損失。因?yàn)榭尚庞?jì)算平臺(tái)TPM具有防篡改功能,所以用戶密鑰存儲(chǔ)在其內(nèi)部相對(duì)較安全,為了對(duì)眾多的用戶密鑰進(jìn)行保護(hù),可信計(jì)算組織提出采用樹形結(jié)構(gòu)對(duì)其進(jìn)行存儲(chǔ)和管理。大數(shù)據(jù)迅猛發(fā)展使數(shù)據(jù)量急劇增加,公共數(shù)據(jù)平臺(tái)的存儲(chǔ)安全問題更加突出,由于可信計(jì)算技術(shù)的研究與應(yīng)用在國內(nèi)已經(jīng)比較成熟,所以使用可信計(jì)算提升系統(tǒng)的安全性是解決大數(shù)據(jù)存儲(chǔ)安全問題的有效方法之一。
3.2可信安全傳輸
大數(shù)據(jù)時(shí)代,信息交流離不開大量數(shù)據(jù)的傳輸,數(shù)據(jù)傳輸?shù)陌踩詥栴}不可回避。數(shù)據(jù)在傳輸前,必須保證該數(shù)據(jù)來自受信任的一方,且要確保數(shù)據(jù)的機(jī)密性和確保數(shù)據(jù)免受意外或被故意修改。因此,重要數(shù)據(jù)的傳輸更需要一種強(qiáng)有力的安全措施來確保其不被竊取和篡改,基于可信計(jì)算的數(shù)據(jù)加密算法為大數(shù)據(jù)傳輸提供了較好的解決方法。
數(shù)據(jù)在傳輸過程中要通過口令或數(shù)字證書來進(jìn)行身份驗(yàn)證,以確保數(shù)據(jù)來自可信任的一方。發(fā)送者用姓名、證件號(hào)等私鑰加密一個(gè)簽名,接收者用公鑰來解密,如果成功即能確保數(shù)據(jù)可信,否則,數(shù)據(jù)不可信。假設(shè)A發(fā)送文件給B,則A和B至少需經(jīng)過三個(gè)步驟:(1)A用其私鑰加密該文件;(2)A將加密文件發(fā)送給B;(3)B用A的公鑰解密A發(fā)送的文件。為確保數(shù)據(jù)信息在傳輸過程中不被泄露和篡改,在大數(shù)據(jù)平臺(tái)中引入可信認(rèn)證服務(wù),增加身份和平臺(tái)合法性的認(rèn)證,這種可信認(rèn)證方式能確保數(shù)據(jù)安全傳輸,從而保證了大數(shù)據(jù)在傳輸中的可信與安全。由于TPM的密鑰采用樹形結(jié)構(gòu)進(jìn)行管理,所以A在傳輸前,用自己的私鑰將文件從子密鑰、父密鑰到根密鑰SRK層層加密,以確保數(shù)據(jù)在傳輸過程中的機(jī)密性;當(dāng)B接收到A傳來的文件后,必須先將其從根密鑰SRK到該密鑰的所有的父密鑰進(jìn)行層層解密,直到該密鑰對(duì)應(yīng)的數(shù)據(jù)被完全解密為止,才能看到該文件的明文。
為了確保數(shù)據(jù)在傳輸過程中免受意外或被故意修改,可以通過驗(yàn)證被傳輸?shù)臄?shù)據(jù)是否完整來判斷。數(shù)據(jù)傳輸前先通過SHA-1求出其對(duì)應(yīng)的哈希值,接收者收到數(shù)據(jù)后,將該數(shù)據(jù)的哈希值與傳輸數(shù)據(jù)的哈希值進(jìn)行比較,判斷該數(shù)據(jù)是否被篡改。如果對(duì)比不上,說明已被破壞或篡改,則拒絕進(jìn)一步接收數(shù)據(jù)。如果對(duì)比符合,說明發(fā)送端和數(shù)據(jù)可信。由于大數(shù)據(jù)在傳輸過程中的安全需求不同,不同的數(shù)據(jù)加密要求也不同,所以數(shù)據(jù)在傳輸過程中為了確保其安全、可靠,應(yīng)在可信計(jì)算下,根據(jù)不同的數(shù)據(jù)安全要求提供不同的數(shù)據(jù)傳輸方案。
3.3可信安全認(rèn)證
傳統(tǒng)的大數(shù)據(jù)認(rèn)證技術(shù)主要通過用戶口令或持有的數(shù)字證書來鑒別,這樣就會(huì)存在問題:一方面,攻擊者一旦竊取到用戶口令或用戶持有的數(shù)字憑證就能輕松通過認(rèn)證;另一方面,傳統(tǒng)認(rèn)證技術(shù)中的認(rèn)證方式越安全就意味著用戶負(fù)擔(dān)越重,如果采用先進(jìn)的認(rèn)證技術(shù)如生物認(rèn)證,又需要用戶終端具有生物特征識(shí)別功能,這樣反而是增加了系統(tǒng)更大的開銷和不現(xiàn)實(shí)。傳統(tǒng)的大數(shù)據(jù)認(rèn)證技術(shù)已不適合應(yīng)用于當(dāng)前的大數(shù)據(jù)管理,如果在認(rèn)證技術(shù)中引入可信計(jì)算則能夠有效地解決上述兩個(gè)問題。根據(jù)可信計(jì)算技術(shù),首先為用戶構(gòu)建配有安全芯片TPM的可信終端,用來度量大數(shù)據(jù)平臺(tái)的完整性,加密重要信息和檢測惡意代碼,同時(shí)采用基于可信計(jì)算的ECC橢圓曲線加密技術(shù),該技術(shù)在目前加密算法中具有高強(qiáng)度的保密性。其次,為確保數(shù)據(jù)在傳輸中的安全,除終端設(shè)備需要可信性自認(rèn)證外,還需通過檢測代理和服務(wù)器的可信認(rèn)證。根據(jù)可信計(jì)算技術(shù)中可信網(wǎng)絡(luò)連接的相關(guān)規(guī)范,可在用戶終端不同網(wǎng)關(guān)處設(shè)置可信檢測代理,用以檢測惡意行為。用戶終端需要訪問大數(shù)據(jù)服務(wù)平臺(tái)時(shí),必須經(jīng)可信檢測驗(yàn)證判斷其是否安全可信,若通過驗(yàn)證則允許用戶訪問網(wǎng)絡(luò),否則拒絕請求。如圖3所示,當(dāng)用戶終端向大數(shù)據(jù)平臺(tái)服務(wù)器發(fā)出需求請求后,可信檢測代理
首先檢查網(wǎng)絡(luò)連接以排除非法數(shù)據(jù)鏈接,然后用終端公鑰解密簽名以驗(yàn)證終端用戶的合法性,當(dāng)服務(wù)器認(rèn)定用戶身份可信時(shí),再用大數(shù)據(jù)平臺(tái)的私鑰解密用戶終端傳來的數(shù)據(jù)信息,然后響應(yīng)用戶傳輸數(shù)據(jù)請求。
4.結(jié)束語
總之,大數(shù)據(jù)已成為各個(gè)國家和相關(guān)領(lǐng)域關(guān)注的重要戰(zhàn)略資源,將會(huì)帶動(dòng)科技創(chuàng)新和未來生產(chǎn)力發(fā)展,對(duì)國家治理、政府決策、企業(yè)規(guī)劃以及人們的生活方式等都將產(chǎn)生一系列的影響。原有的數(shù)據(jù)處理手段已經(jīng)不適應(yīng)迅速增大的數(shù)據(jù)量,原有的計(jì)算環(huán)境、存儲(chǔ)方式、傳輸模式也在隨著數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)分析、數(shù)據(jù)挖掘等大數(shù)據(jù)技術(shù)的發(fā)展而變化。在可信計(jì)算下,以數(shù)據(jù)訪問控制為核心,實(shí)現(xiàn)主動(dòng)防御,確保大數(shù)據(jù)在存儲(chǔ)、傳輸、認(rèn)證整個(gè)信息處理過程中可控、可信、可管,使大數(shù)據(jù)更加安全有效。