陳垚坤 尹香蘭 劉文麗
陳垚坤 尹香蘭 劉文麗
(江南計(jì)算技術(shù)研究所 江蘇無(wú)錫 214083)
【 摘 要 】 論文分析大數(shù)據(jù)的特點(diǎn)及體系架構(gòu),得出大數(shù)據(jù)環(huán)境下訪問(wèn)控制應(yīng)滿足的原則,即自主、動(dòng)態(tài)、細(xì)粒度、跨域授權(quán)。通過(guò)對(duì)比分析訪問(wèn)控制模型DAC、MAC、RBAC及ABAC在大數(shù)據(jù)環(huán)境下適用性,得出結(jié)論:ABAC模型最適合應(yīng)用于大數(shù)據(jù)。同時(shí),論文針對(duì)大數(shù)據(jù)特性對(duì)各模型提出改進(jìn)建議。
【 關(guān)鍵詞 】 大數(shù)據(jù);訪問(wèn)控制
【 中圖分類(lèi)號(hào) 】 TP393 【 文獻(xiàn)標(biāo)識(shí)碼 】 A
【 Abstract 】 This paper analyzes the characteristics and architecture of Big Data.The Conclusion shows that Big Data need an independent, dynamic, fine-grained,cross-domain access control model.The applicability of DAC, MAC, RBAC, ABAC in Big Data environment has been comparingly analyzed.The Conclusion shows that ABAC is the most applicable access control model for Big Data.The suggestions of making improvements to adapt to the Big Data features have been proposed for access control models.
【 Keywords 】 big data; access control
1 引言
近年來(lái)隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,全世界每年產(chǎn)生的數(shù)據(jù)規(guī)模也在劇烈增長(zhǎng)。全球數(shù)據(jù)量從2010年起正式進(jìn)入ZB(109TB)時(shí)代,2011年達(dá)到1.8ZB,2012年2.7ZB,而且這個(gè)數(shù)字正在以超過(guò)年平均50%的速度增長(zhǎng),2020年預(yù)計(jì)將達(dá)到35ZB[1]。與此同時(shí),大數(shù)據(jù)技術(shù)包括數(shù)據(jù)采集、存儲(chǔ)、管理、分析挖掘、可視化等也在迅速發(fā)展。這些現(xiàn)象表明,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。大數(shù)據(jù)迅速發(fā)展的同時(shí),安全問(wèn)題也逐漸顯露出來(lái),因?yàn)榇髷?shù)據(jù)具有數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類(lèi)型繁多(Variety)、價(jià)值密度低(Value)、處理速度快(Velocity)等4V[2]特性,其所面臨的安全威脅也是非傳統(tǒng)的。
目前,大數(shù)據(jù)資源安全主要面臨著多種的風(fēng)險(xiǎn):非法用戶進(jìn)入系統(tǒng)、合法用戶訪問(wèn)權(quán)限外數(shù)據(jù)、敏感信息有泄漏風(fēng)險(xiǎn)[3]。針對(duì)以上安全風(fēng)險(xiǎn),通常采用的安全措施:使用身份驗(yàn)證系統(tǒng)阻止非法用戶接觸數(shù)據(jù);建立訪問(wèn)控制體系確保合法用戶只能訪問(wèn)權(quán)限內(nèi)數(shù)據(jù);對(duì)敏感數(shù)據(jù)進(jìn)行加密存儲(chǔ)以確保其隱私性等等。以上安全措施中,身份認(rèn)證技術(shù)主要針對(duì)用戶群體,只需要應(yīng)對(duì)用戶群規(guī)模的增大作改進(jìn);加密存儲(chǔ)技術(shù)主要針對(duì)數(shù)據(jù)資源,只需要應(yīng)對(duì)數(shù)據(jù)的規(guī)模增大和實(shí)時(shí)性強(qiáng)而作出改進(jìn)。這兩項(xiàng)技術(shù)相對(duì)而言改進(jìn)較少,較容易將傳統(tǒng)技術(shù)移植入大數(shù)據(jù)資源系統(tǒng)。而訪問(wèn)控制系統(tǒng)需要同時(shí)應(yīng)對(duì)用戶群體和數(shù)據(jù)資源的規(guī)模增大和高實(shí)時(shí)性,訪問(wèn)權(quán)限管理變得相當(dāng)復(fù)雜,很難在現(xiàn)有數(shù)據(jù)資源存儲(chǔ)系統(tǒng)中常用的訪問(wèn)控制技術(shù)上作改進(jìn)移植。因此,分析訪問(wèn)控制模型在大數(shù)據(jù)環(huán)境下的適用性,找出一種能很好使用大數(shù)據(jù)特性的訪問(wèn)控制模型,成為大數(shù)據(jù)安全方面的重要課題。
2 大數(shù)據(jù)體系結(jié)構(gòu)分析
2.1 大數(shù)據(jù)技術(shù)體系結(jié)構(gòu)
大數(shù)據(jù)的技術(shù)體系結(jié)構(gòu)如圖1所示。大數(shù)據(jù)的數(shù)據(jù)源包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)[4],其中結(jié)構(gòu)化數(shù)據(jù)所占的比例較小,絕大多數(shù)為非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這正是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)應(yīng)用的方面,而這種數(shù)據(jù)結(jié)構(gòu)比例也決定了傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、分析、安全技術(shù)需要作出較大改動(dòng)才能使用于大數(shù)據(jù)。大數(shù)據(jù)的預(yù)處理過(guò)程包括數(shù)據(jù)清洗和元數(shù)據(jù)抽取[5],這一過(guò)程可以將大數(shù)據(jù)中的無(wú)效或低效數(shù)據(jù)篩除。大數(shù)據(jù)處理平臺(tái)將篩選過(guò)的數(shù)據(jù)存入專(zhuān)門(mén)設(shè)計(jì)的高效分布式存儲(chǔ)系統(tǒng),并基于此存儲(chǔ)系統(tǒng)實(shí)現(xiàn)并行計(jì)算框架和高性能數(shù)據(jù)庫(kù)應(yīng)用,目前最適用的大數(shù)據(jù)處理平臺(tái)是Hadoop平臺(tái)[6]。在大數(shù)據(jù)生態(tài)體系的上層,用戶通過(guò)多種方式接入大數(shù)據(jù),通過(guò)身份驗(yàn)證后可調(diào)用大數(shù)據(jù)提供的多種數(shù)據(jù)服務(wù),包括高性能計(jì)算、數(shù)據(jù)查詢、數(shù)據(jù)分析和數(shù)據(jù)挖掘等,用戶調(diào)用的這些數(shù)據(jù)服務(wù)必須通過(guò)訪問(wèn)控制獲得相應(yīng)權(quán)限后,才能訪問(wèn)數(shù)據(jù)處理平臺(tái)中其所需的數(shù)據(jù)。
2.2 大數(shù)據(jù)訪問(wèn)控制原則
通過(guò)以上對(duì)大數(shù)據(jù)體系結(jié)構(gòu)的分析結(jié)合大數(shù)據(jù)的4V特點(diǎn),可以得出大數(shù)據(jù)環(huán)境下訪問(wèn)控制的四項(xiàng)原則。
(1)自主授權(quán)。大數(shù)據(jù)環(huán)境下,資源分布式存儲(chǔ)且規(guī)模巨大,如果采用管理員授權(quán)模式,授權(quán)效率低下,因此需要資源所有者能夠自主授權(quán),提高授權(quán)效率的同時(shí)增強(qiáng)授權(quán)的靈活性。
(2)動(dòng)態(tài)授權(quán)。大數(shù)據(jù)環(huán)境下,資源與用戶時(shí)刻都在動(dòng)態(tài)變化中,靜態(tài)的授權(quán)方式難以應(yīng)對(duì)這種動(dòng)態(tài)變化,無(wú)法保證授權(quán)的有效性。
(3)細(xì)粒度授權(quán)。非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)中占絕大部分,繁雜的數(shù)據(jù)類(lèi)型導(dǎo)致傳統(tǒng)的授權(quán)模式難以滿足最小授權(quán)原則。
(4)跨域授權(quán)。大數(shù)據(jù)中采用分布式存儲(chǔ)的方式,同時(shí)內(nèi)部會(huì)形成多個(gè)邏輯上的安全域,會(huì)出現(xiàn)頻繁的跨安全域訪問(wèn),必須保證跨域訪問(wèn)的安全性。
3 經(jīng)典訪問(wèn)控制模型適用性
3.1 自主訪問(wèn)控制模型DAC適用性
自主訪問(wèn)控制(Discretion Access Control,DAC)由客體擁有者規(guī)定主體對(duì)客體的訪問(wèn)權(quán)限,自主性體現(xiàn)在客體擁有者可以自主決定客體的授權(quán)。DAC模型的實(shí)現(xiàn)方法有三種:訪問(wèn)控制矩陣、訪問(wèn)控制列表、訪問(wèn)控制能力表。
由定義可知DAC模型靈活性高,可以滿足自主、細(xì)粒度授權(quán)的需求。但在大數(shù)據(jù)環(huán)境下,若用戶為O(m),資源為O(n),則訪問(wèn)控制矩陣空間代價(jià)為O(mn),訪問(wèn)控制矩陣的規(guī)模巨大導(dǎo)致管理困難,用戶和資源動(dòng)態(tài)性變化帶來(lái)的矩陣維護(hù)同樣非常困難,且DAC屬于靜態(tài)授權(quán),沒(méi)有考慮跨域訪問(wèn)時(shí)復(fù)雜的上下文環(huán)境帶來(lái)的影響。同時(shí),DAC存在安全性不高的缺陷:權(quán)限具有傳遞性,權(quán)限管理容易失控,無(wú)法阻止客體的非法訪問(wèn)。
3.2 強(qiáng)制訪問(wèn)控制模型MAC適用性
強(qiáng)制訪問(wèn)控制(Mandatory Access Control,MAC)的基本思想是通過(guò)給主體和客體標(biāo)記安全等級(jí),控制信息只能從安全級(jí)別低的實(shí)體向安全級(jí)別高的實(shí)體流動(dòng)。
MAC安全性較強(qiáng),但在大數(shù)據(jù)復(fù)雜的訪問(wèn)環(huán)境中難以為規(guī)模龐大的主客體制定恰當(dāng)?shù)陌踩燃?jí),將千萬(wàn)上億級(jí)別的數(shù)據(jù)僅僅劃分為數(shù)個(gè)或數(shù)十個(gè)安全等級(jí)顯然并不合適,同時(shí)其授權(quán)模式簡(jiǎn)單,對(duì)權(quán)限的控制力度也很粗放,難以滿足自主、動(dòng)態(tài)、細(xì)粒度授權(quán)的需求。MAC也屬于靜態(tài)授權(quán),沒(méi)有考慮上下文環(huán)境,在跨域訪問(wèn)時(shí),不同安全域之間的安全等級(jí)可能有不同定義,安全性無(wú)法滿足。
為適應(yīng)大數(shù)據(jù)環(huán)境,可在MAC模型中加入基于行為的考慮,將行為定義為角色、時(shí)態(tài)和環(huán)境的綜合體,既考慮了上下文時(shí)態(tài)對(duì)權(quán)限授予的影響,又繼承了MAC的強(qiáng)安全性。
3.3 基于角色訪問(wèn)控制模型RBAC適用性
基于角色的訪問(wèn)控制(Role-Based Access Control,RBAC),引入了角色的概念,作為主體和客體之間橋梁,將權(quán)限分配給角色,并將角色分配給系統(tǒng)中的用戶來(lái)授予用戶相應(yīng)權(quán)限。
RBAC是傳統(tǒng)的管理員授權(quán)模式,無(wú)法自主授權(quán),管理員可能缺乏足夠的專(zhuān)業(yè)知識(shí),無(wú)法準(zhǔn)確地為用戶指定可訪問(wèn)的數(shù)據(jù)范圍,而且由管理員集中定義用戶所有授權(quán)規(guī)則的方式從效率角度考慮也不理想。傳統(tǒng)數(shù)據(jù)服務(wù)中,RBAC中角色的劃分基于精確、封閉的用戶集和資源集,在大數(shù)據(jù)環(huán)境下,由于用戶集和資源集的動(dòng)態(tài)性,RBAC難以預(yù)先定義角色。當(dāng)用戶、資源動(dòng)態(tài)變化時(shí),與之相關(guān)的角色也可能失效需要重新定義,難以管理和維護(hù)。此外,RBAC同樣屬于靜態(tài)授權(quán),沒(méi)有考慮跨域訪問(wèn)時(shí)復(fù)雜的上下文環(huán)境。
因此,若要改進(jìn)RBAC模型使其適用于大數(shù)據(jù)環(huán)境,可以從兩方面入手。
(1)大數(shù)據(jù)角色挖掘技術(shù)。設(shè)計(jì)角色挖掘算法,分析系統(tǒng)中的訪問(wèn)記錄,自動(dòng)提取角色并對(duì)其進(jìn)行優(yōu)化,在系統(tǒng)中生成最小角色集,為用戶提供高效的個(gè)性化授權(quán)服務(wù)。
(2)基于工作流改進(jìn)。從工作流中的任務(wù)角度建模,將工作流分解為一些相互依賴(lài)的任務(wù),然后將任務(wù)分配給角色,角色通過(guò)執(zhí)行任務(wù)節(jié)點(diǎn)動(dòng)態(tài)獲得權(quán)限。
4 基于屬性模型適用性
基于屬性的訪問(wèn)控制模型ABAC(Attribute Based Access Control)是一個(gè)四元組(S、O、P、E),其中S、O、P和E分別是由主體屬性、客體屬性、操作屬性和環(huán)境屬性確定的主體、客體、操作和環(huán)境集合。ABAC制定完善的屬性策略集,用戶的每一次訪問(wèn)都要通過(guò)策略集判定是否合法,若合法則授予相應(yīng)的訪問(wèn)權(quán)限。
ABAC可以很好的適用于大數(shù)據(jù)場(chǎng)景,體現(xiàn)在四個(gè)方面。
(1)細(xì)粒度訪問(wèn)控制。ABAC模型將一次訪問(wèn)過(guò)程的所有元素使用屬性描述,可以嚴(yán)格控制訪問(wèn)者取得權(quán)限的各種條件,并且將可訪問(wèn)范圍精確到塊級(jí)別的資源,滿足最小權(quán)限原則。
(2)自主授權(quán)。在ABAC模型中,所有的訪問(wèn)控制策略都由資源所有者制定,而且模型可為用戶提供策略管理接口,資源所有者可以根據(jù)自身實(shí)際應(yīng)用需求新建、修改、刪除策略,保證了資源能夠按照其所有者的意愿被訪問(wèn)。
(3)動(dòng)態(tài)訪問(wèn)控制。在ABAC模型中,屬性的定義和設(shè)置有很大的靈活性,能夠大規(guī)模動(dòng)態(tài)擴(kuò)展,可以滿足各種規(guī)模的應(yīng)用系統(tǒng)的需求。模型中可以設(shè)置監(jiān)控模塊,針對(duì)各類(lèi)屬性動(dòng)態(tài)變化的情況,制定應(yīng)對(duì)機(jī)制,可以及時(shí)中斷訪問(wèn),避免因?qū)傩詣?dòng)態(tài)變化造成的非法訪問(wèn),保證了模型的安全性。
(4)較小的系統(tǒng)開(kāi)銷(xiāo)。傳統(tǒng)訪問(wèn)控制在用戶和資源數(shù)量大幅度增加的情形下,訪問(wèn)控制規(guī)則數(shù)目會(huì)呈現(xiàn)指數(shù)級(jí)增長(zhǎng),系統(tǒng)的維護(hù)量急劇增加,加大系統(tǒng)的開(kāi)銷(xiāo)。ABAC中,訪問(wèn)控制規(guī)則隨用戶和資源數(shù)量的增長(zhǎng)呈現(xiàn)線性增加,系統(tǒng)開(kāi)銷(xiāo)小。
為使ABAC模型更好的應(yīng)用于大數(shù)據(jù)場(chǎng)景,應(yīng)選擇一種標(biāo)準(zhǔn)、通用可擴(kuò)展的策略描述語(yǔ)言??蓴U(kuò)展訪問(wèn)控制標(biāo)記語(yǔ)言(Extensible Access Control Markup Language,XACML)是一種基于XML的平臺(tái)無(wú)關(guān)的策略描述語(yǔ)言,XACML提供了多種策略合并算法,策略的合成靈活多變,有強(qiáng)大的訪問(wèn)控制策略表達(dá)能力,可做為ABAC的策略表達(dá)語(yǔ)言。
5 結(jié)束語(yǔ)
大數(shù)據(jù)快速發(fā)展的同時(shí),也面臨著安全挑戰(zhàn)。本文通過(guò)分析大數(shù)據(jù)的特點(diǎn)及體系架構(gòu),得出大數(shù)據(jù)環(huán)境下訪問(wèn)控制的原則,即自主、動(dòng)態(tài)、細(xì)粒度、跨域授權(quán)。根據(jù)上述原則,對(duì)比分析訪問(wèn)控制模型DAC、MAC、RBAC及ABAC,經(jīng)分析ABAC模型最適合應(yīng)用于大數(shù)據(jù),此外還針對(duì)大數(shù)據(jù)特性對(duì)各模型提出改進(jìn)建議。下一步的工作集中在將ABAC模型融入大數(shù)據(jù)應(yīng)用系統(tǒng)。
參考文獻(xiàn)
[1] 李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012,27(6).
[2] 馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):246-258.
[3] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[4] Nandimath J,Banerjee E,Patil A,et al. Big data analysis using Apache Hadoop[C]// Information Reuse and Integration (IRI), 2013 IEEE 14th International Conference on. IEEE, 2013:700 - 703.
[5] 朱星燁,何涇沙.大數(shù)據(jù)安全現(xiàn)狀及其保護(hù)對(duì)策[J].信息安全與通信保密,2014(10):33-35.
[6] 溫春,鄭靜,張紅軍.淺談大數(shù)據(jù)風(fēng)險(xiǎn)與應(yīng)對(duì)策略[J].信息安全與通信保密,2014(10):44-44.
基金項(xiàng)目:
國(guó)家核高基項(xiàng)目 (2013ZX01029002-001)。
作者簡(jiǎn)介:
陳垚坤(1991-),男,漢族,陜西漢中人,畢業(yè)于北京大學(xué),在讀碩士研究生;主要研究方向和關(guān)注領(lǐng)域:信息安全。
尹香蘭(1980-),女,漢族,湖南邵陽(yáng)人,畢業(yè)于解放軍理工大學(xué),博士,工程師;主要研究方向和關(guān)注領(lǐng)域:信息安全。
劉文麗(1972-),女,漢族,安徽合肥人,畢業(yè)于吉林大學(xué),碩士,高級(jí)工程師;主要研究方向和關(guān)注領(lǐng)域:信息安全。