周黎輝,蔡蕙敏,周 濱,張遠(yuǎn)志
(1.貴陽(yáng)宏圖科技有限公司,貴州 貴陽(yáng) 550002; 2.貴州大學(xué) 管理學(xué)院,貴州 貴陽(yáng) 550025)
目前數(shù)據(jù)安全問(wèn)題已嚴(yán)重威脅我國(guó)大數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展,政府、機(jī)構(gòu)的敏感信息與個(gè)人隱私的泄露,不僅影響國(guó)家、組織和個(gè)人的信譽(yù),還影響我國(guó)以大數(shù)據(jù)帶動(dòng)技術(shù)創(chuàng)新的戰(zhàn)略思想。大數(shù)據(jù)系統(tǒng)是一個(gè)無(wú)邊界系統(tǒng),要發(fā)現(xiàn)潛在的安全風(fēng)險(xiǎn),就要從整體性與局部性、孤立與開(kāi)放相關(guān)性、傳遞與塊存儲(chǔ)、技術(shù)監(jiān)測(cè)與人工現(xiàn)場(chǎng)檢測(cè)、關(guān)聯(lián)性分析與數(shù)據(jù)節(jié)點(diǎn)等方面,分析系統(tǒng)的有效性和可靠性。同時(shí),由于應(yīng)用子系統(tǒng)、數(shù)據(jù)節(jié)點(diǎn)的不斷增加以及數(shù)據(jù)量的迅速增長(zhǎng),因此必須對(duì)系統(tǒng)的工作模式、系統(tǒng)的邏輯架構(gòu)和物理架構(gòu)以及運(yùn)行邏輯有深入的理解和把握[1]。
理解大數(shù)據(jù)系統(tǒng)的工作原理是分析大數(shù)據(jù)系統(tǒng)潛在安全風(fēng)險(xiǎn)的前提和條件。由于大數(shù)據(jù)系統(tǒng)本質(zhì)上是無(wú)邊界的開(kāi)放系統(tǒng),是由現(xiàn)有的各個(gè)應(yīng)用系統(tǒng)融合構(gòu)成的,具有面向所有用戶開(kāi)放的特點(diǎn),因此大數(shù)據(jù)系統(tǒng)與現(xiàn)有系統(tǒng)具有3個(gè)典型關(guān)系[2],如下所示:
(1)協(xié)同關(guān)系
圖1表明,大數(shù)據(jù)系統(tǒng)是可以產(chǎn)生有價(jià)數(shù)據(jù)的系統(tǒng)。有價(jià)數(shù)據(jù)是基于現(xiàn)有系統(tǒng)的結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)而產(chǎn)生的,它們之間是協(xié)同關(guān)系。
(2)依賴關(guān)系
如圖2所示,大數(shù)據(jù)系統(tǒng)采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(kù)系統(tǒng),可以處理大規(guī)模數(shù)據(jù)?,F(xiàn)有系統(tǒng)由于自身的局限性,只能滿足一段時(shí)間內(nèi)數(shù)據(jù)的處理。隨著時(shí)間的推移、數(shù)據(jù)量的增大,系統(tǒng)功能將無(wú)法滿足用戶的需求。因此,借助大數(shù)據(jù)系統(tǒng),現(xiàn)有系統(tǒng)可以超越數(shù)據(jù)處理模式,實(shí)現(xiàn)精準(zhǔn)數(shù)據(jù)預(yù)測(cè)和決策。
圖1 協(xié)同關(guān)系Fig.1 Cooperative relationship
圖2 依賴關(guān)系Fig.2 Dependency relationship
(3)并列關(guān)系
如圖3所示,對(duì)于用戶和數(shù)據(jù)利用組織(下文簡(jiǎn)稱組織),現(xiàn)有系統(tǒng)能滿足個(gè)體的、局部的信息生產(chǎn)需求,大數(shù)據(jù)系統(tǒng)可以滿足基于生產(chǎn)信息的統(tǒng)計(jì)、分析和挖掘的應(yīng)用需求。因此,大數(shù)據(jù)系統(tǒng)和現(xiàn)有系統(tǒng)是并列的關(guān)系,即同時(shí)并存,而非取代關(guān)系。
圖3 并列關(guān)系Fig.3 Paratactic relationship
現(xiàn)有系統(tǒng)與大數(shù)據(jù)系統(tǒng)既可以是依賴關(guān)系,又可以是協(xié)同關(guān)系,亦可以是并列關(guān)系。對(duì)于組織的信息化系統(tǒng)建設(shè)而言,大數(shù)據(jù)系統(tǒng)是組織信息化建設(shè)藍(lán)圖中必不可少的部分。
大數(shù)據(jù)的本質(zhì)就是將數(shù)據(jù)看成為重要的資產(chǎn)、一種能力,是組織預(yù)測(cè)、決策的依據(jù),是從“粗放型經(jīng)營(yíng)管理”模式走向“智慧型”模式的工具[3]。數(shù)據(jù)是組織的生命,數(shù)據(jù)的真實(shí)性、完整性和可用性是保障數(shù)據(jù)服務(wù)的可靠預(yù)測(cè)和決策的根本。因此,大數(shù)據(jù)的來(lái)源途徑就表現(xiàn)為主體、客體和社會(huì)。
(1)主體產(chǎn)生的數(shù)據(jù)
主體通常包括組織的管理者、成員、客戶與協(xié)同單位、競(jìng)爭(zhēng)對(duì)手、上級(jí)部門以及組織的信息系統(tǒng)等幾個(gè)方面。組織的信息系統(tǒng)是重要的主體,它記錄了組織在業(yè)務(wù)活動(dòng)中的詳細(xì)信息,也是組織大數(shù)據(jù)的主要來(lái)源。除信息系統(tǒng)外,其他主體產(chǎn)生的信息通常被組織忽視,在大數(shù)據(jù)系統(tǒng)中它卻是組織預(yù)測(cè)和決策的重要依據(jù)之一,應(yīng)加以重視。主體數(shù)據(jù)如表1所示。
表1 主體數(shù)據(jù)Tab.1 Body data
(2)客體產(chǎn)生的數(shù)據(jù)
客體通常是指組織所生產(chǎn)的產(chǎn)品。未來(lái)的產(chǎn)品大多具有物聯(lián)功能,組織根據(jù)這些物聯(lián)功能返回的信息,分析出產(chǎn)品目前的位置、運(yùn)行狀態(tài)等,并根據(jù)這些信息分析制訂客戶服務(wù)策略、新產(chǎn)品改進(jìn)策略以及相關(guān)決策??腕w數(shù)據(jù)通常表現(xiàn)為有源和無(wú)源2種。
有源產(chǎn)品是指需要?jiǎng)恿υ吹漠a(chǎn)品。在這些產(chǎn)品中內(nèi)嵌信息傳輸系統(tǒng),從而將產(chǎn)品的位置、運(yùn)行狀態(tài)、操作行為等信息即時(shí)返回給生產(chǎn)企業(yè),生產(chǎn)企業(yè)通過(guò)對(duì)返回信息的識(shí)別,制訂相應(yīng)的措施。
無(wú)源產(chǎn)品即為無(wú)需動(dòng)力源的產(chǎn)品。若在這類產(chǎn)品中利用電子標(biāo)簽,并借助于有源設(shè)備(如掃描儀、感知器等)將產(chǎn)品信息返回企業(yè),從而確定產(chǎn)品的去向和位置,則企業(yè)可獲得相應(yīng)的統(tǒng)計(jì)及分布資料,為產(chǎn)品決策提供依據(jù)[4]。
(3)社會(huì)產(chǎn)生的數(shù)據(jù)
社會(huì)是指行業(yè)協(xié)會(huì)、媒體、社會(huì)公眾等。這些組織或群體主要是從全局角度、個(gè)人角度和公眾角度對(duì)組織的相關(guān)信息進(jìn)行統(tǒng)計(jì)、分析和評(píng)論,往往會(huì)對(duì)社會(huì)公眾產(chǎn)生引導(dǎo)。社會(huì)數(shù)據(jù)如表2所示。
傳統(tǒng)的管理信息系統(tǒng)為面向個(gè)體信息生產(chǎn)、供局部簡(jiǎn)單查詢和統(tǒng)計(jì)應(yīng)用的信息系統(tǒng),輸入是個(gè)體少量的信息,輸出是個(gè)體信息或某一主題統(tǒng)計(jì)信息[5]。大數(shù)據(jù)信息系統(tǒng)定位為面向全局,供復(fù)雜統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的信息系統(tǒng)。傳統(tǒng)管理信息系統(tǒng)和大數(shù)據(jù)信息系統(tǒng)之間主要有3個(gè)區(qū)別,如下所示:
表2 社會(huì)數(shù)據(jù)Tab.2 Social data
(1)傳統(tǒng)管理信息系統(tǒng)用于現(xiàn)實(shí)事務(wù)的數(shù)據(jù)生產(chǎn),大數(shù)據(jù)信息系統(tǒng)是基于已有數(shù)據(jù)的應(yīng)用。
(2)傳統(tǒng)管理信息系統(tǒng)是對(duì)移動(dòng)數(shù)據(jù)進(jìn)行線性處理,大數(shù)據(jù)信息系統(tǒng)是移動(dòng)邏輯并行處理。
(3)傳統(tǒng)管理信息系統(tǒng)注重信息的簡(jiǎn)單應(yīng)用,大數(shù)據(jù)信息系統(tǒng)是面向全局的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘應(yīng)用。
傳統(tǒng)管理信息系統(tǒng)與大數(shù)據(jù)信息系統(tǒng)的對(duì)比如表3所示。
表3傳統(tǒng)管理信息系統(tǒng)和大數(shù)據(jù)信息系統(tǒng)對(duì)比
Tab.3Comparisonbetweentraditionalmanagementinformationsystemandbigdatainformationsystem
項(xiàng)目傳統(tǒng)管理信息系統(tǒng)大數(shù)據(jù)信息系統(tǒng)目的信息輸入生產(chǎn)信息輸出生產(chǎn)依賴人和物信息系統(tǒng)采集局部采集全局采集存儲(chǔ)集中存儲(chǔ)分布式存儲(chǔ)處理線性處理并行處理前提結(jié)構(gòu)化設(shè)計(jì)分析與挖掘模型建立價(jià)值記錄歷史發(fā)生事件信息問(wèn)題發(fā)現(xiàn)、科學(xué)決策重點(diǎn)數(shù)據(jù)生產(chǎn)、簡(jiǎn)單應(yīng)用統(tǒng)計(jì)挖掘、復(fù)雜應(yīng)用呈現(xiàn)局部個(gè)體的信息展現(xiàn)全局展現(xiàn)形態(tài)ERP、OA等系統(tǒng)宏觀決策信息系統(tǒng)作用武裝到牙齒構(gòu)建智慧的腦
由此可見(jiàn),大數(shù)據(jù)的處理首先從分析或挖掘模型的建立開(kāi)始,其次是將分析或挖掘模型轉(zhuǎn)變成邏輯可移動(dòng),并能并行處理的代碼,最后通過(guò)數(shù)據(jù)融合分析系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行融合分析,把最終數(shù)據(jù)分析處理結(jié)果根據(jù)不同用戶的需求呈現(xiàn)于大數(shù)據(jù)展示平臺(tái)。大數(shù)據(jù)處理過(guò)程如圖4所示。
圖4 大數(shù)據(jù)處理過(guò)程模型Fig.4 Model of big data processing
2.1.1大數(shù)據(jù)系統(tǒng)的設(shè)計(jì)思想
無(wú)論是體系架構(gòu)還是功能設(shè)計(jì),大數(shù)據(jù)系統(tǒng)的核心設(shè)計(jì)必須實(shí)現(xiàn)如表4所示的目標(biāo)。
表4 大數(shù)據(jù)系統(tǒng)的設(shè)計(jì)目標(biāo)Tab.4 Design goal for big data system
根據(jù)設(shè)計(jì)目標(biāo),大數(shù)據(jù)系統(tǒng)的整體設(shè)計(jì)通常分為以下模式:①分層分域;②數(shù)據(jù)分布;③封裝共性-移動(dòng)邏輯-并行處理;④指令流-數(shù)據(jù)流分離;⑤同構(gòu)復(fù)制-屬性區(qū)分;⑥多個(gè)子系統(tǒng)集成。
(1)分層分域模式
該模式基于“分而治之”的思想,即將大的系統(tǒng)劃分成多個(gè)小的系統(tǒng)。主節(jié)點(diǎn)負(fù)責(zé)從節(jié)點(diǎn)工作任務(wù)的分布、狀態(tài)監(jiān)控,從節(jié)點(diǎn)負(fù)責(zé)任務(wù)的執(zhí)行和工作相關(guān)狀態(tài)的匯報(bào)。
(2)數(shù)據(jù)分布模式
該模式是基于“包產(chǎn)到戶”、以“空間換時(shí)間”的思想,將大數(shù)據(jù)分拆成對(duì)每個(gè)計(jì)算節(jié)點(diǎn)正好發(fā)揮其處理能力的固定塊,由多個(gè)處理節(jié)點(diǎn)同時(shí)處理同屬于一個(gè)邏輯整體的不同物理部分。數(shù)據(jù)分布模式采用以鎖協(xié)同模型。以鎖協(xié)同是當(dāng)分布式數(shù)據(jù)庫(kù)中同時(shí)有多個(gè)任務(wù)處理某個(gè)列族時(shí),通過(guò)加鎖的機(jī)制解決數(shù)據(jù)記錄“臟讀”和“臟寫(xiě)”的問(wèn)題。
(3)封裝共性-移動(dòng)邏輯-并行處理模式
分布式開(kāi)發(fā)最復(fù)雜的問(wèn)題是代碼的任務(wù)分發(fā)和并行處理間的協(xié)同,以及處理完成后的結(jié)果返回。封裝共性是將任務(wù)的分發(fā)、并行處理和結(jié)果返回這些工作完全交由作業(yè)節(jié)點(diǎn)來(lái)完成;移動(dòng)邏輯是將分布式代碼由作業(yè)節(jié)點(diǎn)發(fā)送給每一個(gè)計(jì)算節(jié)點(diǎn),對(duì)于計(jì)算節(jié)點(diǎn),是邏輯代碼在網(wǎng)絡(luò)中傳輸,而不是數(shù)據(jù)在網(wǎng)絡(luò)中傳輸。移動(dòng)邏輯的實(shí)現(xiàn)是一種邏輯不變而數(shù)據(jù)可變的思想體現(xiàn)。
(4)指令流-數(shù)據(jù)流分離模式
指令流是指主節(jié)點(diǎn)和子節(jié)點(diǎn)間只傳輸指令,不傳輸數(shù)據(jù);數(shù)據(jù)流是指子節(jié)點(diǎn)和子節(jié)點(diǎn)間、子節(jié)點(diǎn)和客戶端間進(jìn)行數(shù)據(jù)的傳輸。
(5)同構(gòu)復(fù)制-屬性區(qū)分模式
同構(gòu)復(fù)制是指安裝時(shí)所有節(jié)點(diǎn),無(wú)論是主節(jié)點(diǎn)還是從節(jié)點(diǎn),都采用同一套程序。只要一個(gè)初始節(jié)點(diǎn)安裝好后,就可以采用復(fù)制方式進(jìn)行分發(fā),目的是可以實(shí)
現(xiàn)節(jié)點(diǎn)的動(dòng)態(tài)增減,而無(wú)需針對(duì)不同的節(jié)點(diǎn)進(jìn)行不同的程序安裝。
(6)多個(gè)子系統(tǒng)集成模式
大數(shù)據(jù)系統(tǒng)是由多個(gè)子系統(tǒng)集成的系統(tǒng),大數(shù)據(jù)系統(tǒng)的規(guī)模隨節(jié)點(diǎn)的變化而變化。每個(gè)從的子系統(tǒng)都是通過(guò)預(yù)先確定好的端口和屬性與主的子系統(tǒng)進(jìn)行協(xié)同工作。
2.1.2大數(shù)據(jù)系統(tǒng)的邏輯架構(gòu)
大數(shù)據(jù)系統(tǒng)的邏輯架構(gòu)如圖5所示。
圖5 大數(shù)據(jù)系統(tǒng)邏輯架構(gòu)Fig.5 Logical architecture of big data system
組織的大數(shù)據(jù)系統(tǒng)是由多個(gè)子系統(tǒng)集成構(gòu)成的系統(tǒng),所有子系統(tǒng)都有全面Hadoop的開(kāi)源項(xiàng)目成果,如非結(jié)構(gòu)化存儲(chǔ)采用Hadoop分布式文件系統(tǒng)(HDFS),結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)采用分布式數(shù)據(jù)庫(kù)(HBase)系統(tǒng)。每個(gè)子系統(tǒng)都采用主從模式,即由一個(gè)主節(jié)點(diǎn)和多個(gè)從節(jié)點(diǎn)構(gòu)成。大數(shù)據(jù)系統(tǒng)的邏輯架構(gòu)是一個(gè)多層次的體系結(jié)構(gòu),采用“分布式平臺(tái)+分析式應(yīng)用”的模式進(jìn)行設(shè)計(jì)。
用戶層是所有訪問(wèn)大數(shù)據(jù)系統(tǒng)用戶的集合,根據(jù)用戶職能不同,劃分為普通用戶、分析人員和系統(tǒng)管理人員等3類,并賦予相應(yīng)的訪問(wèn)權(quán)限。
門戶層是用戶訪問(wèn)大數(shù)據(jù)系統(tǒng)的統(tǒng)一入口,用戶經(jīng)應(yīng)用層系統(tǒng)統(tǒng)一認(rèn)證后,門戶子系統(tǒng)依據(jù)用戶身份和權(quán)限提供相應(yīng)的個(gè)性化門戶,用戶只能查閱系統(tǒng)授權(quán)的數(shù)據(jù)信息和操作應(yīng)用功能。
代理層是門戶層和應(yīng)用層各應(yīng)用系統(tǒng)之間的統(tǒng)一代理,由統(tǒng)一用戶管理、統(tǒng)一應(yīng)用資源管理和統(tǒng)一權(quán)限管理等3個(gè)子系統(tǒng)構(gòu)成,并向門戶層開(kāi)放Web服務(wù),代理門戶層的系統(tǒng)調(diào)用。當(dāng)Web服務(wù)接收到門戶層的請(qǐng)求時(shí),向應(yīng)用層應(yīng)用系統(tǒng)發(fā)出調(diào)用請(qǐng)求。
應(yīng)用層由數(shù)據(jù)應(yīng)用類、數(shù)據(jù)采集類、后臺(tái)管理類等3類子系統(tǒng)構(gòu)成。應(yīng)用類子系統(tǒng)包括MapRedce(MR)定制子系統(tǒng)、Pig分析子系統(tǒng)和Hive數(shù)據(jù)庫(kù)子系統(tǒng),目的是為普通用戶和分析人員提供大數(shù)據(jù)分析和挖掘服務(wù)。數(shù)據(jù)采集類子系統(tǒng)包括Chukwa采集子系統(tǒng)和數(shù)據(jù)抓取子系統(tǒng),目的是從組織的現(xiàn)有系統(tǒng)、大數(shù)據(jù)應(yīng)用系統(tǒng)和外部應(yīng)用系統(tǒng)中采集數(shù)據(jù)并存儲(chǔ)在大數(shù)據(jù)系統(tǒng)中。后臺(tái)管理類子系統(tǒng)主要是對(duì)大數(shù)據(jù)系統(tǒng)的用戶信息、節(jié)點(diǎn)設(shè)備信息和節(jié)點(diǎn)運(yùn)行狀態(tài)進(jìn)行管理。
管控層由NameNode子系統(tǒng)、JobTracker子系統(tǒng)、Hmaster子系統(tǒng)、ZooKeeper子系統(tǒng)和SecondNameNode子系統(tǒng)等構(gòu)成。
NameNode子系統(tǒng)是HDFS的重要組成部分,通過(guò)該系統(tǒng)對(duì)各種文件進(jìn)行統(tǒng)一讀寫(xiě),SecondNameNode子系統(tǒng)是其備份子系統(tǒng)。
JobTracker子系統(tǒng)是分布式作業(yè)系統(tǒng)的重要組成部分,是MR分布式程序的服務(wù)器端,目的是對(duì)作業(yè)任務(wù)進(jìn)行調(diào)度分配和運(yùn)行狀態(tài)的管理。
Hmaster子系統(tǒng)是HBase系統(tǒng)的主要組成部分,目的是負(fù)責(zé)初始安裝引導(dǎo),把Region域數(shù)據(jù)分別注冊(cè)到HBase集群中的域服務(wù)器HRegionServer,監(jiān)控HRegionServer服務(wù)器的運(yùn)行,并在出現(xiàn)故障時(shí)進(jìn)行恢復(fù)。
ZooKeeper子系統(tǒng)主要是為Hmaster子系統(tǒng)和RegionServer子系統(tǒng)提供共享信息的統(tǒng)一協(xié)同服務(wù)。
計(jì)算存儲(chǔ)層由HDFS的DataNode子系統(tǒng)和分布式作業(yè)系統(tǒng)的JobTracker子系統(tǒng)、RegionServer子系統(tǒng)和關(guān)系型數(shù)據(jù)庫(kù)管理子系統(tǒng)構(gòu)成。
HDFS的DataNode子系統(tǒng)和分布式作業(yè)系統(tǒng)的JobTracker子系統(tǒng)共同部署一個(gè)機(jī)器節(jié)點(diǎn)上,為分布式文件提供數(shù)據(jù)塊存儲(chǔ)和數(shù)據(jù)塊計(jì)算服務(wù)。
RegionServer子系統(tǒng)為客戶端提供分布式數(shù)據(jù)庫(kù)系統(tǒng)的訪問(wèn)服務(wù)。
關(guān)系型數(shù)據(jù)庫(kù)子系統(tǒng)用來(lái)存儲(chǔ)應(yīng)用層,為后臺(tái)管理系統(tǒng)和Hive數(shù)據(jù)庫(kù)系統(tǒng)提供用戶信息、設(shè)備信息、元數(shù)據(jù)、運(yùn)行狀態(tài)監(jiān)測(cè)信息的存儲(chǔ)服務(wù)。
用戶從門戶登錄到大數(shù)據(jù)系統(tǒng)后,在用戶交互界面上選擇相應(yīng)的系統(tǒng)功能,經(jīng)應(yīng)用系統(tǒng)對(duì)后臺(tái)的分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行訪問(wèn),以滿足用戶的應(yīng)用需求。系統(tǒng)的運(yùn)行邏輯如圖6所示。
圖6中共有3條系統(tǒng)運(yùn)行主線路,每條主線共有5步,其中第1~3步相同,第4、第5步不同。
第1步用戶登錄門戶子系統(tǒng)網(wǎng)站,進(jìn)入門戶子系統(tǒng)登錄界面。
圖6 大數(shù)據(jù)系統(tǒng)運(yùn)行邏輯Fig.6 Running logic of big data system
第2步門戶子系統(tǒng)將登錄信息提交給統(tǒng)一應(yīng)用代理,統(tǒng)一用戶代理調(diào)用統(tǒng)一用戶登錄模塊,驗(yàn)證相關(guān)信息,并根據(jù)用戶角色返回個(gè)性化應(yīng)用界面,用戶選擇相應(yīng)的應(yīng)用功能再次提交給應(yīng)用代理。
第3步根據(jù)統(tǒng)一用戶代理應(yīng)用類型的不同,調(diào)用不同的應(yīng)用子系統(tǒng)。應(yīng)用類型分為3類:面向分布式文件的應(yīng)用、面向分布式數(shù)據(jù)庫(kù)的應(yīng)用和面向傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的應(yīng)用。面向分布式文件的應(yīng)用分為調(diào)用Pig分析子系統(tǒng)、Hive數(shù)據(jù)庫(kù)子系統(tǒng)或MR定制應(yīng)用子系統(tǒng)中的一種或幾種,并向HDFS發(fā)起訪問(wèn)請(qǐng)求。面向分布式數(shù)據(jù)庫(kù)的應(yīng)用是調(diào)用MR定制應(yīng)用子系統(tǒng)并向HBase系統(tǒng)發(fā)起訪問(wèn)請(qǐng)求。面向關(guān)系型數(shù)據(jù)庫(kù)的應(yīng)用是調(diào)用大數(shù)據(jù)管理子系統(tǒng)、Hive數(shù)據(jù)庫(kù)子系統(tǒng)向關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)發(fā)起訪問(wèn)請(qǐng)求。
第4步第1條路徑是對(duì)分布式文件讀寫(xiě)和應(yīng)用的運(yùn)行主線路,根據(jù)分布式文件系統(tǒng)的訪問(wèn)請(qǐng)求,由NameNode子系統(tǒng)和JobTracker子系統(tǒng)處理,向DataNode子系統(tǒng)數(shù)據(jù)節(jié)點(diǎn)發(fā)出指令。第2條路徑根據(jù)面向分布式數(shù)據(jù)庫(kù)的訪問(wèn)請(qǐng)求,先到達(dá)ZooKeeper子系統(tǒng),然后返回元數(shù)據(jù)表地址,以便應(yīng)用系統(tǒng)定位HRegionServer服務(wù)器。第3條路徑根據(jù)關(guān)系型數(shù)據(jù)庫(kù)子系統(tǒng)的應(yīng)用請(qǐng)求,由關(guān)系型數(shù)據(jù)庫(kù)直接處理,并將處理結(jié)果返回給應(yīng)用系統(tǒng)。
第5步當(dāng)DataNode和TaskTraker子系統(tǒng)收到任務(wù)指令后,依據(jù)指令進(jìn)行文件的處理;當(dāng)RegionServer子系統(tǒng)收到應(yīng)用請(qǐng)求后,會(huì)對(duì)相應(yīng)的Region進(jìn)行處理。
大數(shù)據(jù)系統(tǒng)運(yùn)行邏輯框架是雙向的,通常情況下應(yīng)用層的MR程序可以與計(jì)算存儲(chǔ)層直接進(jìn)行交互,也就是說(shuō),門戶層、代理層、應(yīng)用層采用集群方式解決數(shù)據(jù)的大規(guī)模、高并發(fā)的用戶訪問(wèn)。門戶層和代理層之間、代理層和應(yīng)用層之間均采用簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議(SOAP)進(jìn)行調(diào)用請(qǐng)求的信息返回。管控層由多個(gè)主節(jié)點(diǎn)構(gòu)成,這些節(jié)點(diǎn)是單進(jìn)程的;應(yīng)用層和計(jì)算存儲(chǔ)層的多個(gè)節(jié)點(diǎn)直接進(jìn)行數(shù)據(jù)交互;應(yīng)用層、管控層、計(jì)算存儲(chǔ)層之間采用過(guò)程遠(yuǎn)程調(diào)控(RPC)進(jìn)行交互。
大數(shù)據(jù)系統(tǒng)采取分布式部署方式,其物理架構(gòu)通常通過(guò)網(wǎng)絡(luò)域的劃分來(lái)體現(xiàn)系統(tǒng)的不同層次及不同應(yīng)用,以便管理人員對(duì)網(wǎng)絡(luò)上的多個(gè)物理節(jié)點(diǎn)進(jìn)行分域管理,如圖7所示。大數(shù)據(jù)系統(tǒng)劃分為用戶域、應(yīng)用系統(tǒng)域、安全管理域、分布式文件域、分布式數(shù)據(jù)庫(kù)域、分布式協(xié)同域和關(guān)系數(shù)據(jù)庫(kù)域等7個(gè)域。
圖7 大數(shù)據(jù)系統(tǒng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)Fig.7 Topology of big data system network
大數(shù)據(jù)系統(tǒng)不僅具有傳統(tǒng)意義上信息系統(tǒng)的安全特征,同時(shí)還具有其自身的安全風(fēng)險(xiǎn)特征,主要體現(xiàn)在以下5個(gè)方面:
大數(shù)據(jù)時(shí)代的數(shù)據(jù)量巨大且增長(zhǎng)快速,有些數(shù)據(jù)關(guān)系到國(guó)家安全、企業(yè)競(jìng)爭(zhēng)力的敏感問(wèn)題,在存儲(chǔ)過(guò)程中一旦遭遇自然災(zāi)害或人為損害、泄露,與一般數(shù)據(jù)相比損失更為嚴(yán)重。
海量數(shù)據(jù)只有通過(guò)有效的處理方可使用,處理技術(shù)是否安全可靠,直接關(guān)系到大數(shù)據(jù)安全。若大數(shù)據(jù)處理技術(shù)中訪問(wèn)控制機(jī)制較為薄弱,則可能給非法訪問(wèn)帶來(lái)很大的利用空間。
大數(shù)據(jù)來(lái)源于組織自主數(shù)據(jù)、客體行為數(shù)據(jù)以及第三方數(shù)據(jù)等,無(wú)論是哪一種來(lái)源,如果不加以甄別使用,可能導(dǎo)致錯(cuò)誤的決策。同時(shí),在數(shù)據(jù)采集過(guò)程中對(duì)各種感知器件有一定的安全要求,若偏離了相關(guān)標(biāo)準(zhǔn)與要求,則造成錄入數(shù)據(jù)的錯(cuò)誤或無(wú)效,從而產(chǎn)生不符合實(shí)際情況的決策數(shù)據(jù),造成重大的組織決策失誤。
目前,購(gòu)物網(wǎng)站、社交網(wǎng)絡(luò)、視頻發(fā)布網(wǎng)站、微博等已成為人們?nèi)粘?shù)據(jù)交流、發(fā)布的重要平臺(tái),這些平臺(tái)包含大量的用戶信息。利用大數(shù)據(jù)技術(shù),可以很容易地挖掘出用戶身份、位置、軌跡、健康甚至財(cái)務(wù)等敏感信息,若被不法分子利用,則可能侵害人們的人身和財(cái)產(chǎn)安全。
大數(shù)據(jù)系統(tǒng)在互聯(lián)網(wǎng)空間里容易成為高級(jí)可持續(xù)攻擊(APT)行為的目標(biāo)。
防范該風(fēng)險(xiǎn)的方法就是預(yù)測(cè)預(yù)警以及轉(zhuǎn)移、抑制、控制風(fēng)險(xiǎn),確保大數(shù)據(jù)系統(tǒng)健康運(yùn)行,而這一保障最為核心的機(jī)制就是風(fēng)險(xiǎn)評(píng)估。風(fēng)險(xiǎn)評(píng)估就是利用技術(shù)手段和非技術(shù)思維對(duì)潛在的安全風(fēng)險(xiǎn)進(jìn)行全方位評(píng)價(jià),以發(fā)現(xiàn)潛在的安全風(fēng)險(xiǎn),并將各種威脅分散、轉(zhuǎn)移、抑制、規(guī)避到可容忍的范圍內(nèi),確保大數(shù)據(jù)系統(tǒng)的正常工作。
通過(guò)大數(shù)據(jù)來(lái)分析當(dāng)前信息安全威脅,可以大大提高大數(shù)據(jù)系統(tǒng)的安全性。本文主要闡述了大數(shù)據(jù)系統(tǒng)工作原理以及主要的安全威脅,構(gòu)建了大數(shù)據(jù)系統(tǒng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),從而顯著提高系統(tǒng)的安全性。