伍黎明
(湖南電子科技職業(yè)學(xué)院,湖南 長沙 410000)
自我國普及網(wǎng)絡(luò)以來,網(wǎng)絡(luò)安全問題一直是首要問題。根據(jù)數(shù)據(jù)顯示,我國網(wǎng)絡(luò)安全面臨多方面的威脅,提高網(wǎng)絡(luò)安全防范已經(jīng)刻不容緩。大數(shù)據(jù)和云計(jì)算信息技術(shù)時代的來臨,標(biāo)志著計(jì)算機(jī)模式的變革,數(shù)據(jù)信息應(yīng)用的變化,協(xié)同計(jì)算能力的提高,也對網(wǎng)絡(luò)安全問題提出了更加行之有效的策略。
我國網(wǎng)絡(luò)安全體系包括P2DR安全運(yùn)維模型、線式防御模型和立體防御模型[1]。基于這三大模型,安全產(chǎn)品體系得到了有效保障,但是任何人都無法保證安全領(lǐng)域百分之百安全,任何一種產(chǎn)品都達(dá)不到防御所有攻擊的效果。那么,傳統(tǒng)安全防護(hù)理論和產(chǎn)品對于防范病毒、攻擊、已知威脅或未知威脅,它們的步驟都是從發(fā)現(xiàn)、分析、形成特征規(guī)則,再對威脅進(jìn)行防御。這種模式的應(yīng)用需要軟件的不斷升級和優(yōu)化,對于設(shè)備來說,其內(nèi)存就存在問題,要想解決存儲問題,可以裁剪特征庫,但是這樣一來,就容易出現(xiàn)更多的安全問題。無論如何,傳統(tǒng)安全防護(hù)模型存在著對網(wǎng)絡(luò)安全的已知、未知威脅無法檢測和感知,也不能有效防御,更不能溯源分析等問題,這些問題導(dǎo)致許多潛在、微小、孤立的問題擴(kuò)展成大的安全問題[2]。
網(wǎng)絡(luò)安全態(tài)勢感知平臺的數(shù)據(jù)采集涉及到了防御鏈中各個安全數(shù)據(jù)。首先,收集威脅信息,統(tǒng)一存儲這些信息,建立安全數(shù)據(jù)庫;其次,結(jié)合安全規(guī)劃、安全模型、分析算法等,對數(shù)據(jù)庫的安全問題進(jìn)行分析;再次,利用大數(shù)據(jù)對已知的網(wǎng)絡(luò)威脅情報進(jìn)行分析;最后,基于威脅情報,分析如何對網(wǎng)絡(luò)風(fēng)險預(yù)警和感知、可視化態(tài)勢的系統(tǒng)進(jìn)行有效應(yīng)用。從這一防御鏈可以看出,整個網(wǎng)絡(luò)安全態(tài)勢感知技術(shù)架構(gòu)分為3個層次,這3個層次相輔相成,互成體系[3]。
威脅數(shù)據(jù)的采集與存儲涉及到態(tài)勢感知數(shù)據(jù)源的采集和大數(shù)據(jù)存儲而形成的數(shù)據(jù)庫。從安全方面考慮,確定一次網(wǎng)絡(luò)攻擊包括認(rèn)證身份、發(fā)現(xiàn)惡意代碼、風(fēng)險報警等環(huán)節(jié),這些環(huán)節(jié)都與網(wǎng)絡(luò)攻擊息息相關(guān),都可以從中發(fā)現(xiàn)非法行為特征。那么,當(dāng)網(wǎng)絡(luò)安全進(jìn)行防御的態(tài)勢感知數(shù)據(jù)源覆蓋整個網(wǎng)絡(luò)中的各個環(huán)節(jié)時,與網(wǎng)絡(luò)安全相關(guān)的流量、監(jiān)測、情報等各類有效數(shù)據(jù)才能夠正常采集和存儲起來,以便于后續(xù)管理和維護(hù)[4]。
大數(shù)據(jù)存儲與管理是指大量感知數(shù)據(jù)源的存儲和管理,例如分布式文件系統(tǒng)、關(guān)系數(shù)據(jù)庫系統(tǒng),這些系統(tǒng)構(gòu)成了混合式數(shù)據(jù)倉庫,滿足了各種數(shù)據(jù)的需求,包括各類結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)。其存儲量可達(dá)PB級,例如分布式文件存儲系統(tǒng)(HDFS),它具有高容錯性、高吞吐量的特性,其文件數(shù)據(jù)是由可以創(chuàng)建、維護(hù)多個副本的數(shù)據(jù)塊組成,能夠存儲在不同服務(wù)器上。同時,基于就近原則和并行I/O,HDFS在分布式環(huán)境中有效提高了數(shù)據(jù)讀寫能力。本文利用運(yùn)行在HDFS上的分布式非結(jié)構(gòu)化數(shù)據(jù)庫Hbase,部分分析結(jié)果存儲在關(guān)系型數(shù)據(jù)庫中,數(shù)據(jù)庫間采用Sqoop進(jìn)行數(shù)據(jù)傳輸[5]。
2.3.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是發(fā)現(xiàn)威脅情報的主要過程。它可以采用特征抽取、數(shù)據(jù)融合、關(guān)聯(lián)分析,重新組織原始數(shù)據(jù),形成關(guān)系圖。因此,它包括三個過程:數(shù)據(jù)清洗、數(shù)據(jù)融合和數(shù)據(jù)關(guān)聯(lián)。
2.3.2 模型設(shè)計(jì)
模型設(shè)計(jì)是數(shù)據(jù)分析模型構(gòu)建的過程。在模型設(shè)計(jì)過程中,可視化信息,即安全日志和報警數(shù)據(jù)轉(zhuǎn)化而成的信息,能夠形成威脅發(fā)現(xiàn)、態(tài)勢感知機(jī)制等。這里的模型主要包括數(shù)值統(tǒng)計(jì)模型、算法挖掘模型、攻擊樹推理模型。在數(shù)值統(tǒng)計(jì)模型中,用戶行為、交互IP、網(wǎng)絡(luò)流量等表現(xiàn)出的統(tǒng)計(jì)特征可以表達(dá)一個規(guī)則匹配、黑白名單、策略控制等方式的網(wǎng)絡(luò)動作,這些動作行為很難被發(fā)現(xiàn)。目前常用的數(shù)值統(tǒng)計(jì)方法,詳見表1。
表1 常用的數(shù)值統(tǒng)計(jì)方法Table. 1 Numerical statistical method in common use
算法挖掘模型能夠挖掘現(xiàn)有的數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)安全風(fēng)險。算法挖掘模型的構(gòu)建方法有很多,例如:基于統(tǒng)計(jì)學(xué)方法的度分布計(jì)算算法、基于聚類的相似度分析算法、社區(qū)發(fā)現(xiàn)分析算法等[6]。
攻擊樹推理模型是對安全威脅建模的過程,它將這個過程表現(xiàn)為樹結(jié)構(gòu),樹的根節(jié)點(diǎn)表示網(wǎng)絡(luò)攻擊的目標(biāo),葉節(jié)點(diǎn)表示可采用的手段,從根節(jié)點(diǎn)到時節(jié)點(diǎn)的路徑表示攻擊過程。通過建立攻擊樹模型,在節(jié)點(diǎn)推理的過程中,就可以預(yù)測到攻擊動作或潛在威脅,攻擊樹模型如圖1所示。
圖1 攻擊樹模型圖Fig. 1 Attack tree model diagram
2.3.3 數(shù)據(jù)分析
結(jié)合模型設(shè)計(jì),數(shù)據(jù)分析能夠進(jìn)行實(shí)時、離線計(jì)算,對流向、行為、層次等進(jìn)行梳理,包括在線實(shí)時挖掘和離線挖掘分析。在線實(shí)時挖掘是指分析實(shí)時數(shù)據(jù)?;赟PARK框架,實(shí)時在線分析能夠?qū)ε繑?shù)據(jù)進(jìn)行高效和并發(fā)處理。離線挖掘分析是指對歷史數(shù)據(jù)反復(fù)進(jìn)行挖掘計(jì)算,對數(shù)據(jù)進(jìn)行深度加工,并利用ETL技術(shù)對數(shù)據(jù)倉庫中的歷史數(shù)據(jù)進(jìn)行處理[7]。
2.3.4 態(tài)勢感知和預(yù)警業(yè)務(wù)應(yīng)用
網(wǎng)絡(luò)安全威脅報警、重要安全系統(tǒng)的實(shí)時監(jiān)測和網(wǎng)絡(luò)風(fēng)險預(yù)警等都屬于態(tài)勢感知和預(yù)警業(yè)務(wù)的應(yīng)用?;诖髷?shù)據(jù)技術(shù),安全態(tài)勢感知和預(yù)警業(yè)務(wù)成功地應(yīng)用于網(wǎng)絡(luò)安全態(tài)勢感知平臺上,且成功上線試運(yùn)行。集 ETL、Kafka、Hbase、Spark等軟件和 100 TB光存儲陳列和多臺高性能服務(wù)器硬件于一體,平臺成功構(gòu)建了大數(shù)據(jù)存儲、分析、計(jì)算、擴(kuò)容等完整服務(wù)的集群[8]。
目前,態(tài)勢評估主要分為靜態(tài)和動態(tài)兩個類型。靜態(tài)評估和動態(tài)評估的區(qū)別在于網(wǎng)絡(luò)安全狀態(tài)時間點(diǎn),前者重在攻擊發(fā)現(xiàn)前,后者重在攻擊發(fā)現(xiàn)后;前者側(cè)重于分析和評估存在的風(fēng)險和安全隱患,主要目的是預(yù)防;后者側(cè)重于反映安全問題的指標(biāo)數(shù)據(jù)收集,根據(jù)數(shù)據(jù)進(jìn)行評估或預(yù)判。為了進(jìn)一步對網(wǎng)絡(luò)安全狀態(tài)進(jìn)行評估,各類攻擊信息或告警信息都會被分析出其對網(wǎng)絡(luò)的影響程度。因此,目前有很多研究者對評估方法進(jìn)行了對比分析,下面本文將著重對基于知識推理的方法和基于統(tǒng)計(jì)的方法進(jìn)行對比分析[9]。
基于知識推理(Knowledge-based inference)是指計(jì)算機(jī)通過模擬人的推理方式,利用形式化的知識,借助概率論、證據(jù)理論等,進(jìn)行思維和求解,得到結(jié)果的過程。而網(wǎng)絡(luò)安全的知識推理主要利用網(wǎng)絡(luò)狀態(tài)要素的不確定性,將各種要素和屬性融合,借助已有經(jīng)驗(yàn)進(jìn)行建模和評估,得出受保護(hù)網(wǎng)絡(luò)的安全態(tài)勢?;谥R推理的方法可以分為基于圖模型和基于證據(jù)理論的推理,前者如貝葉斯網(wǎng)絡(luò)和模糊認(rèn)知圖等;后者如D-S證據(jù)推理等[10]。
基于圖模型的推理方法利用有向圖,將網(wǎng)絡(luò)中的狀態(tài)描繪出來,對不確定性因素和信息進(jìn)行分析,包括數(shù)值和非數(shù)值的方法,得出攻擊行為的影響程度。在實(shí)際操作過程中,由于變量之間很難保證相互獨(dú)立,因此也就增加了推理和存儲圖的難度,因此,這種方法只適用于小規(guī)模的網(wǎng)絡(luò)環(huán)境安全性評估[11]。
基于統(tǒng)計(jì)的方法(Statistic-based Model)是指綜合評估網(wǎng)絡(luò)安全影響的態(tài)勢要素的評估過程的方法。將網(wǎng)絡(luò)安全態(tài)勢要素與網(wǎng)絡(luò)空間映射結(jié)合起來評估函數(shù),它的重點(diǎn)在于網(wǎng)絡(luò)安全態(tài)勢要素在網(wǎng)絡(luò)中重要性權(quán)值的計(jì)算,例如層次分析法(Analytic Hierarchy Process)。AHP利用定性和定量統(tǒng)計(jì)方法,將問題按層級分解。同時,層次分析法根據(jù)總目標(biāo),按層級評估網(wǎng)絡(luò)安全態(tài)勢,并按網(wǎng)絡(luò)安全態(tài)勢因素間的影響,將各因素進(jìn)行組合,構(gòu)建分析模型,將問題歸結(jié)為提供方案或措施的最低層,計(jì)算出整個網(wǎng)絡(luò)安全態(tài)勢值[12]。
從準(zhǔn)確性來看,基于知識推理和基于統(tǒng)計(jì)的方法都能有效評估出攻擊行為對網(wǎng)絡(luò)安全狀態(tài)的影響程度。而對于同一攻擊行為來說,兩種方法各有千秋,例如在遇到DOS攻擊時,在網(wǎng)絡(luò)層會出現(xiàn)大量IP數(shù)據(jù)包,而在傳輸層會出現(xiàn)大量TCP鏈接[11]。因此,通過建立更加細(xì)化的指標(biāo)體系,多層面安全態(tài)勢評估能夠識別不同層面的表現(xiàn)。從評估指標(biāo)粒度來看,網(wǎng)絡(luò)行為狀態(tài)不同,對設(shè)備的景程程度也不同,脆弱性狀態(tài)將嚴(yán)重影響服務(wù)器,但對工作組的普通主機(jī)影響較小。從評估過程中權(quán)重確定來看,基于知識推理的方法和基于統(tǒng)計(jì)的方法都考慮了資產(chǎn)和設(shè)備的重要性,賦予了相應(yīng)的權(quán)值,但在計(jì)算方面,存在主觀片面性,對準(zhǔn)確評估安全態(tài)勢產(chǎn)生了一定影響。從評估過程中對攻擊識別程度來看,兩種方法都集中于靜態(tài)評估,而對攻擊行為的變化情況還需要進(jìn)一步分析。
總之,基于知識推理和統(tǒng)計(jì)的方法都具有實(shí)時性和自適應(yīng)性的特點(diǎn),能夠評估網(wǎng)絡(luò)安全態(tài)勢的各種安全事件特征,不僅對當(dāng)前網(wǎng)絡(luò)安全狀態(tài)進(jìn)行評估,還能評估預(yù)知的網(wǎng)絡(luò)行為對網(wǎng)絡(luò)安全造成的影響。