崔東升,王 斌
(內(nèi)蒙古自治區(qū)郵電規(guī)劃設(shè)計(jì)院有限公司,內(nèi)蒙古 呼和浩特 010070)
數(shù)據(jù)融合技術(shù)利用傳感器資源對(duì)相關(guān)數(shù)據(jù)和觀測(cè)信息進(jìn)行分析、支配以及使用,對(duì)數(shù)據(jù)進(jìn)行時(shí)間和空間上的整合,進(jìn)而獲得一致性解釋。數(shù)據(jù)融合技術(shù)被提出后,在全世界范圍內(nèi)引起了廣泛關(guān)注,相關(guān)學(xué)者將其用于重大科研項(xiàng)目的部署和實(shí)施,取得了多項(xiàng)突破[1]。雖然數(shù)據(jù)融合技術(shù)沒(méi)有自己?jiǎn)为?dú)的理論體系,但是在不同領(lǐng)域相關(guān)應(yīng)用背景下的融合方法是成熟有效的。人工智能和隨機(jī)類算法是數(shù)據(jù)融合中經(jīng)常應(yīng)用的方法,同時(shí)神經(jīng)網(wǎng)絡(luò)等新概念或新技術(shù)對(duì)于數(shù)據(jù)融合將產(chǎn)生重要影響[2]。
目前,網(wǎng)絡(luò)安全環(huán)境中存在很多風(fēng)險(xiǎn),為了對(duì)企業(yè)和個(gè)人的關(guān)鍵信息進(jìn)行有效保護(hù),使其免受干擾和破壞,維持良好的網(wǎng)絡(luò)空間秩序,需要積極構(gòu)建相關(guān)聯(lián)動(dòng)協(xié)作機(jī)制,加強(qiáng)應(yīng)對(duì)網(wǎng)絡(luò)安全威脅的系統(tǒng)化防御。隨著時(shí)代信息化的發(fā)展,物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等已經(jīng)和網(wǎng)絡(luò)空間緊密結(jié)合,各種網(wǎng)絡(luò)安全要素信息需要被人們掌握,從而更好地維護(hù)網(wǎng)絡(luò)空間安全。各種數(shù)據(jù)之間具有關(guān)聯(lián)、隱含以及互補(bǔ)關(guān)系,通過(guò)對(duì)數(shù)據(jù)進(jìn)行充分合理的融合,從而實(shí)現(xiàn)大數(shù)據(jù)支持下的相關(guān)安全監(jiān)測(cè)、研判分析以及合理應(yīng)對(duì)[3]。
數(shù)據(jù)融合主要包括融合對(duì)象、目標(biāo)以及方法等要素。用于數(shù)據(jù)融合的很多網(wǎng)絡(luò)安全數(shù)據(jù)主要來(lái)源于計(jì)算設(shè)備、安全設(shè)備、外部數(shù)據(jù)源以及安全系統(tǒng)等,這些網(wǎng)絡(luò)安全數(shù)據(jù)是多源異構(gòu)的,具有很好的延伸性和拓展性。數(shù)據(jù)融合技術(shù)可以對(duì)網(wǎng)絡(luò)安全中涉及到的多種信息數(shù)據(jù)進(jìn)行一定的篩選和整合,建立網(wǎng)絡(luò)安全相關(guān)知識(shí)、發(fā)展?fàn)顟B(tài)以及事件的完整框架,從而完成相應(yīng)的保護(hù)目標(biāo),對(duì)問(wèn)題進(jìn)行有效解決。
數(shù)據(jù)融合應(yīng)用主要分為基于統(tǒng)計(jì)學(xué)的數(shù)據(jù)融合、基于數(shù)據(jù)挖掘的數(shù)據(jù)融合以及基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合,不同方法的融合效果也有所不同[4]。圖1為工業(yè)數(shù)據(jù)湖數(shù)據(jù)融合的基本概念和原理流程。
圖1 工業(yè)數(shù)據(jù)湖流程圖
統(tǒng)計(jì)學(xué)作為一種數(shù)學(xué)分支,主要涉及行為場(chǎng)景的假設(shè)和規(guī)律的總結(jié)。本次研究主要對(duì)假設(shè)檢驗(yàn)和濾波清洗兩種數(shù)據(jù)融合方法進(jìn)行介紹,探究其在網(wǎng)絡(luò)安全領(lǐng)域發(fā)揮的積極作用。具體統(tǒng)計(jì)學(xué)數(shù)據(jù)融合如圖2所示。
圖2 統(tǒng)計(jì)學(xué)數(shù)據(jù)融合
假設(shè)檢驗(yàn)技術(shù)是將最優(yōu)化的假設(shè)檢驗(yàn)作為判斷標(biāo)準(zhǔn),在統(tǒng)計(jì)學(xué)原理的范圍內(nèi)對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)和處理,最終得出數(shù)據(jù)結(jié)論。作為一種由相關(guān)假設(shè)條件選擇樣本推斷出總體的統(tǒng)計(jì)學(xué)方法,假設(shè)檢驗(yàn)在最開(kāi)始就對(duì)要探究事物的分布形式和總體進(jìn)行相關(guān)假設(shè),根據(jù)反證法和小概率原理在樣本信息的基礎(chǔ)上確定原假設(shè)成立與否[5]。假設(shè)檢驗(yàn)可以采取卡方檢驗(yàn)、方差檢驗(yàn)以及t檢驗(yàn)等多種方法,利用清除置信區(qū)間以外數(shù)據(jù)點(diǎn)的方式,排除掉異常數(shù)值,從而獲得想要的數(shù)據(jù)。
濾波清洗技術(shù)可以對(duì)數(shù)據(jù)進(jìn)行跟蹤處理,對(duì)多傳感器的相關(guān)數(shù)據(jù)進(jìn)行計(jì)算,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)融合應(yīng)用。濾波算法主要有粒子濾波和中值濾波等,在自主控制等領(lǐng)域均有應(yīng)用[6]。例如,對(duì)于突然出現(xiàn)的相關(guān)告警信息,運(yùn)用相關(guān)算法進(jìn)行干預(yù),對(duì)于一些攻擊和誤報(bào)可以進(jìn)行有效清除。誤報(bào)的來(lái)源多種多樣,可能是因?yàn)閿?shù)據(jù)背景缺乏,也可能是檢測(cè)規(guī)則設(shè)置不合理,還可能是檢測(cè)算法的適應(yīng)性不足。數(shù)據(jù)融合技術(shù)可以對(duì)有關(guān)數(shù)據(jù)進(jìn)行清洗,清除干擾到研究的數(shù)據(jù),提高數(shù)據(jù)判斷的準(zhǔn)確性。
數(shù)據(jù)挖掘主要通過(guò)機(jī)器設(shè)備從大量數(shù)據(jù)中挖掘所需要的數(shù)據(jù)或者知識(shí),比較常見(jiàn)的數(shù)據(jù)挖掘方法包括關(guān)聯(lián)、分類以及聚類等[7]。聚類分析是對(duì)多個(gè)目標(biāo)的數(shù)據(jù)進(jìn)行分析和融合,其基礎(chǔ)是模糊聚類分析和統(tǒng)計(jì)聚類分析,采集來(lái)源于多個(gè)傳感器的樣本數(shù)據(jù),最終實(shí)現(xiàn)不同目標(biāo)數(shù)據(jù)的隔離和同一目標(biāo)數(shù)據(jù)的聚類[8]。聚類會(huì)將一個(gè)數(shù)據(jù)進(jìn)行分割形成類或者簇,擴(kuò)大簇內(nèi)的數(shù)據(jù)相似度,同時(shí)也會(huì)加大不同簇內(nèi)數(shù)據(jù)的差異性,這些行為都是遵從一定標(biāo)準(zhǔn)的,簡(jiǎn)單來(lái)講就是匯集同類數(shù)據(jù)并分離不同類數(shù)據(jù)。層次聚類和迭代聚類是當(dāng)前聚類分析中比較常見(jiàn)的方法,其中數(shù)值對(duì)層次聚類的影響較大。層次聚類計(jì)算速度慢且較為復(fù)雜,對(duì)大樣本并不適用。而迭代聚類對(duì)分類指標(biāo)有一定要求,即要求定距變量,優(yōu)點(diǎn)是計(jì)算速度較快。
神經(jīng)網(wǎng)絡(luò)就像生物體內(nèi)的神經(jīng)系統(tǒng),可以很好地對(duì)生物和環(huán)境的互動(dòng)融合進(jìn)行模擬,模仿生物的分析和判斷能力,對(duì)外界進(jìn)行感知和了解,進(jìn)而對(duì)相關(guān)數(shù)據(jù)進(jìn)行綜合化處理。利用多源數(shù)據(jù)對(duì)外界事物進(jìn)行具體描繪,生成綜合畫像。卷積神經(jīng)網(wǎng)絡(luò)通常包括出入向量、隱藏層、輸出層、輸出值等不同的階段,如圖3所示。卷積層由數(shù)量眾多的卷積單元構(gòu)成,在卷積定義中是一種形式上的特殊存在,在卷積神經(jīng)網(wǎng)絡(luò)中主要是對(duì)輸入數(shù)據(jù)的區(qū)別和差異進(jìn)行提取。除此之外,卷積神經(jīng)網(wǎng)絡(luò)還可以進(jìn)行文本處理、語(yǔ)音處理等,在很多領(lǐng)域都有相關(guān)應(yīng)用[9]。
圖3 神經(jīng)網(wǎng)絡(luò)圖層
循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)傳遞方式是多方向的,其接收到的數(shù)據(jù)信息還包含本身就有的狀態(tài)信息,可以長(zhǎng)久被存放在網(wǎng)絡(luò)中并進(jìn)行循環(huán)傳遞。作為循環(huán)神經(jīng)網(wǎng)絡(luò)中擁有復(fù)雜神經(jīng)元的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),當(dāng)需要進(jìn)行時(shí)間序列的有關(guān)處理且間隔和延遲需要占用較長(zhǎng)時(shí)間時(shí),其效果明顯比循環(huán)神經(jīng)網(wǎng)絡(luò)好。和循環(huán)神經(jīng)網(wǎng)絡(luò)相比,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中的神經(jīng)元要復(fù)雜得多,其神經(jīng)元接收的內(nèi)容既有上一時(shí)刻輸出、當(dāng)前時(shí)刻樣本輸入,還有一個(gè)元胞狀態(tài)[10]。
網(wǎng)絡(luò)安全數(shù)據(jù)具有多樣性和復(fù)雜性,如果對(duì)其進(jìn)行整理和劃分,需要搭建異構(gòu)多源數(shù)據(jù)和數(shù)據(jù)清洗融合的一系列原型系統(tǒng)。在系統(tǒng)中,對(duì)網(wǎng)絡(luò)數(shù)據(jù)安全中涉及到的各種數(shù)據(jù)采用插件進(jìn)行融合分析,重點(diǎn)分析數(shù)據(jù)中摻雜的不安全因素,應(yīng)用相關(guān)統(tǒng)計(jì)學(xué)知識(shí)對(duì)這些數(shù)據(jù)進(jìn)行清洗,判定出不安全數(shù)據(jù),從而找出威脅,保護(hù)網(wǎng)絡(luò)安全。數(shù)據(jù)融合技術(shù)在目前的日志管理與流量檢測(cè)設(shè)備中有所應(yīng)用,通過(guò)融合維度策略等可以對(duì)相關(guān)日志進(jìn)行一定程度的壓縮,將數(shù)以萬(wàn)計(jì)的數(shù)據(jù)融合成可供人們進(jìn)行人工判斷的精簡(jiǎn)日志,這在一定程度上有效減少了網(wǎng)絡(luò)安全威脅對(duì)數(shù)據(jù)進(jìn)行攻擊所產(chǎn)生的運(yùn)維工作量。除此之外,當(dāng)前人工智能技術(shù)快速發(fā)展,通過(guò)對(duì)人工智能技術(shù)進(jìn)行充分有效地利用,可以對(duì)攻擊線索進(jìn)行一定分析,還可以強(qiáng)化網(wǎng)絡(luò)威脅的具象化表達(dá)。
通過(guò)闡述網(wǎng)絡(luò)安全數(shù)據(jù)的相關(guān)融合要素,重點(diǎn)研究了在網(wǎng)絡(luò)安全中數(shù)據(jù)融合涉及到的相關(guān)算法的適用性。隨著技術(shù)進(jìn)步,對(duì)于網(wǎng)絡(luò)安全數(shù)據(jù)的一些融合化處理需求也變得更為迫切,數(shù)據(jù)融合技術(shù)將會(huì)對(duì)網(wǎng)絡(luò)安全產(chǎn)生重要的影響。在網(wǎng)絡(luò)安全防護(hù)中,還可以利用數(shù)據(jù)融合技術(shù)對(duì)一些安全隱患進(jìn)行排查并進(jìn)行相應(yīng)的風(fēng)險(xiǎn)評(píng)估,從而制定出行之有效的解決方法,減少不必要的損失。