基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)安全分析與應(yīng)用研究

2022-09-09 00:45馬波勇

電子技術(shù)與軟件工程 2022年14期

馬波勇

（中國太平洋保險（集團(tuán)）股份有限公司上海市 200233）

隨著我國信息技術(shù)的不斷發(fā)展，網(wǎng)絡(luò)安全成為了互聯(lián)網(wǎng)技術(shù)發(fā)展中最重要的技術(shù)安全管理要點，網(wǎng)絡(luò)安全直接關(guān)系到我國居民的安全隱私和社會穩(wěn)定。大數(shù)據(jù)技術(shù)是未來網(wǎng)絡(luò)化發(fā)展的重要工具和重要技術(shù)，其最大的特征就是數(shù)據(jù)量大并且數(shù)據(jù)結(jié)構(gòu)多樣化。大數(shù)據(jù)技術(shù)為網(wǎng)絡(luò)安全的分析帶來了全新的解決方案，具有較好的應(yīng)用效果。首先大數(shù)據(jù)技術(shù)介入能夠顯著的提升網(wǎng)絡(luò)安全分析中的數(shù)據(jù)存儲質(zhì)量，同時大數(shù)據(jù)技術(shù)能夠顯著的降低傳統(tǒng)網(wǎng)絡(luò)安全分析中高額的運營成本，大數(shù)據(jù)批量處理的過程中主要采用的分布式的數(shù)據(jù)結(jié)構(gòu)，分布式的發(fā)展形式具有良好的層次性，數(shù)據(jù)量越大其運營成本更低，并且對于硬件的要求也更低。因此對于數(shù)據(jù)分析的門檻并不高，能夠最大限度的保證數(shù)據(jù)分析過程的穩(wěn)定性。

1 大數(shù)據(jù)安全分析功能架構(gòu)

功能架構(gòu)主要由功能呈現(xiàn)層、場景分析層、安全數(shù)據(jù)中心層、數(shù)據(jù)源層四個層面組成。

功能呈現(xiàn)層：包括安全運營管理、安全威脅處置、安全監(jiān)控預(yù)警，同時提供原始日志與標(biāo)準(zhǔn)化日志的快速檢索與即席查詢功能。

場景分析層：外部攻擊分析的網(wǎng)絡(luò)威脅分析場景、系統(tǒng)安全分析場景、暴露面資產(chǎn)分析場景，用于內(nèi)部威脅分析的基礎(chǔ)軟件分析場景、橫向威脅分析場景、用戶行為分析場景等，向功能呈現(xiàn)層提供告警輸出、預(yù)警輸出、態(tài)勢輸出。

安全數(shù)據(jù)中心層：實現(xiàn)全網(wǎng)安全數(shù)據(jù)的集中采集、標(biāo)準(zhǔn)化、存儲、全文檢索、統(tǒng)一分析、數(shù)據(jù)共享及安全數(shù)據(jù)治理，并向上提供數(shù)據(jù)訪問接口。

數(shù)據(jù)源層：包括安全類數(shù)據(jù)、管理類數(shù)據(jù)、安全運行數(shù)據(jù)、審計類數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)等。

大數(shù)據(jù)安全分析技術(shù)架構(gòu)（圖1）主要由數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、分析計算和規(guī)則引擎、機器學(xué)習(xí)、前端展示等技術(shù)組成。

圖1：大數(shù)據(jù)安全分析技術(shù)架構(gòu)圖

（1）各種數(shù)據(jù)源由Flume采集后通過ETL模塊清洗補全成標(biāo)準(zhǔn)數(shù)據(jù)，保存至HDFS、ElasticSearch、Kafka；

（2）使用ElasticSearch按日期索引存儲ETL清洗后的日志數(shù)據(jù)，定期清理；

（3）離線規(guī)則引擎使用Flink從HDFS加載格式化數(shù)據(jù)，進(jìn)行離線分析統(tǒng)計后的結(jié)果輸出至Kafka，由事件消費程序最終處理成事件數(shù)據(jù)保存；

（4）實時引擎從Kafka消費格式化數(shù)據(jù)，進(jìn)行關(guān)聯(lián)分析后將結(jié)果保存；

（5）使用Spark Core、Spark ML實現(xiàn)離線場景分析和模型計算；

（6）使用Redis緩存字典、情報、基線等信息；

（7）后端服務(wù)使用Spring Boot、Spring Data Jpa向前端提供Restful接口；

（8）前端使用Vue、Element、Echarts等，由nginx部署代理轉(zhuǎn)發(fā)。

2 基于網(wǎng)絡(luò)流量安全威脅分析監(jiān)測

采用領(lǐng)先的大數(shù)據(jù)架構(gòu)和人工智能框架的安全大數(shù)據(jù)安全分析技術(shù)，通過深度流量分析技術(shù)和入侵指標(biāo)（IOC）確認(rèn)技術(shù)，對攻擊流量的特征檢測，深度監(jiān)控流量中所有可疑行為。輔以智能的會話補全技術(shù)、雙向會話分析技術(shù)，實現(xiàn)對已知攻擊、變種攻擊和未知攻擊的檢測，完成數(shù)據(jù)融合下的威脅檢測、溯源和證據(jù)鏈的建立。

按照ALLINONE方式進(jìn)行架構(gòu)設(shè)計，將流量分析引擎、文件分析引擎、行為分析引擎及機器學(xué)習(xí)引擎統(tǒng)一。利用實時流量監(jiān)測實現(xiàn)對全局范圍內(nèi)的已知和未知新型威脅的監(jiān)控、分析、識別預(yù)警和處理。網(wǎng)絡(luò)流量分析檢測主要關(guān)鍵技術(shù)采用流量采集、解析，大數(shù)據(jù)分析和隱蔽信道檢測技術(shù)。

流量采集技術(shù)：深度數(shù)據(jù)包檢測(Deep packet inspection，縮寫為DPI)是一種特殊的網(wǎng)絡(luò)技術(shù)，它通過“旁路接入”的方式接入到網(wǎng)絡(luò)，它會對網(wǎng)絡(luò)中的每個數(shù)據(jù)包進(jìn)行檢查，一般網(wǎng)絡(luò)設(shè)備只會查看以太網(wǎng)頭部、IP頭部而不會分析TCP/UDP里面的內(nèi)容這種被稱為淺數(shù)據(jù)包檢測；與之對應(yīng)的DPI會檢查TCP/UDP里面的內(nèi)容解析出MAC地址、IP地址、端口和應(yīng)用層的協(xié)議內(nèi)容。

大數(shù)據(jù)分析技術(shù)：利用HDFS、HIVE、HBASE、solar、Spark等基礎(chǔ)大數(shù)據(jù)組件，提供了基于分布式架構(gòu)的ETL工具實現(xiàn)對海量數(shù)據(jù)的批處理。構(gòu)建了人工智能機器學(xué)習(xí)模型庫，能夠?qū)Ａ繑?shù)據(jù)進(jìn)行深度挖掘，預(yù)置了樸素貝葉斯、決策樹、邏輯回歸、Kmeans、關(guān)聯(lián)規(guī)則、時間序列、最小哈希、線性回歸、主成分分析、協(xié)同過濾、相似特征分析、全連通圖形分析、鄰接點分析、文本分類、影響力傳播分析等人工智能算法，對未知的威脅能夠及時發(fā)現(xiàn)，對于安全風(fēng)險能夠進(jìn)行提前預(yù)測，提前預(yù)警，及時采取應(yīng)對措施預(yù)防安全風(fēng)險對系統(tǒng)影響。

隱蔽信道檢測技術(shù)：網(wǎng)絡(luò)流量分析檢測能夠針對隱蔽信道的通信行為進(jìn)行分析與檢測，能夠在大流量環(huán)境下對隱蔽信道進(jìn)行檢測，且能夠通過自定義規(guī)則快速構(gòu)建新的檢測模型。突破性的利用行為特征和行為分析的方法構(gòu)建檢測模型，解決了隱蔽信道利用方式的抗檢測和抗分析性；采用創(chuàng)新的檢測模型實現(xiàn)海量數(shù)據(jù)下的行為檢測，解決了如何從海量的數(shù)據(jù)中檢測隱蔽信道的數(shù)據(jù)；實現(xiàn)規(guī)則自定義引擎支撐模型快速可調(diào)可變，解決了針對變化組合利用的隱蔽信道應(yīng)變檢測能力。

3 孤立森林算法在網(wǎng)絡(luò)安全威脅分析中的應(yīng)用

孤立森林屬于一種無參數(shù)的非監(jiān)督算法，它是一種偵測異常十分有效的組合算法，底層用的是決策樹。孤立森林是一個基于Ensemble的快速異常檢測方法，具有線性時間復(fù)雜度和高精準(zhǔn)度，其可以用于網(wǎng)絡(luò)安全中的攻擊檢測，金融交易欺詐檢測，疾病偵測，和噪聲數(shù)據(jù)過濾等。孤立森林是屬于Non-parametric和Unsupervised的方法，即不用定義數(shù)學(xué)模型也不需要有標(biāo)記的訓(xùn)練。孤立森林算法實現(xiàn)流程：

（1）孤立森林是由t個iTree（Isolation Tree）孤立樹組成的，每個iTree是一個二叉樹結(jié)構(gòu)，其實現(xiàn)步驟如下：

（2）從訓(xùn)練數(shù)據(jù)中隨機選擇Ψ個點樣本點作為subsample，放入樹的根節(jié)點。

（3）隨機指定一個維度（attribute），在當(dāng)前節(jié)點數(shù)據(jù)中隨機產(chǎn)生一個切割點p——切割點產(chǎn)生于當(dāng)前節(jié)點數(shù)據(jù)中指定維度的最大值和最小值之間。

（4）以此切割點生成了一個超平面，然后將當(dāng)前節(jié)點數(shù)據(jù)空間劃分為2個子空間：把指定維度里小于p的數(shù)據(jù)放在當(dāng)前節(jié)點的左孩子，把大于等于p的數(shù)據(jù)放在當(dāng)前節(jié)點的右孩子。

（5）在孩子節(jié)點中遞歸步驟2和3，不斷構(gòu)造新的孩子節(jié)點，直到孩子節(jié)點中只有一個數(shù)據(jù)（無法再繼續(xù)切割）或孩子節(jié)點已到達(dá)限定高度。

（6）獲得t個iTree之后，訓(xùn)練結(jié)束，然后就可以用生成的iForest來評估測試數(shù)據(jù)：對于一個訓(xùn)練數(shù)據(jù)x，我們令其遍歷每一棵iTree，然后計算x最終落在每個樹第幾層（x在樹的高度），此時可以得出x在每棵樹的高度平均值，獲得每個測試數(shù)據(jù)的高度平均值后，就可以設(shè)置一個邊界值，則此時低于此閾值的測試數(shù)據(jù)即為異常。

孤立森林算法模型的優(yōu)點：

（1）對內(nèi)存要求低，且處理速度快，具有線性時間復(fù)雜度，因為是ensemble的方法，所以可以用在含有海量數(shù)據(jù)的數(shù)據(jù)集上面。

（2）通常樹的數(shù)量越多，算法越穩(wěn)定，且由于每棵樹都是互相獨立生成的，因此可以部署在大規(guī)模分布式系統(tǒng)上來加速運算。

本文主要運用孤立森林算法對異常用戶檢測、未知威脅識別等安全分析場景上的運用，提升網(wǎng)絡(luò)安全威脅的識別感知能力。

（1）異常用戶檢測。

通過收集網(wǎng)站頁面中的命中爬蟲數(shù)、命中掃描數(shù)和訪問量等數(shù)據(jù)進(jìn)行多個維度的分析，來判斷頁面訪問是否為異常用戶。分析算法假設(shè)客戶的web應(yīng)用環(huán)境相對穩(wěn)定，那么絕大多數(shù)的用戶的訪問目標(biāo)相似，那么他們的訪問行為也相似。通過采用訪問量、訪問狀態(tài)碼404數(shù)和訪問GET請求數(shù)等維度來刻畫一個用戶；然后通過異常檢測算法找到差異最大的用戶，對差異最大的用戶做簡單分析來判斷其是否為異常用戶。

①數(shù)據(jù)預(yù)處理：src_ipC由ip計算得到： 192.168.1.1===> 192.168.1。

②數(shù)據(jù)篩選分組：按照用戶分組（這里占時用src_ip作為分組字段）特征抽取。

如表1所示。

表1

（2）未知威脅識別。

本文提出參數(shù)異常檢測的非監(jiān)督模型，事中使用參數(shù)異常檢測有效解決傳統(tǒng)規(guī)則識別未知web攻擊威脅，因特征庫特征不足導(dǎo)致的漏報和誤報問題，從而有效發(fā)現(xiàn)未知web攻擊威脅。大致做法是統(tǒng)計一個Page下所有參數(shù)的維度，過孤立森林算法來給每一條請求的參數(shù)集打分，來確定這個Page下請求的參數(shù)集是否異常。然后將與絕大多數(shù)正常訪問差異大的異常訪問篩選出來，并進(jìn)行打分排名。結(jié)合孤立森林模型和LSTM模型對攻擊樣本的異常打分進(jìn)行融合，然后對一小時內(nèi)的數(shù)據(jù)進(jìn)行學(xué)習(xí)并識別網(wǎng)絡(luò)攻擊F(x)=w(t)×f(x)+w(t)×l(x)。其中w(t)、w(t)表示孤立森林模型異常識別的打分權(quán)重。LSTM模型異常識別打分權(quán)重，并且初始狀態(tài)下w(t)>w(t)，其中x、t、f(x)、l(x)、F(x)，分別表示一小時內(nèi)的web流量數(shù)據(jù)、時間、孤立森林模型異常識別的打分權(quán)重。LSTM模型異常識別打分權(quán)重、孤立森林模型異常識別打分算法融合后的異常打分算法，算法的識別率隨著時間穩(wěn)步提升，最后通過加入人工打標(biāo)簽的方式來進(jìn)行二次驗證，并將標(biāo)簽結(jié)果作為擴充攻擊的樣本空間，用來為后續(xù)模型提供準(zhǔn)備。

模型訓(xùn)練流程如圖2所示。

圖2：模型訓(xùn)練流程

假設(shè)用戶在訪問同一個接口是調(diào)用的參數(shù)相對固定，那么這個接口的所有訪問在query參數(shù)個數(shù)、參數(shù)中數(shù)字個數(shù)和參數(shù)總長度等維度上做對比，來確定哪一條訪問的參數(shù)異常度打分。然后對異常分?jǐn)?shù)最高的一批訪問進(jìn)行人工打標(biāo)簽來確認(rèn)是否真實存在異常，并將結(jié)果作為后續(xù)模型的攻擊樣本。

數(shù)據(jù)字段說明如表2。

表2

數(shù)據(jù)篩選：

①所有訪問狀態(tài)碼為200的訪問。

②請求訪問的參數(shù)不為空。

數(shù)據(jù)分組：

①按照Domain和Path分組。

②給出異常分?jǐn)?shù)后將所有計算結(jié)果合并。

③排序（輸出最為異常的）。

特征提?。阂詀=1&b=2&c=我-你&d=abc為例，如表3。

表3

4 結(jié)語

大數(shù)據(jù)技術(shù)的應(yīng)用能夠彌補傳統(tǒng)網(wǎng)絡(luò)安全分析中由于算力不足所產(chǎn)生的決策誤差問題，在整個網(wǎng)絡(luò)數(shù)據(jù)的安全分析過程中，通過實時關(guān)聯(lián)分析、人機交互以及分布式的數(shù)據(jù)采集分析處理能夠及時的發(fā)展?jié)撛诘倪\行威脅，進(jìn)而便于采取更加準(zhǔn)確的預(yù)防處理措施，使得網(wǎng)絡(luò)安全性能得到大幅度提升。在目前網(wǎng)絡(luò)技術(shù)大范圍應(yīng)用的背景下，大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全分析中的重要優(yōu)勢必然能夠發(fā)揮出更大的應(yīng)用價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)安全分析與應(yīng)用研究

1 大數(shù)據(jù)安全分析功能架構(gòu)

2 基于網(wǎng)絡(luò)流量安全威脅分析監(jiān)測

3 孤立森林算法在網(wǎng)絡(luò)安全威脅分析中的應(yīng)用

4 結(jié)語