馬波勇
(中國太平洋保險(集團(tuán))股份有限公司 上海市 200233)
隨著我國信息技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)安全成為了互聯(lián)網(wǎng)技術(shù)發(fā)展中最重要的技術(shù)安全管理要點,網(wǎng)絡(luò)安全直接關(guān)系到我國居民的安全隱私和社會穩(wěn)定。大數(shù)據(jù)技術(shù)是未來網(wǎng)絡(luò)化發(fā)展的重要工具和重要技術(shù),其最大的特征就是數(shù)據(jù)量大并且數(shù)據(jù)結(jié)構(gòu)多樣化。大數(shù)據(jù)技術(shù)為網(wǎng)絡(luò)安全的分析帶來了全新的解決方案,具有較好的應(yīng)用效果。首先大數(shù)據(jù)技術(shù)介入能夠顯著的提升網(wǎng)絡(luò)安全分析中的數(shù)據(jù)存儲質(zhì)量,同時大數(shù)據(jù)技術(shù)能夠顯著的降低傳統(tǒng)網(wǎng)絡(luò)安全分析中高額的運營成本,大數(shù)據(jù)批量處理的過程中主要采用的分布式的數(shù)據(jù)結(jié)構(gòu),分布式的發(fā)展形式具有良好的層次性,數(shù)據(jù)量越大其運營成本更低,并且對于硬件的要求也更低。因此對于數(shù)據(jù)分析的門檻并不高,能夠最大限度的保證數(shù)據(jù)分析過程的穩(wěn)定性。
功能架構(gòu)主要由功能呈現(xiàn)層、場景分析層、安全數(shù)據(jù)中心層、數(shù)據(jù)源層四個層面組成。
功能呈現(xiàn)層:包括安全運營管理、安全威脅處置、安全監(jiān)控預(yù)警,同時提供原始日志與標(biāo)準(zhǔn)化日志的快速檢索與即席查詢功能。
場景分析層:外部攻擊分析的網(wǎng)絡(luò)威脅分析場景、系統(tǒng)安全分析場景、暴露面資產(chǎn)分析場景,用于內(nèi)部威脅分析的基礎(chǔ)軟件分析場景、橫向威脅分析場景、用戶行為分析場景等,向功能呈現(xiàn)層提供告警輸出、預(yù)警輸出、態(tài)勢輸出。
安全數(shù)據(jù)中心層:實現(xiàn)全網(wǎng)安全數(shù)據(jù)的集中采集、標(biāo)準(zhǔn)化、存儲、全文檢索、統(tǒng)一分析、數(shù)據(jù)共享及安全數(shù)據(jù)治理,并向上提供數(shù)據(jù)訪問接口。
數(shù)據(jù)源層:包括安全類數(shù)據(jù)、管理類數(shù)據(jù)、安全運行數(shù)據(jù)、審計類數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)等。
大數(shù)據(jù)安全分析技術(shù)架構(gòu)(圖1)主要由數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、分析計算和規(guī)則引擎、機器學(xué)習(xí)、前端展示等技術(shù)組成。
圖1:大數(shù)據(jù)安全分析技術(shù)架構(gòu)圖
(1)各種數(shù)據(jù)源由Flume采集后通過ETL模塊清洗補全成標(biāo)準(zhǔn)數(shù)據(jù),保存至HDFS、ElasticSearch、Kafka;
(2)使用ElasticSearch按日期索引存儲ETL清洗后的日志數(shù)據(jù),定期清理;
(3)離線規(guī)則引擎使用Flink從HDFS加載格式化數(shù)據(jù),進(jìn)行離線分析統(tǒng)計后的結(jié)果輸出至Kafka,由事件消費程序最終處理成事件數(shù)據(jù)保存;
(4)實時引擎從Kafka消費格式化數(shù)據(jù),進(jìn)行關(guān)聯(lián)分析后將結(jié)果保存;
(5)使用Spark Core、Spark ML實現(xiàn)離線場景分析和模型計算;
(6)使用Redis緩存字典、情報、基線等信息;
(7)后端服務(wù)使用Spring Boot、Spring Data Jpa向前端提供Restful接口;
(8)前端使用Vue、Element、Echarts等,由nginx部署代理轉(zhuǎn)發(fā)。
采用領(lǐng)先的大數(shù)據(jù)架構(gòu)和人工智能框架的安全大數(shù)據(jù)安全分析技術(shù),通過深度流量分析技術(shù)和入侵指標(biāo)(IOC)確認(rèn)技術(shù),對攻擊流量的特征檢測,深度監(jiān)控流量中所有可疑行為。輔以智能的會話補全技術(shù)、雙向會話分析技術(shù),實現(xiàn)對已知攻擊、變種攻擊和未知攻擊的檢測,完成數(shù)據(jù)融合下的威脅檢測、溯源和證據(jù)鏈的建立。
按照ALLINONE方式進(jìn)行架構(gòu)設(shè)計,將流量分析引擎、文件分析引擎、行為分析引擎及機器學(xué)習(xí)引擎統(tǒng)一。利用實時流量監(jiān)測實現(xiàn)對全局范圍內(nèi)的已知和未知新型威脅的監(jiān)控、分析、識別預(yù)警和處理。網(wǎng)絡(luò)流量分析檢測主要關(guān)鍵技術(shù)采用流量采集、解析,大數(shù)據(jù)分析和隱蔽信道檢測技術(shù)。
流量采集技術(shù):深度數(shù)據(jù)包檢測(Deep packet inspection,縮寫為DPI)是一種特殊的網(wǎng)絡(luò)技術(shù),它通過“旁路接入”的方式接入到網(wǎng)絡(luò),它會對網(wǎng)絡(luò)中的每個數(shù)據(jù)包進(jìn)行檢查,一般網(wǎng)絡(luò)設(shè)備只會查看以太網(wǎng)頭部、IP頭部而不會分析TCP/UDP里面的內(nèi)容這種被稱為淺數(shù)據(jù)包檢測;與之對應(yīng)的DPI會檢查TCP/UDP里面的內(nèi)容解析出MAC地址、IP地址、端口和應(yīng)用層的協(xié)議內(nèi)容。
大數(shù)據(jù)分析技術(shù):利用HDFS、HIVE、HBASE、solar、Spark等基礎(chǔ)大數(shù)據(jù)組件,提供了基于分布式架構(gòu)的ETL工具實現(xiàn)對海量數(shù)據(jù)的批處理。構(gòu)建了人工智能機器學(xué)習(xí)模型庫,能夠?qū)A繑?shù)據(jù)進(jìn)行深度挖掘,預(yù)置了樸素貝葉斯、決策樹、邏輯回歸、Kmeans、關(guān)聯(lián)規(guī)則、時間序列、最小哈希、線性回歸、主成分分析、協(xié)同過濾、相似特征分析、全連通圖形分析、鄰接點分析、文本分類、影響力傳播分析等人工智能算法,對未知的威脅能夠及時發(fā)現(xiàn),對于安全風(fēng)險能夠進(jìn)行提前預(yù)測,提前預(yù)警,及時采取應(yīng)對措施預(yù)防安全風(fēng)險對系統(tǒng)影響。
隱蔽信道檢測技術(shù):網(wǎng)絡(luò)流量分析檢測能夠針對隱蔽信道的通信行為進(jìn)行分析與檢測,能夠在大流量環(huán)境下對隱蔽信道進(jìn)行檢測,且能夠通過自定義規(guī)則快速構(gòu)建新的檢測模型。突破性的利用行為特征和行為分析的方法構(gòu)建檢測模型,解決了隱蔽信道利用方式的抗檢測和抗分析性;采用創(chuàng)新的檢測模型實現(xiàn)海量數(shù)據(jù)下的行為檢測,解決了如何從海量的數(shù)據(jù)中檢測隱蔽信道的數(shù)據(jù);實現(xiàn)規(guī)則自定義引擎支撐模型快速可調(diào)可變,解決了針對變化組合利用的隱蔽信道應(yīng)變檢測能力。
孤立森林屬于一種無參數(shù)的非監(jiān)督算法,它是一種偵測異常十分有效的組合算法,底層用的是決策樹。孤立森林是一個基于Ensemble的快速異常檢測方法,具有線性時間復(fù)雜度和高精準(zhǔn)度,其可以用于網(wǎng)絡(luò)安全中的攻擊檢測,金融交易欺詐檢測,疾病偵測,和噪聲數(shù)據(jù)過濾等。孤立森林是屬于Non-parametric和Unsupervised的方法,即不用定義數(shù)學(xué)模型也不需要有標(biāo)記的訓(xùn)練。孤立森林算法實現(xiàn)流程:
(1)孤立森林是由t個iTree(Isolation Tree)孤立樹組成的,每個iTree是一個二叉樹結(jié)構(gòu),其實現(xiàn)步驟如下:
(2)從訓(xùn)練數(shù)據(jù)中隨機選擇Ψ個點樣本點作為subsample,放入樹的根節(jié)點。
(3)隨機指定一個維度(attribute),在當(dāng)前節(jié)點數(shù)據(jù)中隨機產(chǎn)生一個切割點p——切割點產(chǎn)生于當(dāng)前節(jié)點數(shù)據(jù)中指定維度的最大值和最小值之間。
(4)以此切割點生成了一個超平面,然后將當(dāng)前節(jié)點數(shù)據(jù)空間劃分為2個子空間:把指定維度里小于p的數(shù)據(jù)放在當(dāng)前節(jié)點的左孩子,把大于等于p的數(shù)據(jù)放在當(dāng)前節(jié)點的右孩子。
(5)在孩子節(jié)點中遞歸步驟2和3,不斷構(gòu)造新的孩子節(jié)點,直到孩子節(jié)點中只有一個數(shù)據(jù)(無法再繼續(xù)切割)或孩子節(jié)點已到達(dá)限定高度。
(6)獲得t個iTree之后,訓(xùn)練結(jié)束,然后就可以用生成的iForest來評估測試數(shù)據(jù):對于一個訓(xùn)練數(shù)據(jù)x,我們令其遍歷每一棵iTree,然后計算x最終落在每個樹第幾層(x在樹的高度),此時可以得出x在每棵樹的高度平均值,獲得每個測試數(shù)據(jù)的高度平均值后,就可以設(shè)置一個邊界值,則此時低于此閾值的測試數(shù)據(jù)即為異常。
孤立森林算法模型的優(yōu)點:
(1)對內(nèi)存要求低,且處理速度快,具有線性時間復(fù)雜度,因為是ensemble的方法,所以可以用在含有海量數(shù)據(jù)的數(shù)據(jù)集上面。
(2)通常樹的數(shù)量越多,算法越穩(wěn)定,且由于每棵樹都是互相獨立生成的,因此可以部署在大規(guī)模分布式系統(tǒng)上來加速運算。
本文主要運用孤立森林算法對異常用戶檢測、未知威脅識別等安全分析場景上的運用,提升網(wǎng)絡(luò)安全威脅的識別感知能力。
(1)異常用戶檢測。
通過收集網(wǎng)站頁面中的命中爬蟲數(shù)、命中掃描數(shù)和訪問量等數(shù)據(jù)進(jìn)行多個維度的分析,來判斷頁面訪問是否為異常用戶。分析算法假設(shè)客戶的web應(yīng)用環(huán)境相對穩(wěn)定,那么絕大多數(shù)的用戶的訪問目標(biāo)相似,那么他們的訪問行為也相似。通過采用訪問量、訪問狀態(tài)碼404數(shù)和訪問GET請求數(shù)等維度來刻畫一個用戶;然后通過異常檢測算法找到差異最大的用戶,對差異最大的用戶做簡單分析來判斷其是否為異常用戶。
①數(shù)據(jù)預(yù)處理:src_ipC由ip計算得到: 192.168.1.1===> 192.168.1。
②數(shù)據(jù)篩選分組:按照用戶分組(這里占時用src_ip作為分組字段)特征抽取。
如表1所示。
表1
(2)未知威脅識別。
本文提出參數(shù)異常檢測的非監(jiān)督模型,事中使用參數(shù)異常檢測有效解決傳統(tǒng)規(guī)則識別未知web攻擊威脅,因特征庫特征不足導(dǎo)致的漏報和誤報問題,從而有效發(fā)現(xiàn)未知web攻擊威脅。大致做法是統(tǒng)計一個Page下所有參數(shù)的維度,過孤立森林算法來給每一條請求的參數(shù)集打分,來確定這個Page下請求的參數(shù)集是否異常。然后將與絕大多數(shù)正常訪問差異大的異常訪問篩選出來,并進(jìn)行打分排名。結(jié)合孤立森林模型和LSTM模型對攻擊樣本的異常打分進(jìn)行融合,然后對一小時內(nèi)的數(shù)據(jù)進(jìn)行學(xué)習(xí)并識別網(wǎng)絡(luò)攻擊F(x)=w(t)×f(x)+w(t)×l(x)。其中w(t)、w(t)表示孤立森林模型異常識別的打分權(quán)重。LSTM模型異常識別打分權(quán)重,并且初始狀態(tài)下w(t)>w(t),其中x、t、f(x)、l(x)、F(x),分別表示一小時內(nèi)的web流量數(shù)據(jù)、時間、孤立森林模型異常識別的打分權(quán)重。LSTM模型異常識別打分權(quán)重、孤立森林模型異常識別打分算法融合后的異常打分算法,算法的識別率隨著時間穩(wěn)步提升,最后通過加入人工打標(biāo)簽的方式來進(jìn)行二次驗證,并將標(biāo)簽結(jié)果作為擴充攻擊的樣本空間,用來為后續(xù)模型提供準(zhǔn)備。
模型訓(xùn)練流程如圖2所示。
圖2:模型訓(xùn)練流程
假設(shè)用戶在訪問同一個接口是調(diào)用的參數(shù)相對固定,那么這個接口的所有訪問在query參數(shù)個數(shù)、參數(shù)中數(shù)字個數(shù)和參數(shù)總長度等維度上做對比,來確定哪一條訪問的參數(shù)異常度打分。然后對異常分?jǐn)?shù)最高的一批訪問進(jìn)行人工打標(biāo)簽來確認(rèn)是否真實存在異常,并將結(jié)果作為后續(xù)模型的攻擊樣本。
數(shù)據(jù)字段說明如表2。
表2
數(shù)據(jù)篩選:
①所有訪問狀態(tài)碼為200的訪問。
②請求訪問的參數(shù)不為空。
數(shù)據(jù)分組:
①按照Domain和Path分組。
②給出異常分?jǐn)?shù)后將所有計算結(jié)果合并。
③排序(輸出最為異常的)。
特征提?。阂詀=1&b=2&c=我-你&d=abc為例,如表3。
表3
大數(shù)據(jù)技術(shù)的應(yīng)用能夠彌補傳統(tǒng)網(wǎng)絡(luò)安全分析中由于算力不足所產(chǎn)生的決策誤差問題,在整個網(wǎng)絡(luò)數(shù)據(jù)的安全分析過程中,通過實時關(guān)聯(lián)分析、人機交互以及分布式的數(shù)據(jù)采集分析處理能夠及時的發(fā)展?jié)撛诘倪\行威脅,進(jìn)而便于采取更加準(zhǔn)確的預(yù)防處理措施,使得網(wǎng)絡(luò)安全性能得到大幅度提升。在目前網(wǎng)絡(luò)技術(shù)大范圍應(yīng)用的背景下,大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全分析中的重要優(yōu)勢必然能夠發(fā)揮出更大的應(yīng)用價值。