張利峰 邵斐
摘 要: 采用支持向量機(jī)進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)時(shí),建模效率低導(dǎo)致對(duì)異常風(fēng)險(xiǎn)的監(jiān)測(cè)結(jié)果存在較高的誤差,設(shè)計(jì)基于Hadoop的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)。依據(jù)云計(jì)算Hadoop系統(tǒng)作業(yè)原理,通過(guò)Map/Reduce分布式模式對(duì)大數(shù)據(jù)進(jìn)行分類(lèi)篩選等操作,通過(guò)控制模塊中的SDN控制器對(duì)大數(shù)據(jù)流量進(jìn)行分流處理,將網(wǎng)絡(luò)大數(shù)據(jù)分類(lèi)反饋到監(jiān)測(cè)模塊中,采用監(jiān)測(cè)模塊通過(guò)預(yù)處理端和存儲(chǔ)端對(duì)異常數(shù)據(jù)風(fēng)險(xiǎn)進(jìn)行監(jiān)測(cè),通過(guò)預(yù)處理端實(shí)現(xiàn)大數(shù)據(jù)的有效分流監(jiān)測(cè);系統(tǒng)軟件通過(guò)最小二乘支持向量機(jī)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行高效率建模,實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)異常監(jiān)測(cè)。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)系統(tǒng)具有監(jiān)測(cè)效率和穩(wěn)定性高、性能佳的優(yōu)勢(shì)。
關(guān)鍵詞: 網(wǎng)絡(luò)大數(shù)據(jù); 異常風(fēng)險(xiǎn); 監(jiān)測(cè)系統(tǒng); 控制模塊; Hadoop; 最小二乘支持向量機(jī)
中圖分類(lèi)號(hào): TN931+.3?34; TP314 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)22?0143?04
Abstract: When the support vector machine is used to monitor abnormal risks of the network big data platform, the modeling efficiency is low, which leads to high errors of abnormal risk monitoring results. Therefore, an abnormal risk monitoring system based on Hadoop is designed for the network big data platform. According to the operation principle of the cloud computing Hadoop system, the big data is classified and filtered by using the Map/Reduce distribution model. The shunting processing of big data traffic is conducted by using the SDN controller in the control module, so as to feed the network big data in classification back to the monitoring module. The monitoring module is used to monitor abnormal data risks by using the preprocessing terminal and storage terminal. The effective shunting supervision of big data is realized by using the preprocessing terminal. In system software, high?efficiency modeling of network big data is conducted by using the least squares support vector machine, so as to realize abnormality monitoring of network big data. The experimental results show that the designed system has the advantages of high monitoring efficiency, high stability and good performance.
Keywords: network big data; abnormal risk; monitoring system; control module; Hadoop; least squares support vector machine
網(wǎng)絡(luò)大數(shù)據(jù)是眼下社會(huì)經(jīng)濟(jì)發(fā)展的主流,但是由于異常風(fēng)險(xiǎn)數(shù)據(jù)的存在,準(zhǔn)確提取大數(shù)據(jù)受到阻礙 [1],因此出現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)。如何通過(guò)此系統(tǒng)實(shí)現(xiàn)異常風(fēng)險(xiǎn)的有效監(jiān)測(cè)[2],是當(dāng)前監(jiān)測(cè)系統(tǒng)設(shè)計(jì)中的重中之重。傳統(tǒng)常用的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)通常采用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法進(jìn)行監(jiān)測(cè),二者建模和監(jiān)測(cè)的方式是干擾網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)對(duì)異常風(fēng)險(xiǎn)監(jiān)測(cè)的關(guān)鍵因素,異常風(fēng)險(xiǎn)監(jiān)測(cè)的結(jié)果存在不穩(wěn)定性、局限性、效率低等缺陷[3]。
本文設(shè)計(jì)基于Hadoop的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)從硬件設(shè)計(jì)、軟件設(shè)計(jì)兩方面闡述對(duì)異常風(fēng)險(xiǎn)的監(jiān)測(cè)功能,并與WBT系統(tǒng)和網(wǎng)絡(luò)仿真技術(shù)系統(tǒng)進(jìn)行監(jiān)測(cè)對(duì)比仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的系統(tǒng)具有穩(wěn)定性好、效率高、誤差小的優(yōu)勢(shì),為網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)的異常風(fēng)險(xiǎn)監(jiān)測(cè)提供了有效途徑,具有較高的實(shí)際應(yīng)用價(jià)值。
1.1 Hadoop系統(tǒng)作業(yè)原理
網(wǎng)絡(luò)大數(shù)據(jù)本身具有體量巨大、類(lèi)型繁多等特點(diǎn),使用一臺(tái)計(jì)算機(jī)不能完成對(duì)數(shù)據(jù)進(jìn)行分類(lèi)篩選監(jiān)測(cè)等操作[4],因此產(chǎn)生云計(jì)算系統(tǒng)。本文系統(tǒng)是在Hadoop系統(tǒng)作業(yè)原理的基礎(chǔ)上進(jìn)行設(shè)計(jì),其通過(guò)Map/Reduce分布式模式對(duì)大數(shù)據(jù)進(jìn)行操作[5]。Hadoop系統(tǒng)作業(yè)原理見(jiàn)圖1。
圖1中,把網(wǎng)絡(luò)大數(shù)據(jù)中的異常數(shù)據(jù)監(jiān)測(cè)任務(wù)細(xì)分為多種子任務(wù),每種子任務(wù)分別使用一個(gè)節(jié)點(diǎn),最后把結(jié)果上傳到數(shù)據(jù)庫(kù)管理節(jié)點(diǎn),主管理節(jié)點(diǎn)把全部結(jié)果匯合到一起后,就是異常風(fēng)險(xiǎn)數(shù)據(jù)的監(jiān)測(cè)結(jié)果。
1.2 控制模塊設(shè)計(jì)
在基于Hadoop的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)中設(shè)計(jì)異常風(fēng)險(xiǎn)監(jiān)測(cè)控制模塊,可以使大數(shù)據(jù)可以流暢、安全、穩(wěn)定的輸送和使用[6]。SDN控制器是異常風(fēng)險(xiǎn)監(jiān)測(cè)控制模塊的主導(dǎo)控制設(shè)備。通過(guò)使用OPENFLIW技術(shù)[7]構(gòu)建大數(shù)據(jù)傳輸途徑,大數(shù)據(jù)傳送數(shù)量得以限制,完成對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的全部掌控,因此它是可以使網(wǎng)絡(luò)大數(shù)據(jù)實(shí)行隔離控制的控制器。網(wǎng)絡(luò)大數(shù)據(jù)異常風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)控制模塊控制原理圖如圖2所示。
圖2中網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)由計(jì)算端和控制端組成,通過(guò)接口1把二者連接在同一路徑,以此加強(qiáng)大數(shù)據(jù)的傳送具有連貫性和應(yīng)用性。計(jì)算端將控制算法傳遞給SDN控制器,控制端和SDN控制器一起服務(wù)于網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)。把網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)加入和風(fēng)險(xiǎn)監(jiān)測(cè)相符的參數(shù),就是控制端對(duì)網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)的控制點(diǎn)。圖2中的接口2就是平臺(tái)特意作為控制端輸入網(wǎng)絡(luò)參數(shù)重置標(biāo)準(zhǔn);但是SDN控制器對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的控制就是參數(shù)重置后的大數(shù)據(jù)流量分流,把網(wǎng)絡(luò)大數(shù)據(jù)分類(lèi)上傳到監(jiān)測(cè)模塊,使監(jiān)測(cè)模塊可以進(jìn)行準(zhǔn)確有效的異常數(shù)據(jù)風(fēng)險(xiǎn)監(jiān)測(cè)。
1.3 監(jiān)測(cè)模塊設(shè)計(jì)
本文系統(tǒng)通過(guò)監(jiān)測(cè)模塊對(duì)網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)中的異常數(shù)據(jù)風(fēng)險(xiǎn)進(jìn)行監(jiān)測(cè)。監(jiān)測(cè)模塊由預(yù)處理端和存儲(chǔ)端構(gòu)成[8],其中還設(shè)置了警電路和緩沖電路,提高了系統(tǒng)的穩(wěn)定性和用戶體驗(yàn),監(jiān)測(cè)模塊的結(jié)構(gòu)圖見(jiàn)圖3。
通過(guò)圖3可知,在網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)監(jiān)測(cè)模塊中,異常報(bào)警、異常大數(shù)據(jù)監(jiān)測(cè)、異常大數(shù)據(jù)區(qū)域的構(gòu)建和存儲(chǔ)是監(jiān)測(cè)模塊的工作核心。
2.1 最小二乘支持向量機(jī)
由于傳統(tǒng)網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)時(shí)采用支持向量機(jī)進(jìn)行分析,該方法存在建模時(shí)間長(zhǎng)、效率低等缺陷[9]。本文系統(tǒng)采用最小二乘支持向量機(jī)進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)時(shí),對(duì)傳統(tǒng)方法進(jìn)行改進(jìn)的內(nèi)容是:不等式約束變成等式約束;損失函數(shù)成為經(jīng)驗(yàn)函數(shù);二次規(guī)劃問(wèn)題變成求解線性方程組問(wèn)題。
2.2 網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)模型
本文系統(tǒng)基于最小二乘支持向量機(jī)塑造網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)檢測(cè)模型,實(shí)現(xiàn)大數(shù)據(jù)異常風(fēng)險(xiǎn)檢測(cè),其工作流程是:
1) 在實(shí)時(shí)收集網(wǎng)絡(luò)大數(shù)據(jù)的有關(guān)信息中采取網(wǎng)絡(luò)入侵時(shí)的數(shù)據(jù)當(dāng)作異常風(fēng)險(xiǎn)監(jiān)測(cè)。
2) 在原始網(wǎng)絡(luò)數(shù)據(jù)異常風(fēng)險(xiǎn)監(jiān)測(cè)的數(shù)據(jù)中減少數(shù)據(jù)的范圍,提高最小二乘支持向量機(jī)的學(xué)習(xí)速度。
3) 把網(wǎng)絡(luò)大數(shù)據(jù)異常風(fēng)險(xiǎn)監(jiān)測(cè)樣本區(qū)分成多個(gè)子樣本集,并使用最小二乘支持向量機(jī)分別對(duì)各個(gè)子樣本集建模。
4) 在最小二乘支持向量機(jī)內(nèi)設(shè)定好參數(shù)和訓(xùn)練、測(cè)試的樣本。
5) 各個(gè)節(jié)點(diǎn)中,把訓(xùn)練樣本輸入到最小二乘支持向量機(jī)里練習(xí),建立闡述輸入和輸出之間映射關(guān)系的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)模型。
6) 把網(wǎng)絡(luò)大數(shù)據(jù)異常風(fēng)險(xiǎn)監(jiān)測(cè)結(jié)果反饋到管理節(jié)點(diǎn),獲取訓(xùn)練樣本異常監(jiān)測(cè)的最后結(jié)果。
7) 通過(guò)測(cè)試樣本對(duì)構(gòu)建的網(wǎng)絡(luò)大數(shù)據(jù)異常風(fēng)險(xiǎn)監(jiān)測(cè)模型的性能實(shí)行測(cè)試研究[10],若監(jiān)測(cè)結(jié)果與實(shí)際應(yīng)用不符,重新訓(xùn)練,以此類(lèi)推直到符合所求為止。
本文對(duì)本文系統(tǒng)與WBT系統(tǒng)和網(wǎng)絡(luò)仿真技術(shù)系統(tǒng)進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證本文系統(tǒng)對(duì)于網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)的性能優(yōu)劣。在同一網(wǎng)絡(luò)大數(shù)據(jù)庫(kù)中實(shí)行異常風(fēng)險(xiǎn)數(shù)據(jù)監(jiān)測(cè)中,監(jiān)測(cè)到的異常風(fēng)險(xiǎn)數(shù)據(jù)量與其系統(tǒng)的監(jiān)測(cè)性能成正比,監(jiān)測(cè)性能的優(yōu)劣代表系統(tǒng)和數(shù)據(jù)庫(kù)的匹配度高低。實(shí)驗(yàn)檢測(cè)獲取的三種系統(tǒng)監(jiān)測(cè)性能對(duì)比結(jié)果如圖4所示。
從圖4可以看出,WBT系統(tǒng)的監(jiān)測(cè)性能極差,應(yīng)用性能低;網(wǎng)絡(luò)仿真技術(shù)系統(tǒng)在監(jiān)測(cè)時(shí)間為120 s前的監(jiān)測(cè)性能略優(yōu),而時(shí)間增多后,監(jiān)測(cè)的性能沒(méi)有相應(yīng)提高,在實(shí)驗(yàn)接近尾聲階段,監(jiān)測(cè)出的異常風(fēng)險(xiǎn)數(shù)據(jù)量沒(méi)有增多,說(shuō)明性能有待優(yōu)化。相比之下,本文系統(tǒng)監(jiān)測(cè)出的異常風(fēng)險(xiǎn)數(shù)據(jù)量隨著時(shí)間的增多而增多,而且可以把網(wǎng)絡(luò)大數(shù)據(jù)庫(kù)中的異常風(fēng)險(xiǎn)數(shù)據(jù)全部監(jiān)測(cè)到,證明本文系統(tǒng)的性能高的優(yōu)勢(shì)。
實(shí)驗(yàn)為檢測(cè)本文系統(tǒng)的運(yùn)行效率,在不同工作進(jìn)程數(shù)情況下對(duì)本文系統(tǒng)的元組吞吐量進(jìn)行檢測(cè)。實(shí)驗(yàn)確保分別向本文系統(tǒng)提交4組不同數(shù)量的數(shù)據(jù)任務(wù),檢測(cè)不同數(shù)據(jù)量情況下,不同工作進(jìn)程時(shí)本文系統(tǒng)元組吞吐量波動(dòng)情況,結(jié)果如表1所示。實(shí)驗(yàn)通過(guò)Storm rebalance命令對(duì)本文系統(tǒng)的工作進(jìn)程數(shù)量進(jìn)行調(diào)控。
分析表1能夠得出,當(dāng)系統(tǒng)工作進(jìn)程量逐漸提升,本文系統(tǒng)進(jìn)行異常風(fēng)險(xiǎn)數(shù)據(jù)檢測(cè)的吞吐量逐漸提高,說(shuō)明提高系統(tǒng)工作進(jìn)程量可增強(qiáng)本文系統(tǒng)的并行操作性能。當(dāng)本文系統(tǒng)監(jiān)測(cè)的數(shù)據(jù)量為150萬(wàn)條時(shí),如果工作進(jìn)程數(shù)是3,則本文系統(tǒng)的吞吐量為0.83萬(wàn)條/s,此時(shí)工作進(jìn)程量提升到4,則本文系統(tǒng)的吞吐量增加到0.96萬(wàn)條/s,如果工作進(jìn)程數(shù)提高到6以及9,本文系統(tǒng)的吞吐量出現(xiàn)了大幅度提高趨勢(shì),分別增加到1.04萬(wàn)條/s以及1.08萬(wàn)條/s,說(shuō)明本文系統(tǒng)具有較高的并行操作性能,應(yīng)用在網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)過(guò)程中具有較高的優(yōu)勢(shì)。
針對(duì)本文系統(tǒng)監(jiān)測(cè)到的異常風(fēng)險(xiǎn)數(shù)據(jù)比其他兩個(gè)系統(tǒng)多,因此使用“監(jiān)測(cè)準(zhǔn)確率”對(duì)監(jiān)測(cè)出的異常風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行判別是否全部都是異常風(fēng)險(xiǎn)數(shù)據(jù)。從而驗(yàn)證本文系統(tǒng)的準(zhǔn)確率和穩(wěn)定性。實(shí)驗(yàn)使用三種不同類(lèi)型網(wǎng)絡(luò)大數(shù)據(jù)庫(kù),通過(guò)本文系統(tǒng)分別實(shí)行異常風(fēng)險(xiǎn)數(shù)據(jù)監(jiān)測(cè),結(jié)果見(jiàn)圖5。
分析圖5能夠得出,本文系統(tǒng)在三種不同數(shù)據(jù)庫(kù)中的異常風(fēng)險(xiǎn)數(shù)據(jù)監(jiān)測(cè)準(zhǔn)確率一直保持在[90%,98%]區(qū)間中,浮動(dòng)幅度小,驗(yàn)證了本文系統(tǒng)的準(zhǔn)確率和穩(wěn)定性。
本文設(shè)計(jì)基于Hadoop的網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)是由控制模塊和監(jiān)測(cè)模塊構(gòu)成??刂颇K通過(guò)SDN控制器提高數(shù)據(jù)的使用效率,監(jiān)測(cè)模塊通過(guò)對(duì)異常風(fēng)險(xiǎn)數(shù)據(jù)的監(jiān)測(cè)以及使用報(bào)警電路對(duì)異常風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行處理后,形成異常大數(shù)據(jù)區(qū)域存儲(chǔ)到存儲(chǔ)器中。系統(tǒng)采用最小二乘支持向量機(jī)實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)。
參考文獻(xiàn)
[1] 張科星.網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)中的特征數(shù)據(jù)分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2017,40(8):25?28.
ZHANG Kexing. Design and implementation of feature data classification system in network big data platform [J]. Modern electronics technique, 2017, 40(8): 25?28.
[2] 任華,張玲,葉煜.數(shù)字化校園中用戶網(wǎng)絡(luò)行為大數(shù)據(jù)的分析與監(jiān)控[J].計(jì)算機(jī)與數(shù)字工程,2017,45(9):1814?1818.
REN Hua, ZHANG Ling, YE Yu. Analysis and monitoring of big data of user′s network behavior in digital campus [J]. Computer and digital engineering, 2017, 45(9): 1814?1818.
[3] 路鶴晴,張曉峰,李斌.基于物聯(lián)網(wǎng)的高危妊娠監(jiān)測(cè)預(yù)警網(wǎng)絡(luò)平臺(tái)的設(shè)計(jì)與應(yīng)用[J].中國(guó)醫(yī)療器械雜志,2017,41(5):327?329.
LU Heqing, ZHANG Xiaofeng, LI bin. Design and application of high?risk pregnancy monitoring & warning Internet platform based on Internet of Things [J]. Chinese journal of medical instrumentation, 2017, 41(5): 327?329.
[4] 曾勝.重大危險(xiǎn)源動(dòng)態(tài)智能監(jiān)測(cè)監(jiān)控大數(shù)據(jù)平臺(tái)框架設(shè)計(jì)[J].中國(guó)安全科學(xué)學(xué)報(bào),2014,24(11):166?171.
ZENG Sheng. Framework design of large data platform for monitoring and controlling major hazards dynamically and intelligently [J]. China safety science journal, 2014, 24(11): 166?171.
[5] 張成軍,劉超,郭強(qiáng).大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境下異常節(jié)點(diǎn)數(shù)據(jù)定位方法仿真[J].計(jì)算機(jī)仿真,2017,34(5):273?276.
ZHANG Chengjun, LIU Chao, GUO Qiang. Simulation of abnormal node data location in large data network environment [J]. Statistical research, Computer simulation, 2017, 34(5): 273?276.
[6] 唐曉彬,周志敏,董莉.大數(shù)據(jù)背景下網(wǎng)絡(luò)突發(fā)事件動(dòng)態(tài)監(jiān)測(cè)研究[J].統(tǒng)計(jì)研究,2017,34(2):44?54.
TANG Xiaobin, ZHOU Zhimin, DONG Li. Research on monitoring Internet burst events dynamically from the big data perspective [J]. Statistical research, 2017, 34(2): 44?54.
[7] 張威,敖乃翔,王德勇,等.基于異常用電行為識(shí)別的社會(huì)治安風(fēng)險(xiǎn)預(yù)警方法[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2016,11(6):594?598.
ZHANG Wei, AO Naixiang, WANG Deyong, et al. Public security risk preception based on anomaly detection of electrical behavior [J]. Journal of China Academy of Electronics and Information Technology, 2016, 11(6): 594?598.
[8] 胡為艷,艾民,周光彬,等.基于大數(shù)據(jù)的信令監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電視技術(shù),2016,40(1):95?101.
HU Weiyan, AI Min, ZHOU Guangbin, et al. Design and implementation of big data based signaling monitoring system [J]. Video engineering, 2016, 40(1): 95?101.
[9] WANG S, LI Y, ZHAO X, et al. Intrusion detection system design of cloud computing based on abnormal traffic identification [J]. International journal of reasoning?based intelligent systems, 2015, 7(3): 186?192.
[10] XUE Y W, ZHANG P Z, FAN J. Design and realization of supervision platform of simulating capital abnormal flow in complex financial network [J]. Systems engineering?theory methodology application, 2005, 14(5): 449?453.