員永生 馬天 章立軍 張飛馬 王新輝
摘要:在統(tǒng)計(jì)網(wǎng)絡(luò)傳輸數(shù)據(jù)建模上,平穩(wěn)化的數(shù)據(jù)有利于預(yù)報(bào)建模。由于傳輸數(shù)據(jù)是非平穩(wěn)時(shí)間序列,具有非線性、多尺度等特點(diǎn),就如何削弱數(shù)據(jù)的隨機(jī)性并構(gòu)造計(jì)算模型進(jìn)行仿真計(jì)算,本文實(shí)驗(yàn)建模了經(jīng)驗(yàn)?zāi)J椒纸馀c小波分解組合支持向量機(jī)的兩種計(jì)算模型。第一種建模方法是小波組合向量機(jī)建模,做法是先將數(shù)據(jù)流分解為長(zhǎng)期趨勢(shì)和隨機(jī)擾動(dòng)項(xiàng),然后采用支持向量機(jī)對(duì)分解后的各分量預(yù)測(cè),最后將各預(yù)測(cè)值相加得到最終預(yù)測(cè)結(jié)果;第二種建模方法是經(jīng)驗(yàn)?zāi)J椒纸饨M合向量機(jī)建模,先將流量分解成不同頻帶本征分量,常規(guī)的做法是用向量機(jī)逐一對(duì)各分量進(jìn)行預(yù)測(cè),然后對(duì)預(yù)測(cè)值等權(quán)求和得到預(yù)測(cè)結(jié)果作為驗(yàn)證結(jié)果;新提出的做法是直接把各模式分量作為輸入向量,與真實(shí)值建立預(yù)測(cè)模型。結(jié)果表明基于經(jīng)驗(yàn)?zāi)J椒纸饨?gòu)造的新實(shí)驗(yàn)?zāi)P?,相比小波組合模型在傳輸數(shù)據(jù)預(yù)報(bào)上更穩(wěn)定可靠。
關(guān)鍵詞:支持向量機(jī);經(jīng)驗(yàn)?zāi)J椒纸?;小波分解;異常監(jiān)測(cè)
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)19-0241-06
Two SVM Hybrid Models on Time Series Data
YUN Yong-sheng1, MA Tian2, ZHANG Li-jun1, ZHANG Fei-ma1, WANG Xin-hui1
(1.94175 Troops, Urumqi 830006, China; 2.Law School of Xinjiang University of Finance and Economics, Urumqi 830012, China)
Abstract: In building statistics model on network transferring data, smooth data is effective for prediction. Owing to the non-stationary, non-linear and multi-scale characteristics of the transferring data, in this study two models that combining with SVM are proposed and compared. One is wavelet based model which separates the data into long-run vectors and random disturbance vector and then using each vector as input for prediction, the final outcome is added by individual prediction. Another one is EMD based model, the data is decomposed by EMD into different smooth IMF components, and conventional method is using SVM to predict each component separately, the results are obtained by summing individual prediction with same weight, as checking results in experiment; the proposed model is computed directly using IMF component as input vectors for constructing SVM model with the original data. The computation results show that the proposed EMD computing model is obtaining higher prediction accuracy than wavelet model and the checking model. It is also proved more stability.
Key words: SVM; empirical mode decomposition(EMD); wavelet decomposition; anomaly detection
異常數(shù)據(jù)流量檢測(cè)通常是保障網(wǎng)絡(luò)空間安全的重要技術(shù)手段之一,充當(dāng)著數(shù)字空間“預(yù)警機(jī)”的角色,如何通過(guò)對(duì)網(wǎng)絡(luò)流量統(tǒng)計(jì)模型進(jìn)行有效“異?!睓z測(cè),從而區(qū)分出非正常的、潛在的入侵行為是網(wǎng)絡(luò)安全領(lǐng)域一個(gè)十分重要而迫切的問(wèn)題[1]。通過(guò)對(duì)傳輸數(shù)據(jù)的分析和預(yù)測(cè),為網(wǎng)絡(luò)的流量控制、故障管理、特別是對(duì)網(wǎng)絡(luò)入侵檢測(cè)預(yù)報(bào)等提供有效依據(jù)。這樣在網(wǎng)絡(luò)異常發(fā)生之前,可以預(yù)先采取防范預(yù)案,來(lái)確保網(wǎng)絡(luò)傳輸?shù)恼_M(jìn)行。
在網(wǎng)絡(luò)傳輸數(shù)據(jù)預(yù)測(cè)統(tǒng)計(jì)模型方面,簡(jiǎn)單使用一種預(yù)測(cè)模型已遠(yuǎn)遠(yuǎn)不能準(zhǔn)確地刻畫(huà)復(fù)雜性高的傳輸變化規(guī)律[2,3]。組合預(yù)測(cè)模型方面[4,5],以小波變換特征分解組合支持向量機(jī)模型應(yīng)用效果好且應(yīng)用較多[6,7]。缺點(diǎn)是小波變換在確定分解層數(shù)以及選擇小波基有個(gè)難以選擇的問(wèn)題,同一個(gè)工程問(wèn)題用不同的小波函數(shù)進(jìn)行分析時(shí),有時(shí)結(jié)果相差很大。目前大多通過(guò)經(jīng)驗(yàn)或是不斷實(shí)驗(yàn)來(lái)選擇小波函數(shù)。支持向量機(jī)基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論預(yù)測(cè)能力較強(qiáng)[8-10]。具有結(jié)構(gòu)簡(jiǎn)單,能較好地解決數(shù)據(jù)的小樣本、非線性、高維數(shù)等問(wèn)題,優(yōu)化的SVM泛化推廣能力強(qiáng),更適合做長(zhǎng)期預(yù)測(cè)[11]。而在時(shí)間序列數(shù)據(jù)的特征分解上,經(jīng)驗(yàn)?zāi)J椒纸饽P停‥MD)將非平穩(wěn)時(shí)間序列數(shù)據(jù)分解為不同頻帶的本征模式分量平穩(wěn)時(shí)間序列[12]。
目前大多實(shí)驗(yàn)研究是利用向量機(jī)對(duì)各高頻和低頻分量分別建立預(yù)測(cè)模型,再將預(yù)測(cè)值作為輸入向量,與同時(shí)刻真值作為輸出建立最終模型。本文選用某路由器時(shí)間序列數(shù)據(jù),采用比較研究的方法,實(shí)驗(yàn)了經(jīng)驗(yàn)?zāi)J椒纸饨M合模型[13,14]和小波組合模型的計(jì)算差異,并提出了實(shí)用可行的新的實(shí)驗(yàn)計(jì)算框架。
1 數(shù)據(jù)建模理論分析
1.1 小波分解與其單支重構(gòu)
Mallat在1987年就提出多分辨率分析和多尺度分析的小波基構(gòu)造方法[15]。把小波正交基的構(gòu)造整合到一個(gè)框架中,指出離散信號(hào)按小波變換分解處理和重構(gòu)的按快速小波變換算法。Mallat多分辨率分析算法的分解過(guò)程見(jiàn)圖1所示。每次分解將序列分為近似部分和細(xì)節(jié)部分,近似部分刻畫(huà)了序列的大趨勢(shì),而細(xì)節(jié)部分刻畫(huà)了序列在細(xì)節(jié)上的差異。如果不斷對(duì)近似部分進(jìn)一步實(shí)施分解,就會(huì)得到新的近似部分和細(xì)節(jié)部分。
設(shè)分解層數(shù)為j,則原始序列分解為D1,D2,…,Dj和Aj,其中Aj和Dj分別是分辨率為2j時(shí)的近似部分和細(xì)節(jié)部分。其中Aj定義為第j層的近似部分,Dj稱(chēng)為第j層的細(xì)節(jié)部分。
而每執(zhí)行一層的分解,序列的長(zhǎng)度就縮短為分解前的一半,分解的層數(shù)大,獲得的序列的長(zhǎng)度越短。
重構(gòu)原理見(jiàn)圖2所示,單支重構(gòu)是指不對(duì)近似部分和細(xì)節(jié)部分同時(shí)進(jìn)行重構(gòu),而是對(duì)它們分別進(jìn)行重構(gòu),即在對(duì)某一部分進(jìn)行重構(gòu)時(shí)將其他部分設(shè)置為零值。對(duì)近似部分Aj單支重構(gòu)過(guò)程如圖所示,各細(xì)節(jié)部分單支重構(gòu)的方法與之類(lèi)似。
1.2 經(jīng)驗(yàn)?zāi)J椒纸?/p>
Huang在1998年提出EMD算法[16]。它通過(guò)對(duì)信號(hào)h(t),采用三次樣條插值函數(shù)先對(duì)該信號(hào)的所有極大值擬合成上包絡(luò)線,再對(duì)所有極小值擬合成下包絡(luò)線,記兩條包絡(luò)線的均值為m(t),則可構(gòu)造一個(gè)新的信號(hào):
(1)
當(dāng)g(t)滿(mǎn)足:①函數(shù)在整個(gè)時(shí)間范圍內(nèi),局部極值點(diǎn)個(gè)數(shù)和過(guò)零點(diǎn)數(shù)目必須相等或最多相差一個(gè); ②在任意時(shí)刻點(diǎn),局部最大值的上包絡(luò)線和局部最小值的下包絡(luò)線平均必須為零。這時(shí)g(t)就是第一個(gè)IMF分量c1。假設(shè)r(t)為信號(hào)余量:
令r(t)作為新的信號(hào),執(zhí)行(3)的操作,可以計(jì)算除IMF第二個(gè)分量c2,直到第m個(gè)IMF分量cm,其中m ∈ N,為本征模函數(shù)的數(shù)目。終止的信號(hào)余項(xiàng)r(t)計(jì)算條件是:僅當(dāng)有一個(gè)極值點(diǎn)或是單調(diào)函數(shù)為止。信號(hào)可以表達(dá)為:
使用經(jīng)驗(yàn)?zāi)J椒纸馑惴?,目的是將原始信?hào)分解為不相關(guān)聯(lián)的本征模函數(shù)(IMF),優(yōu)點(diǎn)是消除以時(shí)間尺度為主要特征的數(shù)據(jù)的自相似性,降低了復(fù)雜度,這樣就實(shí)現(xiàn)將非線性、非平穩(wěn)數(shù)據(jù)的處理問(wèn)題向線性、平穩(wěn)的處理問(wèn)題的轉(zhuǎn)變。
1.3 支持向量機(jī)
實(shí)驗(yàn)中應(yīng)用了最小二乘支持向量機(jī),就是利用二次損失函數(shù),通過(guò)非線性映射φ(?),將低維非線性空間的數(shù)據(jù)轉(zhuǎn)化為高維線性空間的數(shù)據(jù),從而實(shí)現(xiàn)在高維空間的線性回歸預(yù)測(cè)模型[17]:
對(duì)于n個(gè)多維度樣本數(shù)據(jù)(xi,yi),i∈(1,2,…,n),xi∈Rn是樣本輸入,yi∈R是樣本輸出,其最優(yōu)回歸估計(jì)函數(shù)為:
2 數(shù)據(jù)建模方法和驗(yàn)證
2.1 小波與支持向量機(jī)組合建模
采用小波分析向量機(jī)建立組合預(yù)測(cè)模型詳細(xì)步驟如下:
1)流量數(shù)據(jù)的特征分解。小波分解變換將全部數(shù)據(jù)分解為低頻分量和高頻分量,其中低頻分量反映了流量數(shù)據(jù)的大趨勢(shì)和大走向,高頻分量反映了數(shù)據(jù)的細(xì)節(jié)特征。本文將原始數(shù)據(jù)分解四個(gè)分量,其中一個(gè)是低頻信號(hào)分量和另外三個(gè)是高頻細(xì)節(jié)分量。
2)數(shù)據(jù)無(wú)量綱化預(yù)處理。將單支重構(gòu)得到的一個(gè)低頻分量和三個(gè)高頻分量數(shù)據(jù)x(t)歸一化處理,歸一化公式如下:
3)模型變量的確定。模型采用多輸入單輸出的預(yù)測(cè)機(jī)制來(lái)構(gòu)造輸入輸出向量矩陣,從而建立訓(xùn)練樣本。訓(xùn)練樣本結(jié)構(gòu)如表1所示,其中x(1) ,x(2) ,x(3) ,x(n-1)作為輸入數(shù)值,x(4),…,x(n-1) ,x(n)作為輸出數(shù)值。k為輸入向量的嵌入維數(shù),在本次實(shí)驗(yàn)中選取k=3,其中n∈N,N為樣本的個(gè)數(shù)。
4)確定合適的核函數(shù)。實(shí)驗(yàn)?zāi)P筒捎酶咚箯较蚧≧BF)函數(shù),其函數(shù)的形式為:
5)支持向量機(jī)模型參數(shù)的確定。支持向量機(jī)的泛化性能取決于參數(shù)?、ε以及核參數(shù)σ的選擇,本文采用粒子群優(yōu)化算法對(duì)上述優(yōu)化參數(shù)進(jìn)行了優(yōu)化。
6)各分量預(yù)測(cè)值的合成。將分解后的低頻分量預(yù)測(cè)值和各高頻分量預(yù)測(cè)值x(t)進(jìn)行反歸一化計(jì)算公式如下式所示:
然后依次將各分解得到的分量預(yù)測(cè)值相疊加,即可得到最終的預(yù)測(cè)結(jié)果p(t),注意在正反向歸一化中各參數(shù)的對(duì)應(yīng)關(guān)系。然后將預(yù)測(cè)值與原始的流量數(shù)據(jù)進(jìn)行均方誤差計(jì)算,得到評(píng)估指標(biāo)。
2.2 經(jīng)驗(yàn)?zāi)J椒纸馀c向量機(jī)新組合建模
采用經(jīng)驗(yàn)?zāi)J椒纸饽P秃拖蛄繖C(jī)建立預(yù)測(cè)模型詳細(xì)步驟如下:
1)執(zhí)行經(jīng)驗(yàn)?zāi)J教卣鞣纸猓‥MD)。將全體數(shù)據(jù)分解得到多個(gè)本征模分量和一個(gè)剩余分量。
2)數(shù)據(jù)無(wú)量綱化預(yù)處理。對(duì)原始網(wǎng)絡(luò)流量時(shí)間序列x(t)歸一化處理,歸一化公式見(jiàn)(9)式。
3)模型變量的確定。模型采用多輸入單輸出的預(yù)測(cè)方法,構(gòu)造輸入輸出向量矩陣從而建立訓(xùn)練樣本。訓(xùn)練樣本結(jié)構(gòu)如表2所示。
4)確定合適的核函數(shù)和支持向量機(jī)參數(shù)尋優(yōu)計(jì)算。支持向量機(jī)模型常用的核函數(shù)有線性函數(shù)、本文采用高斯徑向基(RBF)函數(shù),采用粒子群優(yōu)化選擇優(yōu)化參數(shù),對(duì)各分量值進(jìn)行預(yù)測(cè)。
5)各分量合成。計(jì)算證明在本實(shí)驗(yàn)?zāi)P椭袩o(wú)法將各分量的預(yù)測(cè)值簡(jiǎn)單線性相加、或者作為輸入建立非線性模型得到最后的預(yù)測(cè)值。而是將各個(gè)IMF同時(shí)刻的平穩(wěn)分量作為輸入,將同時(shí)刻的相應(yīng)的實(shí)際值作為輸出,然后再用向量機(jī)訓(xùn)練建立模型。訓(xùn)練樣本結(jié)構(gòu)如表2所示,從而使得各個(gè)參加組合的分量和實(shí)際輸出值之間建立一種非線性映射關(guān)系。
3 結(jié)果與分析
3.1 數(shù)據(jù)來(lái)源及處理
利用上述兩個(gè)組合模型對(duì)2015年10月1號(hào)到25號(hào)、24小時(shí)流過(guò)某數(shù)據(jù)設(shè)備傳輸數(shù)據(jù)進(jìn)行預(yù)測(cè)分析。網(wǎng)絡(luò)流量數(shù)據(jù)中的選取400個(gè)數(shù)據(jù)作為訓(xùn)練樣本,用于進(jìn)行訓(xùn)練模型和參數(shù)優(yōu)化,取剩余的200個(gè)數(shù)據(jù)作為測(cè)試樣本,作為檢驗(yàn)預(yù)測(cè)值和真實(shí)值誤差。在構(gòu)造輸入和輸出向量矩陣的時(shí)候,經(jīng)驗(yàn)選取輸入向量矩陣的嵌入維數(shù)為3。模型的仿真計(jì)算環(huán)境為Matlab2012a,支持向量機(jī)運(yùn)算選擇文獻(xiàn)[10]中l(wèi)ibsvm程序,其余數(shù)據(jù)的處理采用Excel2007電子表格,為了評(píng)價(jià)模型的預(yù)測(cè)效果,用均方誤差(MSE)作為評(píng)估指標(biāo)。
3.2 模型的計(jì)算與分析
3.2.1 小波支持向量機(jī)組合實(shí)驗(yàn)?zāi)P?/p>
其中,圖3中的(a)到(h)分別是小波對(duì)原始傳輸數(shù)據(jù)進(jìn)行分解后的低頻分量,高頻分量一、高頻分量二和高頻分量三的曲線和對(duì)應(yīng)的分量獨(dú)立預(yù)測(cè)曲線。
3.2.2 EMD支持向量機(jī)組合實(shí)驗(yàn)?zāi)P?/p>
從圖5中可以看到,第一個(gè)分量IMF預(yù)測(cè)值和余項(xiàng)的預(yù)測(cè)性能不好,總體趨勢(shì)上IMF各分量從高頻到低頻,預(yù)測(cè)精度逐漸提高。這種總體趨勢(shì)可以從MSE誤差表4上反映出來(lái)。
預(yù)測(cè)誤差較大的分量,比較誤差稍小的分量,數(shù)據(jù)變換的幅度相對(duì)較小,計(jì)算上將各IMF分量值組合后,較大誤差分量對(duì)預(yù)測(cè)結(jié)果擾動(dòng)不顯著。將各個(gè)IMF預(yù)測(cè)序列用SVM合成,得到原始序列的預(yù)測(cè)曲線如圖6。
從圖6可以看出,采用EMD支持向量機(jī)組合實(shí)驗(yàn)計(jì)算模型擬合程度要好于小波支持向量機(jī)實(shí)驗(yàn)?zāi)P停A(yù)測(cè)精度較高。一方面從表5的評(píng)估指標(biāo)計(jì)算結(jié)果上看,小波支持向量機(jī)組合實(shí)驗(yàn)?zāi)P皖A(yù)測(cè)結(jié)果為8.95%,而EMD支持向量機(jī)組合實(shí)驗(yàn)?zāi)P蜑?.75%,在數(shù)值評(píng)價(jià)參考指標(biāo)上精度提高約2倍,另一方面,也表明經(jīng)驗(yàn)?zāi)J椒纸夥椒?,較有效將非平穩(wěn)時(shí)間序列分解為不同頻帶的高頻和低頻平穩(wěn)時(shí)間序列,預(yù)測(cè)的可靠性較高。
4 結(jié)論
通過(guò)以上兩個(gè)實(shí)驗(yàn)?zāi)P偷膶?duì)比分析,結(jié)果證明經(jīng)驗(yàn)?zāi)J椒纸夥椒ńM合支持向量機(jī)模型是一種分析非線性、非平穩(wěn)時(shí)間序列的較好的實(shí)驗(yàn)計(jì)算模型。小波組合支持向量機(jī)對(duì)各個(gè)分量的預(yù)測(cè)相對(duì)精度偏高,但最終預(yù)測(cè)值精度相對(duì)較低。本文以真實(shí)的網(wǎng)絡(luò)傳輸數(shù)據(jù)對(duì)上述兩個(gè)實(shí)驗(yàn)?zāi)P瓦M(jìn)行了計(jì)算實(shí)驗(yàn)。結(jié)果表明:新提出的針對(duì)經(jīng)驗(yàn)?zāi)J椒纸饨M合計(jì)算實(shí)驗(yàn)?zāi)P偷臉?gòu)造方法,對(duì)非線性、非平穩(wěn)時(shí)間序列數(shù)據(jù)的預(yù)測(cè)是較有效和適用的,為下一步同類(lèi)別統(tǒng)計(jì)預(yù)測(cè)模型的對(duì)比分析提供了一種參考方法。
參考文獻(xiàn):
[1] 蔣建春,馬恒太,任黨恩,等.網(wǎng)絡(luò)安全入侵檢測(cè):研究綜述[J].軟件學(xué)報(bào),2000, 11(11):1460-1466.
[2] 錢(qián)淵,宋軍,傅珂.基于支持向量機(jī)補(bǔ)償?shù)幕疑P途W(wǎng)絡(luò)流量預(yù)測(cè)[J].探測(cè)與控制學(xué)報(bào),2012, 34(1):70-79.
[3] 魏永濤, 汪晉寬, 等. 基于小波變換與組合模型的網(wǎng)絡(luò)流量預(yù)測(cè)算法[J]. 東北大學(xué)學(xué)報(bào):自然科學(xué)版, 2011, 32(10):1382-1885.
[4] 姜明,吳春明,胡大民.網(wǎng)絡(luò)流量預(yù)測(cè)中的時(shí)間序列模型比較研究[J].電子學(xué)報(bào),2009, 37(11):2353-2359.
[5] 馬華林, 李翠鳳, 張立燕. 基于灰色模型和自適應(yīng)過(guò)濾的網(wǎng)絡(luò)流量預(yù)測(cè)[J]. 計(jì)算機(jī)工程, 2009, 35(1):155-157.
[6] 陳曉天,劉靜嫻. 改進(jìn)的基于小波變換和 FARIMA模型的網(wǎng)絡(luò)流量預(yù)測(cè)算法[J]. 通信學(xué)報(bào), 2011, 32(4):153-158.
[7] 王風(fēng)宇, 云曉春, 申偉東. 基于小波變換的網(wǎng)絡(luò)流量在線預(yù)測(cè)模型[J]. 高技術(shù)通訊, 2006, 16(12):1220-1225.
[8] Burges C. A tutorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery, 1998,2(2): 121-127.
[9] WU Hai-shan, CHANG Xiao-ling. Power load forecasting with least squares support vector machines and chaos theory[C] //Procof Intelligent Control and Automation.2006:4369-4373.
[10] Chang C C, Lin C J. LIBSVM: a library f or SVM[DB/OL].[2006-03-04].http://www. csic.ntu.edu.tw /rcjlin/ papers /lib.svm.
[11] Liu X,Lu W C,Jin S L,et al. Support vector regression applied to materials optimization of sialon ceramics[J]. Chemometrics and Intelligent Laboratory Systems, 2006,82(12):8-14.
[12] Balocchi R, Menicucci D, Varanini M. Empirical mode decomposition to approach the problem of detecting sources from a reduced number of mixtures [C].Proceeding of the 25th Annual International Conference of the IEEE EMBS. Cancun Mexico, 2006.
[13] 葉林, 劉鵬. 基于經(jīng)驗(yàn)?zāi)B(tài)分解和支持向量機(jī)的短期風(fēng)電功率組合預(yù)測(cè)模型[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2011,11(5):102-108.
[14] 王曉蘭,李輝. 基于EMD與LS-SVM的風(fēng)電場(chǎng)短期風(fēng)速預(yù)測(cè)[J].計(jì)算機(jī)工程與設(shè)計(jì),2010, 31(10):2303-2307.
[15] 馮華麗,劉淵. 小波分析和AR-LSSVM的網(wǎng)絡(luò)流量預(yù)測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(20):89-90.
[16] 祝志慧,孫志蓮,季宇. 基于EMD和SVM的短期負(fù)荷預(yù)測(cè)[J]. 高電壓技術(shù),2007,33(5):118-122.
[17] 段益群,劉國(guó)彥. 基于EMD和SVM的虹膜識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(30):188-190.