崔兆順
CUI Zhaoshun
天水師范學(xué)院 物理與信息科學(xué)學(xué)院,甘肅 天水 741001
College of Physics and Information Science,Tianshui Normal University,Tianshui,Gansu 741001,China
隨著網(wǎng)絡(luò)應(yīng)用范圍日益廣泛,網(wǎng)絡(luò)的擁塞越來越頻繁,網(wǎng)絡(luò)流量預(yù)測可以為網(wǎng)絡(luò)管理員提供技術(shù)支持,幫助其及時調(diào)整網(wǎng)絡(luò)控制策略,提高網(wǎng)絡(luò)服務(wù)質(zhì)量,因此網(wǎng)絡(luò)流量建模與預(yù)測一直是網(wǎng)絡(luò)研究中的重點(diǎn)[1]。
網(wǎng)絡(luò)流量數(shù)據(jù)實(shí)質(zhì)上是一種時間序列數(shù)據(jù),傳統(tǒng)預(yù)測模型有差分自回歸移動平均模型(ARIMA)、自動回歸模型(AR)等[2-3],它們假設(shè)網(wǎng)絡(luò)流量一種平穩(wěn)變化的數(shù)據(jù),實(shí)際上,網(wǎng)絡(luò)流量是多種因素綜合作用的結(jié)果,具有隨機(jī)性、時變性等非平穩(wěn)變化特點(diǎn),傳統(tǒng)模型難以準(zhǔn)確對網(wǎng)絡(luò)流進(jìn)行長期預(yù)測,應(yīng)用范圍具有局限性[4]。針對網(wǎng)絡(luò)流量的非平穩(wěn)性,一些學(xué)者將非線性理論引入到網(wǎng)絡(luò)流量建模與預(yù)測中,出現(xiàn)支持向量機(jī)、灰色理論、神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)流量的預(yù)測模型[5-7],它們可以較好地描述網(wǎng)絡(luò)流量變化趨勢,網(wǎng)絡(luò)流量的預(yù)測精度得以提高[8]。由于網(wǎng)絡(luò)流量是一種受多種影響因素綜合作用的復(fù)雜系統(tǒng),單一預(yù)測算法只能描述其部分或片段信息,難以全面、準(zhǔn)確對其變化規(guī)律進(jìn)行預(yù)測?;谥腗-競爭理論,一些學(xué)者建立了組合的網(wǎng)絡(luò)流量預(yù)測模型,結(jié)果表明,組合模型能夠較大限度地利用各種預(yù)測樣本信息,比單個預(yù)測模型考慮問題更系統(tǒng),更全面[9-10]。同時由于網(wǎng)絡(luò)流量具有多尺度特性,有學(xué)者提出一種小波分析和ARIMA相融合的網(wǎng)絡(luò)流量預(yù)測模型,取得了不錯的預(yù)測效果[11];然而該模型采用單一ARIMA模型同時對高頻和低頻部分進(jìn)行建模,難以準(zhǔn)確描述網(wǎng)絡(luò)流量復(fù)雜變化特性,預(yù)測有待進(jìn)一步提高[12-13]。
為了提高網(wǎng)絡(luò)流量的預(yù)測精度,利用ARIMA強(qiáng)大的線性預(yù)測能力和最小二乘支持向量機(jī)(LSSVM)優(yōu)異的非線性預(yù)測力,提出一種小波變換的網(wǎng)絡(luò)流量組合預(yù)測模型(WA-ARIMA-SVM)。首先利用小波分析對網(wǎng)絡(luò)流量進(jìn)行多尺度分解,提取不同頻率成分序列,然后分別采用ARIMA和LSSVM對高頻和低頻進(jìn)行預(yù)測,最后重構(gòu)預(yù)測結(jié)果,并采用仿真實(shí)例對模型性能進(jìn)行測試與分析。
小波分析可以提取每個數(shù)據(jù)點(diǎn)上不同頻率帶的小波系數(shù)信息,使信息量最大化,因此采用小波分析對網(wǎng)絡(luò)流量進(jìn)行,得到尺度 j的近似系數(shù)為:
式中,1≤j≤J。
尺度 j下的網(wǎng)絡(luò)流量細(xì)節(jié)系數(shù)表示為:
網(wǎng)絡(luò)流量在經(jīng)過尺度 j下的小波分析后的結(jié)果為{d1,d2,…,dj,cj}。
網(wǎng)絡(luò)流量可采用近似和細(xì)節(jié)系數(shù)進(jìn)行描述,即小波重構(gòu):
由于網(wǎng)絡(luò)流量的高頻序列可以近似看作平穩(wěn)時間序列,因此采用差分自回歸滑動平均模型(ARIMA)的進(jìn)行建模,其包括自回歸AR(Auto Regressive)、I差分(Differencing)和滑動平均MA(Moving-Average)組合,比自回歸滑動平均模型(ARMA)更加靈活,其結(jié)構(gòu)描述為:
式中,?d=(1-B)d是差分算子。
網(wǎng)絡(luò)流量預(yù)測模型ARIMA的建立關(guān)鍵是確定回歸和平滑參數(shù),階數(shù)通過自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù)(PACF)決定,ARIMA建模過程如下:
(1)網(wǎng)絡(luò)流量序列的平穩(wěn)化處理,如果網(wǎng)絡(luò)流量序列是非平穩(wěn)的,那么就通過差分處理使其平穩(wěn)化。
(2)模型的識別,主要通過ACF和PACF確定ARIMA模型的階數(shù) p、q。
(3)采用最適合的參數(shù)建立網(wǎng)絡(luò)流量模型。
LSSVM是標(biāo)準(zhǔn)支持向量機(jī)的一種改進(jìn),改善了求解速度和收斂精度,并具有更優(yōu)的泛化推廣能力,網(wǎng)絡(luò)流量的低頻部分表示長期趨勢,具有非線性變化特點(diǎn),因此采用LSSVM對低頻序列進(jìn)行建模與預(yù)測[12]。設(shè)訓(xùn)練數(shù)據(jù)集為:X={xi,yi},i=1,2,…,N ,xi是輸入樣本,yi是期望輸出,N為樣本總數(shù),通過映射函數(shù)將訓(xùn)練集映射到一個高維特征空間,映射關(guān)系可描述為:
式中,ω為權(quán)向量,b為閾值。
根據(jù)結(jié)構(gòu)風(fēng)險最小化原則計算參數(shù)ω、b的值,那以LSSVM回歸模型為:
式中,c為懲罰因子;εi是實(shí)際值與輸出值間的誤差。
由于ω的維數(shù)較高,對式(7)進(jìn)行直接求解相當(dāng)困難,因此引入拉格朗日函數(shù)進(jìn)行求解
式中,ai是拉格朗日乘子。
依據(jù)KTT條件,由
消去ω、εi可以得到如下的方程組:
由 Mercer條件可得:K(xi,xj)=φ(xi)Tφ(xj),K(xi,xj)為核函數(shù),采用最小二乘法求解a和b,得
采用徑向基核函數(shù)作為LSSVM的核函數(shù),其定義為:
式中,σ是核寬度參數(shù)。
步驟1收集網(wǎng)絡(luò)流量歷史數(shù)據(jù),并其進(jìn)行相應(yīng)預(yù)處理,具體如下:
式中,xmin和xmax表示分別最小值和最大值。
步驟2采用小波分析對網(wǎng)絡(luò)流量進(jìn)行分解,得到低頻分量A1和高頻分量D1。
步驟3采用ARIMA對網(wǎng)絡(luò)流量的高頻分量D1進(jìn)行建模與預(yù)測。
步驟4采用LSSVM對網(wǎng)絡(luò)流量的低頻分量A1進(jìn)行建模與預(yù)測。
步驟5采用小波分析對低頻和高頻的預(yù)測結(jié)果進(jìn)行重構(gòu)得到組合預(yù)測結(jié)果。
步驟6采用式(14)對預(yù)測結(jié)果進(jìn)行反歸一化處理,得到最終預(yù)測值。
綜合上述可知,WA-ARIMA-LSSVM的網(wǎng)絡(luò)流量預(yù)測流程如圖1所示。
圖1 網(wǎng)絡(luò)流量的組合建模與預(yù)測流程圖
數(shù)據(jù)來源于http://newsfeed.ntcu.net/~news/2012/[13]的每小時網(wǎng)絡(luò)流量,其獲得1000個數(shù)據(jù){x(i)},i=1,2,…,1000,具體如圖2所示。選擇前800個數(shù)據(jù)作為訓(xùn)練集,建立網(wǎng)絡(luò)流量預(yù)測模型,其余200個樣本作為測試集對模型性能進(jìn)行檢驗(yàn)。
圖2 網(wǎng)絡(luò)流量時間序列
對圖2的網(wǎng)絡(luò)流量變化特性進(jìn)行分析,其ACF和PACF如圖3所示,從圖3可知ACF和PACF具有明顯振蕩波動,不符合平穩(wěn)序列的變化特征,是一種非平穩(wěn)的時間序列,因此采用ARIMA難以建立準(zhǔn)確的預(yù)測模型。
圖3 網(wǎng)絡(luò)流量ACF和PACF值的變化圖
首先采用Matlab 2012的小波分析工具箱對圖2網(wǎng)絡(luò)流量進(jìn)行分解,網(wǎng)絡(luò)流量的低頻和高頻部分如圖4所示。
圖4 網(wǎng)絡(luò)流量的小波分解
(1)網(wǎng)絡(luò)流量的一步預(yù)測
采用ARMA對網(wǎng)絡(luò)流量的高頻序列進(jìn)行建模,其ACF和PACF直方圖如圖5所示,從圖5可知,該高頻序列的自相關(guān)性較高,需進(jìn)行差分處理,經(jīng)過3階差分后,高頻序列趨于平穩(wěn),因此ARIMA差分參數(shù)d=3,然后確定模型參數(shù)的 p、q ,最后確定最優(yōu)模型為ARIMA(3,2,3),得到網(wǎng)絡(luò)流量高頻序列一步預(yù)測結(jié)果。
圖5 低頻分量的ACF和PACF
設(shè)置LSSVM參數(shù)c=125.125,σ=1.555,然后采用LSSVM對網(wǎng)絡(luò)流量低頻序列進(jìn)行訓(xùn)練,建立相應(yīng)的預(yù)測模型,得到低頻序列的一步預(yù)測結(jié)果。采用小波分析對低頻和高頻預(yù)測結(jié)果進(jìn)行重構(gòu),WA-ARIMA-LSSVM的一步擬合結(jié)果和預(yù)測結(jié)果如圖6所示。從圖6可知,無論擬合值或者是預(yù)測值,均與網(wǎng)絡(luò)流量的實(shí)際值相當(dāng)接近,擬合和預(yù)測誤差均較小,結(jié)果表明,WA-ARIMA-LSSVM可以較好地描述網(wǎng)絡(luò)流量隨機(jī)性、時變性等非平穩(wěn)性變化趨勢,建立了整體性能較優(yōu)的預(yù)測模型。
圖6 WA-ARIMA-LSSVM的一步預(yù)測性能
(2)網(wǎng)絡(luò)流量的多步迭代預(yù)測
在實(shí)際應(yīng)用中,網(wǎng)絡(luò)流量預(yù)測時間越長,對網(wǎng)絡(luò)控制越有利,因此多步預(yù)測性能也是評價模型優(yōu)劣的重要標(biāo)準(zhǔn)。本文對網(wǎng)絡(luò)流量進(jìn)行向后20步預(yù)測仿真測試,預(yù)測結(jié)果如圖7所示,從圖7可知,WA-ARIMA-LSSVM可以向后準(zhǔn)確預(yù)測8步,可以滿足網(wǎng)絡(luò)流量預(yù)測的實(shí)際要求。
(3)與其他模型的預(yù)測性能對比
圖7 WA-ARIMA-LSSVM的多步預(yù)測性能
為了更進(jìn)一步檢驗(yàn)WA-ARIMA-LSSVM的有效性,分別使用ARIMA、RBF神經(jīng)網(wǎng)絡(luò)(RBFNN)、LSSVM、小波分析+ARIMA(WA-ARIMA)和小波分析+LSSVM(WA-LSSVM)進(jìn)行對比實(shí)驗(yàn),并選擇預(yù)測結(jié)果的均方根誤差(RMSE)作為模型性能評價指標(biāo),RMSE定義如下:
式中,yi為實(shí)際網(wǎng)絡(luò)流量值,為模型的預(yù)測值。
不同模型預(yù)測結(jié)果的RMSE見表1,從表1可知,相對于對比模型,WA-ARIMA-LSSVM獲得了更好的網(wǎng)絡(luò)流量預(yù)測結(jié)果,預(yù)測誤差最小,這是因?yàn)橥ㄟ^小波分解網(wǎng)絡(luò)流量,挖掘隱含于數(shù)據(jù)中的復(fù)雜變化特性,然后LSSVM和ARIMA分別對低頻序和高頻序列進(jìn)行預(yù)測,可以準(zhǔn)確描述網(wǎng)絡(luò)流量的變化趨勢。
表1 WA-ARIMA-LSSVM與其他模型的性能對比 (MB·s-1)
由于網(wǎng)絡(luò)流量具有時變性和非線性等變化特點(diǎn),單一預(yù)測難以獲得較好的預(yù)測精度。提出一種基于WA-ARIMA-LSSVM的網(wǎng)絡(luò)流量預(yù)測模型。結(jié)果表明,相對于其他預(yù)測模型,WA-ARIMA-LSSVM可以更加準(zhǔn)確刻畫網(wǎng)絡(luò)流量變化趨勢,全面反映網(wǎng)絡(luò)運(yùn)行狀況,預(yù)測結(jié)果可以為網(wǎng)絡(luò)管理員提供有價值的參考信息。
[1]Nguyen T T,Armitage G.A survey of techniques for internettraffic classification using machine learning[J].IEEE Communications Surveys and Tutorials,2008,10(4):56-76.
[2]Jun Jiallg,Papavassiliou S.Enhancing network traffic prediction and anomaly detection via statisticalnetwork traffic separation and combination strategies[J].Computer Communications,2006,29(10):1627-1638.
[3]羅贅騫,夏靖波,王煥彬.混沌-支持向量機(jī)回歸在流量預(yù)測中的應(yīng)用研究[J].計算機(jī)科學(xué),2009,36(7):244-246.
[4]高波,張欽宇,梁永生.基于EMD及ARMA的自相似網(wǎng)絡(luò)流量預(yù)測[J].通信學(xué)報,2011,32(4):47-56.
[5]姜明,吳春明,胡大民.網(wǎng)絡(luò)流量預(yù)測中的時間序列模型比較研究[J].電子學(xué)報,2009,37(11):2353-2359.
[6]李捷,候秀紅,韓志杰.基于卡爾曼濾波和小波的網(wǎng)絡(luò)流量預(yù)測算法研究[J].電子與信息學(xué)報,2007,29(3).
[7]孫知信,張玉峰.基于多維支持向量機(jī)的P2P網(wǎng)絡(luò)流量識別模型[J].吉林大學(xué)學(xué)報:工學(xué)版,2010,40(5):1298-1303.
[8]蔡曉麗,寧慧.基于最大熵算法網(wǎng)絡(luò)流量預(yù)測模型研究[J].計算機(jī)仿真,2011,28(10):107-110.
[9]Bao Rong Chang,Hsiu Fen Tsai.Improving network traffic analysis by foreseeing data-packet-flow with hybrid fuzzy based model prediction[J].Expert Systems with Applications 2009,36(3):6960-6965.
[10]Este A,Gringoli F,Salgarelli L.Support vector machines forTCP traffic classification[J].Computer Networks,2009,53(14):2476-2490.
[11]Chen Y,Yang B.Small-time scale network traffic prediction based on flexible neuraltree[J].Applied Soft Computing Journal,2012,12(1):274-279.
[12]Dong-Chul Park.Prediction of network traffic using dynamic bilinearrecurrentneuralnetwork[C]//Fifth International Conference on Natural Computation,2009,2:419-423.
[13]熊南,劉百芬.基于自適應(yīng)粒子群優(yōu)化LSSVM的網(wǎng)絡(luò)流量在線預(yù)測[J].計算機(jī)應(yīng)用與軟件,2013,30(9):21-24.
[14]賴錦輝,梁松.一種新的基于GCS-SVM的網(wǎng)絡(luò)流量預(yù)測模型[J].計算機(jī)工程與應(yīng)用,2013,49(21):75-78.