陳 穎 魏 臻, 程 磊,(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院 安徽 合肥 30009)(合肥工業(yè)大學(xué)安全關(guān)鍵工業(yè)測(cè)控技術(shù)教育部工程研究中心 安徽 合肥 30009)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)流量已成為網(wǎng)絡(luò)管理的關(guān)鍵參數(shù)之一。網(wǎng)絡(luò)流量的分析和預(yù)測(cè)是研究網(wǎng)絡(luò)資源分配策略、建立網(wǎng)絡(luò)擁塞機(jī)制、提高網(wǎng)絡(luò)服務(wù)質(zhì)量和發(fā)現(xiàn)網(wǎng)絡(luò)異常行為的基礎(chǔ)。因此,建立準(zhǔn)確度高的網(wǎng)絡(luò)流量預(yù)測(cè)模型一直是國(guó)內(nèi)外專家和學(xué)者的重要研究課題。
傳統(tǒng)的網(wǎng)絡(luò)流量預(yù)測(cè)方法包括自回歸滑動(dòng)平均模型[1]、人工神經(jīng)網(wǎng)絡(luò)[2]、支持向量機(jī)[3]等。由于網(wǎng)絡(luò)流量是多因素影響的非線性、非平穩(wěn)時(shí)間序列,具有自相似性和多重分形等特性,對(duì)流量變化特性進(jìn)行先驗(yàn)分析能有效提高預(yù)測(cè)的精度,文獻(xiàn)[4]提出一種基于經(jīng)驗(yàn)?zāi)B(tài)分解EMD(Empirical Mode Decomposition)的ARMA-SVR預(yù)測(cè)模型,文獻(xiàn)[5]提出一種基于局部均值分解LMD(Local Mean Decomposition)的GARCH預(yù)測(cè)模型,但經(jīng)驗(yàn)?zāi)B(tài)分解和局部均值分解在數(shù)據(jù)分解過(guò)程中具有模態(tài)混疊和端點(diǎn)效應(yīng)的問(wèn)題,影響了網(wǎng)絡(luò)流量預(yù)測(cè)精度的提高。
本文結(jié)合變分模態(tài)分解和極限學(xué)習(xí)機(jī)的優(yōu)點(diǎn)并進(jìn)行改進(jìn),提出一種基于AVMD-DE和IBSA-KELM的組合預(yù)測(cè)模型。首先對(duì)原始網(wǎng)絡(luò)流量序列進(jìn)行混沌特性分析,利用自適應(yīng)變分模態(tài)分解(AVMD)方法將原始網(wǎng)絡(luò)流量序列分解為若干子序列;其次利用分散熵(DE)分析子序列的復(fù)雜度,并根據(jù)分散熵值的不同進(jìn)行合并;然后應(yīng)用改進(jìn)鳥群算法(IBSA)優(yōu)化核極限學(xué)習(xí)機(jī)(KELM)的模型對(duì)重組后的子序列分別預(yù)測(cè);最后將各分量的預(yù)測(cè)值進(jìn)行疊加。本文通過(guò)實(shí)際網(wǎng)絡(luò)流量數(shù)據(jù)仿真實(shí)驗(yàn)證明模型的有效性。
變分模態(tài)分解VMD(Variational Mode Decomposition)是K.Dragomiretskiy等[6]在2014年提出的一種新型信號(hào)特征提取方法。變分模態(tài)分解能避免傳統(tǒng)的小波變換、經(jīng)驗(yàn)?zāi)B(tài)分解、局部均值分解等方法中存在的模態(tài)混疊和端點(diǎn)效應(yīng)問(wèn)題,并且在信號(hào)具有噪聲的情況下也能表現(xiàn)出良好的魯棒性。VMD的分解過(guò)程詳見文獻(xiàn)[6]。
變分模態(tài)分解在處理信號(hào)時(shí)需要預(yù)先設(shè)定分解子序列IMF的個(gè)數(shù)K,文獻(xiàn)[7]采用觀察中心頻率的方法確定分解數(shù)K,即計(jì)算不同K值下子序列的中心頻率,如果出現(xiàn)中心頻率相近的情況則認(rèn)為出現(xiàn)過(guò)分解,則最佳分解層數(shù)取為K-1。文獻(xiàn)[8]提出基于能量準(zhǔn)則迭代停止條件的改進(jìn)方法,當(dāng)信號(hào)分解余量的能量與原始信號(hào)自身能量之比小于一定的閾值時(shí)停止。由于變分模態(tài)分解性能受分解模態(tài)總數(shù)K、懲罰因子α和Lagrange乘子更新步長(zhǎng)τ多因素的影響,本文提出基于不同子序列最小中心頻率比值的迭代停止方法,并且針對(duì)VMD的懲罰因子α和Lagrange乘子更新步長(zhǎng)τ,提出基于分解結(jié)果均方誤差MSE(Mean squared error)最小化的參數(shù)優(yōu)化方法,自適應(yīng)變分模態(tài)分解算法的主要步驟如下:
(1) 初始化K值,計(jì)算K=2,3,…,n時(shí),經(jīng)過(guò)變分模態(tài)分解后k個(gè)子序列的中心頻率fK(k),通過(guò)子序列功率譜的頻率加權(quán)積分(或累加和)與總能量的比值求出中心頻率。
(2) 計(jì)算k個(gè)子序列中相鄰的兩個(gè)中心頻率的比值,如式(1)所示,記為γK,1,γK,2,…,γK,k-1,取這k-1個(gè)比值中的最小值記為γK,min,如式(2)所示。
(1)
γK,min=min{γK,1,γK,2,…,γK,k-1}
(2)
(3)
(4) 預(yù)置懲罰因子α值范圍為[20,2 000],步長(zhǎng)為20;預(yù)置Lagrange乘子更新步長(zhǎng)τ值范圍為[0.01,1],步長(zhǎng)為0.01,代入最佳分解層數(shù)K迭代計(jì)算不同α和τ值下分解重組的均方誤差值,選取均方誤差最小值的α和τ作為最優(yōu)參數(shù)。
(5) 代入最優(yōu)分解層數(shù)K、參數(shù)α和τ,輸出最優(yōu)分解結(jié)果。
分散熵DE是M. Rostaghi等[9]在2016年提出的一種新型量化時(shí)間序列復(fù)雜度的方法,具有比樣本熵更快的計(jì)算速度,并且避免了排列熵忽視信號(hào)幅度和振幅值的問(wèn)題,對(duì)于給定時(shí)間序列x={x1,x2,…,xn},計(jì)算分散熵步驟如下:
(3) 對(duì)cm個(gè)的分散模式計(jì)算其相對(duì)頻率:
p(πv0v1…vm-1)=
(4)
(4) 計(jì)算分散熵:
(5)
鳥群算法BSA(Bird Swarm Algorithm)是由Xian-Bing Meng等[10]在2016年提出的一種新型元啟發(fā)式群智能優(yōu)化算法。該算法主要包括自然界中鳥群覓食、警惕和飛行三個(gè)行為,鳥群基于三種行為并通過(guò)信息共享機(jī)制及搜索策略最終搜索到最優(yōu)解。改進(jìn)鳥群算法的尋優(yōu)過(guò)程如下:
(1) 覓食行為。利用Logistics映射作為混沌映射初始化i只鳥在D維空間的初始位置,每只鳥根據(jù)個(gè)體經(jīng)驗(yàn)和群體經(jīng)驗(yàn)覓食。本文在位置更新過(guò)程中加入隨機(jī)慣性權(quán)重避免陷入局部最優(yōu),同時(shí)對(duì)式(6)中的認(rèn)知因子C和群體加速因子S采用余弦函數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,表達(dá)式如下:
(6)
ω=ωmin+(ωmax-ωmin)·rand(0,1)+σ·randn(0,1)
(7)
(8)
(9)
(2) 警戒行為。每只鳥都會(huì)試圖向群體中心移動(dòng)。警覺性高的比警覺性低的鳥更容易接近于群體中心,它們將相互競(jìng)爭(zhēng),表達(dá)式如下:
(10)
式中:A1表示環(huán)境影響因子,A2表示特定干擾影響因子,meanj表示群體第j維的平均位置。
(3) 飛行行為。警覺性高的鳥作為生產(chǎn)者尋找食物,警覺性低的鳥成為索取者從生產(chǎn)者獲取食物。生產(chǎn)者和索取者可以脫離群體,表達(dá)式如下:
(11)
(12)
式中:FL(FL∈[0,2])表示索取者會(huì)追隨生產(chǎn)者尋找食物的因子。
核極端學(xué)習(xí)機(jī)KELM是由Guang-Bin Huang等[11]提出的,相比于極限學(xué)習(xí)機(jī)(ELM),KELM算法不僅加快了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的收斂速度、避免陷入局部最優(yōu)并具有良好的泛化性能,而且通過(guò)核函數(shù)映射確定ELM隱含層的結(jié)構(gòu)[12]。ELM算法是單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFNs)的機(jī)器學(xué)習(xí)算法,其訓(xùn)練方法可以最小化輸出權(quán)值和訓(xùn)練誤差,如式(10)所示:
(13)
式中:β是隱含層輸出權(quán)值向量,h(xi)為隱含層輸出向量,ξi為訓(xùn)練輸出誤差,yi為理論輸出,C為懲罰參數(shù)。根據(jù)KKT最優(yōu)化條件解得:
(14)
式中:H為隱含層的輸出矩陣,T為目標(biāo)值的矩陣。根據(jù)Mercer’s條件定義核矩陣形式如下:
ΩELM=HHT
ΩELM i,j=h(xi)·h(xj)=K(xi,xj)
(15)
式中:i,j=1,2,…,N,K(xi,xj)為核函數(shù)。則KELM模型的輸出函數(shù)可以表示為:
(16)
本文KELM采用Guass徑向基核函數(shù):
K(xi,xj)=exp(-γ‖xi-xj‖2)
(17)
式中:γ為核函數(shù)參數(shù)。本文采用IBSA算法對(duì)KELM的正則化系數(shù)C和核函數(shù)參數(shù)γ進(jìn)行優(yōu)化,提升KELM算法的預(yù)測(cè)精度。
仿真實(shí)驗(yàn)采用的網(wǎng)絡(luò)流量數(shù)據(jù)來(lái)自英國(guó)學(xué)術(shù)主干網(wǎng),選擇2004年11月22日到2005年1月24日的1 500條采樣間隔為1小時(shí)的數(shù)據(jù),選取前1 212個(gè)數(shù)據(jù)組成訓(xùn)練集,選取后288個(gè)數(shù)據(jù)組成測(cè)試集。圖1為實(shí)際的英國(guó)學(xué)術(shù)主干網(wǎng)絡(luò)流量數(shù)據(jù)。
圖1 網(wǎng)絡(luò)流量時(shí)間序列
圖和Scor(t)-t
對(duì)原始網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行歸一化處理,計(jì)算K=2,3,…,n時(shí),經(jīng)過(guò)變分模態(tài)分解后k個(gè)子序列的中心頻率fK(k),計(jì)算相鄰兩個(gè)中心頻率的比值記為γK,1,γK,2,…,γK,k-1,取k-1個(gè)比值中的最小值γK,min,如表1所示。
表1 不同K值時(shí)
圖3 自適應(yīng)變分模態(tài)分解(AVMD)的子序列
由圖3可見,經(jīng)過(guò)自適應(yīng)變分模態(tài)分解后的子序列具有較強(qiáng)的規(guī)律性,同時(shí)分解后產(chǎn)生的IMF 子序列較多。為了降低網(wǎng)絡(luò)流量預(yù)測(cè)的計(jì)算規(guī)模,采用分散熵算法對(duì)每一個(gè) IMF子序列進(jìn)行復(fù)雜度分析。分散熵的計(jì)算過(guò)程中,需要考慮參數(shù)的影響,本文參數(shù)選擇m=9,c=6,t=5,計(jì)算各IMF分量的分散熵值如圖4所示。
圖4 IMF子序列的分散熵
經(jīng)過(guò)變分模態(tài)分解后的IMF子序列的分散熵值具有遞增的趨勢(shì),表明從子序列的復(fù)雜度隨中心頻率增大。將分散熵值相近的IMF 子序列進(jìn)行合并,降低預(yù)測(cè)的計(jì)算規(guī)模。同時(shí)對(duì)重組后的子序列采用C-C算法進(jìn)行相空間重構(gòu),計(jì)算重構(gòu)后子序列的嵌入維數(shù)m和時(shí)間延遲t。子序列重構(gòu)結(jié)果及相空間重構(gòu)參數(shù)如表2所示。
表2 IMF子序列合并
組合預(yù)測(cè)模型的預(yù)測(cè)值和實(shí)測(cè)值的對(duì)比結(jié)果如圖5所示。本文采用平均絕對(duì)百分比誤差(MAPE)、希爾不等系數(shù)(TIC)和相關(guān)系數(shù)(R)作為模型預(yù)測(cè)精度的性能評(píng)價(jià)指標(biāo)。
圖5 AVMD-DE-IBSA-KELM預(yù)測(cè)效果
(18)
(19)
(20)
表3 5種模型預(yù)測(cè)結(jié)果對(duì)比
本文結(jié)合變分模態(tài)分解、分散熵、鳥群算法和極限學(xué)習(xí)機(jī)的優(yōu)點(diǎn),應(yīng)用自適應(yīng)變分模態(tài)分解和分散熵的組合模型處理網(wǎng)絡(luò)流量序列,并提出基于改進(jìn)鳥群算法優(yōu)化核極限學(xué)習(xí)機(jī)的組合預(yù)測(cè)模型。通過(guò)英國(guó)學(xué)術(shù)主干網(wǎng)的實(shí)測(cè)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行驗(yàn)證,并與KELM模型和EMD-KELM等預(yù)測(cè)模型對(duì)比。仿真結(jié)果表明,AVMD-DE和IBSA-KELM組合模型對(duì)網(wǎng)絡(luò)流量的預(yù)測(cè)誤差更小、效果明顯更優(yōu),具有很好的應(yīng)用價(jià)值。
[1] Laner M, Svoboda P, Rupp M. Parsimonious fitting of long-range dependent network traffic using ARMA models[J]. IEEE Communications Letters, 2013, 17(12):2368- 2371.
[2] 王雪松,梁昔明. 基于BPSO-RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測(cè)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(9):102- 105.
[3] 路璐,程良倫. 改進(jìn)布谷鳥搜索算法優(yōu)化SVM的網(wǎng)絡(luò)流量預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):124- 127.
[4] Dai L, Yang W, Gao S, et al. EMD-based multi-model prediction for network traffic in software-defined networks[C]//Mobile Ad Hoc and Sensor Systems (MASS), 2014 IEEE 11th International Conference on. IEEE, 2014: 539- 544.
[5] Yimu J, Yongge Y, Chuanxin Z, et al. Research of a Novel Flash P2P Network Traffic Prediction Algorithm[J]. Procedia Computer Science, 2015, 55: 1293- 1301.
[6] Dragomiretskiy K, Zosso D. Variational mode decomposition[J]. IEEE transactions on signal processing, 2014, 62(3): 531- 544.
[7] 劉長(zhǎng)良, 武英杰, 甄成剛. 基于變分模態(tài)分解和模糊 C 均值聚類的滾動(dòng)軸承故障診斷[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2015, 35(13): 3358- 3365.
[8] 唐貴基, 王曉龍. IVMD融合奇異值差分譜的滾動(dòng)軸承早期故障診斷[J]. 振動(dòng)、測(cè)試與診斷, 2016, 36(4):700- 707.
[9] Rostaghi M, Azami H. Dispersion entropy: A measure for time-series analysis[J]. IEEE Signal Processing Letters, 2016, 23(5):610- 614.
[10] Meng X B, Gao X Z, Lu L, et al. A new bio-inspired optimisation algorithm: bird swarm algorithm[J]. Journal of Experimental & Theoretical Artificial Intelligence, 2016, 28(4):673- 687.
[11] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006,70(1):489- 501.
[12] 王新迎, 韓敏. 多元混沌時(shí)間序列的多核極端學(xué)習(xí)機(jī)建模預(yù)測(cè)[J]. 物理學(xué)報(bào), 2015,64(7):070504.
[13] Kim H S, Eykholt R, Salas J D. Nonlinear dynamics, delay times, and embedding windows[J].Physica D: Nonlinear Phenomena, 1999, 127(1):48- 60.
[14] Rasheed B Q K, Qian B. Hurst exponent and financial market predictability[C]//IASTED conference on Financial Engineering and Applications (FEA 2004). 2004:203- 209.