于燁 柴育峰 康樂 郭景維 張波
摘 要: 針對用戶訪問軌跡的數(shù)據(jù)特征,提出一種基于EEMD技術(shù)的多步時間序列預測模型。該模型利用了集合經(jīng)驗?zāi)B(tài)分解EEMD結(jié)合極限學習機ELM模型,混合人工魚群MAFA優(yōu)化的方式,克服了算法中存在過擬合和多步時間序列預測的策略限制問題。通過該模型,實現(xiàn)了對訪問軌跡時間序列多步預測,結(jié)合安全范圍包絡(luò)線,進而提前發(fā)現(xiàn)是否存在入侵行為。驗證結(jié)果表明,優(yōu)化后的EEMD?ELM模型比傳統(tǒng)時間序列預測方法的迭代速率與精度得到了極大提高,泛化能力增強,說明了該方法的有效性、可行性。
關(guān)鍵詞: 勢態(tài)感知; 集合經(jīng)驗?zāi)B(tài); 極限學習機; 混合人工魚群; 多步時間序列預測
中圖分類號: TN915.08?34; V249 文獻標識碼: A 文章編號: 1004?373X(2017)07?0159?04
Multi?step time series prediction method based on EEMD technology
in electric power information security
YU Ye, CHAI Yufeng, KANG Le, GUO Jingwei, ZHANG Bo
(Information and Communication Company, State Grid Ningxia Electric Power Company, Yinchuan 750000, China)
Abstract: According to the data characteristics of the user access path, a multi?step time series prediction model based on ensemble empirical mode decomposition (EEMD) technology is proposed. The model uses the EEMD combining with the extreme learning machine (ELM) model, and optimization method of the hybrid artificial fish swarm algorithm to overcome the constraint problems of the over?fitting and multi?step time series prediction strategy existing in the algorithm. The time series multi?step prediction of the access path was implemented with the model, and the intrusion behavior can be found in advance in combination with the envelope line of the safety range. The verification results show that the optimized EEMD?ELM model has higher iteration rate and accuracy than those of the traditional time series prediction methods, its generalization ability is enhanced, and the effectiveness and feasibility of this method was illustrated.
Keywords: situation awareness; ensemble empirical mode; extreme learning machine; hybrid artificial fish swarm; multi?step time series prediction
0 引 言
電力信息系統(tǒng)的安全性往往關(guān)系到企業(yè)的核心利益,不斷發(fā)展與變化的網(wǎng)絡(luò)信息技術(shù)和網(wǎng)絡(luò)入侵攻擊技術(shù)越來越表現(xiàn)出不確定性、復雜性、多樣性等特點。
目前,國內(nèi)外學者在時間序列預測的研究中,采用的都是單步時間序列預測ARIMA、直接策略、迭代策略、經(jīng)驗?zāi)B(tài)分解等[1],而目前還未能出現(xiàn)針對電力信息系統(tǒng)數(shù)據(jù)庫的訪問軌跡勢態(tài)感知的多步時間序列預測方法。
本文基于集合經(jīng)驗?zāi)B(tài)分解EEMD技術(shù)引入極限學習機ELM模型,利用人工魚群算法結(jié)合多模態(tài)函數(shù)優(yōu)化算法建立了一個對訪問軌跡的數(shù)據(jù)進行多步時間序列預測的模型。該算法在求解類似大規(guī)模訪問軌跡數(shù)據(jù)的多步預測突破了傳統(tǒng)算法策略的限制,具有更高的迭代效率和能力。以某信通公司信息系統(tǒng)數(shù)據(jù)庫中20臺分布式服務(wù)器的訪問軌跡數(shù)據(jù)集為例,建立樣本集的特征向量,對訪問數(shù)據(jù)進行了多步時間序列預測,有效地提前發(fā)現(xiàn)是否存在入侵行為,提高了模型泛化能力。
1 EEMD?ELM時間序列預測方法
針對電力信息系統(tǒng)數(shù)據(jù)庫的網(wǎng)絡(luò)訪問軌跡時間序列,采用EEMD混合模型技術(shù)進行不同特征尺度的分解,使用EEMD?ELM混合模型進行單步時間序列預測。
1.1 集合經(jīng)驗?zāi)B(tài)分解
經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition, EMD)[2]是一種實現(xiàn)數(shù)據(jù)局部特征自適應(yīng)的分解技術(shù)。EMD通過對繁雜的網(wǎng)絡(luò)入侵電力信息系統(tǒng)操作序列進行平穩(wěn)化預處理,進而將復雜的入侵操作記錄序列分解成一組性能較好,特征尺度差異較大的本征模函數(shù)(Intrinsic Mode Function,IMF)。詳細的分解過程為:
(1) 確定入侵操作記錄序列[P(t)]的所有極值點,用核密度函數(shù)擬合成全包絡(luò)線,序列[P(t)]與上下包絡(luò)線的平均值[m1]的差記為[h1。]
(2) 把[h1]視為新序列,重復以上過程,直到[h1]滿足IMF的上述兩個條件,則其成為從原始序列篩選出最高頻的分量[c1,]其他剩余量可以表示為[r1=P(t)-c1。]
(3) 對[r1]繼續(xù)上述分解,直到第[n]階段的殘余序列為單調(diào)函數(shù)或其值小于預先給定的值,分解結(jié)束。
網(wǎng)絡(luò)入侵操作記錄序列可以寫為:
[p(t)=i=1nci(t)+rn(t)]
由于在EMD中存在一個IMF分量,包含了尺度差異較大的信號,針對這個問題采用集合經(jīng)驗?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)[3],通過在網(wǎng)絡(luò)入侵操作記錄序列中加入一系列低信噪比白噪聲,進行上述經(jīng)驗?zāi)B(tài)分解,集合平均使得加入白噪聲相互抵消,克服模式混合的問題。
1.2 極限學習機算法原理
本文采用的極限學習機神經(jīng)網(wǎng)絡(luò)(Extreme Learning Machine,ELM)是一種前饋神經(jīng)網(wǎng)絡(luò)學習算法[4]。
設(shè)[H]是隱含層的輸出矩陣,ELM神經(jīng)網(wǎng)絡(luò)的輸出公式就簡化為:[H?β=ZT,]令[ε=YT-ZT]是逼近殘差,那么隱含層和輸出層間的連接權(quán)值[β]就可以通過求解以下方程組的最小二乘解獲得[5]:
[minβHβ-YTβ=H+YT]
式中[H+]為隱含層輸出矩陣[H]的廣義逆。
2 混合魚群MAFA優(yōu)化算法
本文中網(wǎng)絡(luò)入侵電力信息系統(tǒng)數(shù)據(jù)庫訪問規(guī)矩在本質(zhì)上是一種時間序列,為了實現(xiàn)此時間序列多步預測,采用基于混合魚群MAFA優(yōu)化EEMD?ELM策略,該策略能夠自適應(yīng)優(yōu)化調(diào)整輸出向量的長度,有效地克服了現(xiàn)有多步預測策略中的限制條件,其體系結(jié)構(gòu)如圖1所示。
本文對模型全局搜索采用人工魚群AFA(Artificial FishAlgorithm)[6]算法。狀態(tài)為[X=x1,x2,…,xn,][xi]為尋優(yōu)目標變量。
引入多模態(tài)函數(shù)優(yōu)化算法(Multimodal Function Optimization,MFO)[7]實現(xiàn)人工魚群算法AFA的動態(tài)策略調(diào)整。避免當尋優(yōu)區(qū)域平坦,算法出現(xiàn)局部收斂、早熟等現(xiàn)象。
假設(shè)個體[i]與個體[j]間歐式距離以[dij]表示,調(diào)整后的個體適應(yīng)度為:
[f′i=fimi]
式中:[mi]為多模態(tài)數(shù)目,[mi]為個體[i]與其他個體所得的共享函數(shù)[sh(dij)]之和。[sh(dij)]與[mi]的表達式如下:
[sh(dij)=1-dijσshλ,dij<σsh0,otherwise,mi=j=1nsh(dij)]
式中:[λ]為共享程度;[σsh]為多模態(tài)半徑;[n]為群體規(guī)模。
人工魚群AFA算法結(jié)合多模態(tài)函數(shù)優(yōu)化算法(MFO)的MAFA算法描述如圖2所示。
3 訪問軌跡的多步時間預測方法
3.1 訪問軌跡勢態(tài)感知的全局流程
本文首先將電力信息系統(tǒng)數(shù)據(jù)庫的訪問歷史數(shù)據(jù)經(jīng)過密度估計方程得到其安全范圍包絡(luò)線,并作為標準閾值范圍。為了突破時間序列預測策略在多步預測的限制,本文提出多模態(tài)優(yōu)化結(jié)合人工魚群的EEMD?ELM算法,實現(xiàn)了多步時間序列預測。算法模型結(jié)合系統(tǒng)審計日志對數(shù)據(jù)庫的訪問數(shù)據(jù)進行實時數(shù)據(jù)收集與預測,根據(jù)其訪問軌跡進行預測分析,如果預測發(fā)現(xiàn)有安全問題的存在,那么進行重點關(guān)注,一旦發(fā)現(xiàn)違反安全策略的行為,或者可能存在入侵行為,予以警告提醒。全局整體流程如圖3所示。
3.2 特征向量的建立
訪問軌跡信息是多維度數(shù)據(jù),不能直接使用EEMD?ELM算法進行時間序列預測??梢韵忍崛≡L問軌跡的統(tǒng)計特征,然后用一個特征向量表征訪問軌跡后代入預測算法。
設(shè)包括有[n]個操作、[m]個數(shù)據(jù)點的訪問軌跡為:
[X=X11X12…X1nX21X22…X2n????Xm1Xm2…Xmn]
為了消除不同訪問操作數(shù)據(jù)間數(shù)量級上的差異,本文按照下式將操作數(shù)據(jù)歸一化為-0.5~0.5。
[Xij=Xij-Xj,minXj,max-Xj,min-0.5]
分別計算操作數(shù)據(jù)歸一化后的方差與均值:
[Xi=1mj=1mXij,i=1,2,…,n]
[Si=1mj=1mXij-Xi2,i=1,2,…,n]
最終構(gòu)建的特征向量包括[2n]個元素。
[y=X1S1X2S2…XnSnT]
3.3 自適應(yīng)的多步時間預測
文獻[2]中歸結(jié)出MISMO多步預測策略,預測步長和輸出節(jié)點的個數(shù)應(yīng)該相等。本文采用MAFA結(jié)合EEMD?ELM的算法實現(xiàn),突破了MISMO的限制。
對于MAFA優(yōu)化問題,每個人工魚[P=p1,p2,…,pF-1]代表一個可能的可行解。[P=p1,p2,…,pF-1]中的[F-1]個成分是0或1,[pi]為0,則任務(wù)不會在[pi]進行分割;[pi=1,]則任務(wù)在[pi]進行分割,多步預測的編碼結(jié)構(gòu)如圖4所示。
3.4 預測結(jié)果的評價
為了評價EEMD?ELM在訪問軌跡時間序列單步預測的性能情況,本文選取均方根誤差RMSE與平均絕對百分誤差MAPE為指標。對于混合魚群算法MAFA優(yōu)化EEMD?ELM進行提前的多步預測,本文采用對稱平均絕對百分比誤差SMAPE[8]來評價整體預測性能效果:
[SMAPEh=1Mm=1MδmN+F-δmN+FδmN+F+δmN+F×100%]
式中:[δmN+F]表示時間序列[m]提前[F]步的預測值;[δmN+F]表示對應(yīng)的實際值。
4 實例結(jié)果分析
為了驗證本文MAFA優(yōu)化的EEMD?ELM多步預測算法模型的性能,本文采用三個月時間內(nèi)信通公司信息系統(tǒng)數(shù)據(jù)庫中20臺分布式服務(wù)器的訪問軌跡數(shù)據(jù),具體是把每臺的網(wǎng)絡(luò)連接和審計日志數(shù)據(jù)作為原始數(shù)據(jù)。將每臺服務(wù)器的數(shù)據(jù)轉(zhuǎn)化為特征向量后等分為A,B,C,D四組,選取A,B,C三組的數(shù)據(jù)作為測試數(shù)據(jù)集,D組的數(shù)據(jù)作為實際數(shù)據(jù)集。
將測試數(shù)據(jù)集代入EEMD?ELM模型網(wǎng)絡(luò)后進行時間序列單步預測。把實際數(shù)據(jù)集作為標準值,與預測結(jié)果對比計算。
EEMD?ELM,ELMs和ARIMA算法對每臺服務(wù)器上的訪問數(shù)據(jù)做了單步預測,并以RMSE,MAPE作為評價性能指標,將三種算法結(jié)果進行對比,具體如圖5,圖6所示。
從圖5和圖6中可以明顯看出本文提出的基于EEMD技術(shù)的ELM模型在單步時間序列的預測上相比ELMs,ARIMA模型誤差較小,精度更高。
采用本文提出的MAFA優(yōu)化的EEMD?ELM模型,將此算法用于自適應(yīng)調(diào)整EEMD?ELM模型的多步預測步長,實現(xiàn)多步時間序列預測。將實際數(shù)據(jù)集劃分為多步時間序列進行驗證,并以SMAPE作為評價性能指標,得到算法的預測誤差,具體如表1所示。
本文提出人工魚群算法AFA結(jié)合多模態(tài)函數(shù)優(yōu)化MFO算法的混合魚群算法MAFA,進行測試函數(shù)的迭代計算,并與其他優(yōu)化算法的效果進行對比,具體如圖7所示。
從結(jié)果可以看出,本文提出的混合魚群MAFA算法的迭代效率和收斂速度要明顯優(yōu)于其他優(yōu)化算法。同時,利用MAFA自適應(yīng)調(diào)整EEMD?ELM模型的多步預測步長,使多步時間序列預測的誤差控制在4.5%以內(nèi),滿足工程精度要求。
5 結(jié) 論
本文提出基于EEMD技術(shù)的電力信息安全的多步時間序列預測方法,該方法僅憑借電力信息系統(tǒng)數(shù)據(jù)庫的當前訪問軌跡數(shù)據(jù),即可實現(xiàn)對訪問軌跡時間序列多步預測,結(jié)合安全范圍包絡(luò)線,進而提前發(fā)現(xiàn)是否存在入侵行為。根據(jù)本文分析可以得到以下結(jié)論:
(1) 本文創(chuàng)新性地運用EEMD技術(shù)對復雜多樣的訪問軌跡時間序列數(shù)據(jù)進行分解,然后運用極限學習機ELM對分解得到的子時間序列實現(xiàn)分布式預測,從而實現(xiàn)對復雜多樣的時間序列單步預測。
(2) 面對極限學習機ELM容易出現(xiàn)過擬合和局部收斂的現(xiàn)象,提出人工魚群AFA結(jié)合多模態(tài)函數(shù)MFO優(yōu)化算法,根據(jù)驗證結(jié)果表明,該算法具有較好的迭代效率,并克服過擬合和局部收斂的問題。
(3) 本文提出MAFA優(yōu)化EEMD?ELM模型的方法,能夠有效地突破現(xiàn)有MISMO多步預測策略限制,自適應(yīng)調(diào)整多步預測步長。根據(jù)驗證結(jié)果表明,實現(xiàn)多步預測的誤差控制在4.5%以內(nèi),滿足工程精度要求。
參考文獻
[1] 李瑞國,張宏立,范文慧,等.基于改進教學優(yōu)化算法的Hermite正交基神經(jīng)網(wǎng)絡(luò)混沌時間序列預測[J].物理學報,2015(20):104?116.
[2] SANG Y F, WANG Z, LIU C. Comparison of the MK test and EMD method for trend identification in hydrological time series [J]. Journal of hydrology, 2014, 510: 293?298.
[3] 熊濤.基于EMD的時間序列預測混合建模技術(shù)及其應(yīng)用研究[D].武漢:華中科技大學,2014.
[4] 王萍,王迪,馮偉.基于流形正則化的在線半監(jiān)督極限學習機[J].上海交通大學學報,2015,49(8):1153?1158.
[5] BAI Z, HUANG G B, WANG D, et al. Sparse extreme lear?ning machine for classification [J]. IEEE transactions on cybernetics, 2014, 44(10): 1858?1870.
[6] ROCHA A M, COSTA M F, FERNANDES E M. A filter?based artificial fish swarm algorithm for constrained global optimization: theoretical and practical issues [J]. Journal of global optimization, 2014, 60(2): 239?263.
[7] OLIVA D, CUEVAS E, PAJARES G. Parameter identification of solar cells using artificial bee colony optimization [J]. Energy, 2014, 72(7): 93?102.
[8] LI Y, RYU D, WESTERN A W, et al. An integrated error parameter estimation and lag?aware data assimilation scheme for real?time flood forecasting [J]. Journal of hydrology, 2014, 519: 2722?2736.