郭海蓉
(成都醫(yī)學(xué)院 現(xiàn)代教育技術(shù)中心, 成都 610500)
隨著大數(shù)據(jù)時(shí)代的到來(lái),各個(gè)領(lǐng)域的數(shù)據(jù)向海量、大規(guī)模方向發(fā)展,尤其是網(wǎng)絡(luò)流量數(shù)據(jù),每天有大量流量數(shù)據(jù)產(chǎn)生,它們不斷的在網(wǎng)絡(luò)上進(jìn)行傳輸,使得網(wǎng)絡(luò)流量管理系統(tǒng)的負(fù)載日益嚴(yán)重,到了周末或者節(jié)假日,網(wǎng)絡(luò)的速度極慢,而且經(jīng)常出現(xiàn)網(wǎng)絡(luò)擁塞,如何改善網(wǎng)絡(luò)流量的傳輸速度和網(wǎng)絡(luò)流量的管理效率引起了人們的高度關(guān)注[1]。
網(wǎng)絡(luò)流量的建模與預(yù)測(cè)是一種網(wǎng)絡(luò)管理的重要技術(shù),其對(duì)將來(lái)一段時(shí)間內(nèi)的網(wǎng)絡(luò)流量變化趨勢(shì)進(jìn)行預(yù)測(cè),得到的預(yù)測(cè)結(jié)果可以提供給網(wǎng)絡(luò)管理者,讓他們提前準(zhǔn)備一定的網(wǎng)絡(luò)流量管理方案進(jìn)行應(yīng)對(duì),因此當(dāng)前存在許多網(wǎng)絡(luò)流量預(yù)測(cè)模型[2]。當(dāng)前網(wǎng)絡(luò)流量預(yù)測(cè)模型可以劃分為兩種:周期性的網(wǎng)絡(luò)流量預(yù)測(cè)模型和隨機(jī)性的網(wǎng)絡(luò)流量預(yù)測(cè)模型[3,4],其中周期性預(yù)測(cè)模型認(rèn)為網(wǎng)絡(luò)流量是一種周期性的變化規(guī)律,在一段時(shí)間內(nèi)有一定的相似性,如聚類分析的網(wǎng)絡(luò)流量預(yù)測(cè)模型,通過(guò)聚類分析算法從歷史樣本中選擇與當(dāng)前預(yù)測(cè)點(diǎn)相似的樣本組成訓(xùn)練樣本,然后采用回歸算法實(shí)現(xiàn)網(wǎng)絡(luò)流量預(yù)測(cè),而實(shí)際上網(wǎng)絡(luò)流量不僅只有周期性變化規(guī)律,由于受到上網(wǎng)用戶的行為影響,其具有十分強(qiáng)烈的隨機(jī)性,因此周期性預(yù)測(cè)模型只能描述網(wǎng)絡(luò)流量的局部變化特點(diǎn),無(wú)法對(duì)網(wǎng)絡(luò)流量變化特點(diǎn)進(jìn)行全面描述,網(wǎng)絡(luò)流量的穩(wěn)定性差[5];隨機(jī)性的網(wǎng)絡(luò)流量預(yù)測(cè)模型基于非線性理論進(jìn)行建模與分析,通過(guò)引入一些機(jī)器學(xué)習(xí)算法如極限學(xué)習(xí)機(jī)、神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和學(xué)習(xí)[6-8],其網(wǎng)絡(luò)流量預(yù)測(cè)的性能要優(yōu)于周期性預(yù)測(cè)模型,成為網(wǎng)絡(luò)流量預(yù)測(cè)研究中的主要方向。當(dāng)前周期性預(yù)測(cè)模型或者隨機(jī)的預(yù)測(cè)模型均采用單機(jī)處理模式,而現(xiàn)代網(wǎng)絡(luò)流量數(shù)據(jù)朝大規(guī)模方向發(fā)展,使得單機(jī)處理模式缺陷十分明顯,不能適應(yīng)現(xiàn)代網(wǎng)絡(luò)流量預(yù)測(cè)的發(fā)展要求[9]。
根據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)變化特點(diǎn),為了解決單機(jī)處理技術(shù)的局限性,以提高網(wǎng)絡(luò)流量預(yù)測(cè)效果,設(shè)計(jì)了基于大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測(cè)模型,并與其它模型進(jìn)行了對(duì)照實(shí)驗(yàn),本文模型的網(wǎng)絡(luò)流量預(yù)測(cè)精度高,網(wǎng)絡(luò)流量訓(xùn)練時(shí)間短,相對(duì)于對(duì)比模型,本文的網(wǎng)絡(luò)流量預(yù)測(cè)結(jié)果具有顯著的優(yōu)越性。
云計(jì)算技術(shù)是在互聯(lián)網(wǎng)的基礎(chǔ)上發(fā)展起來(lái)的、專門針對(duì)海量數(shù)據(jù)的一種處理技術(shù),集成了分布式處理、并行計(jì)算等優(yōu)點(diǎn),其采用Map/Reduce計(jì)算模型,基于分層次計(jì)算,處理數(shù)據(jù)的速度相當(dāng)快,其工作基本思想為:將一個(gè)大數(shù)據(jù)集拆分為多個(gè)子數(shù)據(jù),每一個(gè)子數(shù)據(jù)集對(duì)應(yīng)一個(gè)Map任務(wù),然后采用不同節(jié)點(diǎn)對(duì)Map任務(wù)進(jìn)行執(zhí)行,得到中間處理結(jié)果,最后通過(guò)Reduce對(duì)中間處理結(jié)果進(jìn)行收集和融合,得到最終處理結(jié)果,其工作原理如圖1所示。
圖1 Map/Reduce的工作原理
受流體狀態(tài)機(jī)模型的啟發(fā),有學(xué)者提出了回聲狀態(tài)網(wǎng)絡(luò),解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的瓶頸問(wèn)題,其包括前端輸入、儲(chǔ)備池和輸出層,它們對(duì)應(yīng)的向量分別如式(1)、(2)、(3)。
u(n)=(u1(n),u2(n),…,uK(n))T
(1)
x(n)=(x1(n),x2(n),…,xN(n))T
(2)
y(n)=(y1(n),y2(n),…,yL(n))T
(3)
在第n個(gè)時(shí)刻,回聲狀態(tài)網(wǎng)絡(luò)的狀態(tài)更新方程和輸出計(jì)算公式分別為式(4)、(5)。
x(n+1)=f1(Winu(n+1)+Wx(n))
(4)
y(n+1)=f2(Woutx(n+1))
(5)
式中,Win、W、Wout分別表示前端輸入、儲(chǔ)備池和輸出層的連接權(quán)值,f1和f2分別表示儲(chǔ)備池和輸出層的激活函數(shù)。
回聲狀態(tài)網(wǎng)絡(luò)的工作步驟:
(1)根據(jù)具體預(yù)測(cè)問(wèn)題,初始化儲(chǔ)備池大小、譜大小、輸入縮放系數(shù)、稀疏度等參數(shù)。
(2)建立輸入樣本和期望輸出之間的映射關(guān)系。
(3)由于在回聲狀態(tài)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中,Win、W的值固定不變,對(duì)Wout進(jìn)行訓(xùn)練,根據(jù)式(5)和訓(xùn)練樣本u(n)對(duì)期望信號(hào)y(n)進(jìn)行逼近,具體為式(6)。
Woutx(n)≈yt(n+1)
(6)
根據(jù)式(3)可知,狀態(tài)向量x(n)由u(n)決定,即:u(n)?x(n),輸入向量和期望輸出序列之間的映射關(guān)系為[10]式(7)。
u(n)→yt(n)
(7)
(4)設(shè)狀態(tài)矩陣向量為X,其對(duì)應(yīng)的期望的輸出向量為Y,則有式(8)。
Y=WoutX
(8)
其中,Wout訓(xùn)練目標(biāo)可以表示為式(9)。
(9)
采用違逆法對(duì)Wout進(jìn)行訓(xùn)練,得到Wout式(10)。
Wout=Yt×X+
(10)
式中,X+表示X的違逆矩陣。
(5)根據(jù)訓(xùn)練得到的Wout對(duì)實(shí)際輸出信號(hào)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果為式(11)。
(11)
大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測(cè)原理為:首先采集大規(guī)模的網(wǎng)絡(luò)流量歷史數(shù)據(jù),然后根據(jù)云計(jì)算技術(shù)的Map/Reduce處理模式對(duì)其進(jìn)行細(xì)分,得到多個(gè)數(shù)據(jù)量相對(duì)較小的子訓(xùn)練樣本集合,并引入數(shù)據(jù)挖掘技術(shù)中的狀態(tài)回聲網(wǎng)絡(luò)對(duì)子訓(xùn)練樣本集合的網(wǎng)絡(luò)流量進(jìn)行預(yù)測(cè),最后對(duì)子訓(xùn)練樣本集合的網(wǎng)絡(luò)流量預(yù)測(cè)結(jié)果進(jìn)行融合,輸出網(wǎng)絡(luò)流量的最終預(yù)測(cè)結(jié)果,具體工作原理如圖2所示。
圖2 大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測(cè)原理
(1)對(duì)于一個(gè)網(wǎng)絡(luò)管理系統(tǒng)中的服務(wù)器歷史數(shù)據(jù)進(jìn)行收集。
(2)Map端將大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)集進(jìn)行細(xì)分,得到許多子數(shù)據(jù)集。
(3)每一個(gè)網(wǎng)絡(luò)流量子數(shù)據(jù)集通過(guò)一個(gè)Map任務(wù)處理,即通過(guò)回聲狀態(tài)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)流量進(jìn)行訓(xùn)練。
(4)得到每一個(gè)網(wǎng)絡(luò)流量子數(shù)據(jù)集的回聲狀態(tài)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果,并將結(jié)果輸出到Reduce端。
(5)Reduce端對(duì)Map傳來(lái)的網(wǎng)絡(luò)流量子數(shù)據(jù)集預(yù)測(cè)結(jié)果進(jìn)行合并,得到網(wǎng)絡(luò)流量的最終預(yù)測(cè)結(jié)果。
為了分析大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測(cè)的有效性,云計(jì)算平臺(tái)共包含5個(gè)節(jié)點(diǎn),1個(gè)節(jié)點(diǎn)作為服務(wù)器,另外4個(gè)作為普通節(jié)點(diǎn),它們具體配置方式如表1所示。
采用不同規(guī)模的網(wǎng)絡(luò)流量數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,共5個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)集合,它們的大小如表2所示。
為了分析回聲狀態(tài)網(wǎng)絡(luò)用于網(wǎng)絡(luò)流量建模的優(yōu)越性,選擇BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測(cè)模型進(jìn)行對(duì)比測(cè)試,采用數(shù)據(jù)處理技術(shù)均為云處理技術(shù),統(tǒng)計(jì)5個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)集合的預(yù)測(cè)精度,結(jié)果如圖3所示。
表1 云計(jì)算平臺(tái)的節(jié)點(diǎn)配置
表2 5個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)集的規(guī)模
圖3 5個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)集合的預(yù)測(cè)精度對(duì)比
對(duì)圖3的5個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)集合預(yù)測(cè)精度進(jìn)行對(duì)比和分析,可以發(fā)現(xiàn),回聲狀態(tài)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測(cè)精度明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測(cè)精度,降低了網(wǎng)絡(luò)流量預(yù)測(cè)誤差,這是因?yàn)榛芈暊顟B(tài)網(wǎng)絡(luò)可以對(duì)網(wǎng)絡(luò)流量隨機(jī)性、復(fù)雜性的變化特點(diǎn)進(jìn)行高精度建模,建立了更優(yōu)的網(wǎng)絡(luò)流量預(yù)測(cè)模型,對(duì)比結(jié)果驗(yàn)證了本文將回聲狀態(tài)網(wǎng)絡(luò)引入到網(wǎng)絡(luò)流量預(yù)測(cè)中的思想是正確的,可以得到理想的網(wǎng)絡(luò)流量預(yù)測(cè)結(jié)果。
為了測(cè)試云計(jì)算處理技術(shù)的優(yōu)越性,選擇單機(jī)處理技術(shù)進(jìn)行對(duì)比測(cè)試,以單機(jī)處理技術(shù)的訓(xùn)練時(shí)間作為標(biāo)準(zhǔn),建模方法均采用狀態(tài)回聲網(wǎng)絡(luò),在不同數(shù)據(jù)規(guī)模條件下,本文模型的網(wǎng)絡(luò)流量訓(xùn)練時(shí)間減少倍數(shù)如圖4所示。
從圖4的實(shí)驗(yàn)結(jié)果可以看出,當(dāng)網(wǎng)絡(luò)流量數(shù)據(jù)很小時(shí),云計(jì)算處理技術(shù)和單機(jī)處理技術(shù)需要的時(shí)間相差不大,單機(jī)處理技術(shù)的訓(xùn)練相對(duì)更少,這是因?yàn)樵朴?jì)算處理技術(shù)要經(jīng)過(guò)Map和Reduce兩個(gè)階段,但是隨著網(wǎng)絡(luò)流量規(guī)模的不斷增大,云計(jì)算處理技術(shù)的優(yōu)勢(shì)慢慢得以體現(xiàn),網(wǎng)絡(luò)流量預(yù)測(cè)建模的訓(xùn)練時(shí)間不斷在減少,而且網(wǎng)絡(luò)流量數(shù)據(jù)越大,網(wǎng)絡(luò)流量建模訓(xùn)練時(shí)間減少的幅度就越大,優(yōu)勢(shì)越明顯,對(duì)比測(cè)試結(jié)果表明,本文模型加快了網(wǎng)絡(luò)流量訓(xùn)練速度,降低計(jì)算時(shí)間復(fù)雜度,提高了網(wǎng)絡(luò)流量預(yù)測(cè)建模的效率,可以滿足網(wǎng)絡(luò)流量管理在線要求。
圖4 網(wǎng)絡(luò)流量訓(xùn)練時(shí)間對(duì)比
網(wǎng)絡(luò)用戶的急增,業(yè)務(wù)種類的多樣性增加,每一天網(wǎng)絡(luò)上的流量數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),網(wǎng)絡(luò)流量管理面臨巨大的挑戰(zhàn),為了提高網(wǎng)絡(luò)流量的準(zhǔn)確性,結(jié)合網(wǎng)絡(luò)流量非線性、復(fù)雜、海量的特點(diǎn),設(shè)計(jì)了一種大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測(cè)模型,首先結(jié)合網(wǎng)絡(luò)流量的大規(guī)模特性,引入云計(jì)算處理模式對(duì)訓(xùn)練樣本進(jìn)行分解操作,減少網(wǎng)絡(luò)流量訓(xùn)練的時(shí)間和空間復(fù)雜度,然后引入數(shù)據(jù)挖掘技術(shù)中的回聲狀態(tài)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)流量的非線性變化特點(diǎn)進(jìn)行擬合,實(shí)現(xiàn)網(wǎng)絡(luò)流量高精度預(yù)測(cè),對(duì)比結(jié)果表明,本文模型的網(wǎng)絡(luò)流量建模效率高,網(wǎng)絡(luò)流量的預(yù)測(cè)誤差明顯低于當(dāng)前經(jīng)典的網(wǎng)絡(luò)流量預(yù)測(cè)結(jié)果,本文模型可以應(yīng)用于大規(guī)模網(wǎng)絡(luò)流量管理系統(tǒng)中,具有一定的實(shí)際應(yīng)用價(jià)值。