馬政達(dá)(中國聯(lián)通研究院,北京 100048)
隨著寬帶用戶網(wǎng)絡(luò)需求的快速增長和固網(wǎng)數(shù)據(jù)的大幅提升,運(yùn)營商越來越重視寬帶用戶的使用體驗(yàn),并投入更多的精力用于固網(wǎng)寬帶網(wǎng)絡(luò)設(shè)備的擴(kuò)容和維護(hù)[1?2],科學(xué)規(guī)劃網(wǎng)絡(luò)容量已成為運(yùn)營商發(fā)展的重要議題。網(wǎng)絡(luò)流量指標(biāo)是評(píng)價(jià)網(wǎng)絡(luò)管理質(zhì)量的重要參數(shù),對(duì)流量的預(yù)測是指依據(jù)設(shè)備歷史數(shù)據(jù)對(duì)未來一段時(shí)間的流量進(jìn)行建模與估計(jì),相較于流量達(dá)到告警閾值后再升級(jí)設(shè)備,流量預(yù)測可以幫助網(wǎng)絡(luò)管理員掌握網(wǎng)絡(luò)變化的規(guī)律,更合理地安排預(yù)算、設(shè)備升級(jí)和割接計(jì)劃,也極大地改善了用戶上網(wǎng)體驗(yàn)。此外,隨著運(yùn)營商算力的提升,流量預(yù)測甚至可以應(yīng)用到用戶級(jí)別,為提供個(gè)性化服務(wù)做支撐,因此流量預(yù)測一直是網(wǎng)絡(luò)研究領(lǐng)域的重要研究方向[3?5]。
通常當(dāng)OLT 上聯(lián)口的寬帶利用率峰值到達(dá)70%時(shí)就需要開始考慮流量擴(kuò)容[6],同時(shí)用戶的下行網(wǎng)絡(luò)流量往往要高于上行網(wǎng)絡(luò)流量,因此對(duì)OLT 上聯(lián)口的下行流量速率峰值進(jìn)行時(shí)間序列的分析、預(yù)測具有重要意義,是OLT擴(kuò)容的主要技術(shù)指標(biāo)。
寬帶設(shè)備的流量速率是網(wǎng)管系統(tǒng)記錄的主要數(shù)據(jù)之一,OLT 下行流量速率峰值數(shù)據(jù)可以看做是一組時(shí)間序列,對(duì)于時(shí)間序列的分析主要包括模型識(shí)別、模型擬合、模型診斷3個(gè)步驟[7]。
在模型識(shí)別階段需要根據(jù)時(shí)間序列的時(shí)序圖特征和統(tǒng)計(jì)量特征選擇合適的模型。時(shí)間序列的統(tǒng)計(jì)學(xué)模型有很多,包括趨勢擬合法、平滑法及ARIMA 等模型。運(yùn)營商積累了大量流量數(shù)據(jù),但對(duì)這類數(shù)據(jù)的處理往往比較粗獷,經(jīng)常使用到的流量預(yù)測方法有線性擬合法和移動(dòng)平均法,這些方法操作簡單,模型直觀,但也存在擬合度低、預(yù)測效果差的缺點(diǎn)[8]。相比而言,Holt?Winters 模型和ARIMA 模型增加了更復(fù)雜的模型維度和參數(shù)類別,可以更充分地?cái)M合復(fù)雜的流量趨勢及短期的隨機(jī)趨勢。
選取一臺(tái)典型的OLT 的上聯(lián)口,將其周末的下行速率峰值數(shù)據(jù)(以下簡稱流量數(shù)據(jù))作為研究對(duì)象,時(shí)間跨度為2018年9月到2019年5月,共33周。將前30周數(shù)據(jù)作為訓(xùn)練集,后3 周數(shù)據(jù)作為測試集。圖1 所示為流量數(shù)據(jù)訓(xùn)練集的時(shí)序圖、自相關(guān)系數(shù)圖(ACF)和偏自相關(guān)系數(shù)圖(PACF)。
圖1 流量數(shù)據(jù)訓(xùn)練集的時(shí)序圖和相關(guān)性分析
趨勢擬合法就是將時(shí)間作為自變量,對(duì)應(yīng)的流量觀察值作為因變量,建立序列值隨時(shí)間變化的回歸模型的方法。依據(jù)觀察值的時(shí)序圖,如果時(shí)序圖中序列表現(xiàn)出線性的長期趨勢,可以考慮使用線性擬合;如果長期趨勢呈現(xiàn)出非線性特征,則可以嘗試使用曲線擬合[9]。
從圖1的流量時(shí)序圖中可以看出流量趨勢平穩(wěn)上升,呈現(xiàn)出線性趨勢,因此進(jìn)行線性擬合,結(jié)果如圖2所示。
圖2 線性擬合模型
該線性擬合模型可以表示為:
依據(jù)式(1),可以計(jì)算出未來3期線性擬合模型的預(yù)測值,如表1所示。
表1 線性擬合模型的3期預(yù)測值與誤差率
平滑法通過對(duì)過去數(shù)據(jù)的加權(quán)平均處理,減少短期波動(dòng)對(duì)序列的影響,盡可能地展示數(shù)據(jù)的直觀趨勢。
移動(dòng)平均法是最常見的數(shù)據(jù)統(tǒng)計(jì)分析方法之一,通過計(jì)算過去n期數(shù)據(jù)的平均值作為預(yù)測值,其表達(dá)式為:
圖3所示為4期平均移動(dòng)法的流量擬合。
圖3 移動(dòng)平均擬合模型
依據(jù)式(2),可以計(jì)算出未來3期移動(dòng)平均模型的流量預(yù)測值和預(yù)測誤差率,如表2所示。
表2 移動(dòng)平均模型的3期預(yù)測值與誤差率
移動(dòng)平均法簡單直觀,以前n期數(shù)據(jù)的平均值作為最后一期的預(yù)測值,往期數(shù)據(jù)的權(quán)重都是1/n,即在移動(dòng)平均法中,n期的每一條數(shù)據(jù)對(duì)預(yù)測值的影響是相同的。但在實(shí)際流量分析中,不同時(shí)間的數(shù)據(jù)對(duì)當(dāng)前流量大小的影響是不同的(一般時(shí)間越近,影響越大),為了更好地反映這種情況,需要調(diào)整往期數(shù)據(jù)的權(quán)重。美國統(tǒng)計(jì)學(xué)家Holt 在簡單指數(shù)平滑法的基礎(chǔ)上,添加了對(duì)長期趨勢擬合,提出了Holt 兩參數(shù)指數(shù)平滑模型,該模型適用于含有遞增趨勢的序列,Holt兩參數(shù)指數(shù)平滑模型的平滑公式為:
式中:
θt——序列每階遞增量
α,β——2個(gè)平滑系數(shù)
該模型后經(jīng)Winters 改進(jìn),形成了Holt?Winters 三參數(shù)指數(shù)平滑模型,該模型除了可以擬合長期趨勢,還可以擬合周期性變化。
考慮到圖1 流量時(shí)序圖中僅包含遞增趨勢,為其建立Holt 兩參數(shù)指數(shù)平滑模型并進(jìn)行3 期數(shù)據(jù)預(yù)測,結(jié)果如圖4所示。
圖4 Holt兩參數(shù)指數(shù)平滑擬合模型
圖4 中黑色實(shí)線是流量觀測值,藍(lán)色虛線是模型擬合值,藍(lán)色點(diǎn)為預(yù)測值,淺色陰影為95%的預(yù)測值置信區(qū)間,深色陰影為80%的預(yù)測值置信區(qū)間。預(yù)測值和預(yù)測誤差率如表3所示。
表3 Holt兩參數(shù)指數(shù)平滑模型的3期預(yù)測值和預(yù)測誤差率
ARIMA(Autoregressive Integrated Moving Average Model)模型全稱為差分自回歸移動(dòng)平均模型,由美國統(tǒng)計(jì)學(xué)家Box 和英國統(tǒng)計(jì)學(xué)家Jenkins 提出[11],是在ARMA模型的基礎(chǔ)上增加了差分運(yùn)算的時(shí)間序列分析模型。ARMA模型對(duì)平穩(wěn)序列的分析技術(shù)已經(jīng)非常成熟,如果一個(gè)序列可以通過差分使之變?yōu)槠椒€(wěn),那么使用ARIMA 模型對(duì)該序列的分析也將是可靠、易行的[12?15]。ARMA 模型是AR 模型和MA 模型的有機(jī)組合,具有如下結(jié)構(gòu)的模型稱為ARMA(p,q)模型:
式中:
φp、θq——AR部分和MA部分的待估參數(shù)
εt——零均值、方差記為的白噪聲
如果一個(gè)序列{X(t),t∈T}可以通過d次差分得到一個(gè)平穩(wěn)的過程,且該過程服從ARMA(p,q)模型,則稱{X(t),t∈T}是ARIMA(p,d,q)過程[16]。
圖1 的流量時(shí)序圖中有明顯的遞增趨勢,且ACF圖中自相關(guān)系數(shù)衰減較慢,在16階延遲附近又落在了2 倍標(biāo)準(zhǔn)差的參考線之外,顯著不為0,因此可以認(rèn)為該流量數(shù)據(jù)為非平穩(wěn)時(shí)間序列。考慮到時(shí)序圖中的遞增趨勢,嘗試使用差分運(yùn)算將其轉(zhuǎn)化為平穩(wěn)時(shí)間序列。
對(duì)流量數(shù)據(jù)進(jìn)行一階差分運(yùn)算,做出其時(shí)序圖、自相關(guān)系數(shù)圖、偏自相關(guān)系數(shù)圖(見圖5)。
圖5 一階差分序列的時(shí)序圖和相關(guān)性分析圖
從圖5可以看出,該差分?jǐn)?shù)列時(shí)序圖的均值穩(wěn)定、波動(dòng)范圍有限且無明顯趨勢或周期,自相關(guān)系數(shù)迅速衰減到0 附近,該差分序列可能為平穩(wěn)時(shí)間序列。進(jìn)一步使用ADF 檢驗(yàn)對(duì)該序列的平穩(wěn)性進(jìn)行統(tǒng)計(jì)檢驗(yàn),檢驗(yàn)結(jié)果如表4所示。
表4 一階差分序列的ADF檢驗(yàn)
從表4可以看出,3種類型的p值均明顯小于0.05,因此拒絕原假設(shè),該序列為平穩(wěn)時(shí)間序列。
在平穩(wěn)時(shí)間序列中,若某一時(shí)刻的狀態(tài)對(duì)下一時(shí)刻沒有相關(guān)性,則意味著該序列未來的數(shù)據(jù)無法通過現(xiàn)在及過去的狀態(tài)進(jìn)行推斷,對(duì)這樣的流量數(shù)據(jù)進(jìn)行預(yù)測是沒有價(jià)值的。因此要進(jìn)行純隨機(jī)性檢驗(yàn),判斷該流量數(shù)據(jù)是否有預(yù)測價(jià)值。
在圖5 中,一階差分序列的ACF 圖中,1、3、4 階自相關(guān)系數(shù)明顯不為零,初步判斷該序列不是純隨機(jī)序列,進(jìn)一步考察該序列的LB統(tǒng)計(jì)量,結(jié)果如表5所示。
表5 一階差分序列的純隨機(jī)性檢驗(yàn)
從表5 可以看出,一階差分序列延遲6 階、12 階的LB統(tǒng)計(jì)量的p值均明顯小于0.05,所以拒絕原假設(shè),該一階差分序列不是純隨機(jī)序列,可以用來做預(yù)測分析。
通過上面的分析可知,原流量數(shù)據(jù)經(jīng)過一階差分運(yùn)算后是一個(gè)平穩(wěn)的非純隨機(jī)性序列,這樣就可以為差分序列構(gòu)建ARMA 模型。在圖5的ACF圖中可以看出一階差分序列的自相關(guān)系數(shù)呈現(xiàn)逐漸衰減的趨勢,符合拖尾特征;PACF 圖中,只有一階和三階偏自相關(guān)系數(shù)落在了2 倍標(biāo)準(zhǔn)差范圍外,剩下的系數(shù)趨向于0,可認(rèn)為是一階、三階截尾或拖尾。嘗試選擇MA(1)、MA(3)、ARMA(1,1)、ARMA(4,1)模型擬合該差分序列。模型的選取應(yīng)遵從從簡原則,在能充分表示序列的前提下所含參數(shù)個(gè)數(shù)應(yīng)該最少[16],因此對(duì)4 個(gè)ARMA 模型進(jìn)行最小信息量檢測,檢測結(jié)果如表6 所示。
表6 ARMA模型參數(shù)評(píng)估
從表6 可以看出,無論是AIC 還是BIC,MA(1)模型都是最優(yōu)選擇,結(jié)合該序列為流量數(shù)據(jù)通過一階差分得到,因此使用帶漂移項(xiàng)的ARIMA(0,1,1)模型來擬合原流量數(shù)據(jù)。為考察ARIMA(0,1,1)的有效性,對(duì)其進(jìn)行顯著性檢驗(yàn),即對(duì)殘差序列的檢驗(yàn),結(jié)果如圖6所示。
圖6 殘差序的標(biāo)準(zhǔn)化殘差圖、ACF和純隨機(jī)性檢驗(yàn)圖
從圖6 可以看出,殘差序列的各階白噪聲檢驗(yàn)統(tǒng)計(jì)量的p值均大于0.05,原假設(shè)成立,殘差序列是白噪聲,即該擬合模型顯著成立,因此為流量數(shù)據(jù)建立ARIMA(0,1,1)模型,并進(jìn)行3 期流量預(yù)測,圖7 為擬合模型的預(yù)測效果,表7列出了預(yù)測值和預(yù)測誤差率。
表7 ARIMA(0,1,1)模型的3期預(yù)測值、置信區(qū)間與誤差率
圖7 ARIMA(0,1,1)擬合模型的預(yù)測效果
圖7 中黑色實(shí)線是流量觀測值,藍(lán)色虛線是模型擬合值,藍(lán)色點(diǎn)為預(yù)測值,淺色陰影為95%的預(yù)測值置信區(qū)間,深色陰影為80%的預(yù)測值置信區(qū)間。
文章針對(duì)OLT 流量構(gòu)建了線性擬合、平均移動(dòng)、Holt兩參數(shù)指數(shù)平滑和ARIMA(0,1,1)4 種模型,為評(píng)估各模型的預(yù)測性能,采用平均絕對(duì)百分比誤差(MAPE)作為評(píng)價(jià)指標(biāo),4種模型的平均絕對(duì)百分誤差(MAPE)如表8 所示。從表8 可以看出,ARIMA(0,1,1)和Holt 兩參數(shù)指數(shù)平滑模型的預(yù)測平均誤差率為2.06%、2.68%,誤差相對(duì)都比較小,預(yù)測效果表現(xiàn)較好;而線性擬合和平均移動(dòng)模型的預(yù)測誤差分別為4.43%、4.01%,誤差較大,不適合用來對(duì)精度有較高要求的流量進(jìn)行預(yù)測。
表8 4種模型的平均絕對(duì)百分誤差(MAPE)
網(wǎng)絡(luò)流量信息具有很大的隨機(jī)性,前一日的流量大小理論上不能影響到當(dāng)日的流量,對(duì)流量預(yù)測的本質(zhì)是對(duì)用戶上網(wǎng)習(xí)慣的推斷,個(gè)人行為具有很大的隨機(jī)性,群體行為表現(xiàn)出的規(guī)律性更大,因此越是靠近北向的端口,對(duì)流量進(jìn)行的統(tǒng)計(jì)學(xué)分析的意義越大,這也是文章對(duì)OLT 上聯(lián)口分析的原因。對(duì)應(yīng)地,越是南向的設(shè)備,流量表現(xiàn)出的隨機(jī)性越強(qiáng),此時(shí)篩選出有意義的數(shù)據(jù)比逐個(gè)預(yù)測更有價(jià)值。
本文使用到趨勢擬合法和平滑法對(duì)流量數(shù)據(jù)進(jìn)行建模預(yù)測,這些方法具有原理簡單、操作簡便、易于解釋等優(yōu)點(diǎn),在提取明顯的、確定的信息時(shí)有一定優(yōu)勢,缺點(diǎn)是相關(guān)性信息在加權(quán)平均中丟失,隨機(jī)性信息浪費(fèi)嚴(yán)重,這可能是本文在流量預(yù)測時(shí)ARIMA 模型略優(yōu)于Holt模型的原因,使用ARIMA 模型在處理平穩(wěn)序列、差分平穩(wěn)序列時(shí)可以更加充分地體現(xiàn)流量中的短期相關(guān)關(guān)系。
本文以周數(shù)據(jù)進(jìn)行數(shù)據(jù)建模與網(wǎng)絡(luò)流量預(yù)測,預(yù)測獲得了不錯(cuò)的效果。伴隨著運(yùn)營商算力的提升,未來若能夠拿到海量的流量數(shù)據(jù),則可以考慮使用LSTM 等機(jī)器學(xué)習(xí)來擬合更加復(fù)雜的模型。但并不是所有預(yù)測問題都適合使用機(jī)器學(xué)習(xí),在多變量的非線性時(shí)間序列預(yù)測時(shí),特別是在大樣本的情況下機(jī)器學(xué)習(xí)會(huì)獲得更好的表現(xiàn),針對(duì)平穩(wěn)或差分平穩(wěn)時(shí)間序列,在樣本較少的情況下,使用ARIMA 等統(tǒng)計(jì)建模法更具優(yōu)勢[17?20]。
流量數(shù)據(jù)會(huì)受到多種因素影響,在后續(xù)的研究中應(yīng)該考慮將現(xiàn)有模型與其他預(yù)測模型進(jìn)行組合,構(gòu)建多因素的組合模型,以緩解模型預(yù)測的滯后問題,提高預(yù)測靈敏度和準(zhǔn)確性[21?24]。