李 潔 林永峰
(國網(wǎng)天津市電力公司電力科學研究院 天津 300380)
時間序列數(shù)據(jù)是在各種生產(chǎn)生活領域中廣泛出現(xiàn)的數(shù)據(jù)類型。它反映了事物或者行為等隨著時間的推移而產(chǎn)生的狀態(tài)變化和發(fā)展規(guī)律,例如天氣變化情況,電力負荷變化的變化情況,特定區(qū)域人口的流動的變化情況等。由于時間序列數(shù)據(jù)在人們的生產(chǎn)生活中是普遍存在的,因此對時序數(shù)據(jù)的預測也是很多研究工作的重點問題。時間序列預測即根據(jù)已知的時間序列所反映出的發(fā)展過程和規(guī)律,通過特定的預測模型進行擬合,從而預測其未來的變化趨勢的方法。換句話說就是根據(jù)已知的可觀測事件來預測將來發(fā)生的事件。時間序列預測方法是模擬時序數(shù)據(jù)的一種基本方法[1],構建準確的時間序列預測模型有助于資源調度與管理、社會安全保障以及避免資源浪費等,在現(xiàn)實生活中著重大的意義。
現(xiàn)有的時序數(shù)據(jù)預測方法多是在單一的時間尺度上進行分析的,這種方式適用于模擬時間序列的短期依賴,而對于長期的趨勢性與周期缺乏對應的解決策略。而Zhang等[2]指出時序數(shù)據(jù)的變化規(guī)律不是單一的,而是具有短期性、周期性和趨勢性的,因此需要從多個時間尺度對其未來的發(fā)展趨勢進行分析。
針對以上問題,本文以民航旅客出行情況為研究對象,基于真實的國內機場旅客出行記錄數(shù)據(jù),對旅客的出行規(guī)律和特點進行了深入的分析。采用了基于后向傳播算法的循環(huán)神經(jīng)網(wǎng)絡(RNN)模型對其進行建模。并根據(jù)數(shù)據(jù)的時序特點建立基于多種時間尺度的預測模型,從而對未來時段旅客的出行情況進行分析和預測,提升預測的準確性。
在氣象、交通、農業(yè)、商業(yè)以及各種新型產(chǎn)業(yè)等行業(yè)經(jīng)常會產(chǎn)生一些關于時間序列的數(shù)據(jù),對這些數(shù)據(jù)進行挖掘分析已經(jīng)越來越重要?,F(xiàn)實生活中,通過觀測一系列時間序列數(shù)據(jù)來進行研究是司空見慣的活動,比如在交通運行上,我們會觀測客流量、高峰期、低谷期等。在商業(yè)上,我們會觀測日股票閉盤價、周利率等[3]。受市場和利益驅動,各個領域的研究熱點都已經(jīng)包括了對時間序列的預測。國內外許多學者提出了相對準確和適應能力強的預測法。
很多學者在對時間序列進行預測時對很多經(jīng)典算法進行了改進??苘畿绲萚4]將棧式自編碼器和神經(jīng)網(wǎng)絡相結合,提出了對匯率的時間序列更有效的預測模型。葛志遠等[5]基于遺傳規(guī)劃方法,建立了關于時序的自適應模型,有助于適應性能的提高。堯姚等[6]對ARIMA模型和BP網(wǎng)絡模型在時間序列預測上的特點進行分析比較, 提出了ARIMA-BP組合模型,對旅客運輸量的時間序列進行較為準確的預測。陳竹等[7]通過使用小波分解對時間序列進行分解重構為倆部分,分別利用LSSVM模型和ARIMA模型進行預測,得到較好的預測結果。孫瑩等[8]通過分析3G人群上網(wǎng)數(shù)據(jù),對學習基站人群的時空分布特征及影響因素進行分析研究,提出了具有更高效率的時空序列預測模型。
還有一些學者利用機器學習支持向量機方法,提出了適合某個領域的預測模型,來提高時間序列預測準確率。孫友強等[9]建立了基于Granger因果關系挖掘的支持向量機回歸模型,使得對多變量時間序列的預測更為精準,也在一定程度減少了參加運算的序列。Cao等[10]在時間序列的預測中使用了支撐向量機和它的改進算法,取到了很好的效果。
另一方面,一些研究人員也做過一些使用神經(jīng)網(wǎng)絡來預測模型的研究。孫延風等[11]將神經(jīng)網(wǎng)絡用在對股票的漲幅預測上,促進了金融行業(yè)的發(fā)展,使得預測效果更準確。徐薇等[12]使用線性回歸,利用統(tǒng)計學方法和神經(jīng)網(wǎng)絡對鐵路客流的時序和空間屬性建模的結果結合起來得到預測模型,使預測精度得到改善。Zheng等[13]基于城市地圖人群流動的時間屬性和特有規(guī)律進行了分析,利用殘差模型來對城市范圍內的人群流動進行預測。Yasdi等[14]僅使用交通流量這一個參數(shù),基于時間序列,使用循環(huán)神經(jīng)網(wǎng)絡進行短期交通流量預測。
針對以上相關工作,本文基于民航旅客流量預測的任務,選擇可以捕獲時間序列特征的基于后向傳播算法的循環(huán)神經(jīng)網(wǎng)絡(RNN)模型。同時考慮到該數(shù)據(jù)具有其獨特的周期性和趨勢性,因此根據(jù)數(shù)據(jù)的不同時間尺度進行建模, 對旅客出行行為的長期性特征、短期性特征以及周期性特征進行捕獲,使得時間序列預測的準確率得到提升。
循環(huán)神經(jīng)網(wǎng)絡是一種對序列數(shù)據(jù)進行建模的神經(jīng)網(wǎng)絡,它像一個循環(huán)動態(tài)系統(tǒng),在該結構中當前的輸出會流入下一步的輸入中,為下一次輸出做出貢獻。其主要形式是該結構有個循環(huán)結構會保留前一次循環(huán)的輸出結果并作為下一次循環(huán)輸人的一部分輸入。
和其他神經(jīng)網(wǎng)絡相比,RNN具有一定的優(yōu)勢。固定大小的輸入輸出是普通神經(jīng)網(wǎng)絡的的一個局限,例如,輸入輸出都為一張圖的向量。而RNN在這方面表現(xiàn)較好,序列可以成為該結構的輸入輸出。例如,輸入一句評語,輸出情緒分類;輸入一段話,輸出主題序列。圖1為循環(huán)神經(jīng)網(wǎng)絡結構圖。
圖1 循環(huán)神經(jīng)網(wǎng)絡結構
循環(huán)神經(jīng)網(wǎng)絡通常是由輸入層、輸出層、隱藏層三部分構成的。在RNN中,參數(shù)U、V、W在該循環(huán)結構的每一次輸入中都會被共享,因為RNN是個循環(huán)系統(tǒng),使得神經(jīng)網(wǎng)絡中需要學習的參數(shù)得到很大程度的降低。隱藏層對于RNN來說是最為重要的,主要用于對序列的信息捕獲,最為主要的工作都是由它來實現(xiàn)的。其主要的工作原理如下:
st=fs(Wst-1+Winxt)
(1)
ot=fo(Woutst)
(2)
式中:Wst-1,Win,Wout都是矩陣,主要起連接作用,分別用在隱藏層節(jié)點的自連接,輸入層到隱藏層和權值連接以及輸出層到隱藏層的權值連接;xt和ot分別表示為第t步的輸入和輸出,而第t-1步和第t步隱藏層的輸出則分別表示為s(t-1),st,fs和fo都為激活函數(shù),分別屬于隱藏層和輸出層。激活函數(shù)是該結構對非線性問題解決的重要部分,在保留特征、去除冗余數(shù)據(jù)等方面起到很大的作用。
和傳統(tǒng)ANN一樣,在 RNN的訓練過程中也會使用誤差反向傳播算法,但不同的是,在RNN的網(wǎng)絡結構中可以共享一些參數(shù),這就可以減少對參數(shù)的學習,這是該神經(jīng)網(wǎng)絡的特征之一,而其他傳統(tǒng)ANN所沒有的。除此之外,在梯度下降算法的計算過程中,RNN每一步的輸出不僅和當前的網(wǎng)絡狀態(tài)有關,而且與之前的網(wǎng)絡狀態(tài)有關聯(lián)。
考慮到時間序列數(shù)據(jù)具有其獨特的變化特點,因此需要對其設計具有針對性的建模方案。以機場旅客流量預測為例,旅客的出行記錄反映出各個機場旅客的行為規(guī)律,而根據(jù)直觀認知,機場未來時段的客流量與之前幾天的客流量相關。此外,各機場旅客流量也可能具有一定的周期性,例如每周機場流量的變化具有一定的規(guī)律性。此外各機場流量也可能具有一定的長期的時間依賴,例如機場的客流量在每個月或每個季度整體上具有一定的長期趨勢變化。針對機場客流量在短期、周期、長期三種不同時間尺度上的時間依賴關系,本文使用一種基于多時間尺度的RNN預測模型。同時考慮多個時間尺度下的依賴關系,從而對未來時段的機場客流量進行更加全面的預測分析。
基于多時間尺度的RNN模型的整體結構如圖2所示。
圖2 多尺度RNN模型架構
多尺度RNN模型主要由3個部分組成,對應于時間的短期性依賴、周期性依賴和長期性依賴的建模。在每一部分中,使用可以捕獲時序依賴的RNN模型對各機場旅客流動情況進行擬合,Sigmoid函數(shù)為激活函數(shù)。最后將多個時間尺度對應部分的輸出結果進行加權融合,得到多尺度RNN模型的最終結果。
本文使用的數(shù)據(jù)來自民航2010年至2011年的旅客出行記錄,數(shù)據(jù)包括起飛機場、抵達機場、旅客ID、起飛日期、起飛時間等屬性。為了對民航旅客流量進行分析與預測,要對海量的原始數(shù)據(jù)進行處理,包括數(shù)據(jù)合并,去除無效記錄以及去除稀疏記錄等。
本文中,航線由起飛機場和到達機場唯一確定。根據(jù)數(shù)據(jù)的起飛日期、起飛機場和到達機場計算出每條航線每日的客流量。由于有部分機場航班數(shù)量較少,導致整個矩陣過于稀疏,為了使方法更有針對性和現(xiàn)實意義,因此在實驗過程中去掉航線數(shù)量較少的機場,最終保留62個機場的旅客出行數(shù)據(jù)。數(shù)據(jù)的時間范圍為2010.01.01到2011.12.31,共730天的出行記錄。我們使用最后5天的數(shù)據(jù)作為測試數(shù)據(jù),其余數(shù)據(jù)作為訓練數(shù)據(jù)。
從幾個方面來對民航旅客的出行規(guī)律進行研究,從而驗證本文所使用的方法的合理性。
首先考慮民航旅客在時間上的短期性。圖3為民航旅客流量在相鄰的不同的時間間隔下相關性的變化情況。圖中x軸代表兩個時間段之間的時間間隔,y軸代表對應時間間隔客流量的比值。從圖中可以看出,時間間隔較小的時候旅客流量的比值越趨近于1,即對應時段的客流量情況越相似。由此可知本文方法中對短期時間依賴的假設是合理的,相鄰時間的歷史出行情況對于未來時段的流量預測具有較大的影響,這與現(xiàn)實生活中的經(jīng)驗是相符的。
圖3 短期相關性
其次,考慮民航旅客流量在時間上的周期性。根據(jù)經(jīng)驗,客流量在連續(xù)工作日的表現(xiàn)可能相近,而在周末與工作日相比表現(xiàn)應有一定差別。同時,機場航班安排相對固定,故有理由推測民航旅客流量在普通工作周應體現(xiàn)出一定的相似性。圖4為經(jīng)過單位化處理的全國民航旅客流量示意圖??梢钥闯?,全國民航旅客流量的波動趨勢在兩年中具有一定的相似性,并且存在明顯的以星期為單位的周期性波動,并在全國法定節(jié)假日期間出現(xiàn)明顯變化。單一航線客流量的波動情況也有與總體類似的規(guī)律,如圖5所示。由于出行記錄具有明顯的周期規(guī)律,因此可以看出對于周期性時間依賴的建模是非常有必要的。
圖4 2010年和2011年全國民航旅客流量
圖5 2010年和2011年單一航線日客流量
最后,考慮民航旅客流量在時間上的長期性特征。圖6為各機場旅客平均流量在2010年每個月相同日期上的變化情況??梢钥闯?,隨著時間的推移,客流量整體上具較為明顯的變化趨勢,民航旅客的出行情況在較長的時間跨度下具有一定的趨勢性變化,因此同樣需要對長期的時間依賴關系進行建模。
圖6 長期性時間依賴
從以上分析可以看出,本文所使用的基于多時間尺度的RNN預測模型的結構是合理的。下面將通過實驗驗證本文方法的有效性。
在RNN的輸出中,使用Sigmoid函數(shù)作為激活函數(shù)。此處使用Python庫,包括Pybrain等來建立模型。本文使用5天的出行記錄數(shù)據(jù)作為測試集,其余的數(shù)據(jù)作為訓練集訓練模型。之后,繼續(xù)在全部訓練數(shù)據(jù)上繼續(xù)訓練模型,固定的訓練步數(shù)為100,學習率為0.02,設置窗口為5天,即每5天預測后5天。本文基于具有固定時間間隔數(shù)的整個訓練集繼續(xù)對模型進行訓練,根據(jù)觀察到的規(guī)律,將p設置為一周,將t設置為一月。
為了證明本文所述方法的預測性能,本文將該模型與其他幾種方法的實驗效果進行了對比,選擇的方法如下:
1) 歷史平均值模型(HA):通過對訓練集中歷史出行行為平均值預測民航旅客流量。
2) 自回歸模型(AR):自回歸模型是通過對隨機變量歷史觀測值的線性組合,來對其未來某時刻的觀測值進行預測的線性回歸模型,AR模型是時間序列預測任務中使用最為廣泛的模型之一。
3) 自回歸移動平均模型(ARIMA):全稱為自回歸積分滑動平均模型。與AR模型不同,ARIMA模型可以處理非平穩(wěn)的時間序列,是最常用的時間序列預測模型之一。
4) BP神經(jīng)網(wǎng)絡(BP): BP神經(jīng)網(wǎng)絡是一種按照誤差逆向傳播算法訓練的多層前饋神經(jīng)網(wǎng)絡,它是目前最具影響力的神經(jīng)網(wǎng)絡之一。
5) 循環(huán)神經(jīng)網(wǎng)絡(RNN):又稱為遞歸神經(jīng)網(wǎng)絡,它是一種對序列數(shù)據(jù)進行建模的神經(jīng)網(wǎng)絡,常用于自然語言處理研究中。
6) 基于多時間尺度的循環(huán)神經(jīng)網(wǎng)絡(MTRNN): 本文所使用的時序數(shù)據(jù)預測方法,即對不同的時間尺度,利用循環(huán)神經(jīng)網(wǎng)絡進行建模,最后對各部分的結果進行加權融合。
本文使用均方根誤差(RMSE)來評估模型:
(3)
本文使用基于多時間尺度的RNN預測模型分別對旅客出行情況的短期性時間依賴、周期性時間依賴和長期性時間依賴進行建模,從而對未來時段各個機場的客流量情況進行預測
表1展示了本文所使用的基于多時間尺度的RNN模型與其他基準模型的預測效果對比??梢钥闯觯疚乃褂玫亩鄷r間尺度RNN模型優(yōu)于其他對比方法,取得了最好的預測效果,該模型能夠較為準確的擬合旅客的出行行為。
表1 基準模型和MTRNN的實驗結果對比
此外還可以看到,HA方法效果要遠低于其他時間序列模型,這是由于HA僅以歷史均值進行預測,忽略的數(shù)據(jù)隨時間的波動情況。整體上看神經(jīng)網(wǎng)絡模型的預測效果優(yōu)于時間序列模型,這證明了本文以原始RNN模型作為基礎模型進行時間尺度上的改進是具有合理性的。此外時間序列模型需要對每條航線建立一個預測模型,這種方法并不利于計算和存儲。而在神經(jīng)網(wǎng)絡模型中RNN的預測效果優(yōu)于BP神經(jīng)網(wǎng)絡,這說明相比于BP神經(jīng)網(wǎng)絡,RNN更加能夠捕獲到時間序列數(shù)據(jù)的時序特征,適合時序數(shù)據(jù)的分析與預測。而本文所使用的方法取得了最好的預測效果,這說明本文所提出的假設是具有合理性的。即未來時段的民航旅客客流量不僅與其相鄰的歷史時段出行行為有關,而且與其他時段的出行行為也有較高的相關性,這說明民航旅客客流量不僅具有短期性時間依賴,它還具有一定的周期性和長期性時間依賴。利用這種周期性和趨勢性,對于旅客流量產(chǎn)生突變的時刻也能較好地擬合旅客的出行行為。
在大數(shù)據(jù)的背景下,時序數(shù)據(jù)的預測問題在很多領域的研究中都占據(jù)十分重要的地位,并且具有很重要的現(xiàn)實意義。本文以民航旅客流量預測任務為切入點,對旅客的出行特點以及出行規(guī)律進行深入的分析,并根據(jù)出行數(shù)據(jù)的短期時間依賴、周期性時間依賴和長期性時間依賴,建立基于多時間尺度的循環(huán)神經(jīng)網(wǎng)絡預測模型來對旅客出行的短期性、周期性和趨勢性進行建模,提升了模型的預測精度。
影響民航旅客出行情況的因素有很多,由于缺乏地理、氣溫、節(jié)假日等外部因素信息,本文所使用的模型還具有一定的局限性,可能對模型預測準確率有一定程度的影響。在后續(xù)的研究工作中將對模型進行進一步的改進,以達到更好的預測效果。