馮 霞,趙立強
(1.中國民航大學 計算機科學與技術學院,天津 300300;2.中國民航大學 中國民航信息技術科研基地,天津 300300)
隨著民航旅客出行需求增加,機場安檢旅客流量也隨之增長,而在高峰期安檢旅客等待時長不斷增加。安檢旅客等待時間過長往往是旅客到達人數(shù)隨時間呈現(xiàn)出一定波動和安檢通道等資源調度不合理所致。若準確預測安檢旅客流量,便可根據(jù)客流動態(tài)配置安檢通道資源以及安檢人員數(shù),進而保證多數(shù)安檢旅客能在短時間內(nèi)通過安檢,從而減少由旅客等待所致航班延誤、聚集事件的發(fā)生,提高資源利用率、工作人員服務水平和旅客滿意度。
國內(nèi)外學者從民航客運量、機場旅客吞吐量和在某個時間段內(nèi)離港旅客到達航站樓流量預測等方面展開了研究。Lijuan Liu等提出了一種基于深度學習的客流預測模型[1],Engin Pekel等采用POA-ANN以及IWD-ANN方法預測旅客流量[2],Wai Hong Kan TSUI等對香港國際機場客運量進行預測[3],王翠等利用基于灰色理論的RBF神經(jīng)網(wǎng)絡方法,分別對串并聯(lián)、嵌入型模型和在民航客運量預測中的應用進行研究[4]。以上有關客運量預測的研究,沒有充分考慮數(shù)據(jù)時間序列特性或序列粒度未精確化,致使預測精準度不準。王婷婷等運用灰色馬爾科夫模型對龍洞堡機場旅客吞吐量進行預測,預測效果較好[5]。以上有關旅客吞吐量的研究,只是進行長期預測或長時段的預測,未考慮短時流量預測。鄧雙龍等基于判別分析法構建客流異常預警模型,并對風險函數(shù)定義以及解析[6]。Robertson CV等提出可預測未來一星期每隔半小時航站樓旅客到達流量的優(yōu)化模型[7]。以上研究雖然涉及到不同時間段內(nèi)旅客的不同到達特性,但是由于數(shù)據(jù)源不夠充分,導致預測精準度不夠。
受航班時隙安排等影響,航站樓安檢客流往往會呈現(xiàn)出短時劇烈變化,致使傳統(tǒng)線性方法不能很好應用在安檢旅客流量預測中。而混沌理論作為非線性動力系統(tǒng)所研究領域,常用于處理復雜而不確定性問題。基于混沌理論的時間序列預測在非線性系統(tǒng)預測方面得到廣泛應用,例如在水文資源領域的徑流預報[8]、經(jīng)濟現(xiàn)象[9]、大氣現(xiàn)象[10]等。
基于此,本文重點研究混沌理論與時間序列分析相結合的安檢旅客流量預測,主要工作包括:①采用Wolf定量方法分析了安檢旅客流量時間序列的混沌特性;②采用基于GABP的安檢旅客流量預測方法對安檢旅客流量混沌時間序列預測;③考察了安檢旅客流量時間序列不同尺度劃分對預測精度的影響。
受航班時隙安排等影響,航站樓安檢客流在不同時段呈現(xiàn)不同規(guī)律,為考查安檢旅客短時流量隨時間變化所呈現(xiàn)的時間序列特性,本文收集北京首都國際機場T3航站樓4月至9月的安檢旅客短時間流量時間序列,正如圖1至圖3 所示。圖1至圖3中,縱軸表示安檢旅客流量,單位為人;橫軸是不同天但同一時段,其中,圖1時間間隔是2 min(以6點30分至6點32分為例),圖2是時間間隔為5 min(以6點30分至6點35分為例),圖3是時間間隔為10 min(以6點30分至6點40分為例)。
圖1 2 min粒度下不同天相同時段安檢客流走勢
圖2 5 min粒度下不同天相同時段安檢客流走勢
圖3 10 min粒度下不同天相同時段安檢客流走勢
從圖1至圖3不難看出,短時安檢旅客流量具有一定隨機性,即混沌信號所具有的特征。為了更好地定量分析安檢旅客流量時間序列所具有的混沌性,為此先用相空間重構法重構安檢客流時間序列,從而獲得相空間,之后通過Wolf法定量分析其特性信息即最大Lyapunov指數(shù),以判斷其是否具有混沌性。
相空間重構的定義、基本思想請參見文獻[11]。
相空間重構有導數(shù)重構法以及延遲重構法兩種方法。
本文通過后者對安檢旅客流量時間序列進行相空間重構,具體如下:
其中,安檢旅客流量時間序列即:x={x(ti),i=1,2,…,n},n是時間序列樣本個數(shù)。需要構建M=n-(m-1)τ個m維相空間矢量X(ti), 如式(1)所示
X(ti)=(x(ti),x(ti+τ),…,x(ti+(m-1)τ))T
i=1,2,…,M
(1)
重構的相空間X(t), 如式(2)所示
X(t)=[X(t1),X(t2),…,X(tM)]
(2)
其中,m、τ分別是嵌入維數(shù)、延遲時間,X則是m×M的矩陣。
通過后者重構相空間,其中,要確定好τ和m, 為此,本文通過自相關函數(shù)法給出延遲時間τ, 和通過偽鄰近點法給出嵌入維數(shù)m。
1.1.1 采用自相關函數(shù)法確定延遲時間
自相關的定義、基本思想請參見文獻[12]。
已知時間序列x, 且均值為μ、 去均值為h(i)=x(i)-μ,i=1,2,…,n、 樣本數(shù)n、 循環(huán)次數(shù)td(1≤td≤100), 則自相關函數(shù)是關于時間延遲τ的函數(shù)C(τ), 正如式(3)所示,其中,第一個極小值點τ為安檢客流時間序列相空間重構所用到的最佳延遲時間
(3)
1.1.2 采用偽鄰近點法確定嵌入維數(shù)
偽鄰近點法(false nearest neighbor,F(xiàn)NN)是確定嵌入維數(shù)最常用的方法,其相關定義、基本思想請參見文獻[13]。
Wolf方法的定義、基本思想請參見文獻[14]。
由式(1)所得到的X(ti) 即為重構相空間中的點,t0時刻,取初始點X(t0), 設其與最鄰近點X0(t0) 的距離為L(t0), 追蹤這兩點的時間演化,直到t1時刻,其間距超過某個規(guī)定值ε>0,L′(t1)=|X(t1)-X0(t1)|>ε, 保留X(t1), 并在其鄰近尋找一個能使L(t1)=|X(t1)-X1(t1)|<ε并且與之夾角足夠小的點X1(t1)。
繼續(xù)上述步驟,直至X(t) 到達時間序列末端終止,此時追蹤演化過程的迭代總記H, 其Lyapunov指數(shù)λ, 正如式(4) 所示
(4)
考慮安檢旅客流量時間序列具有一定混沌特性,本文提出基于GABP的安檢客流預測方法。此方法不僅可避免BP神經(jīng)網(wǎng)絡預測模型容易陷入局部極小,而且使得BP神經(jīng)網(wǎng)絡收斂速度快。圖4為GABP算法流程。
圖4 GABP算法流程
圖4中,左半部分是使用遺傳算法來優(yōu)化初始權值、閾值分布,右半部分是利用基于優(yōu)化的權值和閾值的BP神經(jīng)網(wǎng)絡進行預測。
遺傳算法的定義、基本思想以及所涉及到的選擇、交叉和變異等操作請參見文獻[15]。
BP神經(jīng)網(wǎng)絡的定義、基本思想請參見文獻[16]。
采用GABP算法對安檢旅客流量預測的具體步驟如下:
(1)對所獲取的安檢旅客流量歷史數(shù)據(jù)進行歸一化預處理。
(2)設置種群規(guī)模、染色體長度等參數(shù)。對種群初始化,通過實數(shù)編碼法來編碼BP神經(jīng)網(wǎng)絡的初始權值、閾值。
(5)
(6)
(4)利用輪盤賭法給出選擇概率pi, 正如式(7)所示
(7)
式中:fi=1/fitnessi,P為種群規(guī)模。
(5)利用實數(shù)交叉法。其中第k個基因wk以及第l個基因wl在j位完成交叉,如式(8)所示
(8)
式中:b為[0,1]的隨機數(shù)。
(6)變異操作。對第i個個體的第j個基因進行變異操作,正如式(9)、式(10)所示
(9)
f(g)=r2(1-g/Gmax)
(10)
式中:wmax、wmin分別為基因wij的最大值、最小值,r是[0,1]中的隨機值,r2是當中的一個隨機值,g為當前迭代次數(shù),Gmax為最大進化代數(shù)。
(7)算法終止條件判斷,若符合結束條件,則返回全局最優(yōu)個體,否則,進化代數(shù)加1,且轉向(3)繼續(xù)優(yōu)化。
實驗數(shù)據(jù)為北京首都國際機場T3航站樓2013年4月至9月累計6個月的旅客安檢數(shù)據(jù),經(jīng)預處理,得到不同時間尺度(2 min,5 min,10 min)的安檢旅客流量數(shù)據(jù)。表1給出了以2 min時間粒度為例的4月1日至9月30日部分安檢旅客流量數(shù)據(jù)樣例(共有183個安檢旅客流量時間序列數(shù)據(jù),實驗訓練樣本為前176個,后7個為測試樣本)。
表1 安檢旅客流量數(shù)據(jù)部分樣本
3.2.1 實驗參數(shù)設置
經(jīng)大量實驗,確定BP神經(jīng)網(wǎng)絡參數(shù)設置:訓練次數(shù)35 000,訓練目標0.000 01,學習率0.01;遺傳算法參數(shù)設置:種群規(guī)模100,進化代數(shù)120,交叉概率0.4,變異概率0.2。
3.2.2 實驗相關評價
本文預測評價指標為相對誤差,如式(11)所示
(1≤i≤28)
(11)
Perr(i) 為相對誤差,Real_Value(i) 為真實值, Predicted_Value(i) 為預測實際值,i是下標(1≤i≤28)。
進行了如下實驗:①采用Wolf方法進行安檢旅客流量時間序列混沌性判別;②采用GABP預測方法對安檢旅客流量時間序列進行預測,基準算法選擇BP預測方法。
3.3.1 安檢旅客流量時間序列混沌特性判別
首先,通過自相關函數(shù)法獲得延遲時間τ和通過虛假鄰近點法獲得嵌入維數(shù)m。 最佳延遲時間為自相關函數(shù)的第一個極小值點,最佳嵌入維數(shù)為偽鄰近點百分比將驟然降至(或接近0)且不再隨m增大而變化的驟變點處的m0值。其次,進行相空間重構。最后采用Wolf法計算最大Lyapunov指數(shù)。
3.3.1.1 計算最佳延遲時間τ以及最佳嵌入維數(shù)m
篇幅所限,表2列出了2013年4月1號至9月30號以10 min為時間間隔從上午5點30分至晚上19點30分安檢旅客流量數(shù)據(jù)所對應的最佳延遲時間τ以及最佳嵌入維數(shù)m。 表2中,T1代表5∶30-5∶40,T2代表5∶40-5∶50,…,以此類推,T84代表19∶20-19∶30。
3.3.1.2 重構相空間
其中所構造出的安檢旅客流量時間序列相空間形如公式(12)所示
(12)
其中,i為m維相空間矢量個數(shù) (1≤i≤N-(m-1)τ),N即安檢旅客流量時間序列樣本數(shù),m是最佳嵌入維數(shù),τ是最佳延遲時間。
獲得最佳時間延遲、最佳嵌入維數(shù)后,對相空間重構,正如式(13)所示(以7∶00-7∶10為例,相空間重構中的各個元素值是時間尺度為10 min不同天相同時間段下安檢旅客流量時間序列樣本值,其中τ=6,m=4)
X={X(1),X(2),……X(t)}=
(13)
將具體數(shù)據(jù)代入式(13)中得到,如式(14)所示
(14)
3.3.1.3 計算最大Lyapunov指數(shù)
使用Wolf法,求得每個時段相應的最大Lyapunov指數(shù)。表3給出了最大Lyapunov指數(shù)λ,其中表3中的T1至T84的含義同表2。
表2 10 min粒度下最佳延遲時間τ、最佳嵌入維數(shù)m
表3 以10 min為時間間隔序列最大Lyapunov指數(shù)λ
安檢客流時間序列混沌特性判別的定量依據(jù)是最大Lyapunov指數(shù)是否為正,通過Wolf方法獲得最大Lyapunov指數(shù)均為正。(以7點至7點10分為例,最大Lyapunov指數(shù)為2.447,為正),因此該時間段安檢旅客流量時間序列具有混沌特性。
3.3.2 采用不同預測方法多時間粒度對安檢旅客流量混沌時間序列預測
以9月24日為例,表4給出了不同粒度不同預測方法以半小時為單位的預測相對誤差值。表4,TT1表示5∶30-6∶00,TT2表示6∶00-6∶30,…,以此類推,TT28表示19∶00-19∶30。
從表4可以看出,時間尺度為2min、預測方法為GABP,相對誤差更小,預測精度更高。圖5也以9月24日為例,給出了不同粒度不同預測方法在不同時段的預測結果。從圖5可看出,盡管在不同時段,不同尺度不同預測方法的性能不同,但總體來講,還是以 2 min 為粒度,使用GABP預測方法效果更好,性能更穩(wěn)定。
表4 不同粒度不同方法的相對誤差
圖5 9月24日主要時段5∶30至19∶30不同時間尺度不同預測方法預測結果比較
圍繞安檢旅客流量預測問題,本文通過對安檢旅客流量時間序列數(shù)據(jù)進行相空間重構,采用Wolf方法量化分析了安檢旅客流量時間序列數(shù)據(jù)的混沌特性;在此基礎上,考慮數(shù)據(jù)集特有的混沌特性,從而提出一種遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡的GABP安檢旅客流量預測方法,在首都機場實際數(shù)據(jù)集上的實驗結果表明,較之基準方法,本文算法能取得更好的預測精度。