張劍霞 中國鐵路上海局集團有限公司上海華鐵旅客服務有限公司
近些年,中國的高鐵發(fā)展迅猛,得到提升的不僅僅是出行速度,還有旅程的數(shù)字化、信息化程度。同時,隨著生活水平的不斷提高,人們對于出行方式的快速便捷化要求也越來越高,乘坐高鐵出行已經(jīng)成為了大多數(shù)人的出行首選,而高鐵盒飯則為不少旅客解決了出行途中的“吃”問題。
2017年7月18日,中國鐵路總公司推出了“12306網(wǎng)上訂餐”服務,在動車上只要拿出你的手機,登錄12306網(wǎng)站或者手機APP,就可以預定自己路過地方的當?shù)孛朗常朗匙龊脤⑻崆八偷杰囌?,列車一到站由工作人員送到車廂。此外,列車還陸續(xù)推出了“高鐵點外賣服務”、“高鐵掃碼選餐服務”等,讓旅客在座位上享受一鍵下單、美食即刻到身邊的便捷服務。
目前,高鐵不同車次盒飯的配餐數(shù)都是根據(jù)以往數(shù)據(jù)和業(yè)務經(jīng)驗來制定的,大都是主觀判斷,缺少科學依據(jù),且不同價位、不同口味、不同供應商、不同交路、季節(jié)變化等因素都需要綜合考慮,相關業(yè)務人員工作量很大。
通過系統(tǒng)實現(xiàn)智能化預測不同線路、不同車次、不同價位和不同口味的個性化配餐需求,完成列車配餐的智能化決策。
(1)高鐵點餐服務的便捷性和多樣化,使得高鐵餐飲數(shù)據(jù)隨著列車里程的不斷積累越來越豐富,因此我們可以通過這些海量銷售數(shù)據(jù)進行深度分析挖掘,找出旅客餐食需求的變化趨勢和規(guī)律特征,從而實現(xiàn)智能化配餐的目標。
(2)在算法選擇上,可以采用已經(jīng)成熟的大數(shù)據(jù)智能分析算法,如RBF神經(jīng)網(wǎng)絡、BP神經(jīng)網(wǎng)絡、時間序列模型、先知模型等對數(shù)據(jù)進行智能化分析預測。
(1)對列車運行過程中產(chǎn)生的實時銷售數(shù)據(jù)進行實時采集,主要包括列車乘務員的手持終端以及掃碼點餐的移動端APP的數(shù)據(jù)等進行實時抽取對接。
(2)采集方式:存放實時數(shù)據(jù)的關系型數(shù)據(jù)庫,如MySQL,與高鐵配餐智能化預測大數(shù)據(jù)平臺做實時數(shù)據(jù)同步。
利用智能算法處理異常記錄、缺失數(shù)據(jù)等。常用的數(shù)據(jù)預處理的技術主要包括缺失值填充技術、數(shù)據(jù)抽樣技術、變量處理技術、數(shù)據(jù)重構技術、數(shù)據(jù)無量綱處理技術等。
3.2.1 缺失數(shù)據(jù)處理
缺失值填充是針對帶有缺失值的數(shù)據(jù)進行處理,因為有的分析算法在進行數(shù)據(jù)分析前要求數(shù)據(jù)是無缺失的,所以數(shù)據(jù)的缺失值填充是非常關鍵的一步,對后續(xù)的分析影響很大。一般的缺失值填充方法見表1。
表1 缺失值填充方法列表
本系統(tǒng)根據(jù)數(shù)據(jù)特征進行缺失值填充處理,主要采用線性插值法進行填充處理。
3.2.2 異常值處理
異常值處理用來發(fā)現(xiàn)“小的模式”(相對于聚類而言),即數(shù)據(jù)集中顯著不同于其它數(shù)據(jù)的對象,也稱為孤立點。
Hawkins(1980)給出孤立點(outlier)的定義:孤立點是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機孤立點,而是產(chǎn)生于完全不同的機制。孤立點可能在聚集運行或者檢測的時候被發(fā)現(xiàn),比如一個人的年齡是999,這在對數(shù)據(jù)庫進行檢測的時候就會被發(fā)現(xiàn)。還有就是outlier可能是本身就固有的,而不是一個錯誤,比如CEO的工資就比一般員工的工資高出很多。
孤立點算法是基于距離的:設Dk(p)表示點p和它的第k個最近鄰居的距離。直觀地看,Dk(p)越大,p越有可能成為孤立點。給定d維空間中包含N個點的數(shù)據(jù)集、參數(shù)n(孤立點個數(shù))和k(偏差距離),如果滿足Dk(p')>Dk(p)的點p'不超過n-1個,那么稱p為Dnk孤立點。如果對所有數(shù)據(jù)點根據(jù)其Dk(p)距離進行從大到小排序,那么前n個點就被看作是孤立點。
最后,我們可以根據(jù)數(shù)據(jù)特征將異常值進行剔除。
3.2.3 預測建模
將神經(jīng)網(wǎng)絡模型、時間序列模型與先知模型分別帶入該預測模型中,根據(jù)模型精度進行優(yōu)化調(diào)整參數(shù),并選取預測精度最高的作為本次建模的算法。
按照實際訓練效果,采用先知模型的效果最好,模型精度最高。
Prophet模型是指將經(jīng)濟社會增長與節(jié)假日等影響因素加入到模型中,具體模型如下:
g(t)用于擬合時間序列中的分段線性增長或邏輯增長等非周期變化。
(1)邏輯增長模型
其中,C是飽和值,k是增長率,m是偏執(zhí)參數(shù)。
因為C是隨時間t變化的,且k也會隨著一些其他不確定因素發(fā)生改變。故該模型需做一些改進。
在時間序列中設置若干個轉變點Sj,j=1,2...,S,在這些轉變點上k的值會發(fā)生改變。改變量為σj表示在時間tj處的變化量,構建出向量a(t)∈{0,1}s
則增長率在時間t的表達式變?yōu)椋?/p>
當增長率發(fā)生變化時,偏執(zhí)參數(shù)m也應隨之做出相應的調(diào)整,來連接時間片段的尾部。在轉折點j處對偏執(zhí)參數(shù)的調(diào)整量如下:
因此得到分段logistic趨勢模型:
邏輯增長模型適合有增長趨勢的預測問題,而對于沒有增長趨勢的預測問題時,線性增長率模型則更加有效:
同理,k是增長率,σ是增長率的調(diào)整值,m是偏執(zhí)參數(shù),γj設置為-sjσj來使得函數(shù)連續(xù)。
(2)s(t)周期變化(每周/每年的季節(jié)性)
本研究主要依靠傅里葉級數(shù)來構造靈活的周期性模型,可以設置p為我們想要的時間序列的規(guī)則周期長度,這樣就得到了任意平滑周期效應的估算值:
為了擬合周期性,需要估計這 2N 個參數(shù)β=[a1,b1,...,aN,bN]。這是通過對歷史上和未來的每個t值構建一個季節(jié)性向量矩陣來實現(xiàn)的。
在我們的生成模型中,我們采用β~Normal(0,δ2)來對季節(jié)性施加一個先驗分布。
將傅里葉級數(shù)的項數(shù)N進行截斷相當于對季節(jié)性施加了一個低通過濾波器,增加N能夠提高擬合效率,但可能會出現(xiàn)過擬合。這些參數(shù)的選擇能夠通過模型選擇程序來自動實現(xiàn)。
(3)h(t)非規(guī)律變化的節(jié)假日效應
整理出這種非規(guī)律變化的節(jié)假日或事件(過去和未來),認為它們的作用是獨立的,并考慮進模型中。對于每個節(jié)假日i,讓Di設置為過去和未來節(jié)假日的集合,添加一個指示函數(shù)來表明時間t是否在節(jié)假日i中,并對每一個節(jié)假日設定一個參數(shù)ki來對應出預測中變化。與季節(jié)性模型處理方法類似,生成一個回歸元的矩陣:
與季節(jié)性模型類似,采用先驗k~Normal(0,δ2),ε為誤差項,用來反映未在模型中體現(xiàn)的異常變動。
(1)數(shù)據(jù)源的來源
基于大數(shù)據(jù)、云計算等技術,構建高鐵智能化配餐云平臺,采集配餐業(yè)務相關的各種數(shù)據(jù)源,主要分為三部分:一是ERP系統(tǒng)數(shù)據(jù),包括銷售數(shù)據(jù)、庫存數(shù)據(jù)、退損數(shù)據(jù)、供應商數(shù)據(jù)等;二是手持終端數(shù)據(jù),包括列車乘務員手持設備的實時銷售數(shù)據(jù)、掃碼點餐數(shù)據(jù)等;三是其它數(shù)據(jù),包括客流數(shù)據(jù)、天氣、宏觀經(jīng)濟等外部數(shù)據(jù)。
(2)利用數(shù)據(jù)源構建服務引擎
我們可以利用馬克威的算法引擎服務對配餐數(shù)據(jù)進行分析挖掘,建模預測。算法引擎主要包括機器學習算法、數(shù)據(jù)挖掘算法、統(tǒng)計分析算法、數(shù)據(jù)處理算法等。
(3)可視化展示數(shù)據(jù)分析結果
配餐預測模型結果進行可視化的展示,既可以提供傳統(tǒng)的餅狀圖、柱狀圖、折線圖及數(shù)據(jù)表結合等展現(xiàn)形式,還可以提供包括決策樹、地圖分布、駕駛艙、儀表盤、全景視圖和多維立方體等大數(shù)據(jù)分析的展現(xiàn)方式。
以G2車次數(shù)據(jù)為例:將導出的G2總盒飯數(shù)TOTAL輸入模型,調(diào)整預測周期,得到G2總盒飯數(shù)的預測值,圖1為預測周期為2周的預測值。
圖1 對G2進行2周預測的預測值
模型將預測值寫入數(shù)據(jù)庫里的G02_FORECAST表中,將實際值寫入G02_TOTAL表中便于查看對比,高鐵配餐智能化預測系統(tǒng)WEB界面將直接調(diào)用這兩個值做出曲線圖,圖2即為WEB界面實際值與預測值曲線圖。
圖2 WEB界面實際值與預測值曲線圖
本文利用大數(shù)據(jù)智能算法模型,通過大量的統(tǒng)計數(shù)據(jù)對高鐵配餐的現(xiàn)狀進行了系統(tǒng)化的分析,努力實現(xiàn)高鐵智能化配餐的目標。智能化的目標主要體現(xiàn)以下幾個方面:
(1)預測多樣化的需求
預測不同線路、不同車次的冷鏈類盒飯的需求,并根據(jù)季節(jié)、假日、突發(fā)情況等因素對列車盒飯進行合理調(diào)配,努力滿足不同旅客的多樣化需求,同時降低配送成本。
(2)實現(xiàn)精細化管理
提高精細化管理能力和精準化服務水平,為高鐵配餐計劃的制訂和管理提供數(shù)據(jù)支持,為旅客提供貼近實際需求的餐飲供應。
(3)提供決策支持
提高模型預測能力,實現(xiàn)提前預知預警,為高鐵配餐提供決策支持,實現(xiàn)高鐵配餐業(yè)務的有的放矢,既滿足旅客需求又避免了浪費。
(4)提高管理水平
對高鐵配餐作業(yè)數(shù)據(jù)進行收集、保存、處理,提供配餐在線預測系統(tǒng),自動生成預測報表,進一步提高高鐵配餐管理效率和水平。