(北京物資學院 北京 010000)
隨著電商行業(yè)的快速發(fā)展,電商在運營管理上面臨越來越多的問題,其中重點突出的問題是商品訂單量的庫存計劃不到位,商品短缺和庫存積壓制問題并存,導致資金短缺倉庫利用率低,嚴重制約了電商公司長久發(fā)展。傳統(tǒng)的訂單預測分析通常采用時間序列、季節(jié)性預測等方法,這種方法使用的數(shù)據(jù)量小,比較適合傳統(tǒng)銷售模式下的訂單預測問題。針對電商訂單的海量數(shù)據(jù)特點,使用傳統(tǒng)的預測模型已不能滿足要求。近幾年,機器學習逐漸興起,被廣泛地應用到預測領(lǐng)域,如機場能見度預測[1]、金融風險預測[2]等。本文考慮到訂單量數(shù)據(jù)線性與非線性的特點,把傳統(tǒng)的預測方法與機器學習的方法結(jié)合建立組合模型,實現(xiàn)對商品訂單的預測分析。
在組合模型的研究上,丁宏飛[3]提出多模型融合預測算法對快速路行程時間進行預測,楊波、吳涵[4]建立趨勢曲線預測模型、回歸預測模型及灰色預測模型的物流需求單項預測模型,建立了組合預測模型,并以重慶空港物流園為例進行應用。綜上所述,組合預測模型在一定程度上可以有效地提高預測精度。本文采用的組合模型思路是將一系列不同模型的預測結(jié)果通過某種規(guī)則匯集到一起,從而得到更好的預測結(jié)果。這種組合的關(guān)鍵在于模型的多樣性,如果各個模型的偏差在不同方向上,那這些偏差就會彼此抵消,組合結(jié)果會更加穩(wěn)定、更加準確。考慮到電商商品訂單數(shù)據(jù)的線性和非線性因素,本中選擇了選擇BP神經(jīng)網(wǎng)絡、XGBoost模型和ARIMA時間序列組成組合預測模型,每個模型的權(quán)重通過將Shapley值法[5]確定。
綜上所述,組合預測模型原理如圖1所示:
圖1 組合預測模型原理圖
(一)實驗數(shù)據(jù)
實驗使用的數(shù)據(jù)為亞馬遜店家后臺下載的某商品2018年5月-12月以周為單位的共30條數(shù)據(jù),共240個數(shù)據(jù)。該數(shù)據(jù)共包含了7個解釋變量,分別為登陸次數(shù)、登陸人數(shù)、成交筆數(shù)、收藏人次、瀏覽次數(shù)、流量和成交金額。在實驗中,本文假設(shè)在預測第t天的訂單量時,第t天之前的數(shù)據(jù)已知。數(shù)據(jù)集的劃分為前28周的數(shù)據(jù)為訓練集,后2周的數(shù)據(jù)為預測集。
(二)ARIMA模型預測
ARIMA模型建立需要通過:數(shù)據(jù)平穩(wěn)性判別、非平穩(wěn)序列差分處理、模型識別與定階、選定模型擬合、檢驗模型的預測準確性和使用模型進行預測等步驟。對比出最優(yōu)模型為ARIMA(4,1,0)。
(三)BP神經(jīng)網(wǎng)絡預測
數(shù)據(jù)集中前28周數(shù)據(jù)用于模型訓練和建立,通過該數(shù)據(jù)對模型進行交叉驗證并確定最優(yōu)模型。用訓練好的模型對后兩周的訂單進行預測。參數(shù)設(shè)置如表1:
表1 BP神經(jīng)網(wǎng)絡參數(shù)設(shè)置
(四)XGBoost模型預測
模型的建立主要為調(diào)參,通過大量實驗,選出模型的最優(yōu)參數(shù)。參數(shù)設(shè)置如表2:
表2 XGBoost參數(shù)設(shè)置
(五)組合模型預測
在訓練集上使用這三種模型進行訓練,得到訓練集上的擬合值,計算擬合值與實際值之間的平均相對偏差值(MRD),其中ARIMA的MRD%為14.66,BP神經(jīng)網(wǎng)絡的MRD%為10.09,XGBoost的MRD%為5.29。經(jīng)過計算,組合模型總平均相對偏差MRD%為10.01。根據(jù)Shapley值的概念,參與組合預測模型總誤差分攤的“合作關(guān)系”的成員為N={1,2,3},它的所有子集的集合的平均相對偏差值分別為E{1}、E{2}、E{3}、E{1,2}、E{2,3}、E{1,3}、E{1,2,3},其數(shù)值的大小為該子集所包括向量的均值大小如表3所示。
表3 子集誤差值
按照公式的Shapley值的計算方法,求出各成員的Shapley值為E1=6.82、E2=3.40、E3=-0.20。根據(jù)權(quán)重公式(公式1)
(公式1)
計算各單一預測方法在組合模型中的最終權(quán)重為:W1=0.16、W2=0.33、W3=0.51.
故最終組合預測模型為公式2:
Y=0.16Y1+0.33Y2+0.51Y3
(公式2)
根據(jù)上文的單一模型和組合模型對未來兩周的訂單進行預測,計算各模型在每周的平均相對偏差和偏差均值,統(tǒng)計結(jié)果如表4所示:
表4 各模型的預測結(jié)果及相對偏差統(tǒng)計表
由上表可以看出,在預測結(jié)果上組合模型的預測效果最好,平均相對偏差僅為2.49%,但也出現(xiàn)了很大的波動,即第一期預測很好,但第二期效果較差。BP神經(jīng)網(wǎng)絡表現(xiàn)較為穩(wěn)定,但效果沒有組合模型顯著。組合模型相比于單一模型有明顯提高。各模型MRD波動情況如圖2所示,ARIMA模型的誤差波動最激烈,預測表現(xiàn)最差;BP神經(jīng)網(wǎng)絡表現(xiàn)較好,除了幾個異常點外,誤差基本維持在10%以內(nèi);XGBoost模型沒有明顯波動,在預測后期相比預測前期表現(xiàn)略差;組合模型中有幾個最小誤差也出現(xiàn)在該模型中,說明組合模型能夠很好的修正單一模型的波動,使誤差波動更穩(wěn)定。
圖2 平均相對偏差MRD波動圖
針對電商商品訂單的線性與非線性特征,本文選擇了在線性數(shù)據(jù)上有優(yōu)勢的ARIMA模型和適用于非線性數(shù)據(jù)的BP神經(jīng)網(wǎng)絡和XGBoost模型建立組合模型。預測結(jié)果表明,相比于單一模型,組合模型能夠很好的修正單一模型的波動,使誤差波動更穩(wěn)定,在預測準確率上有更好的表現(xiàn)。