鄢正綱
(中南財經(jīng)政法大學體育部,湖北武漢430064)
基于ARIMA SVM的體育彩票銷售量預測
鄢正綱
(中南財經(jīng)政法大學體育部,湖北武漢430064)
體育彩票銷售量受到多種綜合因素影響,呈現(xiàn)出復雜的、非線性的動態(tài)變化特性.為了準確刻畫體育彩票銷售量的變化特征,提出差分自回歸移動平均和支持向量機相融合的體育彩票銷售量預測模型.首先根據(jù)體育彩票銷售量時間序列建立ARIMA模型,擬合體育彩票銷售量的線性變化部分,然后采用支持向量機對差分自回歸移動平均的預測殘差進行建模,擬合體育彩票銷售量的非線性變化部分,最后采用具體體育彩票銷售量數(shù)據(jù)進行仿真實驗.仿真結果表明,相對于其它模型,該模型具有更高的預測精度,可以更準確反映體育彩票銷售量的變化趨勢.
體育彩票銷售量;差分自回歸移動平均;支持向量機;組合預測
隨著經(jīng)濟的迅速發(fā)展,體育彩票也隨之壯大,為國家和社會籌集了大量的公益金,并帶動了相關產(chǎn)業(yè)發(fā)展.對體育彩票的未來銷量進行準確預測,為體育彩票的營銷推廣提供科學依據(jù),對體育彩票產(chǎn)業(yè)的健康發(fā)展具有十分重要的意義[1].
針對體育彩票銷售量問題,國內(nèi)外學者進行了大量而深入地研究,并取得許多研究成果.體育彩票銷售量與經(jīng)濟水平、市場規(guī)模、居民收入、節(jié)假日相關,變化非常復雜,傳統(tǒng)體育彩票銷售量模型主要是差分自回歸移動平均模型(autoregressive integrated moving average,ARIMA),其主要思想是利用體育彩票銷售量前m個數(shù)據(jù)量作為描述因子建立回歸模型,對未來體育彩票銷售量進行預測,然而ARIMA本質(zhì)上屬于線性模型,在描述時間序列的線性特征時有一定的優(yōu)越性,但在描述其非線性特征時卻具有局限性[2].隨著機器學習算法的不斷成熟,支持向量機(support vector machine,SVM)在體育彩票銷售量預測中取得了不錯的應用效果[3-6].然而體育彩票銷售量受到人的心理、體育賽事等影響,具有明顯整體趨勢變動性和季節(jié)波動性,以及隨機性,僅使用SVM無法對體育彩票銷售量進行高精度地預測[7-9].近年來,根據(jù)組合優(yōu)化理論,研究人員將不同模型組合在一起,實現(xiàn)優(yōu)勢互補,可以提高預測精度,因此組合預測模型為體育彩票銷售量預測問題提供了一種新的研究思想.
為了提高體育彩票銷售量的預測精度,利用ARIMIA和SVM的優(yōu)點,提出了一種ARIMA和SVM相融合的體育彩票銷售量預測模型(ARIMA -SVM),最后利用某地區(qū)體育彩票銷售量數(shù)據(jù)進行仿真實驗.仿真結果表明,ARIMA-SVM獲得了較高的體育彩票銷售量預測精度,同時相對其它體育彩票銷售量預測模型,預測和建模效率更高,具有一定的優(yōu)勢.
體育彩票銷售量是按照一定的時間間隔收集的數(shù)據(jù),是可以采用{x1,x2,…,xn}來表示,體育彩票銷售量受到多種綜合因素的影響,不僅具有線性、周期性變化特點,同時也具有非線性變化特征,其預測的數(shù)學模型可描述為:
式中,y^表示體育彩票銷售量的預測值,f()表示預測模型.
ARIMA-SVM的建模與預測思想為:采用ARIMA對體育彩票銷售量時間序列進行建模,對預測體育彩票銷售量序列的線性特點進行描述,然后,根據(jù)殘差值包含了體育彩票銷售量時間序列的非線性特點,利用支持向量機進行建模,最后將兩者進行相加,得到體育彩票銷售量的最終預測值.ARIMA-SVM的具體工作流程如圖1所示.
圖1 體育彩票銷售量預測模型的工作流程圖
2.1 ARIMA模型
ARIMA模型是Box等提出的一種時間序列建模方法,對原始序列Zt進行d階差分,得到序列(1-B)dZt,設p和q為階數(shù),ARIMA(p,q)模型可以描述為:
式中,B為滯后算子;εt為白噪聲;φi(i=1,2,…,p)和θj(j=1,2,…,q)為參數(shù)[10].
2.2 支持向量機
支持向量機通過函數(shù)φ(x)對數(shù)據(jù)進行非線性映射,將問題轉化為凸二次規(guī)劃問題:
式中,ξi2為訓練誤差;參數(shù)C為懲罰因子[11-12].
引入對偶問題的Lagrange約束規(guī)劃,具體如下:
式中,αi為Lagrange乘子.
對式(3)中的ω,b,ξi,αi進行求偏導得到:
式中,i=1,2,…,l.
消去ω和ξi,得矩陣方程為:
式中,設Z=[φ(x1),φ(x2),…,φ(xl)]T,Y=[y1,y2,…,yl]T,ρ=[I1,I2,…,Il]T,α=[α1,α2,…,αl]T,ξ=[ξ1,ξ2,…,ξl]T,I為單元矩陣.
根據(jù)Mercer條件,可得:
解上述方程組得:
根據(jù)上述求解可得支持向量機的預測模型為:
2.3 ARIMA和支持向量機的體育彩票銷售量預測
體育彩票銷售量數(shù)據(jù)Zt可以描述為
式中,Lt和Nt分別代表線性和非線性變化規(guī)律.
體育彩票銷售量預測模型的工作步驟如下:
(1)利用ARIMA模型對Lt建模,有:
式中,L^t為ARIMA的估計,et為估計殘差.
對(10)式進行分析可以發(fā)現(xiàn),et隱含Zt的非線性變化特點,因此,Nt可看作殘差序列和原體育彩票銷售量序列的非線性函數(shù),即:
式中,f1是非線性變化部分的擬合函數(shù);n,m均為正數(shù).
因此,由(3)~(5)式有:
(2)根據(jù)式(12),利用支持向量機進行建模.將L^t,ei(i=t-1,t-2,…,t-n)和Zi(j=t-1,t-2,…,t-m)作為支持向量機的輸入變量,Zt為輸出變量,根據(jù)支持向量機進行訓練建立體育彩票銷售量預測模型.
(3)利用訓練好的模型進行體育彩票銷售量預測.
3.1 仿真環(huán)境及對比模型
為了驗證ARIMA-SVM的體育彩票銷售量預測性能,在Pentium(R)雙核2.8GHz、4G RAM、Windows 7的操作系統(tǒng)計算機上,采用VC++進行仿真實驗.為了測試ARIMA-SVM的優(yōu)越性,選擇ARIMA和SVM在相同條件下進行仿真實驗,其中支持向量機參數(shù)采用遺傳算法進行優(yōu)化.采用均方根誤差(RMSE)和平均相對百分比誤差(MPAE)對體育彩票銷售量預測結果衡量.
3.2 數(shù)據(jù)來源
仿真數(shù)據(jù)資料來源于2010-2013年某地區(qū)的體育彩票月銷售量,共48個數(shù)據(jù),具體如圖2所示,其中以前24個月體育彩票銷售量作為訓練樣本進行建模,最后24個體育彩票銷售量作為測試樣本測試模型的泛化和推廣能力.
圖2 2010-2013年某地區(qū)的體育彩票銷售量圖
3.3 模型的實現(xiàn)
對體育彩票銷售量預處理,采用DPS 6.5軟件作為建模工具,通過ARIMA模塊建立體育彩票銷售量偏相關和自相關圖,如圖3所示.
圖3 原始體育彩票銷售量偏相關和自相關圖
從圖3可知,該體育彩票銷售量自我相關性極高,自相關性呈下降趨勢,有拖尾現(xiàn)象,對其進行差分處理,使其變成平穩(wěn)時間序列,在進行一階差分后,1階偏相關和自相關圖如圖4所示,從圖4可知,體育彩票銷售量基的階數(shù)d=1,根據(jù)AIC準則和SC準則ARIMA模型為ARIMA(3,1,2).
圖4 體育彩票銷售量1階偏相關和自相關圖
3.4 結果與分析
3.4.1 單步預測結果
ARIMA、SVM以及ARIMA-SVM的體育彩票銷售量單步預測結果如圖5所示,可以明顯看出,相對于對比模型,ARIMA-SVM大幅度降低了體育彩票銷售量預測誤差,提高了體育彩票銷售量的預測精度.
圖5 ARIMA-SVM的體育彩票銷售量單步預測結果圖
表1 ARIMA-SVM與對比模型的單步預測誤差
3.4.2 多步預測結果
ARIMA-SVM提前2和4步預測結果及預測誤差的變化曲線如圖6~圖7所示.從圖5可以清楚看出,ARIMA-SVM的預測誤差率范圍均小于10%,預測結果符合要求,可用于體育彩票銷售量的預測.
多步體育彩票銷售量預測誤差見表2,從表2可以得到結論為:
(1)預測步長越大,ARIMA、SVM的預測誤差增加幅度相當,預測精度低,難以描述體育彩票銷售量變化趨勢,預測結果沒有什么實際應用價值.
(2)相對于ARIMA、SVM,ARIMA-SVM的預測精度得到相應提高,預測誤差相對較小,這主要是由于ARIMA-SVM基于組合優(yōu)化理論,從不同的方面對體育彩票銷售量的變化趨勢進行預測,預測結果更加可靠,可以獲得較理想的體育彩票銷售量預測結果.
圖6 ARIMA-SVM的體育彩票銷售量提前2步預測結果
圖7 ARIMA-SVM的體育彩票銷售量提前4步預測結果
表2 不同模型的體育彩票銷售量多步預測誤差對比
將ARIMA與SVM技術進行融合,建立體育彩票銷售量組合預測模型,并采用具體體育彩票銷售量數(shù)據(jù)進行仿真實驗,仿真結果表明,ARIMASVM集成了ARIMA和SVM的優(yōu)勢,可以描述體育彩票銷售量的變化特性,獲得了更理想的體育彩票銷售量預測結果,具有更高的實際應用價值.
[1]Ariyabuddhiphongs V.Lottery gambling:a review[J].Journal of gambling Studies,2011,27(1):15-33.
[2]謝瓊桓.關于發(fā)行體育彩票的若干問題[J].體育科學,2000,20(3):7-9.
[3]劉煉,王斌.基于計劃行為理論的體育彩民購彩行為研究[J].上海體育學院學報,2014,38(4):42-46.
[4]李海,陶蕊,傅琪琪,等.上海市體育彩票問題彩民現(xiàn)狀[J].體育科研,2011,32(3):43-49.
[5]史文文,王斌,劉煉,等.體育彩票消費中問題彩民判斷標準的研制[J].北京體育大學學報,2013,36(6):22-26.
[6]楊亞莉,程林林,張永韜.體育彩票銷量的計量模型及促銷策略研究—以四川省為例[J].成都體育學院學報,2012,38(9):1-7.
[7]李剛.彩票人均銷量的決定因素和我國彩票市場發(fā)展趨勢的預測[J].體育科學,2006,26(12):38-45.
[8]史文文.問題彩民的購彩心理與行為特征[J].心理科學進展,2012,20(4):592-597.
[9]李海.我國體育彩票問題彩民現(xiàn)狀調(diào)查—以上海、廣州、鄭州、沈陽、成都為例[J].成都體育學院學報,2011,37(5):9-13.
[10]吳殷,李海.基于ARIMA模型的體育彩票銷量預測—以上海為例[J].體育科研,2013,34(5):23-26.
[11]羅赟騫,夏靖波,王渙彬.混沌-支持向量機回歸在流量預測中的應用研究[J].計算機科學,2009,6(7):244-246.
[12]張培林,錢林方.基于蟻群算法的支持向量機參數(shù)優(yōu)化[J].南京理工大學學報(自然科學版),2009,33(4):464-468.
Sales volume prediction of sports lottery based on autoregressive integrated moving average and support vector machine
YAN Zhenggang
(P.E.Department,Zhongnan University of Economics and Law,Wuhan 430064,China)
Sales volume of sports lottery is comprehensively influenced by a variety of effects and has complex dynamic and nonlinear variation features,in order to accurately describe the sales volume of sports lottery,a sales volume prediction model of sports lottery based on autoregressive integrated moving average and support vector machine is proposed in this paper.Firstly,ARIMA model is used to predict linear structure of sports lottery sales volume,and then support vector machine is used to model the prediction residual of autoregressive integrated moving average,finally the specific sports lottery sales data is used to test the performance by simulation experiment.The simulation results showed that,compared with other models,the proposed model has higher prediction accuracy and can more accurately reflect the change trend of sports lottery sales volume.
sports lottery sales volume;autoregressive integrated moving average;support vector machine;combine prediction
TP183
A
1671-9476(2017)02-0123-04
10.13450/j.cnkij.zknu.2017.02.031
2016-07-18;
2016-11-25
湖北省高校省級教學改革研究項目(No.2013160)
鄢正綱(1978-),男,湖北武漢人,碩士,講師,研究方向:體育教育訓練學.