王欣冉,邢永麗,巨程暉
(中國地質大學(北京)信息工程學院,北京100083)
小波包與貝葉斯LS-SVM在石油價格預測中的應用
王欣冉,邢永麗,巨程暉
(中國地質大學(北京)信息工程學院,北京100083)
掌握國際石油價格變化趨勢,可以為決策者提供決策依據(jù)。文章提出了基于小波包和貝葉斯推斷的最小二乘支持向量機石油價格預測方案。對石油價格時間序列進行小波包分解與重構,采用貝葉斯推斷對得到的各近似序列和各細節(jié)序列進行最小二乘支持向量機模型參數(shù)優(yōu)化,再分別利用優(yōu)化了的模型進行預測,合成得到最終預測結果。對美國紐約商品交易所原油價格進行仿真實驗,結果表明該方法很好地改善了石油價格預測模型的運行速度與預測精度。
小波包變換;最小二乘支持向量機;貝葉斯推斷;石油價格預測
石油主要被用來作為燃油和汽油,是目前世界上重要的能源之一,它直接影響到各國國民經濟和國家安全。自1998年我國國內油價與國際油價接軌以來,國際原油價格水平對我國石油、石化企業(yè)的發(fā)展有著直接的影響。隨著我國對石油消費需求的不斷增加,石油價格趨勢的預測對于國家調控及制定能源政策的意義愈加重要。
小波變換具有多尺度分析的特點,并能夠表征信號局部特征,可以有效的提取時序變化特征。Suykens所提出的最小二乘支持向量機回歸方法[1]克服了局部極小點和維數(shù)災難問題,具有很好的泛化能力。但在確定LS-SVM核函數(shù)參數(shù)、正規(guī)化參數(shù)時采用的交叉驗證法計算復雜耗時,不適合大樣本數(shù)據(jù)。近年來,采用貝葉斯推斷的邏輯一致性和簡單靈活性來進行LS-SVM的參數(shù)優(yōu)化[2],取得了很好的效果。據(jù)此,本文結合小波包變換和貝葉斯證據(jù)框架下的LS-SVM方法對石油期貨價格預測進行研究,并以美國紐約商品交易所原油價格預測為例來檢驗方法的有效性和可行性。
小波變換存在著在高頻頻段其頻率分辨率較差、低頻頻段其時間分辨率較差的缺陷。小波包變換是基于小波變換的進一步發(fā)展,相比于小波可以更靈活、更精細地提取不同尺度上時間序列的變化特征,有利于提高預測精度。它將頻帶進行多層次劃分,對多分辨分析沒有細分的高頻部分進一步分解,并可以根據(jù)被分析信號的特征,自適應的選擇相應頻帶,使之與信號頻譜相匹配,從而提高了時頻分辨率。這有利于提取股指數(shù)據(jù)中高頻波動項的特征信息,避免了干擾對趨勢項的預測。
小波包的分解算法和重構算法[3]如下:
LS-SVM的算法[5]如下:
給定訓練樣本集(xi,yi),i=1,2,…,l,其中xi∈Rn為輸入數(shù)據(jù),yi∈R為輸出數(shù)據(jù)。利用能夠折中考慮回歸函數(shù)經驗風險和泛化能力的結構風險最小化準則構造如下最小目標函數(shù)及其約束條件:
其中:準(·)為核空間映射函數(shù),它將輸入數(shù)據(jù)xi映射到高維空間F.ω∈F為權向量,b∈R為偏置量。ei為誤差變量,γ為正則化參數(shù)。建立Lagrange函數(shù):
其中αi為Lagrange乘子。對于i=1,2,…,l,分別對上式中ei,αi,ω,b求偏導,再消去ei和ω可得如下線性方程組:
AHP法是一種將與決策有關的元素分解成目標、準則、方案等層次權重決策的分析方法,既包含了專家對指標重要性的主觀判斷,又遵循了指標間的客觀關系[9]。具體步驟如下:
引入滿足Mercer條件的核函數(shù)K(xi,xj)=準(xi)T準(xj)將變換空間中的內積轉化為原空間中某個函數(shù)的計算,從而間接求解核空間映射準。有多種核函數(shù)K(xi,xj)可供選擇,本文采用高斯核函數(shù):
解式(6)線性方程組求得和,得到最小二乘支持向量機回歸模型:
標準LS-SVM中一般采用交叉驗證法來確定較優(yōu)的參數(shù)(γ,σ2),但當樣本數(shù)據(jù)量較大時,運行較為復雜。因此,本文采用貝葉斯推斷方法[7],將樣本分為訓練集和驗證集,通過對訓練集進行貝葉斯推斷來優(yōu)化參數(shù)(γ,σ2),進而提高運行效率。貝葉斯推斷通過最大化參數(shù)分布的后驗,從而得到最佳參數(shù)值。推斷過程可分為三步:
第一步:推斷ω和b
設D為訓練集,H為基于核函數(shù)的模型,由貝葉斯準則可得:
式中,p(D/ω,b,lgμ,lgξ,H)為似然函數(shù);p(ω,b/lgμ,lgξ,H)為ω和b的聯(lián)合先驗概率;p(D/lgμ,lgξ,H)為不受參數(shù)ω和b約束的歸一化因子。通過最小化式(9)的負對數(shù)可以獲得最大后驗估計ωmp和bmp[8]。
第二步:推斷正則化參數(shù)γ
設p(lgμ,lgξ/H)=p(lgξ/H)·p(lgμ/H),由貝葉斯推斷有:
式中,p(D/lgμ,lgξ,H)似然函數(shù)即為第一步推斷中的歸一化因子,從而求得正則化參數(shù)γ=ξ/μ。
第三步:推斷核函數(shù)參數(shù)σ2
應用貝葉斯法則推斷模型Hj,有:
式中似然函數(shù)p(Hj/D)為第二步推斷中的歸一化因子,通過最大化p(D/Hj),計算并比較相應Hj模型的后驗概率,最大值對應的即為最優(yōu)核參數(shù)。
基于小波包與貝葉斯最小二乘支持向量機的石油價格預測算法如下:
(1)對訓練集和測試集的原數(shù)據(jù)進行歸一化處理;
(2)將處理后的數(shù)據(jù)進行小波包分解,并將分解所得的最低層各近似部分和各細節(jié)部分分別單支重構到原分辨率上;
(3)確定輸入節(jié)點數(shù),以滾動預測方式分別對訓練集每個頻率通道的子序列進行步驟4)~7)的操作;
(4)設定參數(shù)(γ,σ2)的初始值,用訓練集對最小二乘支持向量機進行訓練,通過貝葉斯推斷優(yōu)化模型參數(shù)ω和b;
(5)通過貝葉斯推斷優(yōu)化正則化參數(shù)γ;
(6)通過貝葉斯推斷優(yōu)化核參數(shù)σ2;
(7)用所求得的參數(shù)重新訓練最小二乘支持向量機,選擇最優(yōu)模型及輸入節(jié)點數(shù);
(8)用最優(yōu)模型分別對測試集各頻率通道的子序列進行預測;
(9)合成各子序列的預測值并反歸一化,得到最終預測結果。
表1 預測模型平均絕對百分比誤差與相關系數(shù)比較
采用美國紐約商品交易所(New York Mercantile Exchange,NYMEX)2004年1月~2008年1月共1021個交易日的原油期貨價格作為研究對象,來檢驗該預測算法,見圖1(單位:美元/桶)。首先將收集數(shù)據(jù)采用MATLAB命令premnmx進行歸一化處理,然后對所得數(shù)據(jù)進行小波包分解。經實驗比較,采用預測效果最好的db2小波基進行三層分解。將分解得到的各近似部分和各細節(jié)部分分別單支重構到原級別上,見圖2。將原數(shù)據(jù)樣本劃分為前1000個訓練樣本和后21個檢驗樣本,初始化γ=10,σ2=2分別對各個頻率通道的子序列采用滾動預測方式,得到輸入節(jié)點數(shù)7及對應的最優(yōu)模型。對檢驗樣本即2008年1月2日~1月31日共21個交易日的原油期貨價格進行預測,合成各個子序列預測結果得到最終預測值。
為了檢驗實驗一:結合小波包變換與貝葉斯框架下LSSVM模型在石油價格預測的有效性,本文將歸一化的訓練樣本作為輸入樣本做了實驗二:基于標準LS-SVM的石油價格預測,輸入節(jié)點數(shù)同樣為7;實驗三:基于RBF神經網(wǎng)絡的石油價格預測,RBF網(wǎng)絡采用網(wǎng)絡的輸入節(jié)點數(shù)為6,隱含層神經元為10個,輸出節(jié)點數(shù)為1。利用MATLAB7.1和LSSVMlab1.5[9]工具箱,以平均絕對百分比誤差和相關系數(shù)為預測水平的評價標準。
平均絕對百分比誤差公式為:
Pearson相關系數(shù)公式為:
表1為三種預測模型的MAPE誤差與相關系數(shù)比較。
由結果可得,基于標準LS-SVM的預測誤差要比基于RBF神經網(wǎng)絡的小,主要原因在于神經網(wǎng)絡訓練易于局部最優(yōu),而且基于經驗風險最小的訓練易于出現(xiàn)訓練誤差小,預測誤差大的過學習問題。LS-SVM采用結構風險最小化原則,折中考慮經驗風險和置信區(qū)間,達到實際風險最小。小波包與LS-SVM方法的預測精度優(yōu)于RBF神經網(wǎng)絡和標準LSSVM的預測精度,相關系數(shù)更趨近于1,從而說明該方法泛化能力較強,預測效果較好,不僅能充分擬合低頻信息,而且可避免對高頻信息的過擬合。
石油價格的預測需要解決如何在隨機性和不確定性的變化中找出規(guī)律,建立預測模型,提高預測精度,為決策者提供有效的決策依據(jù)。石油價格時序中的趨勢項和隨機干擾項具有不同的變化特性,因而將其分解為多個時間序列信號,并分別進行預測,有利于提高預測精度。本文結合小波包變換和最小二乘支持向量機,建立了一種新的石油價格預測模型,在充分吸取了各個單一預測模型優(yōu)點的同時,利用貝葉斯推斷優(yōu)化了LS-SVM參數(shù)的選取。對NYMEX原油期貨價格預測進行了實例驗證。結果表明,相對于RBF神經網(wǎng)絡以及標準最小二乘支持向量機預測方法,本文提出的方法很好的改善了預測精度和泛化能力,具有良好的應用前景。
[1]Suykens J.A.K.,Vandewalle.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,1999,9(3).
[2]SuykensJ.A.K.,VanGestelT.,deMoorB.,etal.LeastSquares Support Vector Machines[M].Singapore:World Scientific,2002.
[3]張德豐.MATLAB小波分析[M].北京:機械工業(yè)出版社,2009.
[4]Wu Hai-shan,Chang Xiao-ling.Power Load Forecasting with Least Squares Support Vector Machines and Chaos Theory[C].//Proc of Intelligent Control and Automation,2006.
[5]劉立霞,馬軍海.基于LS-SVM的石油期貨價格預測研究[J].計算機工程與應用,2008,44(32).
[6]Suykens J.,Gestel T.,Brabanter J.D.,et al.Financial Time Series Prediction Using Least Squares Support Vector Machines within the Evidence Framework[J].IEEE Transactions on Neural Network, 2001,12(4).
[7]陳磊,張土喬.基于貝葉斯最小二乘支持向量機的時用水量預測模型[J].天津大學學報,2006,39(9).
[8]Kwok J.T.The Evidence Framework Applied to Support Vector Machines[J].IEEE Transactions on Neural Network,2000,11(5).
[9]李方方,趙英凱,顏昕.基于Matlab的最小二乘支持向量機的工具箱及其應用[J].計算機應用,2006,26(12).
(責任編輯/易永生)
F224;F416.22
A
1002-6487(2011)06-0162-03
王欣冉(1986-),男,吉林人,碩士研究生,研究方向:數(shù)學模型與分析。