張晶華+莫文柯+甘宇健
摘 要:國家政策或市場經(jīng)濟導(dǎo)向等變動會對整個上證指數(shù)產(chǎn)生影響,為了尋找上證指數(shù)變化規(guī)律,提出基于支持向量機的預(yù)測算法。算法首先利用數(shù)據(jù)挖掘技術(shù)在某網(wǎng)站上挖掘相關(guān)的上證價格數(shù)據(jù),并取一部分上證數(shù)據(jù)作為支持向量機的訓(xùn)練指數(shù)樣本,得到支持向量機的訓(xùn)練指數(shù)集,然后在訓(xùn)練指數(shù)集上利用支持向量機,從而得到上證指數(shù)分類的超平面指數(shù)函數(shù)以及相關(guān)的上證指數(shù)樣本集,最后對所得的上證指數(shù)分3個模型進(jìn)行預(yù)測研究,得到下一個開盤日的上證指數(shù)變動預(yù)測數(shù)據(jù)。實驗結(jié)果表明,預(yù)測2天后的上證指數(shù)趨勢只需要前3天的數(shù)據(jù)作為自變量輸入即可,且所得預(yù)測值與實際數(shù)值的誤差率較低。
關(guān)鍵詞:上證指數(shù);SVM;數(shù)據(jù)挖掘;股票預(yù)測
DOIDOI:10.11907/rjdk.171351
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A 文章編號文章編號:1672-7800(2017)008-0156-04
0 引言
影響上證指數(shù)變化的因素諸多,比如企業(yè)交易、市場經(jīng)濟、國家政策導(dǎo)向、居民消費能力、國際交易信息、人民幣匯率變化等,都會直接或間接地對上證指數(shù)變動產(chǎn)生影響。上述因素之間存在著彼此交叉影響,能夠?qū)ι献C指數(shù)進(jìn)行有效預(yù)測,這對金融投資者、金融行業(yè),乃至整個股票市場具有重要指導(dǎo)意義和實用價值。
目前,利用支持向量機對股票進(jìn)行研究的文獻(xiàn)不多。文獻(xiàn)[1]利用回歸預(yù)測法對股票進(jìn)行了短期預(yù)測,取得了初步成果,但利用回歸預(yù)測方法要求的變量多且難確定,所得預(yù)測效果不理想。文獻(xiàn)[2]利用時間序列預(yù)測法對股票進(jìn)行短期預(yù)測,也取得了一定的效果,但文獻(xiàn)[2]并沒有對股票變化的規(guī)律進(jìn)行深入研究。文獻(xiàn)[3]和文獻(xiàn)[4]雖然利用SVM對股票進(jìn)行了研究,但只是簡單拿一些數(shù)據(jù)用SVM方法進(jìn)行計算,并沒有進(jìn)一步研究用什么樣的數(shù)據(jù)進(jìn)行預(yù)測得到的效果最好。本文在文獻(xiàn)[3]和文獻(xiàn)[4]的基礎(chǔ)上,利用SVM方法,通過對比不同時期的上證指數(shù),并對下一個開盤日上證指數(shù)的變化值進(jìn)行預(yù)測。實驗結(jié)果表明,本文所得的預(yù)測結(jié)果與實際相差不大,具有一定的實際意義和指導(dǎo)價值。
1 支持向量機
支持向量機[5-14]是在利用統(tǒng)計學(xué)分析數(shù)據(jù)時面對有限樣本研究其性能不夠高時提出來的新方法,其思路主要是尋找一個超平面,使得正反例之間的距離最大。本文借用支持向量機算法具體過程如下:
首先是訓(xùn)練上證指數(shù)集的選取,本文主要通過網(wǎng)絡(luò)爬蟲等數(shù)據(jù)挖掘軟件,對某交易平臺的上證指數(shù)數(shù)據(jù)進(jìn)行挖掘,并對所得數(shù)據(jù)進(jìn)行噪音等處理后作為訓(xùn)練指數(shù)集,即把所得上證指數(shù)數(shù)據(jù)作為訓(xùn)練指數(shù)樣本集,設(shè)為:D={(xk,yk)|k=1,2,…,M,xk∈Rn,yk∈R}其中,xk表示上證指數(shù)輸入數(shù)據(jù), yk表示上證指數(shù)輸出數(shù)據(jù)。其次是支持向量機相關(guān)參數(shù)選取。針對上述所得訓(xùn)練指數(shù)集,結(jié)合支持向量機的知識,本文得到關(guān)于原始上證指數(shù)數(shù)據(jù)的權(quán)ω空間中的上證指數(shù)函數(shù)求解方程:
minω,b,eJ(ω,e)=12ωTω+12γ∑Mk=1e2k(1)由于上述的權(quán)空間上證指數(shù)函數(shù)是非線性的,一般難以直接求解,目前對其求解的方法是直接轉(zhuǎn)化為相對應(yīng)的約束條件指數(shù)函數(shù)的最小值求解:yk=ωTφ(xk)+b+ek,(k=1,2,…,M)
其中: φ(.)代表核空間Rn維到Rm維的映射關(guān)系函數(shù);ω是Rm維的權(quán)向量;ek是實數(shù)域范圍內(nèi)的誤差變量;b代表偏差量; γ代表可調(diào)節(jié)的參變量。為了求得約束條件價格函數(shù)的最小值或最優(yōu)值,本文利用拉格朗日方法構(gòu)造其拉格朗日上證指數(shù)函數(shù)方程為:L(ω,b,e,λ)=J(ω,e)-∑Mk=1λk{ωTφ(xk)+b+ek-yk}(2)
其中,λk為拉格朗日參數(shù)。根據(jù)式(2),利用拉格朗日求解的方法對拉格朗日上證指數(shù)函數(shù)L(ω,b,e,λ)關(guān)于所有參數(shù)ω、b、ek、λk進(jìn)行偏導(dǎo)數(shù)求解,并令所有的偏導(dǎo)數(shù)為零,然后消去參量ω、e,從而得到最優(yōu)分類上證指數(shù)函數(shù)方程,為了便于求解,用矩陣的形式給出其方程:
0ITIΩ+1γIbλ=0y(3)其中: x=[x1,…,xM],y=[y1,…,yM],I=[1,…,1],λ=[λ1,…,λM],Ωkl=ψ(xk,xl)=φT(xk)φ(xl),(k,l=1,…,M)。針對式(3)中的Ωkl條件,本文利用mercer條件[15]可知,必有一個映射函數(shù)φ和一個核函數(shù)ψ(,)使得等式ψ(xk,xl)=φT(xk)φ(xl)成立。綜上所述,本文得到上證指數(shù)函數(shù)估計的方程為:
y(x)=∑Mk=1λkψ(xk,xl)+b(4)
其中,α、b和λk利用式(3)求解。若所求得的λk不為零,則其對應(yīng)的指數(shù)樣本集就可以作為支持向量機的訓(xùn)練指數(shù)集;若所求得的λk為零,可以適當(dāng)采取改變松弛變量γ的取值或者改變核函數(shù)ψ(,)的選取,再進(jìn)行驗算,直至λk不為零,此時所得的超平面就是最優(yōu)分類面。關(guān)于式(3)中的核函數(shù)ψ(,),其作用就是對原始上證指數(shù)數(shù)據(jù)的特征進(jìn)行提取,并將其映射為一個高維的特征空間向量,便于原始上證指數(shù)樣本分類。目前使用核函數(shù)的形式主要有4種,比如線性核函數(shù)等。
2 模型實驗結(jié)果與分析
2.1 支持向量機模型
本文選取上海證券交易所2010年4月22日-2014年6月10日共1 000條數(shù)據(jù)并對數(shù)據(jù)進(jìn)行歸一化處理,然后利用支持向量機對歸一化的上證指數(shù)數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練,得到最優(yōu)參數(shù)的預(yù)測模型;最后根據(jù)所得最優(yōu)參數(shù)的預(yù)測模型對下一個上證指數(shù)變化進(jìn)行預(yù)測,得到下一個上證指數(shù)變化的預(yù)測數(shù)據(jù)值,并與實際值作誤差分析。為了尋找上證指數(shù)的變化趨勢和SVM預(yù)測值與實際值之間的關(guān)系,本文將所得數(shù)據(jù)分3個模型進(jìn)行研究。模型一:以昨天的開盤價、最低價、最高價、收盤價和成交量作為自變量,當(dāng)天的收盤價作為因變量;模型二:以前2天的開盤、收盤價作為自變量,當(dāng)天的收盤價作為因變量;模型三:以前4天的收盤價作為自變量,當(dāng)天收盤價作為因變量。通過上述3個模型尋找影響上證指數(shù)變化的因素,并建立下一個上證指數(shù)預(yù)測模型。不失一般性,設(shè)所得的上證指數(shù)原始數(shù)據(jù)為 {yi,i=1,2,…,N。N=1 000},并利用xi=yi-1N∑Ni=1yiymax-ymin(其中:ymax=max{yi,i=1,2,…,1 000}, ymin=min{yi,i=1,2,…,1 000}。)對其進(jìn)行歸一化化簡,把上證指數(shù)全部數(shù)據(jù)化簡在[0,1]的數(shù),得到上證指數(shù)的時間序列為{xi,i=1,2,…,N。N=1 000}endprint
2.2 最佳回歸參數(shù)選取
為了避免出現(xiàn)無解的情況,本文選取適當(dāng)?shù)膽土P參數(shù)γ及核函數(shù)ψ(,)對式(1)-式(4)進(jìn)行求解,得到最優(yōu)參數(shù)值。本文利用Matlab編程來實現(xiàn)程序運行,在求解過程中,主要借用Matlab中l(wèi)ibsvm工具箱中的 SVMcg For-Regress()函數(shù)來求解,其中懲罰參數(shù)γ及核函數(shù)ψ(,)的取值范圍均設(shè)置為[-7,7],步進(jìn)均取0.9,得到最佳回歸參數(shù)γ=0.48、ψ(,)=5.357。
2.3 數(shù)據(jù)預(yù)測與分析
在上述得到最優(yōu)參數(shù)的支持向量機模型基礎(chǔ)上,選取 2014年6月11日-2016年6月24日共500條數(shù)據(jù)作為預(yù)測數(shù)據(jù),得到3種模型對應(yīng)的預(yù)測值與實際值之間的對比如圖1-圖9所示。本文選取相對誤差(MAPE)和均方誤差(RMS)作誤差對比分析,具體如下:AE=y′i-yi(i=1,2,…,N);MAPE=AEyi(i=1,2,…,N);RMS=1N∑Ni=1(y′i-yiyi)2(i=1,2,…,N)其中:y′i為預(yù)測值,yi為原始值。利用這些誤差進(jìn)行對比分析,主要是對比用支持向量機預(yù)測上證指數(shù)的效果,同時,也可以尋找最佳的預(yù)測方案。
2.4 三種模型的預(yù)測結(jié)果與分析
(1)模型一以昨天的開盤價、最低價、最高價、收盤價和成交量作為自變量,當(dāng)天的收盤價作為因變量,得到如圖1-圖3所示結(jié)果。
實驗結(jié)果表明,利用昨天的開盤價、最低價、最高價、收盤價和成交量作為自變量,當(dāng)天的收盤價作為因變量,得到了下一個開盤日上證指數(shù)的預(yù)測值與實際值,進(jìn)行誤差分析得到均方誤差為0.051 5,平均相對誤差為0.034 8。
(2)模型二以前2天的開盤、收盤價作為自變量,當(dāng)天的收盤價作為因變量,得到如圖4-圖6所示結(jié)果。
實驗結(jié)果表明,利用前2天的開盤、收盤價作為自變量,當(dāng)天的收盤價作為因變量,得到了下一個開盤日上證指數(shù)的預(yù)測值與實際值,進(jìn)行誤差分析得到均方誤差為0.025 2,平均相對誤差為0.018 3。
(3)模型三以前4天的收盤價作為自變量,當(dāng)天的收盤價作為因變量,得到如圖7-圖9所示結(jié)果。
實驗結(jié)果表明,利用前4天的收盤價作為自變量,當(dāng)天的收盤價作為因變量,得到了下一個開盤日上證指數(shù)的預(yù)測值與實際值,進(jìn)行誤差分析得到均方誤差為0.026 1,平均相對誤差為0.018 6。
綜上發(fā)現(xiàn),采用昨天的開盤價、最低價、最高價、收盤價作為自變量時,得到的預(yù)測值與實際值的誤差是最大的,而用前4天或者前3天作為自變量進(jìn)行預(yù)測,兩者所得的結(jié)果與實際的均方誤差和平均相對誤差相差不大。因此,當(dāng)要預(yù)測后天的上證指數(shù)變化時,只需要前3天作為自變量輸入即可,從而降低維數(shù),便于編程計算。
本文利用支持向量機對下一個開盤日上證指數(shù)進(jìn)行預(yù)測,得到良好結(jié)果,為投資者和持股票者提供了一定參考,可指導(dǎo)投資者適當(dāng)調(diào)整投資,把握投資的盈利關(guān)系。同時,市場也可以根據(jù)上證指數(shù)之間的變化關(guān)系,提前對某些股票與投資作出預(yù)警,促使投資者合理投資,防止投資風(fēng)險。但是股票市場變幻莫測,主要是受國家政策、國家事件以及人為等不確定因素所影響,進(jìn)而影響到預(yù)測的準(zhǔn)確度,因此對上證指數(shù)的變化預(yù)測還有待深入研究。
3 結(jié)語
本文借助支持向量機方法,對網(wǎng)絡(luò)數(shù)據(jù)挖掘的上證指數(shù)進(jìn)行分析,首先利用支持向量機有限樣本的特性對所得上證指數(shù)數(shù)據(jù)進(jìn)行分類,然后對所得上證指數(shù)分類集進(jìn)一步預(yù)測下一個開盤日上證指數(shù)數(shù)值。本文用3種模型對下一個開盤日上證指數(shù)進(jìn)行預(yù)測,實驗結(jié)果表明,借助支持向量機方法,發(fā)現(xiàn)采用昨天的開盤價、最低價、最高價、收盤價作為自變量時,得到的預(yù)測值與實際值的誤差最大,而用昨天、前天、大前天和大大前天或者昨天、前天、大前天作為自變量進(jìn)行預(yù)測,兩者所得的結(jié)果與實際的均方誤差和平均相對誤差相差不大,因此當(dāng)要預(yù)測后天的上證指數(shù)變化時,只需要昨天、前天、大前天作為自變量輸入即可,從而降低維數(shù),便于編程計算。通過本文方法,預(yù)測到下一個開盤日上證指數(shù)的數(shù)值且所得數(shù)值與實際相差不大,為進(jìn)一步尋找上證指數(shù)變化規(guī)律提供了一定的理論依據(jù),由此可見,本文研究具有一定的實用價值。
參考文獻(xiàn):
[1] 楊毓,蒙肖蓮.用支持向量機(SVM)構(gòu)建企業(yè)破產(chǎn)預(yù)測模型[J].金融研究,2006(10):65-75.
[2] 邱玉蓮,朱琴.基于支持向量機的財務(wù)預(yù)警方法[J].統(tǒng)計與決策,2006(8):153-155.
[3] 劉道文,樊明智.基于支持向量機股票價格指數(shù)建模及預(yù)測[J].統(tǒng)計與決策,2013(2):76-78.
[4] 張晨希, 張燕平,張迎春,等。基于支持向量機的股票預(yù)測[J].計算機技術(shù)與發(fā)展,2006(6):35-27.
[5] 楊一文,楊朝軍.基于支持向量機的金融時間序列預(yù)測[J].系統(tǒng)工程理論方法應(yīng)用,2005(2):176-181.
[6] 吳超鵬,吳世農(nóng).基于價值創(chuàng)造和公司治理的財務(wù)狀態(tài)分析與預(yù)測模型研究[J].經(jīng)濟研究,2005(11):99-110.
[7] 楊成,程曉玲,殷旅江.基于人工神經(jīng)網(wǎng)絡(luò)方法的上市公司股價預(yù)測[J].統(tǒng)計與決策,2005(12):106-108.
[8] 蔣艷霞,徐程興.基于集成支持向量機的企業(yè)財務(wù)業(yè)績分類模型研究[J].中國管理科學(xué),2009,17(2):42-51.
[9] 李云飛,惠曉峰.基于支持向量機的股票投資價值分類模型研究[J].中國軟科學(xué),2008(1):135-140.
[10] LAM M.Neural network techniques for financial performance prediction:integrating fundamental and techqical analysis[J].Decision support systems,2004,37(4):567-581.
[11] KUAR P R,RAVI V. Bankruptcy prediction in banks and firms via statistical and intelligent techniques——a review[J]. Expert Systems with Applications,2007,180(1):1-28.
[12] WU C H,TZENG G H,GOO Y J,et al.A real-valued genetic algorithm to optimize the parameters of support vector machine for predicting bankruptcy[J].Expert systems with applications,2005,32(2):397-408.
[13] HUA Z,WANG Y,XU X,et al.Predicting corporate financial distress based on integration of support vector machine and logistic regression[M].Expert systems with applications,2006,33(2):434-440.
[14] KIM K.Financial time series forecasting using support vector machines[J]. Neurocomputing,2003,55(1-2):307-319.
[15] TAY F E H, CAO L J.Application of support vector machines in financial time series forecasting[J].International Journal of Management Science,2001,29(4):309-317.endprint