楊 培,姚宏亮
(1.淮北職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)系,安徽 淮北 235000;2.合肥工業(yè)大學(xué),安徽 合肥 230009)
股票預(yù)測(cè)是指對(duì)股市具有深刻了解的證券分析人員根據(jù)股票行情的發(fā)展進(jìn)行的對(duì)未來(lái)股市發(fā)展方向以及漲跌程度的預(yù)測(cè)行為。這種預(yù)測(cè)行為只是基于假定的因素為既定的前提條件為基礎(chǔ)的。
但是在股票市場(chǎng)中,行情的變化與國(guó)家的宏觀經(jīng)濟(jì)發(fā)展,法律法規(guī)的制定,公司的運(yùn)營(yíng),股民的信心等等都有關(guān)聯(lián)。因此所謂之預(yù)測(cè)難于準(zhǔn)確預(yù)計(jì)。證券分析師的預(yù)測(cè)也只能作為股民入市操作的一般參考意見。[1]
支持向量機(jī)是美國(guó)著名學(xué)者Corinna Cortes以及Vapnik8在1995年共同提出的。支持向量機(jī)的主要優(yōu)勢(shì)體現(xiàn)在解決小樣本、非線性數(shù)據(jù)以及高維模式識(shí)別方面。除此之外,支持向量機(jī)還有一個(gè)優(yōu)點(diǎn)就是其比較適合推廣,可以將其應(yīng)用到其他各個(gè)方面比如說(shuō)數(shù)據(jù)的擬合度分析。[2]
事實(shí)上,所謂的小樣本并不是我們所想的那樣樣本的絕對(duì)數(shù)量少,它只不過(guò)是相對(duì)于問題的復(fù)雜度來(lái)說(shuō),支持向量機(jī)算法所需要的樣本數(shù)并不多。非線性主要是指支持向量機(jī)算法能夠?qū)δ切?shù)據(jù)線性不明顯的情況進(jìn)行處理,主要方法是通過(guò)松弛變量以及核函數(shù)技術(shù)來(lái)完成。高維模式識(shí)別主要是因?yàn)樾枰幚淼臉颖揪S數(shù)相對(duì)于其它樣本來(lái)說(shuō)非常高,在這種情況下,支持向量機(jī)同樣都能進(jìn)行處理。支持向量機(jī)之所以能夠用于高維模式識(shí)別,是因?yàn)樗a(chǎn)生的分類器相對(duì)來(lái)說(shuō)更加簡(jiǎn)潔,需要借助的相比信息相對(duì)來(lái)說(shuō)就更少,因此,就算維數(shù)很高,其在存儲(chǔ)以及計(jì)算過(guò)程中都不會(huì)有大的困難。
支持向量機(jī)方法是建立在一定的理論基礎(chǔ)之上的,主要有兩個(gè)理論來(lái)對(duì)其進(jìn)行支持,第一個(gè)是統(tǒng)計(jì)學(xué)習(xí)理論;第二個(gè)是VC維理論。除此之外,其還結(jié)合了結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,以期獲得最好的推廣能力。[3]
VC維如果作最簡(jiǎn)單的解釋,它的意思就是用來(lái)描述問題的難易程度,如果這個(gè)指標(biāo)越大,也就越說(shuō)明這個(gè)問題比較難;如果VC維越低,那就說(shuō)明這個(gè)問題越簡(jiǎn)單。由于支持向量機(jī)注重的僅僅是VC維,因此,當(dāng)支持向量機(jī)解決問題的時(shí)候,并不會(huì)去考慮樣本的維數(shù)。例如,上萬(wàn)維的樣本它可以解決,如此一來(lái),支持向量機(jī)可以用于解決文本分類類似的問題。
為了保證該算法預(yù)測(cè)分析的有效性,從大智慧軟件上下載了2014年1月份到5月份的上證指數(shù)和深證成指的開盤數(shù)作為這次預(yù)測(cè)的金融時(shí)序數(shù)據(jù)。
有效的預(yù)測(cè)大盤指數(shù)可以為整體上觀測(cè)股市變化提供強(qiáng)有力的信息,因此預(yù)測(cè)大盤指數(shù)對(duì)于上證指數(shù)預(yù)測(cè)很有意義,通過(guò)對(duì)今年1月份到5月份的每日上證指數(shù)和深證成指的開盤指數(shù)進(jìn)行回歸分析,擬合的結(jié)果如下:上證指數(shù)均方誤差 MSE=0.000698138相關(guān)系數(shù) R=96.4776%;深證成指均方誤差 MSE=0.000897312相關(guān)系數(shù)R=95.886%。由此可以看出,SVM的擬合結(jié)果還是比較準(zhǔn)確的,并且對(duì)上證指數(shù)的擬合更加精準(zhǔn)。
把一組數(shù)據(jù)存儲(chǔ)在shangzhengdata.mat文件中,數(shù)據(jù)是一個(gè)100*6的double型的矩陣,記錄的是從2014年1月到2014年5月的100個(gè)交易日的每日上證綜合指數(shù)的各種指標(biāo),6列分別表示開盤指數(shù),指數(shù)最高值,指數(shù)最低值,收盤指數(shù),當(dāng)日交易量,當(dāng)日交易額。
把另外的一組數(shù)據(jù)存儲(chǔ)在shenzheng.mat文件中,數(shù)據(jù)依然用一個(gè)100*6的double型矩陣記錄,時(shí)間同上,6列分別表示深證成指的開盤指數(shù),指數(shù)最高值,指數(shù)最低值,收盤指數(shù),當(dāng)日交易量和當(dāng)日交易額。
模型目的:利用SVM建立回歸模型,然后對(duì)上證指數(shù)的每日開盤指數(shù)進(jìn)行回歸擬合。
模型假設(shè):假設(shè)上證指數(shù)和深證成指每日的開盤指數(shù)和前一天的開盤指數(shù),最高值,最低值,收盤數(shù),交易量,交易額相關(guān),也就是把前一天的開盤指數(shù),最高值,最低值,收盤數(shù),交易量,交易額作為當(dāng)天開盤指數(shù)的自變量,當(dāng)天的開盤指數(shù)作為因變量。
選取第一個(gè)到第99個(gè)交易日內(nèi)每日的開盤指數(shù),最高值,最低值,收盤指數(shù),交易量,交易額作為自變量,選取第二個(gè)到第100個(gè)交易日內(nèi)每日的開盤指數(shù)作為因變量。
Matlab實(shí)現(xiàn)代碼如下:
% 載入測(cè)試數(shù)據(jù)上證指數(shù)
% 數(shù)據(jù)是一個(gè)100*6的double型的矩陣,每一行表示每一天的上證指數(shù)
%6列分別表示當(dāng)天上證指數(shù)的開盤指數(shù),指數(shù)最高值,指數(shù)最低值,收盤指數(shù),當(dāng)日交易量,當(dāng)日交易額.
% 提取數(shù)據(jù)
深證成指的數(shù)據(jù)提取方法與此類似。
在數(shù)據(jù)的預(yù)處理之前,先說(shuō)明預(yù)處理的必要性,這里的預(yù)處理就是將數(shù)據(jù)進(jìn)行歸一化處理。
歸一化后進(jìn)行交叉驗(yàn)證選擇最佳回歸參數(shù)松弛變量c和核函數(shù)值g。對(duì)libsvm工具包中的SVMcg-ForClass.m稍微修改就可以用來(lái)尋找回歸的最佳參數(shù)c和g,由SVMcgForRegress.m實(shí)現(xiàn),可以精確的選取c和g的最佳值。
在獲取到最為合適的c和g的值后,可以用這兩個(gè)參數(shù)值對(duì)SVM進(jìn)行訓(xùn)練。訓(xùn)練完成之后,再對(duì)最初輸入的數(shù)據(jù)做回歸預(yù)測(cè)。利用svmpredict函數(shù)即可進(jìn)行回歸預(yù)測(cè):
得到的預(yù)測(cè)結(jié)果和實(shí)際結(jié)果的對(duì)比如圖1所示。紅色代表回歸預(yù)測(cè)結(jié)果,藍(lán)色代表原始數(shù)據(jù)。
圖2預(yù)測(cè)結(jié)果和實(shí)際結(jié)果之差除以實(shí)際結(jié)果所得的相對(duì)誤差率圖。由圖可見,相對(duì)誤差量大部分在百分之十五以內(nèi)。誤差結(jié)果很小,說(shuō)明這種方法精度很高。
圖1
圖2
本文算法是根據(jù)上一個(gè)交易日的所有數(shù)據(jù)特征值作為自變量,預(yù)測(cè)出下一個(gè)交易日的周線,這個(gè)算法預(yù)測(cè)的準(zhǔn)確率相對(duì)較高,因?yàn)樗紤]到了上一個(gè)交易日的數(shù)據(jù),但是也有一定局限性,因?yàn)槊恳粋€(gè)特征值對(duì)于因變量的影響程度是不一樣的,因此下一步可以把不同的特征給予不同的權(quán)值,即用特征加權(quán)支持向量機(jī)去進(jìn)行股票走勢(shì)的預(yù)測(cè),這里給不同的特征給予不同的權(quán)值以及給予權(quán)值之后怎樣導(dǎo)入支持向量機(jī)將是我下一步工作的重點(diǎn),相信考慮特征加權(quán)這個(gè)因素之后,預(yù)測(cè)的準(zhǔn)確率會(huì)進(jìn)一步提高的。
[1]鄧華麗,李修全.基于混沌時(shí)間序列分析的股票價(jià)格拐點(diǎn)預(yù)測(cè)方法[J].統(tǒng)計(jì)與決策,2007(9).
[2]彭麗芳,孟志青,姜華,田密.基于時(shí)間序列的支持向量機(jī)在股票預(yù)測(cè)中的應(yīng)用[J].計(jì)算技術(shù)與自動(dòng)化,2006(3).
[3]王巍,趙宏,梁朝暉,馬濤.基于EMD和SVR的混合智能預(yù)測(cè)模型及實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012(4).
淮北職業(yè)技術(shù)學(xué)院學(xué)報(bào)2014年4期