孫德山, 王 玥
(遼寧師范大學(xué) 數(shù)學(xué)學(xué)院,遼寧 大連 116029)
基于多種統(tǒng)計(jì)分類方法的股票趨勢(shì)預(yù)測(cè)
孫德山, 王 玥
(遼寧師范大學(xué) 數(shù)學(xué)學(xué)院,遼寧 大連 116029)
股票市場(chǎng)是宏觀經(jīng)濟(jì)的重要體現(xiàn),也是國(guó)民經(jīng)濟(jì)發(fā)展的重要體現(xiàn).隨著股票市場(chǎng)的深入研究,統(tǒng)計(jì)方法逐漸用于分析股票數(shù)據(jù).選用Fisher判別法、決策樹(shù)、隨機(jī)森林、支持向量機(jī)4種統(tǒng)計(jì)方法,選取粵高速B、貴州茅臺(tái)、農(nóng)業(yè)銀行3只股票的數(shù)據(jù),先進(jìn)行LLE降維,然后進(jìn)行實(shí)驗(yàn).Fisher判別法和支持向量機(jī)具有較好的預(yù)測(cè)精度,可以較好地判斷一定時(shí)期內(nèi)的股票趨勢(shì)方向,對(duì)短期投資有一定的指導(dǎo)作用.
Fisher判別法;隨機(jī)森林;決策樹(shù);支持向量機(jī)
21世紀(jì)開(kāi)始,中國(guó)股票市場(chǎng)制度建設(shè)越來(lái)越法制化、規(guī)范化,隨著國(guó)內(nèi)宏觀經(jīng)濟(jì)矛盾的轉(zhuǎn)移,人們對(duì)股票市場(chǎng)有了更深的認(rèn)識(shí).股權(quán)分置改革的基本完成,各支大盤股的順利發(fā)行,使得股票市場(chǎng)對(duì)國(guó)民經(jīng)濟(jì)的發(fā)展產(chǎn)生重要影響.
但是,中國(guó)股票市場(chǎng)目前尚處于發(fā)展的初級(jí)階段,股票市場(chǎng)仍存在諸多問(wèn)題,從而限制了股票市場(chǎng)的進(jìn)一步健康發(fā)展.比如股市的波動(dòng)性較大、運(yùn)行機(jī)制和市場(chǎng)結(jié)構(gòu)不完善、機(jī)構(gòu)投資者操縱市場(chǎng)、理性投資者比重較低、信息不真實(shí)等.以上問(wèn)題都會(huì)影響股票市場(chǎng)的動(dòng)態(tài)結(jié)構(gòu),對(duì)股票的價(jià)格走勢(shì)產(chǎn)生重要的影響.
對(duì)企業(yè)和投資者來(lái)說(shuō),判斷股票的未來(lái)走勢(shì)是其投資是否成功的關(guān)鍵,對(duì)股票數(shù)據(jù)的有效分析有利于降低投資的風(fēng)險(xiǎn).統(tǒng)計(jì)方法在經(jīng)濟(jì)、金融數(shù)據(jù)分析中發(fā)揮越來(lái)越重要的作用,研究方法也逐漸增加.本文利用多種統(tǒng)計(jì)方法對(duì)股票數(shù)據(jù)的運(yùn)行趨勢(shì)進(jìn)行比較研究,為投資者提供一些參考.
2000年以后,中國(guó)股票市場(chǎng)開(kāi)始飛速發(fā)展和加速擴(kuò)容[1],此時(shí)對(duì)中國(guó)股票市場(chǎng)的研究層出不窮,也越來(lái)越深入.多種統(tǒng)計(jì)方法被用于分析股票市場(chǎng),文獻(xiàn)[2]使用了數(shù)據(jù)挖掘算法對(duì)股票數(shù)據(jù)進(jìn)行分析預(yù)測(cè);文獻(xiàn)[3]運(yùn)用了聚類分析和支持向量機(jī)2種方法進(jìn)行研究;陳陽(yáng)[4]運(yùn)用神經(jīng)網(wǎng)絡(luò)和灰色拓?fù)漕A(yù)測(cè)方法建立了股票預(yù)測(cè)模型,可以在無(wú)法獲得全部或較多的信息時(shí),較為準(zhǔn)確地預(yù)測(cè)和把握信息.
本文根據(jù)幾種統(tǒng)計(jì)方法的特點(diǎn),選用了Fisher判別法、隨機(jī)森林、決策樹(shù)和支持向量機(jī)4種統(tǒng)計(jì)方法,對(duì)3只股票的數(shù)據(jù)進(jìn)行分析預(yù)測(cè)比較.比較不同方法帶來(lái)的結(jié)果,并分析不同方法對(duì)股票預(yù)測(cè)的不同結(jié)論.
Fisher判別準(zhǔn)則是對(duì)樣本數(shù)據(jù)做投影,即將原來(lái)在n維空間的自變量投影到1維空間,使樣本間的投影類間離散度達(dá)到最大,而類內(nèi)離散度達(dá)到最小.這里借用了一元方差分析的思想,即根據(jù)組間均方差與組內(nèi)均方差之比最大的原則進(jìn)行判別.
決策樹(shù)產(chǎn)生于20世紀(jì)60年代,最早也稱為分類樹(shù),是用于分類的一種有監(jiān)督的學(xué)習(xí)系統(tǒng)[5].70年代末,建立決策樹(shù)的ID3算法被提出,該算法通過(guò)引進(jìn)信息論的思想,提出用信息增益作為特征選擇的度量,來(lái)選擇相關(guān)屬性作為決策樹(shù)的節(jié)點(diǎn).隨著研究的深入,ID4、CART等算法也被提出,新算法對(duì)缺失值的處理、剪枝等技術(shù)都做了較大的改進(jìn).
ID3算法在樹(shù)的每個(gè)結(jié)點(diǎn)以信息增益來(lái)判斷選擇測(cè)試屬性.選擇具有最高信息增益(或最大熵壓縮)的屬性作為當(dāng)前結(jié)點(diǎn)的測(cè)試屬性.
其中,pi是樣本屬于ωi的概率,用Ni/N來(lái)估計(jì).
隨機(jī)森林是由樹(shù)型分類器{h(x,βk),k=1,2,…}的集合構(gòu)成的組合分類器,是一種基于信息論和統(tǒng)計(jì)抽樣理論的分類器,可以用于數(shù)據(jù)的分類.基分類器h(x,βk)是用決策樹(shù)生成算法構(gòu)建的分類決策樹(shù),其中,x是輸入向量,βk是獨(dú)立同分布的隨機(jī)變量序列,決定了單棵樹(shù)(基分類器)的生長(zhǎng)過(guò)程.其步驟如下:
①隨機(jī)選取樣本集,并隨機(jī)選取一部分作為訓(xùn)練樣本.
②隨機(jī)森林構(gòu)建.針對(duì)每一個(gè)訓(xùn)練樣本集分別建立一棵決策樹(shù),從而生成森林.
③輸出結(jié)果一般采用簡(jiǎn)單多數(shù)投票法確定.
支持向量機(jī)是20世紀(jì)90年代發(fā)展起來(lái)的一種分類方法,該方法采用最優(yōu)化方法解決了數(shù)據(jù)學(xué)習(xí)的問(wèn)題,在較短的時(shí)間里就得到了廣泛的應(yīng)用.支持向量機(jī)是一種特殊的學(xué)習(xí)算法,其特點(diǎn)是核函數(shù)的使用和解的稀疏性[6-7].
考慮到兩類可分訓(xùn)練樣本的向量集,給定一個(gè)樣本集G={(xi,yi),i=1,2,…,N},確定一個(gè)超平面wTφ(x)+b=0,其中,xi∈Rn是第i個(gè)輸入向量,yi∈{-1,1},yi的2種取值分別代表著樣本的2種類別.
原始的SVM分類器滿足下列條件:
wTφ(xi)+b≥1,yi=1,
wTφ(xi)+b≤-1,yi=-1.
或者等價(jià)的表示方法:
yi[wTφ(xi)+b]≥1,i=1,2,…,N.
映射φ:Rn→Rm能夠把輸入的低維空間轉(zhuǎn)化為高維特征空間,在低維空間中的數(shù)據(jù)點(diǎn)變?yōu)樵诟呔S空間中線性可分的數(shù)據(jù)點(diǎn).
股票選擇的重要方式是觀察股票指標(biāo)的變化,股票指標(biāo)也是衡量股票價(jià)值的重要因素.股票的指標(biāo)分為3類:第一類擺動(dòng)類指標(biāo),如收盤價(jià)、KDJ(隨機(jī)指標(biāo))、RSI(相對(duì)強(qiáng)弱指數(shù));第二類趨勢(shì)類指標(biāo),如MACD(平滑移動(dòng)平均線)、OSC(擺動(dòng)指數(shù));第三類能量類指標(biāo)OBV(能量潮)、VOL(成交量).各類的指標(biāo)反映了股票的不同特點(diǎn),第一類指標(biāo)反映了價(jià)格走向,第二類指標(biāo)是行情買賣之依據(jù),第三類指標(biāo)則反映了股票的成交數(shù)量.從各類的指標(biāo)各取一些,可以更好地預(yù)測(cè)股票,本文選取了收盤價(jià)、MA、VOL、MACD、CCI 5個(gè)指標(biāo)來(lái)分析.
(1)收盤價(jià)
收盤價(jià)是指某種證券在1 d的交易結(jié)束前所交易的最后一筆成交價(jià)格.
(2)MA
移動(dòng)平均線,將股票的某一段時(shí)期的收盤價(jià)之和除以該周期.按時(shí)間的長(zhǎng)短分類,移動(dòng)平均線可以分為長(zhǎng)期、中期、短期3種.移動(dòng)平均線可以反映出價(jià)格走勢(shì).
(3)VOL
股市中的VOL是成交量指標(biāo),是某種股票在當(dāng)天成交數(shù)量的總和.當(dāng)天收盤價(jià)高于當(dāng)天均價(jià),成交柱呈紅色;反之,成交柱呈綠色.
(4)MACD
指數(shù)平滑移動(dòng)平均線,通過(guò)對(duì)數(shù)型平滑移動(dòng)平均線EMA的離差狀況作為判斷行情的基礎(chǔ),通過(guò)乖離曲線(DIF)以及DIF值的指數(shù)型平滑移動(dòng)平均線(DEA)這2條曲線走向之異同、乖離的描繪和計(jì)算,進(jìn)而判斷市勢(shì)的一種技術(shù)方法.
(5)CCI
CCI指標(biāo)即順勢(shì)指標(biāo),是指導(dǎo)股票和商品期貨投資的一種中短期指標(biāo).順勢(shì)指標(biāo)的計(jì)算方法是先計(jì)算某段時(shí)間平均參考價(jià)與某段時(shí)間的平均值之間的距離,然后再計(jì)算該距離的某段時(shí)間的平均值.強(qiáng)調(diào)股市平均絕對(duì)偏差在股市技術(shù)分析中的重要性.
隨機(jī)選取了近期的3只股票的100個(gè)數(shù)據(jù),分別為粵高速B,選取數(shù)據(jù)時(shí)間段為2017-01-09到2017-06-09;貴州茅臺(tái),選取時(shí)間段為2016-12-24到2017-05-31;農(nóng)業(yè)銀行,選取時(shí)間段為2016-03-04到2016-07-27.數(shù)據(jù)收盤價(jià)圖像如圖1~圖3所示,其中,貴州茅臺(tái)和農(nóng)業(yè)銀行2只股票為大盤股.貴州茅臺(tái)股票呈大部分上升趨勢(shì),農(nóng)業(yè)銀行股票呈波浪形波動(dòng)趨勢(shì),粵高速B為近期發(fā)行的新股.然后選取了股票的5個(gè)經(jīng)典指標(biāo)(收盤價(jià),移動(dòng)平均線,成交量,平滑移動(dòng)平均線,順勢(shì)指標(biāo)),利用5個(gè)經(jīng)典指標(biāo)對(duì)選取的數(shù)據(jù)進(jìn)行分析.
圖1 粵高速B收盤價(jià)Fig.1 Closing price of Guangdong Expressway B Stock
圖2 貴州茅臺(tái)收盤價(jià)Fig.2 Closing price of Kweichow Moutai Stock
圖3 農(nóng)業(yè)銀行收盤價(jià)Fig.3 Closing price of Agricultural Bank Stock
實(shí)驗(yàn)采用R語(yǔ)言程序,為了使結(jié)果更加準(zhǔn)確,這里采用了LLE降維[8],將5維數(shù)據(jù)降維到3維再進(jìn)行實(shí)驗(yàn).局部線性嵌入(簡(jiǎn)稱LLE)試圖保持領(lǐng)域內(nèi)樣本之間的線性關(guān)系.假定樣本點(diǎn)xi的坐標(biāo)能通過(guò)它的領(lǐng)域樣本xj,xk,xl的坐標(biāo)通過(guò)線性組合而重構(gòu)出來(lái),即
xi=wijxj+wikxk+wilxl.
算法的主要步驟分為3步:
(1)尋找每個(gè)樣本點(diǎn)的k個(gè)近鄰點(diǎn)(k是一個(gè)預(yù)先給定的值);
(2)由每個(gè)樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣,定義誤差函數(shù)
(3)由該樣本點(diǎn)的局部重建權(quán)值矩陣和其近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的輸出值.
首先,將上述3個(gè)不同股票隨機(jī)選取的100個(gè)數(shù)據(jù)另建一列表示漲跌情況,用“0”表示跌,用“1”表示漲.然后將原始的5組數(shù)據(jù)進(jìn)行降維,經(jīng)實(shí)驗(yàn)表明,降到3維的數(shù)據(jù)的實(shí)驗(yàn)效果最好.將數(shù)據(jù)分為2組,每組為50個(gè).第一組數(shù)據(jù)作為訓(xùn)練樣本,第二組數(shù)據(jù)作為測(cè)試樣本.將訓(xùn)練樣本數(shù)據(jù)做分析,用所得出的結(jié)論預(yù)測(cè)測(cè)試樣本,并表示出預(yù)測(cè)的漲跌情況.最后和原始數(shù)據(jù)的漲跌情況對(duì)比,并判斷其準(zhǔn)確率,其結(jié)果如表1所示.
表1 測(cè)試樣本實(shí)驗(yàn)結(jié)果
根據(jù)分析的結(jié)果,可以推測(cè)在一段時(shí)間內(nèi)的股票動(dòng)向,在將數(shù)據(jù)進(jìn)行有效降維后, Fisher判別法和支持向量機(jī)分類法具有較高的分類精度.在短期預(yù)測(cè)中有一定的實(shí)用性,對(duì)股票市場(chǎng)的動(dòng)向預(yù)測(cè)具有一定意義.但是對(duì)于長(zhǎng)期投資來(lái)說(shuō),要綜合考慮各方面因素,以便實(shí)現(xiàn)更好的投資決策.
[1] 陶立,宋士云.改革開(kāi)放以后中國(guó)股票市場(chǎng)發(fā)展史略[J].聊城大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2003(5):42-49.
[2] 馮現(xiàn)坤.數(shù)據(jù)挖掘技術(shù)在股票分析預(yù)測(cè)中的應(yīng)用研究[D].桂林:桂林理工大學(xué),2012.
[3] 狄明明,孫德山.聚類分析和支持向量機(jī)在股票研究中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(6):229-231.
[4] 陳陽(yáng).股票預(yù)測(cè)模型研究[D].哈爾濱:哈爾濱工程大學(xué),2007.
[5] 華勇,張?jiān)讫?決策樹(shù)算法在信息資產(chǎn)識(shí)別中的應(yīng)用[C]∥2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集,2011.
[6] 王煒,郭小明.關(guān)于核函數(shù)的選取方法[J].遼寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,31(1):1-4.
[7] HUANG Wei,NAKAMORI Yoshiteru,WANG Shouyang.Forecasting stock market movement direction with support vector machine[J].Computers& Operations Research,2005(32):2513-2522.
[8] 楊志偉,黃秀云.基于LLE的數(shù)據(jù)降維方法研究[J].中小企業(yè)管理與科技:上旬版,2014(9):197-200.
Stockmovementforecastingbasedonmultiplestatisticalclassificationmethods
SUNDeshan,WANGYue
(School of Mathematics, Liaoning Normal University, Dalian 116029, China)
The stock market is an important embodiment of macro economy, and it also reflects how the national economy develops.With the in-depth research of stock market, statistical methods are gradually used to select and analyze the stock data.This paper uses four statistical methods, namely, Fisher’s linear discriminant, decision tree, random forest,and support vector machine.Besides, this paper chooses the statistics of three stocks, which are Guangdong Expressway B Stock, Kweichow Moutai Stock, Agricultural Bank Stock.It first carries out LLE dimension reduction and then make experiments.Fisher’s linear discriminant and support vector machine have relatively good prediction accuracy.They can determine the stock trend direction in a certain period accurately and have some guidance on short-time investment.
Fisher’s linear discriminant;decision tree;random forest;support vector machine
O212.4
A
2017-07-30
遼寧省自然科學(xué)基金資助項(xiàng)目(201602461)
孫德山(1970- ),男,遼寧沈陽(yáng)人,遼寧師范大學(xué)副教授,博士.
1000-1735(2017)04-0440-05
10.11679/lsxblk2017040440