馬輝
【摘要】證券市場(chǎng)的不穩(wěn)定性和隨機(jī)性的特征讓僅僅預(yù)測(cè)明天的股票價(jià)格也是一種挑戰(zhàn)。通過(guò)出色的、良好構(gòu)造的特征集能夠更好地估計(jì)股票市場(chǎng)的趨勢(shì)。再者,當(dāng)我們建立了正確的模型來(lái)獲得不斷變化的趨勢(shì)的不易觀察的屬性時(shí),我們的預(yù)測(cè)能力將會(huì)獲得提高。在這篇論文中,本文提出了一個(gè)二元事件模型。在這個(gè)模型的基礎(chǔ)上建立特征集來(lái)更好地預(yù)測(cè)股票市場(chǎng)的未來(lái)趨勢(shì)。本文運(yùn)用了貝葉斯和支持向量機(jī)來(lái)證明本文的方法在預(yù)測(cè)準(zhǔn)確性和速度方面的優(yōu)勢(shì)。本文的實(shí)驗(yàn)說(shuō)明在一天的預(yù)測(cè)中預(yù)測(cè)準(zhǔn)確率在70%~80%。另外,本文的回歸測(cè)試證明交易的累計(jì)回報(bào)率在30%~100%。
通過(guò)實(shí)驗(yàn)結(jié)果表明,本文運(yùn)用的模型在真實(shí)的市場(chǎng)中在預(yù)測(cè)準(zhǔn)確性和累計(jì)回報(bào)方面獲得了很好地表現(xiàn)。
【關(guān)鍵詞】股票預(yù)測(cè) 回歸測(cè)試 特征集
一、簡(jiǎn)介
市場(chǎng)上有很多的工具和統(tǒng)計(jì)值來(lái)分析股票的趨勢(shì),這些工具和統(tǒng)計(jì)指標(biāo)能夠讓我們?cè)诿刻熳兓墓善眱r(jià)格中找到潛在的價(jià)值和模式。舉個(gè)例子,有很多的技術(shù)指標(biāo)描述市場(chǎng)趨勢(shì),像簡(jiǎn)單移動(dòng)平均等。與此同時(shí),我們?nèi)鄙偈褂酶鞣N不同的工具和統(tǒng)計(jì)值的知識(shí)。盡管我們對(duì)使用其中的一些技術(shù)指標(biāo)有一定的了解,但是每個(gè)技術(shù)指標(biāo)都會(huì)有自己的局限性,不能夠?qū)⑺杏绊懝善眱r(jià)格的因素都考慮在內(nèi)。人們目前在找到一個(gè)最優(yōu)的各種指標(biāo)的結(jié)合來(lái)做出買入、持有、賣出的策略時(shí)有很大的難度。
從有效市場(chǎng)理論的角度看,股票預(yù)測(cè)幾乎是不可能的。股票價(jià)格已經(jīng)反應(yīng)了到目前為止市場(chǎng)上的大量公共信息。為了讓這個(gè)問(wèn)題看上去能夠解決,本篇論文會(huì)將問(wèn)題局限在二元分類。盡管要預(yù)測(cè)出精確的上漲、下跌的比例和交易量是困難的,只是預(yù)測(cè)股票價(jià)格是上升還是下降看上去是合理的。
由此本文提出二元股票事件模型。具體做法如下:首先、本文的工作將從市場(chǎng)上收集數(shù)據(jù)開始,在收集了部分股票一定時(shí)間段內(nèi)的股票數(shù)據(jù)之后。根據(jù)常用的技術(shù)指標(biāo),從原始數(shù)據(jù)中算出他們的值。其次,基于這些技術(shù)指標(biāo)的結(jié)合設(shè)計(jì)出二元事件模型。這是一個(gè)二元值向量代表在一個(gè)特定的時(shí)刻一個(gè)預(yù)先設(shè)計(jì)的股票事件是否發(fā)生。舉個(gè)例子,假設(shè)一個(gè)二元股票事件,定義為事件s,發(fā)生在2013年的12月14號(hào),這個(gè)BSEM模型(事件s,20131214)的值是1。同樣的方式、向量的每一個(gè)值應(yīng)該是1或0,根據(jù)在特定時(shí)刻它是否發(fā)生。最后,獲得一系列的二元股票事件包括n天m個(gè)特征來(lái)描述m個(gè)二元股票事件的發(fā)生。其次、設(shè)計(jì)出每個(gè)二元股票事件的類標(biāo)簽。最后、根據(jù)數(shù)據(jù)挖掘中常用的數(shù)據(jù)分類算法對(duì)模型進(jìn)行分類。
二、產(chǎn)生數(shù)據(jù)集和特征集
(一)產(chǎn)生數(shù)據(jù)集
總共20家A股上市公司從2013年1月1號(hào)到2015年8月31號(hào),共12723條交易記錄。數(shù)據(jù)來(lái)源是國(guó)泰安CSMAR數(shù)據(jù)庫(kù)。
(二)產(chǎn)生類標(biāo)簽
在原始特征集產(chǎn)生之前,先討論訓(xùn)練集的類標(biāo)簽的產(chǎn)生。從基本上來(lái)說(shuō),預(yù)測(cè)股票趨勢(shì)就是預(yù)測(cè)從現(xiàn)在開始k天內(nèi)的股票趨勢(shì)。因此,我們需要計(jì)算一個(gè)目標(biāo)類標(biāo)簽y,用來(lái)表示今天的價(jià)格和在k天之后的價(jià)格的差別。本文中,定義的目標(biāo)類標(biāo)簽,它是當(dāng)天的收盤價(jià)和k天之后的開盤價(jià)和最高價(jià)之間的平均值。本文中選擇在未來(lái)某一天的開盤價(jià)和最高價(jià)之間的平均值作為類標(biāo)簽的理由是基于通常的市場(chǎng)交易策略。舉個(gè)例子,如果我們產(chǎn)生了一個(gè)向上的趨勢(shì)的預(yù)測(cè)信號(hào),它意味著明天的價(jià)格會(huì)漲。從交易的視角來(lái)看,我們會(huì)基于預(yù)測(cè)信號(hào)在當(dāng)天的收盤價(jià)上購(gòu)買一只股票。然后我們會(huì)在盡可能高的價(jià)位上賣掉股票。所以,本文認(rèn)為可能的賣出價(jià)格區(qū)間會(huì)由當(dāng)天的開盤價(jià)和當(dāng)天的最高價(jià)決定。如果價(jià)格低于當(dāng)天的開盤價(jià),交易員會(huì)馬上賣掉股票。
簡(jiǎn)單起見,本論文只考慮二元分類問(wèn)題就像上升和下降。為了做到這一點(diǎn),將上升和下降的比率轉(zhuǎn)化為1或者0,并且將每天的用這種標(biāo)簽注釋。
(三)產(chǎn)生原始數(shù)據(jù)特征集
為了追蹤股票價(jià)格的變動(dòng)趨勢(shì),很多股票分析家會(huì)運(yùn)用移動(dòng)平均線法。移動(dòng)平均線簡(jiǎn)稱均線,它是將某一段時(shí)間的收盤價(jià)之和除以該周期。最流行的移動(dòng)平均是簡(jiǎn)單移動(dòng)平均(SMA)和指數(shù)移動(dòng)平均(EMA)。SMA和EMA是從上文的原始數(shù)據(jù)中根據(jù)給定的時(shí)間段k,計(jì)算出給定時(shí)間段內(nèi)的平均值。舉個(gè)例子,SMA(5)是通過(guò)計(jì)算最后五天的價(jià)格的平均值得到的,同時(shí)EMA(5)是在考慮到隨著時(shí)間的推移價(jià)格權(quán)重呈指數(shù)級(jí)降低計(jì)算出的。
根據(jù)上文中的基于原始數(shù)據(jù)的技術(shù)指標(biāo)集,從大智慧軟件中得到這些股票對(duì)應(yīng)指標(biāo)集的數(shù)據(jù)值。
三、建立二元股票事件模型
(一)定義股票事件模型
在真實(shí)的股票投資中,股票分析員不會(huì)使用技術(shù)指標(biāo)的數(shù)值來(lái)做出投資決策。他們會(huì)更關(guān)注于一些特定的預(yù)先設(shè)定的事件的發(fā)生。舉個(gè)例子,當(dāng)5天移動(dòng)平均線突破了10天移動(dòng)平均線,這叫做黃金交叉或者令人興奮的突破,它是一個(gè)很強(qiáng)的購(gòu)買一只股票的信號(hào)。再舉一個(gè)例子,如果一只股票價(jià)格的上升伴隨著顯著增大的交易量,它也是一個(gè)強(qiáng)烈的購(gòu)買信號(hào)。這樣的角度看的話,一個(gè)特定股票事件的出現(xiàn)比一些枯燥的數(shù)值的變化在預(yù)測(cè)未來(lái)股票的趨勢(shì)中更有意義。
(二)產(chǎn)生基于二元股票事件模型的特征集
二元股票事件模型代表了一個(gè)輸入事件的發(fā)生。舉個(gè)例子,如果一個(gè)輸入事件是一個(gè)5天的簡(jiǎn)單移動(dòng)平均線上升超過(guò)一個(gè)10天的簡(jiǎn)單移動(dòng)平均線,那么這個(gè)事件就被記錄為1,否則它就是0。
基于上述的股票事件集和上文中得到基于原始數(shù)據(jù)的指標(biāo)集,得到二元股票事件模型。
四、基于貝葉斯學(xué)習(xí)模型的預(yù)測(cè)
(一)預(yù)測(cè)準(zhǔn)確性
本論文基于特征集的二元股票事件模型的評(píng)測(cè)標(biāo)準(zhǔn)是預(yù)測(cè)的準(zhǔn)確度。本文用到的數(shù)據(jù)集從源頭上來(lái)說(shuō)是一個(gè)臨時(shí)的數(shù)據(jù)集,它是不斷隨著接下來(lái)股票市場(chǎng)每天的報(bào)價(jià)而變動(dòng)的。然而,一個(gè)二元股票事件模型的特征集只是集中于昨天和今天的差別;使用五重交叉驗(yàn)證是沒(méi)有問(wèn)題的。換句話來(lái)說(shuō),在數(shù)據(jù)集中的每一行是由離散值組成的,所以劃分它是容易的。
在實(shí)驗(yàn)中,預(yù)測(cè)結(jié)果是一個(gè)二元分類。因此,預(yù)測(cè)準(zhǔn)確度是這樣計(jì)算的:正確的上升趨勢(shì)預(yù)測(cè)和正確的下降趨勢(shì)預(yù)測(cè)與所有的預(yù)測(cè)結(jié)果的數(shù)量的商。
本文所有的測(cè)試運(yùn)行環(huán)境如下:
處理器:Intel(R)Core(TM)2 Duo CPU T5870 @ 2.00GHz
安裝內(nèi)存(RAM):3.00GB。
本文選用這20只股票的2013-2014年的二元股票事件模型作為訓(xùn)練集,2015年01-08月份的二元股票事件模型作為測(cè)試集。使用貝葉斯分類器運(yùn)算結(jié)果是75.4%。
(二)回歸測(cè)試結(jié)果
本文的原始數(shù)據(jù)集是由股票市場(chǎng)20只股票2013、2014、2015-01到2015-08的每天的交易報(bào)價(jià)組成的,因此我們將它劃分成五塊來(lái)做回歸測(cè)試。我們用五層交叉驗(yàn)證來(lái)學(xué)習(xí)我們的模型。為了精確定位回歸測(cè)試,本文評(píng)估使用的數(shù)據(jù)不是來(lái)自于訓(xùn)練數(shù)據(jù)使用的部分,都來(lái)自于測(cè)試數(shù)據(jù)使用的部分。
圖1 回歸測(cè)試的交易策略
由程序計(jì)算浦發(fā)銀行(600000)在2015年一月份到八月份之間的回報(bào)率為50.8%。
五、總結(jié)和展望
本文的研究從找到各種不同技術(shù)指標(biāo)之間的最佳的結(jié)合開始的。為了解決這個(gè)問(wèn)題,本文提出了建立二元股票事件模型的方法?;谠脊善睌?shù)據(jù),計(jì)算不同股票的各個(gè)技術(shù)指標(biāo)數(shù)值。再通過(guò)各個(gè)技術(shù)指標(biāo)數(shù)值構(gòu)建二元股票事件集,從而構(gòu)建二元股票事件模型。由此,基于這個(gè)模型,本文產(chǎn)生了一個(gè)二元股票事件模型的特征集作為訓(xùn)練數(shù)據(jù)。接下來(lái),本文通過(guò)貝葉斯分類器成功地獲得了很高的預(yù)測(cè)精度。
參考文獻(xiàn)
[1]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[2]王莎.BP神經(jīng)網(wǎng)絡(luò)在股票預(yù)測(cè)中的應(yīng)用研究[D].中南大學(xué) 2008.
[3]史書真.股價(jià)時(shí)間序列的分析與預(yù)測(cè)研究[D].應(yīng)用數(shù)學(xué)學(xué)報(bào), 2006,29(4):619-632.