張世玲
摘 要:伴隨著我國市場經(jīng)濟的發(fā)展與繁榮,股票已經(jīng)走進了我們的各家各戶,成為了與大多數(shù)人息息相關(guān)的投資產(chǎn)品。因此,對于股票走勢的預(yù)測也成為越來越多的人所關(guān)注的問題。本文對數(shù)據(jù)挖掘技術(shù)做了深入的研究,探討了時間序列法在股票趨勢的預(yù)測方面的具體應(yīng)用。目前,時間序列預(yù)測方法己經(jīng)成為預(yù)測法中比較成熟的一個理論體系。因此,可以對股票市場未來的走勢進行相對成熟的預(yù)測,并且為對股市的研究提供理論與技術(shù)的支撐,并為廣大股民提供相應(yīng)的選股建議。
關(guān)鍵詞:股票預(yù)測;時間序列法;ARIMA模型
一、Clementine軟件的介紹
Clementine軟件是一款適用于商業(yè)用戶的高品質(zhì)數(shù)據(jù)挖掘的產(chǎn)品。該軟件具有豐富的數(shù)據(jù)挖掘方法,并且支持與數(shù)據(jù)庫之間的模型和數(shù)據(jù)的交換。同時,該軟件也具有可視化操作的界面,操作方法簡單易學,結(jié)果分析直觀易懂,同時它的圖形功能也非常強大。
該軟件將一系列的數(shù)據(jù)處理程序或者技術(shù)整合成彼此之間相互獨立的模塊,例如將決策樹、時間序列、神經(jīng)網(wǎng)絡(luò)、聚類、回歸、關(guān)聯(lián)規(guī)則等多種數(shù)據(jù)挖掘技術(shù)集合在可視化圖形的界面中,因此對于那些不懂編程但又經(jīng)常需要進行大量數(shù)據(jù)處理的用戶來說,它要比Excel更易用更高效,而且構(gòu)建的數(shù)據(jù)流一經(jīng)保存后可在下一個相似的任務(wù)中稍做修改就可使用。
本文主要采用時間序列數(shù)據(jù)挖掘模型進行操作。在時間序列模型中包含著專家模型、指數(shù)平滑模型和ARIMA模型3種建模方法。本文會對這三種方法依次進行建模,從而選出最優(yōu)的建模方法,得出最準確預(yù)測。
二、國內(nèi)外研究現(xiàn)狀
劉瀅(2010年)分別運用決策樹分類法,時間序列法和神經(jīng)網(wǎng)絡(luò)對股票的價格的預(yù)測進行了實際的應(yīng)用,分析了各個方法的弊端和長處。李衛(wèi)民(2004年)使用ARMA-廣義回歸神經(jīng)網(wǎng)絡(luò)技術(shù)對股票價格的走勢進行了預(yù)測,克服了單純的ARMA模型的弊端。王振興(2010年)建立了基于BP和RBF神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型和依據(jù)擬合誤差確定權(quán)數(shù)的組合神經(jīng)網(wǎng)絡(luò)模型,并且進行了實證分析,最后表明組合神經(jīng)網(wǎng)絡(luò)模型在精度和穩(wěn)定性上都要比單神經(jīng)網(wǎng)絡(luò)模型高,具有更為廣闊的應(yīng)用前景。張煒(2013年)認為粗糙集在解決股票預(yù)測等不確定性問題上具有獨特的優(yōu)勢。
因此,對于股票各個方面的預(yù)測,學者們已經(jīng)做了很多有價值的工作。同時也給我們提供了許多需要借鑒和學習的東西。但是由于股票市場的復(fù)雜不確定性就注定了之后的股票市場還有很多新的規(guī)律和規(guī)則等著我們?nèi)ヌ崛『屯诰颉?/p>
三、Clementine實證研究
(一)數(shù)據(jù)來源。本文選取滬深300成分股中的熱門股票中信證券(600030)股票2014年8月11日到2014年12月12日的收盤價,共收集到84個數(shù)據(jù)樣本。通過對這84個數(shù)據(jù)的分析,來預(yù)測未來一個月內(nèi)中信證券股票價格的大致走勢。本文所有的數(shù)據(jù)均來自于新浪財經(jīng)。
(二)數(shù)據(jù)的預(yù)處理??紤]到在建模過程中股票市場在雙休日和節(jié)假日不開市的特殊性,我們收集到的數(shù)據(jù)在時間段上是不連續(xù)的,也就是說,在不開市的時間點上,數(shù)據(jù)是缺失的。所以為了方便利用模型來分析,我們通過利用最近點的平均值的填充辦法,來使得數(shù)據(jù)(收盤價)在以天為時間的單位上能夠具有連續(xù)性。
(三)模型的選擇與建立。本文以中信證券2014年8月11日至2014年12月12日每日收盤價作為數(shù)據(jù)源,建立數(shù)據(jù)流。
因為對股票研究的目的在于能夠在一定時間段內(nèi)對股票價格進行較為準確地預(yù)測,所以在本次研究中,我們也要通過選擇較為合適的模型,對中信證券每日的收盤價進行預(yù)測。因為預(yù)測的時間越長所產(chǎn)生的誤差越大,尤其是對于股票價格這類數(shù)據(jù)的預(yù)測,更無法長時間較準地預(yù)測,所以我們本次只進行短期的預(yù)測。
1、專家模型
以中信證券2014年8月11日至2014年12月12日每日收盤價作為數(shù)據(jù)源,利用Clementine軟件對這些數(shù)據(jù)進行時間序列的專家建模。
在時間序列模塊里選擇專家模型。我們在模型的選擇上選擇“Expert Modeler”,然后在“Criteria”選項中選擇“All models”?!按_定”后“執(zhí)行”,最后獲得專家建模得到的模型。
最后從結(jié)果可以看出專家建模器選擇的模型是ARIMA(1,1,0),所以接下來我們只進行指數(shù)平滑模型的建模。
2、指數(shù)平滑模型
在指數(shù)平滑建模中仍以中信證券2014年8月11日至2014年12月12日每日收盤價作為數(shù)據(jù)源,利用Clementine軟件對這些數(shù)據(jù)進行時間序列的指數(shù)平滑建模。
在時間序列模塊里選擇指數(shù)平滑模型。我們在模型的選擇上選擇“Exponential Smoothing”,然后在“Criteria”選項中選擇“Holts liner trend”?!按_定”后“執(zhí)行”,最后獲得指數(shù)平滑模型。
3、模型的分析與比較
在模型模塊的參數(shù)界面查看模型參數(shù)。本文選取了兩個模型中部分較重要的參數(shù)匯總在表3-1中。
從表3-1中,尤其是Sig的值可以看出,專家建模的Sig值為0.312,而指數(shù)平滑建模的Sig值僅為0。然而,顯著性值(也就是Sig的值)小于0.05時表示殘差序列不是隨機的,也就是說所觀測的序列中存在著模型無法解釋的某些結(jié)構(gòu)。從這方面看來,指數(shù)平滑模型不能完整的解釋該時間序列。
四、結(jié)論
(一)預(yù)測結(jié)果分析。從表格中可以看出,中信證券的股票的價格前期以較大的幅度進行增長,而后期以校幅度增長,但是從整體上來說,中信證券的股票價格呈上升趨勢,股民可以放心購買。
(二)模型選擇分析。首先,對于中國這種受經(jīng)濟政策、大盤走向等因素影響比較大的股市來說,研究股票的價格并不是所選用的數(shù)據(jù)越多越好,因為數(shù)據(jù)多就代表者時間跨度大,過長的時間跨度很難避免特殊因素的影響。所以,選擇合適的數(shù)據(jù)源更利于我們更好地建模。
其次,對中信證券近半年的日收盤價進行建模所得出的最佳模型為ARIMA模型。
最后,需要說明的是,Clementine軟件在數(shù)據(jù)挖掘方面有非常大的使用空間和發(fā)展前景,并可以很大程度上簡化時間序列建模的過程。所以,在研究性學習的過程當中,充分使用適當?shù)姆治龉ぞ卟拍苡行У奶岣吖ぷ鞯男?。(作者單位:河北?jīng)貿(mào)大學)
參考文獻:
[1] 劉瀅,數(shù)據(jù)挖掘在股票預(yù)測中的應(yīng)用[D],長春理工大學,2010
[2] 李衛(wèi)民,ARMA-廣義回歸神經(jīng)網(wǎng)絡(luò)技術(shù)在股票預(yù)測中的應(yīng)用研究[D],山東科技大學,2004
[3] 王振興,BP-RBF組合神經(jīng)網(wǎng)絡(luò)在股票預(yù)測中的應(yīng)用研究[D],蘭州商學院,2010
[4] 劉勁松,數(shù)據(jù)挖掘中的現(xiàn)代時間序列分析方法[J],信息技術(shù),2007(7):100-101
[5] 彭英,基于灰色理論的數(shù)據(jù)挖掘在股票分析中的應(yīng)用[D],長沙理工大學,2006
[6] 柳建芳,基于小波消噪的聚類模式挖掘在股票收益率預(yù)測中的應(yīng)用[D],武漢理工大學,2010
[7] 張煒,基于遺傳算法的屬性約簡方法在股票預(yù)測中的應(yīng)用研究[D],湖南,2013