袁紅
摘要:股市數(shù)據(jù)具有大數(shù)據(jù)特征、應(yīng)用數(shù)據(jù)挖掘模型從海量的股市數(shù)據(jù)發(fā)現(xiàn)其潛在規(guī)律,預(yù)測未來發(fā)展趨勢,對于降低投資者投資風(fēng)險及輔助股市管理者做出有效決策具有重要意義。文章介紹幾種當(dāng)今比較流行的數(shù)據(jù)挖掘模型及其在股市中的應(yīng)用。
關(guān)鍵詞:股市預(yù)測;數(shù)據(jù)挖掘;綜述;輔助決策
一、引言
股市波動存在非線性,傳統(tǒng)的計量經(jīng)濟學(xué)模型大多屬于線性模型,需要事先知道各種參數(shù),這些參數(shù)在數(shù)據(jù)波動情況下不能自動修正,因此傳統(tǒng)的計量經(jīng)濟學(xué)模型不能有效的擬合股市動態(tài)變化趨勢。此外,股票市場價格波動瞬息萬變,對于數(shù)據(jù)獲取的實勢性、數(shù)據(jù)模型計算的復(fù)雜度都有著苛刻的要求。數(shù)據(jù)挖掘是從大量隨機、不完全、有噪聲的數(shù)據(jù)中,提取隱含在數(shù)據(jù)中人們事先不知道、但又是潛在有用的信息和知識的過程。伴隨第三次科技浪潮,互聯(lián)網(wǎng)、云計算技術(shù)的發(fā)展突破了數(shù)據(jù)的實時獲取、實時計算的瓶頸。如何應(yīng)用數(shù)據(jù)挖掘模型從海量的股市數(shù)據(jù)中準(zhǔn)確、高效的挖掘出有價值的信息輔助管理決策、規(guī)避風(fēng)險成為當(dāng)前研究的熱點。
二、主要模型
(一)神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)由大量處理單元組成,其中處理單元也可以是一個神經(jīng)網(wǎng)絡(luò),是一種自適應(yīng)信息、非線性處理系統(tǒng)。網(wǎng)絡(luò)處理單元的類型分為三類:輸入單元、輸出單元和隱單元。輸入單元接受外部世界的信號與數(shù)據(jù),輸出單元實現(xiàn)系統(tǒng)處理結(jié)果的輸出,隱單元是處在輸入和輸出單元之間,不能由系統(tǒng)外部觀察的單元。神經(jīng)元間的連接權(quán)值反映了單元間的連接強度,信息的表示和處理體現(xiàn)在網(wǎng)絡(luò)處理單元的連接關(guān)系中。人工神經(jīng)網(wǎng)絡(luò)具有非線性、非局限性、非常定性、非凸性四個基本特征。根據(jù)連接的拓撲結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)模型可以分前向網(wǎng)絡(luò)、反饋網(wǎng)絡(luò)。在股市中的應(yīng)用中,BP神經(jīng)網(wǎng)絡(luò)常被用于股票價格預(yù)測。張秀艷等基于神經(jīng)網(wǎng)絡(luò)分別建立了基本數(shù)據(jù)模型、技術(shù)指標(biāo)模型、宏觀分析模型對股票選取、價格趨勢進行了綜合評價。
(二)支持向量機
支持向量機主要原理是通過學(xué)習(xí)訓(xùn)練集數(shù)據(jù)集,將數(shù)據(jù)映射到高維的特征空間X→M,然后再M中構(gòu)造最優(yōu)超平面,將數(shù)據(jù)空間切分為幾個部分達到分類的目的。數(shù)據(jù)分類需要選擇合適的核函數(shù), 在股票預(yù)測中大部分是使用徑向基函數(shù)、Guass 核函數(shù),根據(jù)實際需求也有線性核函數(shù)、多項式核、傅里葉核、樣條核、小波核函數(shù)、Sigmoid核函數(shù)可供選擇。湯培培等人選取股東獲利水平、公司盈利水平、風(fēng)險狀況、成長水平以及行業(yè)特點的相關(guān)財務(wù)指標(biāo)作為輸入向量,將徑向基函數(shù)作為核函數(shù)挑選出了具有投資價值的股票。湯凌冰等對比了多層感知器、廣義回歸神經(jīng)網(wǎng)絡(luò)、支持向量機三種模型在預(yù)測股票收益率中的表現(xiàn)發(fā)現(xiàn)支持向量機表現(xiàn)最優(yōu)。李坤等應(yīng)用小波核構(gòu)建支持向量機模型預(yù)測了不同類型的股票指數(shù)或大盤指數(shù)。
(三)隨機森林
隨機森林基本思想是以隨機的方式建立一個森林,森林由許多棵決策樹組成,隨機森林的每一棵決策樹之間是沒有關(guān)聯(lián)的。在創(chuàng)建完森林之后,當(dāng)一個新的樣本輸入森林,就讓森林中的每一棵決策樹進行一次判斷,看看這個樣本應(yīng)該屬于哪一類。在股市的應(yīng)用中,隨機森林首先建立分類器從而描述因子池中各因子與下期收益表現(xiàn)的關(guān)系,根據(jù)各股歷史下一期收益率劃分類標(biāo)準(zhǔn),利用歷史當(dāng)期因子數(shù)據(jù)對分類器進行訓(xùn)練得到相關(guān)參數(shù)。再代入當(dāng)期各股因子數(shù)據(jù)對各股進行分類,得到各股的信任得分。從而達到選取優(yōu)秀股的目的。李齊等應(yīng)用隨機森林以企業(yè)規(guī)模、盈利能力、償債能力、股東獲利能力、成長能力、營運能力等20多個因素作為決策因子選取優(yōu)了秀股票,實現(xiàn)28%的年化收益,王領(lǐng)等基于決策樹判斷股票買點和賣點。
(四)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則基本思想是找出數(shù)據(jù)集中高頻出現(xiàn)幾組數(shù)據(jù),如果這幾組數(shù)據(jù)之間存在某種關(guān)系就稱其具有關(guān)聯(lián)性。關(guān)聯(lián)分析的目的是為了找出數(shù)據(jù)間隱藏的關(guān)聯(lián)網(wǎng)。在股市的應(yīng)用中主要用于找出各股票間的聯(lián)動性,假設(shè)A 股票與B股票具有關(guān)聯(lián)性,即A出現(xiàn)上漲趨勢 B 股票也隨之上漲,那么通過分析股票之間漲跌的時間關(guān)系可以對股票的漲跌進行預(yù)測。這些規(guī)律在投資者進行實際決策時有著重要的參考價值和指導(dǎo)意義。陳艷等基于關(guān)聯(lián)規(guī)則預(yù)測了股票價格。
(五)時間序列
時間序列將已有歷史數(shù)據(jù)按時間順序排列,發(fā)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律或模式,再根據(jù)歷史數(shù)據(jù)的內(nèi)在規(guī)律進行趨勢擬合達到預(yù)測未來的目的。指數(shù)平滑預(yù)測法是時間序列中一種常用的方法,移動平均法做為該方法的基礎(chǔ),根據(jù)時間點相隔區(qū)間的大小賦予該節(jié)點對應(yīng)的權(quán)重,該方法根據(jù)實際數(shù)據(jù)情況可以選擇一次指數(shù)平滑 和多次指數(shù)平滑。ARMA預(yù)測方法是一種非線性時間序列預(yù)測方法,所以這種方法在股市預(yù)測應(yīng)用中最為常用 ,該方法首先將非平穩(wěn)的時間序列數(shù)據(jù)通過若干次差分運算變成平穩(wěn)的時間序列數(shù)據(jù),然后用合適的數(shù)學(xué)模型來近似描述該序列,當(dāng)模型能夠被接受后利用該模型根據(jù)時間序列的歷史數(shù)據(jù)值和現(xiàn)在的值來預(yù)測未來值。時間序列數(shù)據(jù)挖掘模型在股票市場中主要用于預(yù)測股票價格走勢、最佳交易時間確定。李奮華等建立了一種基于時間序列分析的股票走勢預(yù)測模型,蔣倩儀研究了基于時間序列預(yù)測的股票交易決策建議系統(tǒng),陳錦揚建立 ARIMA模型分析股票報酬率。
(六)方法評價
由于股市數(shù)據(jù)交易量、交易價格帶有明顯的時間屬性,時間序列是股市數(shù)據(jù)挖掘的最基本模型。但當(dāng)前預(yù)測模型預(yù)測準(zhǔn)確度隨時間的延續(xù)而降低,且預(yù)測模型隨時間的變化需要不斷調(diào)整以適應(yīng)數(shù)據(jù)的變化,所以目前的挖掘模型生命周期較短、不具有普適性。神經(jīng)網(wǎng)絡(luò)預(yù)測股票已經(jīng)取得了不錯的成績,但也存在不少問題,模型初始值確定比較困難,對突發(fā)事件的適應(yīng)性差,學(xué)習(xí)過程較慢,容易陷入局部最優(yōu)狀態(tài),參數(shù)難以控制等。在實際應(yīng)用中支持向量機相對于神經(jīng)網(wǎng)絡(luò)而言,在泛化能力、全局最優(yōu)、結(jié)構(gòu)容易度等方面表現(xiàn)更加優(yōu)秀。此外,大多數(shù)挖掘模型追求良好的穩(wěn)健性,偏向于識別常規(guī)漲跌模式而忽略或者平滑了股票大幅飆升異常特征。這是模型在預(yù)測準(zhǔn)確度和模型穩(wěn)健性之間做出的一種折中妥協(xié),雖降低了投資風(fēng)險但也失去了發(fā)現(xiàn)高收益機會。endprint
三、未來發(fā)展方向
數(shù)據(jù)挖掘在股市中的發(fā)展方向主要體現(xiàn)在以下三種層面,一是搭建框架將多模型統(tǒng)一組織形成優(yōu)勢互補。機器學(xué)習(xí)模型眾多,但在股市的實際應(yīng)用中,往往是某種模型只在某一具體應(yīng)用場景中表現(xiàn)良好。這就需要將各種模型組合起來滿足實際的需求,如何搭建統(tǒng)一框架組織各種模型、實現(xiàn)模型優(yōu)勢組合是當(dāng)前及未來的發(fā)展方向;二是通過機器學(xué)習(xí),自動調(diào)整模型參數(shù)以適應(yīng)股市的多波動特性。由于股票波動較快,基于股票市場指標(biāo)的預(yù)測模型生命周期很短,需要不斷校正模型參數(shù)、甚至更換模型,如何結(jié)合股市波動的根本成因,分析股票所具有的潛力并建立多尺度混合分析模型實現(xiàn)模型參數(shù)的自動修正是未來發(fā)展研究方向;三是結(jié)合網(wǎng)絡(luò)爬蟲自動獲取網(wǎng)絡(luò)情報,從網(wǎng)絡(luò)情報分析出投資者信心輿情、宏觀政策、企業(yè)經(jīng)營狀況、行業(yè)興衰、利率變動等相關(guān)信息對股市進行綜合評價,改變信息資源不對稱,增強投資者在股市博弈中的籌碼,也是未來研究和應(yīng)用的發(fā)展方向。
參考文獻:
[1]張秀艷,徐立本.基于神經(jīng)網(wǎng)絡(luò)集成系統(tǒng)的股市預(yù)測模型[J].系統(tǒng)工程理論與實踐,2003(09).
[2]湯凌冰,盛煥燁,湯凌霄.股票收益預(yù)測模型的比較與選擇[J].湖南科技大學(xué)學(xué)報(自然科學(xué)版),2009(02).
[3]李坤,譚夢羽.基于小波支持向量機回歸的股票預(yù)測[J].統(tǒng)計與決策,2014(06).
[4]李齊,楊君岐.隨機森林算法在多因子選股上的應(yīng)用[J].經(jīng)營管理者,2017(06).
[5]王領(lǐng),胡揚.基于C4.5決策樹的股票數(shù)據(jù)挖掘[J].計算機與現(xiàn)代化,2015(10).
[6]陳艷,褚光磊.關(guān)聯(lián)規(guī)則挖掘算法在股票預(yù)測中的應(yīng)用研究——基于遺傳網(wǎng)絡(luò)規(guī)劃的方法[J].管理現(xiàn)代化,2014(03).
[7]李奮華,趙潤林.一種基于時間序列分析的股票走勢預(yù)測模型[J].現(xiàn)代計算機,2016(20).
[8]張楠.基于時間序列的股票趨勢預(yù)測研究及R語言應(yīng)用[J].江蘇商論,2016(23).
[9]蔣倩儀.基于時間序列預(yù)測的股票交易決策建議系統(tǒng)[J].計算機應(yīng)用與軟件,2017(04).
[10]陳錦揚.基于R軟件對股票時間序列模型分析[J].財經(jīng)界:學(xué)術(shù)版,2016(05).
(作者單位:四川師范大學(xué)經(jīng)濟與管理學(xué)院)endprint