徐浩然,許 波,徐可文
廣東財(cái)經(jīng)大學(xué) 信息學(xué)院,廣州510000
自股市誕生以來,由于股票市場的高回報(bào)性,股票的波動(dòng)一直引起大家的高度關(guān)注,研究者希望通過研究,揭示股票運(yùn)行規(guī)律,對其價(jià)格走勢進(jìn)行預(yù)測。但是,股票市場是一個(gè)非常復(fù)雜的系統(tǒng),其非線性、不平穩(wěn)性、復(fù)雜性等特點(diǎn)導(dǎo)致對股票價(jià)格的預(yù)測研究變得十分困難。
早期的股票行情分析,主要包括基本面分析和技術(shù)分析。基本面分析主要是通過公司的整體運(yùn)營情況、財(cái)務(wù)報(bào)表以及行業(yè)的發(fā)展趨勢和宏觀經(jīng)濟(jì)運(yùn)行態(tài)勢對公司價(jià)值及其未來的股價(jià)走勢進(jìn)行預(yù)測?;久娣治鍪禽o助投資者進(jìn)行長線投資的主要依據(jù)。而技術(shù)分析,則更關(guān)心證券市場本身的變化因素,通過股價(jià)、成交量或漲跌指數(shù)等數(shù)據(jù)計(jì)算得到各種技術(shù)指標(biāo),使用這些技術(shù)指標(biāo)以及圖表展現(xiàn)過去股票價(jià)格走勢,從而對該股票未來的價(jià)格進(jìn)行預(yù)測。
與基本面分析及技術(shù)分析不同,許多學(xué)者將股票每日的收盤價(jià)按照時(shí)間先后順序列出,構(gòu)造成股票時(shí)間序列模型。根據(jù)股票歷史價(jià)格走勢對未來短期變化趨勢進(jìn)行預(yù)測,其中,最為著名的便是ARIMA[1]模型。近些年,許多學(xué)者如:Zheng[2]、Rangel-Gonzalez[3]、宋剛[4]等對ARIMA算法進(jìn)行了進(jìn)一步的優(yōu)化與改進(jìn)工作。
隨著大數(shù)據(jù)時(shí)代的到來,股票市場中海量的數(shù)據(jù)引起了眾多學(xué)者的關(guān)注。機(jī)器學(xué)習(xí)方法,例如:支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、決策樹等方法被廣泛應(yīng)用于股票預(yù)測領(lǐng)域。其在處理復(fù)雜以及大量數(shù)據(jù)上面表現(xiàn)出的優(yōu)勢,解決了傳統(tǒng)方法的許多局限性。研究者們通過股票市場中產(chǎn)生的大量歷史數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行建模與訓(xùn)練,并通過訓(xùn)練出的模型來對股票未來的走勢進(jìn)行預(yù)測,較傳統(tǒng)的方法極大提高預(yù)測的準(zhǔn)確率,具有十分重要的理論和現(xiàn)實(shí)意義。
本文重點(diǎn)收集了近幾年來在股票預(yù)測領(lǐng)域使用機(jī)器學(xué)習(xí)方法的主要文獻(xiàn),從股票預(yù)測研究的主要問題、特征工程以及機(jī)器學(xué)習(xí)算法的應(yīng)用(如圖1)三個(gè)方面分別進(jìn)行分析和總結(jié)。對該領(lǐng)域研究的難點(diǎn)與不足進(jìn)行歸納,并淺析該領(lǐng)域研究未來可能有的發(fā)展動(dòng)向。力求使讀者能對該領(lǐng)域的研究現(xiàn)狀全面認(rèn)識,并且提供了一些未來可能的研究思路。
在股票預(yù)測問題上,不同的學(xué)者的關(guān)注點(diǎn)不盡相同。不同的研究問題,其實(shí)驗(yàn)結(jié)果的表現(xiàn)形式也不一樣。研究者關(guān)注的主要問題包括以下幾個(gè)方面。
研究者希望通過訓(xùn)練一種機(jī)器學(xué)習(xí)模型,對股票未來的價(jià)格進(jìn)行預(yù)測。對股票具體價(jià)位的預(yù)測實(shí)質(zhì)上是一類回歸問題。研究者將通過模型預(yù)測出的股價(jià)與實(shí)際股價(jià)進(jìn)行對比,并通過MSE、RMSE、MAE等指標(biāo)衡量股價(jià)預(yù)測的準(zhǔn)確率。而另一部分學(xué)者則關(guān)注未來股價(jià)的變動(dòng)趨勢,將股價(jià)預(yù)測問題轉(zhuǎn)換為二分類問題,構(gòu)建one-hot編碼作為標(biāo)簽,即若未來一段時(shí)間內(nèi)的股票收盤價(jià)大于當(dāng)天收盤價(jià)則記為1,否則便記為0,并通過準(zhǔn)確率、AUC、召回率等指標(biāo)可以衡量預(yù)測的效果。但是在實(shí)際股票投資中,股票的漲跌幅度對投資者收益影響較大,二分類的漲跌預(yù)測往往很難滿足實(shí)際應(yīng)用中的需求,部分學(xué)者將“上漲”“下跌”的二分類問題轉(zhuǎn)化為“小漲”“大漲”“小跌”“大跌”的四分類問題進(jìn)行分類預(yù)測。
由于股票價(jià)格短期變化的不確定性,對于其轉(zhuǎn)折點(diǎn)的預(yù)測被許多學(xué)者所關(guān)注。準(zhǔn)確的預(yù)測股票價(jià)格變動(dòng)的轉(zhuǎn)折點(diǎn),在轉(zhuǎn)折點(diǎn)位置進(jìn)行相應(yīng)的買賣操作,對于投資決策具有十分重要的意義。Chang等人[5]將分段線性表示PLR結(jié)合BP神經(jīng)網(wǎng)絡(luò)對股票轉(zhuǎn)折點(diǎn)進(jìn)行預(yù)測。李豐等人[6]通過使用PLR和高斯過程分類方法,提取股票歷史價(jià)格序列的轉(zhuǎn)折點(diǎn),對轉(zhuǎn)折點(diǎn)進(jìn)行分類標(biāo)記,并通過實(shí)驗(yàn)證明其對股票轉(zhuǎn)折點(diǎn)預(yù)測模型的有效性。Tang[7]將分段線性表示(PLR)和加權(quán)支持向量機(jī)(WSVM)相結(jié)合,對股票TPs進(jìn)行預(yù)測,并且在文中提出了幾種提高PLR-WSVM模型性能的方法。
與使用統(tǒng)計(jì)指標(biāo)評估模型的準(zhǔn)確率不同,一些學(xué)者更關(guān)注股票預(yù)測模型在實(shí)際市場上的量化投資收益。Buncic[8]使用動(dòng)態(tài)模型平均法構(gòu)建了股票回報(bào)率預(yù)測模型,并根據(jù)預(yù)測結(jié)果建立投資組合,其較被動(dòng)的指數(shù)投資策略獲得了可觀的收益。秦璐[9]提出區(qū)域標(biāo)記法,把某一段頂部、底部區(qū)域的點(diǎn)進(jìn)行全部標(biāo)記,來代替只標(biāo)記最高、最低點(diǎn)的傳統(tǒng)單點(diǎn)標(biāo)記法。其方法使得股票交易收益更加穩(wěn)定,且更符合證券市場的實(shí)際情況。
在機(jī)器學(xué)習(xí)實(shí)驗(yàn),特別是股票預(yù)測實(shí)驗(yàn)中,特征工程一直是十分重要的部分。股票市場經(jīng)過長時(shí)間的發(fā)展,積累了大量反應(yīng)股票趨勢變化的原始數(shù)據(jù)。從類型上來說,既包括大量個(gè)股的數(shù)據(jù),也包括行業(yè)板塊、市場指數(shù)的數(shù)據(jù)。大多數(shù)學(xué)者如Wang等[10],選取道瓊斯指數(shù)、納斯達(dá)克指數(shù)作為較為成熟的股票市場代表,將我國的香港恒生指數(shù)、上證指數(shù)、創(chuàng)業(yè)板指數(shù)等作為新興股票市場代表進(jìn)行研究,以此來比較其算法在成熟與新興市場的不同表現(xiàn)。為了減小市值較小的股票的異常波動(dòng)對預(yù)測結(jié)果的影響,蘇治[11]選取了A股市場總市值前150位的公司數(shù)據(jù)。也有部分學(xué)者選取個(gè)股數(shù)據(jù)進(jìn)行預(yù)測模型效果的評估,但是由于個(gè)股的變動(dòng)隨機(jī)性較大,模型評估效果往往具有局限性。
同時(shí),股票市場的各種輔助指標(biāo)對于機(jī)器學(xué)習(xí)的預(yù)測也起到十分重要的作用,好的指標(biāo)選取可以大大提高預(yù)測準(zhǔn)確率的上限。早期的研究中,包含日期與收盤價(jià)的股票時(shí)間序列數(shù)據(jù)被廣泛應(yīng)用于預(yù)測。開盤價(jià)、最高價(jià)、最低價(jià)、成交量、成交額、換手率等基礎(chǔ)交易數(shù)據(jù)也被眾多學(xué)者用作輔助預(yù)測的常用指標(biāo)。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,更多的股票歷史交易數(shù)據(jù)被用于預(yù)測,一些由金融、統(tǒng)計(jì)領(lǐng)域的行業(yè)專家構(gòu)造的技術(shù)指標(biāo)被更多的使用。鄧烜堃[12]將kdj、macd、boll等48個(gè)常用技術(shù)指標(biāo)作為輔助訓(xùn)練特征,取得了不錯(cuò)的效果。伯毅[13]根據(jù)經(jīng)驗(yàn),自行創(chuàng)造了一種支持壓力指標(biāo),并通過實(shí)驗(yàn)論證加入其自創(chuàng)指標(biāo)后的數(shù)據(jù)訓(xùn)練效果要好于未加入之前的效果,說明其自創(chuàng)的指標(biāo)可以提升模型的預(yù)測效果。
圖1 機(jī)器學(xué)習(xí)算法在股票預(yù)測應(yīng)用思維導(dǎo)圖
近些年來,包括股票新聞、金融微博、論壇等社交媒體的文本數(shù)據(jù)被越來越多的用于股票預(yù)測。朱夢珺[14]對金融微博進(jìn)行文本與語義分析,并對應(yīng)相關(guān)股票的價(jià)格走勢進(jìn)行擬合預(yù)測。Sun[15]使用大量社交媒體數(shù)據(jù)研究股票價(jià)格與社交媒體內(nèi)容間的關(guān)系。余傳明[16]使用一種新的文本價(jià)格融合模型,對將股票論壇文本數(shù)據(jù)與股票價(jià)格指標(biāo)結(jié)合進(jìn)行預(yù)測,其準(zhǔn)確率較單獨(dú)使用文本或者股價(jià)特征有了較大提升。
但是并不是越多的特征,預(yù)測效果就好越好。如何合理有效地選擇最有價(jià)值的特征指標(biāo)進(jìn)行訓(xùn)練,去除對預(yù)測精度影響較小的特征,是一個(gè)十分重要的研究課題。Alsubaie[17]采用5種不同的特征選擇方法對50個(gè)廣泛使用的股票分析技術(shù)指標(biāo)進(jìn)行了排序,并且提出了一種成本敏感的微調(diào)樸素貝葉斯分類器,獲得了很好的投資收益。Tsai[18]提出了一種基于特征選擇的混合時(shí)間序列模型,首先采用逐步回歸,然后采用多元自適應(yīng)回歸樣條MARS和使用核技巧的嶺回歸來選擇關(guān)鍵特征。于卓熙[19]運(yùn)用主成分分析對應(yīng)該股票價(jià)格變化的指標(biāo)進(jìn)行降維。鄧烜堃[12]利用DAE對選取的48個(gè)技術(shù)指標(biāo)進(jìn)行降維,并結(jié)合BPNN進(jìn)行預(yù)測。其模型不僅大大降低了運(yùn)行時(shí)間,而且較PCA、FA等降維方法在準(zhǔn)確率上有所提升。
支持向量機(jī)[20](SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展形成的機(jī)器學(xué)習(xí)方法。其理論基礎(chǔ)主要是VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,是建立在幾何距離基礎(chǔ)上的一種學(xué)習(xí)算法。由于其在解決小樣本、高維數(shù)據(jù)和非線性問題方面展現(xiàn)出特有的優(yōu)勢,眾多學(xué)者將支持向量機(jī)模型用于股票預(yù)測領(lǐng)域。
Kim[21]直接把支持向量機(jī)用于股票預(yù)測,通過實(shí)驗(yàn)論證了該方法較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法效果更好。張貴生等[22]利用SVM處理高維面板數(shù)據(jù)的優(yōu)勢,構(gòu)建一種近鄰互信息的特征選擇模型。挖掘與目標(biāo)股指相關(guān)的周邊金融市場的變化信息,對目標(biāo)股指進(jìn)行預(yù)測。Mei[23]將SVM與傳統(tǒng)的ARIMA模型結(jié)合,首先利用ARIMA模型進(jìn)行預(yù)測,然后將其誤差結(jié)果作為SVM的輸入變量,以預(yù)測股價(jià)的波動(dòng)方向。Alam[24]提出了一種結(jié)合輸入數(shù)據(jù)全局和局部特征的多核支持向量機(jī)。同時(shí),利用果蠅優(yōu)化算法(FFO)提出了一種參數(shù)整定方法,并將其應(yīng)用于股市運(yùn)動(dòng)方向預(yù)測問題。
傳統(tǒng)的SVM更多地被用于解決分類問題,卻不適用于解決股價(jià)預(yù)測問題中的回歸問題。在SVM基礎(chǔ)上發(fā)展起來的基于非線性回歸技術(shù)的支持向量回歸機(jī)(SVR)解決了這一缺陷。Frohlich等[25]最先以遺傳演算法進(jìn)行特征選取最優(yōu)化的SVR模型研究。Huang[26]以臺灣股票市場的數(shù)據(jù),建立了遺傳算法改進(jìn)的SVR選股模型。實(shí)驗(yàn)表明,采用遺傳算法進(jìn)行特征選擇和參數(shù)尋優(yōu)的SVR模型顯著增強(qiáng)該模型的預(yù)測準(zhǔn)確率。Vilela[27]使用聚類方法結(jié)合SVR構(gòu)造了一種兩階段模型。
許多學(xué)者基于SVM與SVR模型,對文本數(shù)據(jù)進(jìn)行分析與預(yù)測。黃潤鵬[28]運(yùn)用新浪微博的文本數(shù)據(jù),構(gòu)建情緒傾向時(shí)間序列,通過支持向量機(jī)模型,研究上證指數(shù)時(shí)間序列與情緒傾向時(shí)間序列之間的關(guān)系。Shynkevich[29]根據(jù)新聞與目標(biāo)股票間的相關(guān)性,對新聞進(jìn)行加權(quán),并結(jié)合多核SVM模型進(jìn)行預(yù)測。董理[30]從社交媒體中提取文本信息結(jié)合股票指標(biāo),使用SVR模型對股價(jià)進(jìn)行預(yù)測。
SVM與SVR在解決高維特征的分類和回歸問題具有優(yōu)勢,這也與股票預(yù)測領(lǐng)域的多特征數(shù)據(jù)相契合。同時(shí),支持向量機(jī)中存在大量核函數(shù)可供使用,研究者可以根據(jù)實(shí)際問題選擇適合的核函數(shù)進(jìn)行應(yīng)用。但是,目前還沒有較好的方法解決核函數(shù)選取的問題,這也是未來的研究重點(diǎn)。同時(shí),當(dāng)該方法應(yīng)用于大規(guī)模訓(xùn)練樣本時(shí)會(huì)耗費(fèi)大量的計(jì)算機(jī)內(nèi)存和運(yùn)算時(shí)間,這可能會(huì)限制其在大數(shù)據(jù)時(shí)代股票預(yù)測中的發(fā)展空間。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是人工智能領(lǐng)域的研究熱點(diǎn)。該算法從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。早在20世紀(jì)90年代,Varfis等人[31]便已經(jīng)嘗試將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于金融時(shí)間序列問題。Hammad[32]采用前向多層人工神經(jīng)網(wǎng)絡(luò)對多家公司的股票進(jìn)行預(yù)測,證明人工神經(jīng)網(wǎng)絡(luò)具有收斂快、精度高等優(yōu)勢。Amin[33]通過實(shí)驗(yàn)評估了幾種前饋人工神經(jīng)網(wǎng)絡(luò)在納斯達(dá)克市場股票價(jià)格預(yù)測效果。劉恒等[34]利用貝葉斯正則化方法改進(jìn)BP神經(jīng)網(wǎng)絡(luò),解決BP網(wǎng)絡(luò)陷入局部最優(yōu)化影響泛化能力的問題。Qiu[35]使用全局搜索技術(shù)(GA/SA)結(jié)合人工神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測。冉楊帆[36]、戴德寶[37]等則比較了神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法在股票文本數(shù)據(jù)預(yù)測方面的效果。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)主要具有以下缺點(diǎn):容易陷入局部最優(yōu)化;需要訓(xùn)練的權(quán)值過多;需要大量的樣本進(jìn)行訓(xùn)練且泛化能力不強(qiáng),容易導(dǎo)致“過擬合問題”等。隨著近些年的大數(shù)據(jù)積累以及計(jì)算機(jī)運(yùn)算能力的提升,深度學(xué)習(xí)在人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來。相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)模型層數(shù)更多,具有更強(qiáng)的特征提取能力,受到了廣泛的關(guān)注。
受益于大數(shù)據(jù)技術(shù)以及計(jì)算機(jī)運(yùn)算能力的提升,以卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、長短期記憶網(wǎng)絡(luò)LSTM、前饋神經(jīng)網(wǎng)絡(luò)FNN等為代表的深度學(xué)習(xí)技術(shù),在文本、圖像、語音視頻識別等領(lǐng)域取得了突破性的進(jìn)展。而目前,越來越多的學(xué)者將目光投向股票預(yù)測領(lǐng)域,希望通過深度學(xué)習(xí)的最新技術(shù)來解決此類問題。Catalin[38]利用LSTM和CNN分別構(gòu)建了股票預(yù)測模型,并根據(jù)其預(yù)測結(jié)果建立買賣策略。Kim[39]將LSTM和CNN模型結(jié)合,對于股票數(shù)據(jù),分別從時(shí)間序列以及股票圖像兩種角度進(jìn)行預(yù)測。彭燕[40]運(yùn)用LSTM處理時(shí)間序列中間隔和延遲較長問題的優(yōu)勢,解決RNN會(huì)遺忘之前狀態(tài)信息的缺點(diǎn)。曾安[41]依據(jù)時(shí)間序列前后兩個(gè)方向的序列關(guān)系,使用一種基于深度雙向LSTM的神經(jīng)網(wǎng)絡(luò)預(yù)測模型解決長時(shí)間序列的梯度消失問題。
部分學(xué)者也提出了一些方法,對現(xiàn)有的深度學(xué)習(xí)結(jié)構(gòu)進(jìn)行了優(yōu)化與改進(jìn)。Wang[10]從輸入數(shù)據(jù)中提取主要成分并對其進(jìn)行積分,構(gòu)建出一種基于主成分分析的神經(jīng)網(wǎng)絡(luò)STNN。Li[42]構(gòu)建了一種結(jié)合極端學(xué)習(xí)器EML的深度學(xué)習(xí)結(jié)構(gòu)。Zhou[43]構(gòu)建了一個(gè)基于EMD和FNN的兩階段模型。利用信號分解的EMD經(jīng)驗(yàn)?zāi)B(tài)分解方法,將分解出來的IMF作為輸入變量,輸入FNN模型進(jìn)行訓(xùn)練。吳曼曼等人[44]在其基礎(chǔ)上進(jìn)一步研究,證明了EMD結(jié)合Flman神經(jīng)網(wǎng)絡(luò)進(jìn)行股票預(yù)測的有效性。
與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,不需要進(jìn)行特征選擇是深度學(xué)習(xí)的一大優(yōu)勢。在股票預(yù)測問題中,特征工程是十分困難的工作,不管是市場中的常用指標(biāo)還是基于數(shù)學(xué)、統(tǒng)計(jì)學(xué)的專家指標(biāo),都很難令人信服。而深度學(xué)習(xí)可以使計(jì)算機(jī)自行進(jìn)行特征選擇,比人工選擇具有更高的準(zhǔn)確率。并且具有很高的適應(yīng)性,同時(shí)也可以利用遷移學(xué)習(xí)方法進(jìn)行相似領(lǐng)域的轉(zhuǎn)換。
深度學(xué)習(xí)同樣存在一些缺陷。首先深度學(xué)習(xí)需要大量的數(shù)據(jù)進(jìn)行支持并且需要高端的GPU進(jìn)行長時(shí)間的訓(xùn)練才能收獲好的訓(xùn)練效果。其次,深度學(xué)習(xí)“黑箱操作”的運(yùn)算方法使其具有較差的解釋性,無法進(jìn)行可視化展示,其訓(xùn)練得出的結(jié)果無法找到對應(yīng)的經(jīng)濟(jì)學(xué)理論解釋,這也是深度學(xué)習(xí)在股票預(yù)測應(yīng)用中難以令人信服的主要原因。
集成學(xué)習(xí),是指結(jié)合多個(gè)學(xué)習(xí)器進(jìn)行學(xué)習(xí)任務(wù)的一種機(jī)器學(xué)習(xí)方法,也稱為分類器的集成。該方法可以對線性回歸、決策樹、支持向量機(jī)等基學(xué)習(xí)器進(jìn)行集成訓(xùn)練,其性能較單一學(xué)習(xí)器往往會(huì)有較大的提升。
Bagging是并行式集成學(xué)習(xí)方法的代表。謝琪等人[45]利用bagging方法,集成多個(gè)長短記憶神經(jīng)網(wǎng)絡(luò)LSTM進(jìn)行訓(xùn)練,其預(yù)測準(zhǔn)確率較單一的LSTM模型有了較大提升。Awajan[46]使用基于經(jīng)驗(yàn)?zāi)B(tài)分解EMD的bagging方對非平穩(wěn)非線性的時(shí)間序列進(jìn)行預(yù)測。Lohrmann[47]使用隨機(jī)森林模型對股票進(jìn)行分類并根據(jù)結(jié)果制定交易策略和買入持有策略。
Boosting算法是常用的串行式集成學(xué)習(xí)算法。Zhang[48]采用adaboost算法進(jìn)行預(yù)測,體現(xiàn)出集成學(xué)習(xí)算法在股票預(yù)測領(lǐng)域很好的性能。Zhang[49]將Adaboost算法與概率支持向量機(jī)PSVM、遺傳算法GA等結(jié)合進(jìn)行股票轉(zhuǎn)折點(diǎn)的分類預(yù)測。王燕[50]利用網(wǎng)格搜索算法對Xgboost模型進(jìn)行參數(shù)優(yōu)化,尋找出準(zhǔn)確率最優(yōu)的Xgboost參數(shù)模型。Zhou[51]首次將級聯(lián)集成學(xué)習(xí)架構(gòu)應(yīng)用于股票指數(shù)的預(yù)測和交易,其將邏輯回歸模型LR級聯(lián)到梯度增強(qiáng)決策樹(GBDT)模型上,并進(jìn)行模擬買賣實(shí)驗(yàn),證明其模型在實(shí)際應(yīng)用中的利潤收益。
集成學(xué)習(xí)與傳統(tǒng)單一的機(jī)器學(xué)習(xí)算法相比往往具有更高的精度。隨機(jī)森林、Xgboost等方法也具有特征選擇的功能,便于處理包含多特征的股票數(shù)據(jù)。同時(shí),其可解釋性高,可以很方便地進(jìn)行可視化展示,易于用戶理解。但是該方法主要應(yīng)用于股票預(yù)測中的漲跌分類問題,對應(yīng)股價(jià)的回歸問題無法進(jìn)行預(yù)測。
目前機(jī)器學(xué)習(xí)在股票預(yù)測領(lǐng)域已經(jīng)取得了非常不錯(cuò)的成績,但是其綜合準(zhǔn)確率,依然沒有達(dá)到令人非常滿意的效果。對于衡量股票價(jià)格預(yù)測準(zhǔn)確率:MSE、RMSE、MAE等指標(biāo),以及股票漲跌趨勢準(zhǔn)確率:AUC、召回率等指標(biāo),其精度較以往的研究有了大幅度的提升,但是還有進(jìn)一步提升的空間。時(shí)間序列數(shù)據(jù)量過小以及特征工程復(fù)雜的工作都是目前股票預(yù)測領(lǐng)域的研究難點(diǎn)。所以,未來還有許多方面需要研究者進(jìn)行探索。在今后的研究中,可能存在以下研究熱點(diǎn)。
股票時(shí)間序列的數(shù)據(jù)量較少是困擾深度學(xué)習(xí)方法應(yīng)用的主要問題。在圖像處理領(lǐng)域中,遷移學(xué)習(xí)方法在解決小數(shù)據(jù)問題中取得了很好的效果,未來可以嘗試使用遷移學(xué)習(xí)方法解決股票領(lǐng)域數(shù)據(jù)量的問題。遷移學(xué)習(xí)[52](Transfer Learning,TL)是指將以前任務(wù)中學(xué)習(xí)到的知識和技能應(yīng)用到新任務(wù)(新領(lǐng)域)中的能力。利用已經(jīng)學(xué)習(xí)過的“源域”,應(yīng)用到新的領(lǐng)域“目標(biāo)域”之中進(jìn)行輔助學(xué)習(xí)。傳統(tǒng)機(jī)器學(xué)習(xí)的股票預(yù)測方法都是單獨(dú)使用一只股票的時(shí)間序列數(shù)據(jù)對其未來價(jià)格進(jìn)行預(yù)測,但對于一些發(fā)行時(shí)間較短,時(shí)間序列數(shù)據(jù)量較少股票的預(yù)測效果受到了較大的限制。由于股票市場中相似行業(yè)的公司股票價(jià)格變動(dòng)規(guī)律往往具有相關(guān)性和聯(lián)動(dòng)性,可以考慮使用遷移學(xué)習(xí)的方法(圖2),利用與目標(biāo)股票相關(guān)度較高的其他股票數(shù)據(jù)進(jìn)行輔助預(yù)測,或許是未來的研究熱點(diǎn)。
圖2 遷移學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)在股票預(yù)測的比較
“數(shù)據(jù)和特征決定機(jī)器學(xué)習(xí)的上限,而算法只是不斷逼近這個(gè)上限”。在此前的研究中,大量的研究者更關(guān)注于算法模型的構(gòu)造與改進(jìn)。但同時(shí),特征工程仍有許多工作需要完成,是提升預(yù)測準(zhǔn)確率的關(guān)鍵一環(huán)。
開盤價(jià)、收盤價(jià)、成交量、最高最低價(jià)等常用指標(biāo)在短期股價(jià)預(yù)測中被廣泛使用。同時(shí),可以嘗試在模型中輸入公司財(cái)務(wù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)、行業(yè)相關(guān)指標(biāo)等來預(yù)測某具體行業(yè)的上市公司長期的運(yùn)行趨勢。文本分析依然有待更深入的研究,可以關(guān)注“股吧”“論壇”等社交網(wǎng)站中股民情緒變化與股票市場趨勢的關(guān)聯(lián)度。
另一方面,可以使用自適應(yīng)算法對特征進(jìn)行優(yōu)化。典型的自適應(yīng)算法包括迫零算法、最陡下降算法、LMS算法、RLS算法等,其主要思想是根據(jù)處理數(shù)據(jù)的數(shù)據(jù)特征自動(dòng)調(diào)整處理方法處理參數(shù)、邊界條件或約束條件等,使其與所處理數(shù)據(jù)的統(tǒng)計(jì)分布特征、結(jié)構(gòu)特征相適應(yīng),以取得最佳的處理效果。
深度學(xué)習(xí)方法在股票預(yù)測中取得了較多的進(jìn)展,由于其高預(yù)測精度的優(yōu)勢,未來依然會(huì)被作為研究熱點(diǎn)。
目前最常用的CNN與LSTM模型各有優(yōu)缺點(diǎn)。CNN在特征選擇上具有更好表現(xiàn),而LSTM則更加關(guān)注時(shí)間序列之間的相關(guān)性。未來的研究中,考慮將CNN和LSTM進(jìn)行模型融合,發(fā)揮其各自的優(yōu)勢。Shi等[53]提出convlstm模型,在特征輸入LSTM前進(jìn)行卷積操作,較好地解決城市降雨量預(yù)測問題中的時(shí)間與空間關(guān)聯(lián)性的問題。未來也可以探究該方法在股票預(yù)測中的應(yīng)用。
另外,深度學(xué)習(xí)作為一種“黑箱操作”模型,存在解釋性差的缺點(diǎn)。未來可以更加關(guān)注其在進(jìn)行股票預(yù)測過程中的經(jīng)濟(jì)學(xué)理論意義和解釋性。
股票預(yù)測作為一個(gè)困擾研究者的重大問題,在這些年的研究中已經(jīng)取得了不錯(cuò)的進(jìn)展。支持向量機(jī)、深度學(xué)習(xí)、集成學(xué)習(xí)等機(jī)器學(xué)習(xí)算法在該領(lǐng)域都受到了廣泛的關(guān)注。但是每種模型都存在其特有優(yōu)勢和缺陷,預(yù)測準(zhǔn)確率不高、解釋性差等問題凸顯。提高預(yù)測準(zhǔn)確率、增加數(shù)據(jù)量、進(jìn)行模型融合、增強(qiáng)模型的可解釋性等問題未來依然有待進(jìn)一步的深入研究。