林培光 周佳倩 溫玉蓮
(山東財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 濟(jì)南 250014)(llpwgh@163.com)
股票市場(chǎng)是一個(gè)與我們?nèi)粘I钕⑾⑾嚓P(guān)的市場(chǎng),對(duì)于我國(guó)甚至全球的經(jīng)濟(jì)發(fā)展都十分重要.股民作為股票市場(chǎng)的重要參與者,其情緒的變化會(huì)迅速反映到市場(chǎng)上.隨著近些年,互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,信息傳播的速度與渠道也越來(lái)越多,股民們獲取信息的方式也越來(lái)越多樣化.金融新聞、財(cái)經(jīng)新聞、社交媒體等等逐漸開(kāi)始影響股民們投資的決策.因此,股票價(jià)格不僅僅會(huì)受政治、經(jīng)濟(jì)、軍事的影響,還會(huì)受“情感”因素的影響.隨著新聞、微博、博客、貼吧、論壇等等社交網(wǎng)絡(luò)的影響.金融新聞更加快速直觀(guān)地誘導(dǎo)放大了投資者對(duì)于股票市場(chǎng)的態(tài)度傾向,導(dǎo)致股票價(jià)格的不確定性和波動(dòng)性很大,使股票價(jià)格的預(yù)測(cè)成為研究的一大難題.
近年來(lái),深度學(xué)習(xí)[1]開(kāi)始成為學(xué)習(xí)熱潮,經(jīng)過(guò)近幾十年的發(fā)展,深度學(xué)習(xí)已經(jīng)成為了一門(mén)熱門(mén)技術(shù)[2],并且不斷在各大領(lǐng)域有所突破,如股價(jià)預(yù)測(cè)[3-5]、時(shí)間序列預(yù)測(cè)、文本分析、計(jì)算機(jī)視覺(jué)[6]等等.
本文提出了一種基于情感分析的卷積LSTM模型SCONV(semantic convolutional),該模型從股民評(píng)價(jià)與交易數(shù)據(jù)中動(dòng)態(tài)提取金融市場(chǎng)趨勢(shì)的潛在數(shù)據(jù),利用股民評(píng)價(jià)來(lái)提取情感特征,幫助提高股價(jià)預(yù)測(cè)的準(zhǔn)確率和穩(wěn)定性,使用word2vec模型對(duì)文本數(shù)據(jù)進(jìn)行訓(xùn)練、獲取詞向量表示并提取出“情感”權(quán)重后,通過(guò)卷積的局部特征,使用卷積LSTM模型[7]來(lái)捕捉金融交易數(shù)據(jù)的特征.
本文利用4種評(píng)價(jià)指標(biāo),通過(guò)與其他3種傳統(tǒng)模型的比較以及對(duì)不同的數(shù)據(jù)集進(jìn)行獨(dú)立測(cè)試,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明:本文提出的模型在不同長(zhǎng)度的樣本中依舊具有更好的預(yù)測(cè)性能,適用性更強(qiáng).
本文的主要貢獻(xiàn)有3個(gè)方面:
1) 通過(guò)融合語(yǔ)義分析與帶有卷積的LSTM模型來(lái)進(jìn)行金融市場(chǎng)的走勢(shì)預(yù)測(cè).SCONV模型僅將原始金融交易數(shù)據(jù)以及股民評(píng)價(jià)作為輸入,沒(méi)有任何中間的人為干預(yù),是一種純端到端的方法.
2) 用股吧評(píng)價(jià)來(lái)挖取股民的“情感”因素作為輔助信息,提高了預(yù)測(cè)的準(zhǔn)確性.
3) 不同于以往的8~10年的數(shù)據(jù)訓(xùn)練量,本文嘗試使用小一些的樣本(3年以?xún)?nèi)的交易數(shù)據(jù)以及股吧評(píng)論)來(lái)訓(xùn)練模型,并用金融和機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)評(píng)估它.實(shí)驗(yàn)結(jié)果表明:與基本模型(如RNN、普通LSTM網(wǎng)絡(luò))相比,SCONV為所有實(shí)驗(yàn)樣本提供了更加穩(wěn)健的預(yù)測(cè)效果.
目前,用于時(shí)間序列預(yù)測(cè)最常用的模型是AR模型及其衍生的ARMA,ARCH,GARCH等模型,但是,時(shí)間序列的高度非線(xiàn)性與不穩(wěn)定性,限制了AR模型的適用性.隨著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的發(fā)展,開(kāi)始衍生出很多其他的時(shí)間序列預(yù)測(cè)模型,如結(jié)合K-最近鄰和支持向量機(jī)的混合模型,添加了隱馬爾可夫模型的對(duì)抗非線(xiàn)性股價(jià)時(shí)間序列模型,以及基于和諧搜索的神經(jīng)網(wǎng)絡(luò).
盡管傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)具有處理非線(xiàn)性數(shù)據(jù)的能力,但是這并不足以盡可能多地找到時(shí)間序列中的長(zhǎng)期依賴(lài)關(guān)系以及特征提取.為了記住時(shí)間序列數(shù)據(jù)的長(zhǎng)期上下文特征,激發(fā)了門(mén)控存儲(chǔ)單元的使用,從而出現(xiàn)了目前用于股票研究的預(yù)測(cè)的最廣泛使用的模型之一:LSTM模型.LSTM是Hochreiter等人[8]在1997年首次提出的,是遞歸神經(jīng)網(wǎng)絡(luò)RNN的變體,它是一種可擴(kuò)展的動(dòng)態(tài)模型,很好地實(shí)現(xiàn)了時(shí)間序列數(shù)據(jù)的長(zhǎng)期上下文.在2016年Akita等人[9]用LSTM采用歷史數(shù)值和文本數(shù)據(jù)來(lái)預(yù)測(cè)價(jià)格.2015年,Rather[10]等人提出了股票收益預(yù)測(cè)的遞歸神經(jīng)網(wǎng)絡(luò)和混合模型.
Zhang等人[3]提出了一種通過(guò)離散傅立葉變換增強(qiáng)的LSTM變體,以發(fā)現(xiàn)多頻交易模式;2017年,Tsantekidis等人[11]提出了基于CNN模型的股票價(jià)格預(yù)測(cè),實(shí)現(xiàn)了神經(jīng)元的局部連接和權(quán)值共享,保留重要參數(shù),減少了大量不重要的參數(shù).
2015年提出的卷積LSTM[7]將深度卷積神經(jīng)網(wǎng)絡(luò)的局部特征提取能力與LSTM的時(shí)間特征保持相結(jié)合,已經(jīng)被應(yīng)用于許多領(lǐng)域,例如天氣預(yù)報(bào)[7]、圖像壓縮[12]以及一般算法任務(wù)[13].
盡管有很多方法可以預(yù)測(cè)股票價(jià)格[14-15],但是這些工作都沒(méi)有考慮到股民作為股票市場(chǎng)參與者的影響,實(shí)際上,隨著互聯(lián)網(wǎng)的迅速發(fā)展,信息的傳播速度越來(lái)越快,金融類(lèi)新聞更加快速直觀(guān)地誘導(dǎo)放大了投資者對(duì)于股票市場(chǎng)的態(tài)度傾向,股民的情緒開(kāi)始更加快速直觀(guān)地影響股價(jià),為了更加準(zhǔn)確地預(yù)測(cè)股價(jià)走勢(shì),本文提出了一種基于情感分析的金融時(shí)間序列預(yù)測(cè)方法SCONV.除固定的結(jié)構(gòu)化歷史數(shù)據(jù)之外,還爬取了非結(jié)構(gòu)化的股民評(píng)論來(lái)提取“情感”因素與股票價(jià)格一起,利用ConvLSTM模型進(jìn)行股票預(yù)測(cè).
實(shí)驗(yàn)表明:本文提出的SCONV模型在較小樣本的情況下依舊具有穩(wěn)定性,SCONV模型的各類(lèi)結(jié)果參數(shù)RMSE,MSE,MAE和MAPE的值比對(duì)照的傳統(tǒng)模型CNN,LSTM,LSTM-CNN的值要小,可以得出,本文提出的SCONV模型在不同長(zhǎng)度的樣本下依舊具有優(yōu)勢(shì),證明了本文提出模型的有效性.
本文提出的SCONV的體系結(jié)構(gòu)如圖1所示,通過(guò)從股吧爬取股評(píng),經(jīng)過(guò)數(shù)據(jù)清洗之后,創(chuàng)建單詞到索引和矢量的映射、轉(zhuǎn)換訓(xùn)練和測(cè)試詞典,使用word2vec模型獲取股票評(píng)論信息的詞向量表示,將詞向量特征使用lstm模型進(jìn)行情感分類(lèi),賦予情感權(quán)重.同時(shí),將股價(jià)信息進(jìn)行特征提取與降維處理后,與對(duì)應(yīng)日期的情感權(quán)重一起組合,利用ConvLSTM模型通過(guò)2個(gè)步驟處理二維數(shù)據(jù)幀:
Fig. 1 SCONV model structure diagram圖1 SCONV模型結(jié)構(gòu)圖
1) 卷積核捕獲局部特征;
2) 基于局部特征,LSTM網(wǎng)絡(luò)用門(mén)控遞歸網(wǎng)絡(luò)捕獲瞬時(shí)特征.
在后一個(gè)疊加的LSTM進(jìn)行訓(xùn)練之前,模型中添加了一次dropout來(lái)避免過(guò)擬合.
本文的數(shù)據(jù)預(yù)處理主要為對(duì)股民評(píng)價(jià)的原始數(shù)據(jù)清洗、刪選、去除噪聲以及無(wú)關(guān)內(nèi)容,得到高質(zhì)量的數(shù)據(jù),使之后的情感分析更為準(zhǔn)確.
首先進(jìn)行數(shù)據(jù)清洗,刪除有缺失或缺失比例較高的股評(píng).
隨后,使用jieba分詞工具的精確模式將文本數(shù)據(jù)進(jìn)行分詞處理,去掉換行符,對(duì)于無(wú)關(guān)向量進(jìn)行刪除操作來(lái)去除噪聲,并創(chuàng)建詞語(yǔ)字典,返回每個(gè)詞語(yǔ)的索引、詞向量以及每個(gè)句子所對(duì)應(yīng)的詞語(yǔ)索引,為之后的情感分析做鋪墊.jieba分詞具有3種模式:精確模式、全模式以及搜索引擎模式.其中,精確模式可以將句子以最精確的方式進(jìn)行切分,此模式常被用于情感分析.創(chuàng)建每個(gè)詞語(yǔ)的索引、詞向量以及每個(gè)句子所對(duì)應(yīng)的詞語(yǔ)索引的過(guò)程具體會(huì)在2.2節(jié)進(jìn)行介紹.
有關(guān)情感的論述可以追溯到19世紀(jì)末的James[16],在情感分析的發(fā)展過(guò)程中,Subasic等人[17]將自然語(yǔ)言處理技術(shù)與模糊邏輯技術(shù)相結(jié)合,基于手動(dòng)創(chuàng)建的模糊情感詞典,對(duì)新聞故事和電影評(píng)論進(jìn)行情感分析.隨著文本情感傾向分析研究的不斷深入,對(duì)于具有傾向性的特殊句式的研究也逐漸展開(kāi),在傾向性分析應(yīng)用以及傾向性分析與其它任務(wù)相結(jié)合的研究也在逐漸展開(kāi),例如傾向性文本摘要、傾向性信息檢索[18]等.
如圖2所示,本文構(gòu)建的情感分析模塊由預(yù)處理與情感分析2部分組成.
Fig. 2 Emotional analysis module圖2 情感分析模塊
2.2.1 預(yù)處理
預(yù)處理包含了情感分析模塊的輸入部分以及詞向量表示部分,將股票評(píng)論文本的一條評(píng)論信息輸入模塊進(jìn)行處理,先對(duì)句子進(jìn)行分詞,去掉換行符,并創(chuàng)建詞語(yǔ)字典,返回每個(gè)詞語(yǔ)的索引、詞向量以及每個(gè)句子所對(duì)應(yīng)的詞語(yǔ)索引,此過(guò)程為:
1) 創(chuàng)建單詞到索引的映射;
2) 創(chuàng)建單詞到矢量的映射;
3) 轉(zhuǎn)換培訓(xùn)和測(cè)試詞典.
預(yù)處理中,記錄了所有頻數(shù)超過(guò)10的詞語(yǔ)的索引以及所有頻數(shù)超過(guò)10的詞語(yǔ)的詞向量,對(duì)于每個(gè)句子中所含詞語(yǔ)對(duì)應(yīng)的索引,若句子中含有頻數(shù)小于10的詞語(yǔ),則索引為0.
2.2.2 情感分類(lèi)
1) word2vec
word2vec模型可以構(gòu)建文本特征詞向量,可以用于情感分析.word2vec是由Mikolov[19]等人開(kāi)發(fā)的工具,它是在Log-Bilinea和NNLM這2個(gè)模型的基礎(chǔ)上發(fā)展生成的.word2vec可以將詞從高維空間映射到低維空間,并且保留了詞向量之間的位置關(guān)系,從而解決了語(yǔ)義聯(lián)系和向量稀疏2個(gè)問(wèn)題.
2) 情感權(quán)重計(jì)算
由預(yù)處理部分得到詞向量后,本文使用LSTM層來(lái)提取股評(píng)信息特征,進(jìn)行情感分析,提取的特征信息在輸入神經(jīng)元(input neuron)生成用于情感分類(lèi)的特征值,最后在輸出層(output layer)使用softmax函數(shù)輸出情感類(lèi)別,積極情感為1,普通為0,消極情感為-1,最終賦值整合成情感權(quán)重.
隨后對(duì)詞向量進(jìn)行分類(lèi)后得出該條股評(píng)的類(lèi)別(label)為1(積極情感)或0(普通情感)或-1(消極情感),并計(jì)算每一條股評(píng)的價(jià)值,再進(jìn)一步整合成每一天的情感值sentiment_label.
如表1所示,本文通過(guò)情感分析的input neuron模塊,對(duì)每一條股評(píng)的類(lèi)別label進(jìn)行判別,并計(jì)算出該條股評(píng)的情感值sentiment_value.具體計(jì)算過(guò)程如式(1)至式(6)所示:
Table 1 Theemotional Value and Label of Stock Evaluation表1 股評(píng)情感值與標(biāo)
ft=σ(Wf[ht-1,xt]+bf),
(1)
it=σ(Wi[ht-1,xt]+bi),
(2)
其中,σ表示sigmoid函數(shù),ft和it分別代表遺忘門(mén)和輸入門(mén),xt表示輸入端的股評(píng)分詞向量,W表示權(quán)重矩陣,b表示偏差矩陣.
(3)
(4)
ot=σ(Wo[ht-1,xt]+bo),
(5)
ot為輸出門(mén),此時(shí)ot表示sentiment_value,即每一條股評(píng)的情感值,sentiment_value∈[0,1],sentiment_value=1時(shí)表示該條股評(píng)情感強(qiáng)烈,反之,則表示該條股評(píng)情感所占比重不多.
(6)
ht表示t時(shí)刻LSTM單元的輸出,此時(shí)ht代表sentiment_label,即每日的情感值,通過(guò)累加每一條的sentiment_value×label并向上取整,可以得出如表2所示的每天的情感權(quán)重sentiment_label.
Table2 Daily Emotional Value表2 每日情感值
2.3.1 卷積LSTM
卷積LSTM是在2015年由Shi等人[7]提出的,起初其用于降水預(yù)報(bào).如圖3所示,相比于傳統(tǒng)的LSTM,ConvLSTM中先使用了卷積操作提取數(shù)據(jù)特征,再對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,可以更好地預(yù)測(cè)數(shù)值的趨勢(shì)走向.相比卷積網(wǎng)絡(luò)疊加LSTM,ConvLSTM中門(mén)的計(jì)算引入了卷積,輸入可以是二維圖像(可以是多個(gè)通道的),而后者的卷積操作疊加LSTM,其中的卷積層只是用來(lái)提取特征,特征轉(zhuǎn)換為一維向量后作為輸入送入LSTM,LSTM中門(mén)的計(jì)算是全聯(lián)接的.ConvLSTM自提出以來(lái),已經(jīng)被應(yīng)用于許多領(lǐng)域,例如天氣預(yù)報(bào)[7]、圖像壓縮[13]以及一般算法任務(wù)[11].
普通LSTM網(wǎng)絡(luò)中的所有隱藏層都是完全連通的層,它對(duì)于語(yǔ)音識(shí)別和自然語(yǔ)言處理等任務(wù)非常有效,因?yàn)樗梢詫⒄Z(yǔ)音和文本完美地映射到可訓(xùn)練的向量空間中[18].然而,它無(wú)法更好地處理純數(shù)字?jǐn)?shù)據(jù)的標(biāo)記化.卷積LSTM單元通過(guò)用卷積核替換完全連通的層來(lái)解決這個(gè)問(wèn)題.
形式上,在ConvLSTM的網(wǎng)絡(luò)結(jié)構(gòu)中,將股票時(shí)序數(shù)據(jù)連同其對(duì)應(yīng)的前1天、前3天均值、前一周均值的情感數(shù)據(jù)一起作為輸入,使其在ConvLSTM底部的卷積層CNN中不僅能夠得到時(shí)序關(guān)系,還能夠像卷積層一樣提取空間特征,這樣ConvLSTM就可以同時(shí)提取時(shí)間特征和空間特征,并且狀態(tài)與狀態(tài)之間的切換也換成了卷積運(yùn)算,具體模型如圖3所示.ConvLSTM單元的信息更新過(guò)程如式(7)~(11)所示:
Fig. 3 ConvLSTM cell structure圖3 ConvLSTM單元
it=σ(Wxi*Xt+Whi*Ht-1+
Wci°Ct-1+bi),
(7)
Ct=ft°Ct-1+it°tanh(Wxi*Xt+
Whi*Ht-1+bc),
(8)
ot=σ(Wx0*Xt+Wh0*Ht-1+
Wc0°Ct+b0),
(9)
ft=σ(Wxf*Xt+Whf*Ht-1+
Wcf°Ct-1+bf),
(10)
Ht=ot°tanh(Ct),
(11)
其中,σ表示sigmoid函數(shù),tanh是雙曲正切函數(shù),*表示卷積運(yùn)算.Xt,Ht,Ct分別表示時(shí)間步長(zhǎng)t處的輸入數(shù)據(jù)、隱藏狀態(tài)和單元狀態(tài).it,ft,ot表示在時(shí)間步長(zhǎng)t時(shí)輸入門(mén)、遺忘門(mén)和輸出門(mén)的輸出.Wxi,Whf,Wcf表示輸入、輸出和遺忘門(mén)的卷積核.bc表示輸入門(mén)的偏置,bf表示遺忘門(mén)的偏置,b0表示輸出門(mén)的偏置,°表示逐點(diǎn)乘法.
由于參數(shù)共享是深度學(xué)習(xí)模型泛化的關(guān)鍵因素,其通過(guò)核和數(shù)據(jù)之間的卷積運(yùn)算,使核的參數(shù)在輸入數(shù)據(jù)之間共享,因此卷積操作對(duì)于從數(shù)據(jù)中提取泛化特征更有效.
然而,由于金融交易數(shù)據(jù)的性質(zhì),我們不能直接使用卷積LSTM單位的原始設(shè)計(jì).雖然交易數(shù)據(jù)可以組織成二維框架,但我們不能應(yīng)用二維卷積,因?yàn)槎S框架的行包含不同類(lèi)型的特征,包括開(kāi)盤(pán)價(jià)、收盤(pán)價(jià)、最高價(jià)、最低收和交易量.
相反,本文使用一維卷積的修改版本:通道只在二維數(shù)據(jù)幀的時(shí)間線(xiàn)列之間水平移動(dòng),同時(shí)它們也在不同類(lèi)型的數(shù)據(jù)之間共享,以保證參數(shù)共享.請(qǐng)注意,我們遵循Shi等人[7]的設(shè)計(jì),即在卷積過(guò)程中不壓縮輸入幀的大小,這意著如果輸入的Xt是6*5,輸出通道是32,則最終隱藏狀態(tài)輸出Ht應(yīng)該是6*5*32,并且它們被展平為矢量,作為后續(xù)分類(lèi)器層的輸入.
2.3.2 LSTM
從ConvLSTM中生成的數(shù)據(jù),再添加一次dropout來(lái)避免過(guò)擬合,LSTM模型單元內(nèi)部結(jié)構(gòu)如圖4所示.LSTM單元的信息更新過(guò)程如式(12)~(17)所示:
Fig. 4 Stock prediction module圖4 股票預(yù)測(cè)模塊
it=σ(Wixt+Uiht-1+bi),
(12)
ft=σ(Wfxt+Ufht-1+bf),
(13)
(14)
(15)
ot=σ(Woxt+Uoht-1+Vo*ct+bo),
(16)
ht=ot°tanh(ct),
(17)
其中,σ表示sigmoid函數(shù),tanh表示雙曲正切函數(shù),xt為輸入的股票向量,ct表示內(nèi)存狀態(tài)向量,ht是從ct輸出的隱藏狀態(tài)向量.Wi和Ui以及Vi表示權(quán)重矩陣,bi為偏差矢量,調(diào)節(jié)流入存儲(chǔ)單元的允許的新的股票價(jià)格.ft為遺忘門(mén),控制在該單元中應(yīng)保留多少信息.ot為輸出門(mén),定義了可以輸出的信息量.°表示逐點(diǎn)乘法.
本節(jié)使用我們的技術(shù)構(gòu)建了用于金融時(shí)間序列預(yù)測(cè)的SCONV混合模型,并且在不同時(shí)間長(zhǎng)度、不同文本數(shù)量的數(shù)據(jù)集上測(cè)試了本文的方法.
本文選用準(zhǔn)確率(mean average precision,MAP)、平均絕對(duì)誤差(mean absolute error,MAE)、平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)、均方誤差(mean square error,MSE)和均方根誤差(root mean square error,RMSE),作為模型預(yù)測(cè)評(píng)價(jià)指標(biāo),計(jì)算過(guò)程如式(18)~(22)所示:
(18)
(19)
(20)
(21)
其中,預(yù)測(cè)值為predict_yi,i∈[0,n],真實(shí)值為y={y1,y2,…,yn},則RMSE,MSE,MAE和MAPE的取值范圍是[0,+),若其越靠近0則表示模型預(yù)測(cè)性能越好,反之,越差.
(22)
MAP的范圍是[0,1],當(dāng)MAP=1時(shí),即完美模型,股票預(yù)測(cè)值和真實(shí)值之間的誤差越小,MAP值越大,模型的預(yù)測(cè)性能越好,反之,則越差.
本文采用的數(shù)據(jù)集包括2部分:股評(píng)信息以及股票交易數(shù)據(jù).股票交易數(shù)據(jù)來(lái)源為英為財(cái)情網(wǎng)站和銳思數(shù)據(jù)庫(kù),從中選取影響股票價(jià)格波動(dòng)的主要的4個(gè)技術(shù)指標(biāo):開(kāi)盤(pán)價(jià)(Open)、最高價(jià)(High)、最低價(jià)(Low)、收盤(pán)價(jià)(Close).股民評(píng)論信息來(lái)源為東方財(cái)富網(wǎng)站.選用的數(shù)據(jù)集為阿里巴巴(BABA.us)、平安銀行(000001.sh)、格力電器(000651.sz).
其中阿里巴巴(BABA.us)選用的股票交易日期和股民評(píng)論日期為2016-01-02—2019-12-31,爬取的股評(píng)數(shù)目為11 390條;平安銀行(000001.sh)選用的股票交易日期和股民評(píng)論日期為2016-04-02—2017-09-30,爬取的股評(píng)數(shù)目為112 307條;格力電器(000651.sz)選用的股票交易日期和股民評(píng)論日期為2019-06-26—2019-12-30,爬取的股評(píng)數(shù)目為27 911條.
隨后將這些爬取到的股評(píng)數(shù)據(jù)集先進(jìn)行預(yù)處理.如表3所示,將股價(jià)日數(shù)據(jù)集分為80%的訓(xùn)練集train和20%的測(cè)試集test,對(duì)應(yīng)的股評(píng)文本按照日期同樣進(jìn)行劃分,并分別計(jì)算出對(duì)應(yīng)股價(jià)日期前1日的情感值、前3日的情感均值與前一周的情感均值,使用訓(xùn)練集train對(duì)模型進(jìn)行訓(xùn)練,隨后使用測(cè)試集test對(duì)模型的各預(yù)測(cè)指標(biāo)進(jìn)行測(cè)試并統(tǒng)計(jì).
Table 3 Stock Data Set Statistics表 3 股票數(shù)據(jù)集統(tǒng)計(jì)
本節(jié)為了驗(yàn)證我們提出的SCONV混合模型的可行性和高效性,實(shí)驗(yàn)以阿里巴巴(BABA.us)、格力電器(000651.sz)、平安銀行(000001.sh)不同時(shí)間段、不同文本評(píng)論數(shù)據(jù)條數(shù)作為數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,并使用CNN,LSTM,LSTM-CNN方法進(jìn)行對(duì)比實(shí)驗(yàn).各個(gè)模型在不同數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)結(jié)果如表4所示,其中,SCONV(1),SCONV(3),SCONV(7)分別表示在模型運(yùn)行中使用了對(duì)應(yīng)股價(jià)日期前1天情感值、前3天情感均值、前一周情感均值的結(jié)果.
Table 4 Comparison of Experimental Prediction Indexes of Each Model表4 各模型的實(shí)驗(yàn)預(yù)測(cè)指標(biāo)對(duì)比
從表4的結(jié)果可以得出,SCONV遠(yuǎn)遠(yuǎn)優(yōu)于其他模型,接下來(lái)進(jìn)行對(duì)結(jié)果的具體分析.
3.3.1 實(shí)驗(yàn)結(jié)果綜合分析
從表4中可以看出,LSTM模型的預(yù)測(cè)結(jié)果明顯比CNN好,MAE,MAPE,MSE,RMSE值更小,說(shuō)明LSTM模型的預(yù)測(cè)值更接近真實(shí)值,主要是因?yàn)長(zhǎng)STM模型克服了CNN模型不能長(zhǎng)期有效記憶的能力,對(duì)時(shí)序數(shù)據(jù)的預(yù)測(cè)效果更好.
LSTM-CNN的模型預(yù)測(cè)結(jié)果均小于LSTM,說(shuō)明作為2個(gè)模型的外部疊加,經(jīng)過(guò)CNN提取特征后,可以更好地預(yù)測(cè)股票價(jià)格.
SCONV作為本文提出的模型,預(yù)測(cè)結(jié)果均強(qiáng)于前3個(gè)模型,說(shuō)明相比LSTM-CNN,ConvLSTM作為卷積網(wǎng)絡(luò)與LSTM內(nèi)部結(jié)合的模型,SCONV可以比僅在外部疊加的LSTM-CNN更有魯棒性,無(wú)論是3年、1.5年還是5個(gè)月的數(shù)據(jù)集,SCONV依舊有著穩(wěn)定性,相比單純的LSTM-CNN,由于文本分析的加入,SCONV的預(yù)測(cè)效果更好.
從結(jié)果中也可以看出,使用較長(zhǎng)時(shí)間的情感均值可以更好地預(yù)測(cè)股票價(jià)格走向,說(shuō)明股民的情緒對(duì)股價(jià)走勢(shì)有著一定緩慢程度上的影響.
3.3.2 實(shí)驗(yàn)結(jié)果綜合比較
為了更加直觀(guān)地對(duì)比SCONV與各個(gè)模型的效果差異,本文將各個(gè)數(shù)據(jù)集在不同模型中的測(cè)試集輸出整合到了一張圖表上(SCONV選取了使用了SCONV(7)的結(jié)果數(shù)值來(lái)畫(huà)圖),如圖5~7所示,Alibaba(BABA.us)的測(cè)試集相對(duì)而言最長(zhǎng),隨后是平安銀行(000001.sh),最后是格力電器(000651.sz),
Fig. 5 AliBABA forecast integration chart圖5 AliBABA預(yù)測(cè)整合圖
Fig. 6 PingAN bank forecast integration chart圖6 平安銀行預(yù)測(cè)整合圖
Fig. 7 GeLi forecast integration char圖7 格力電器預(yù)測(cè)整合圖
從圖5~7中可以看出,無(wú)論測(cè)試集長(zhǎng)短如何,SCONV模型與實(shí)際收盤(pán)價(jià)(Close)的擬合程度始終優(yōu)于其他對(duì)比模型.
3.3.3 穩(wěn)定性分析
MAP作為本文實(shí)驗(yàn)的準(zhǔn)確率判別標(biāo)準(zhǔn),計(jì)算過(guò)程由式(17)給出,為了更加直觀(guān)地顯示SCONV的穩(wěn)定性與文本分析在SCONV中的角色地位,本節(jié)實(shí)驗(yàn)中將3個(gè)實(shí)驗(yàn)數(shù)據(jù)的實(shí)驗(yàn)集進(jìn)行時(shí)間長(zhǎng)度統(tǒng)一化,并統(tǒng)一只使用對(duì)應(yīng)日期前1天的股評(píng)情感加入模型訓(xùn)練.
本文實(shí)驗(yàn)中3個(gè)數(shù)據(jù)集經(jīng)過(guò)時(shí)間長(zhǎng)度統(tǒng)一后的MAP如表5所示,每個(gè)MAP的范圍均由同一個(gè)數(shù)據(jù)集近50次訓(xùn)練得出.
由表5可以進(jìn)行分析,首先看歸一化與原數(shù)據(jù)集的比對(duì),阿里巴巴(BABA.us)和平安銀行(000001.sh)歸一化后的MAP小于其均歸一化前,并且歸一化后的MAP的動(dòng)蕩范圍變大,說(shuō)明實(shí)驗(yàn)集的長(zhǎng)短對(duì)于預(yù)測(cè)的準(zhǔn)確率有一定的影響.
以平安銀行(000001.sh)與阿里巴巴(BABA.us)歸一化前后作對(duì)比,平安銀行(000001.sh)在歸一化后剩下了3.6萬(wàn)條左右的文本數(shù)據(jù),阿里巴巴(BABA.us)在歸一化后剩下了0.5萬(wàn)左右的文本數(shù)據(jù),可以對(duì)比前者的動(dòng)蕩區(qū)間變化比后者相對(duì)小一些,說(shuō)明文本數(shù)量以及文本分析在SCONV中占有著一定的重要地位.
再來(lái)看歸一化后有著相同實(shí)驗(yàn)集長(zhǎng)度的3個(gè)不同股票數(shù)據(jù)集(表5的第2,4,6列),其MPA基本穩(wěn)定在一個(gè)固定區(qū)間內(nèi),相較于以往傳統(tǒng)模型的5~8年數(shù)據(jù)集,SCONV在5個(gè)月的數(shù)據(jù)集上依舊可以穩(wěn)定發(fā)揮,說(shuō)明SCONV具有一定的穩(wěn)定性.
Table 5 The MAP of SCONV表5 SCONV模型的MAP
本文提出的基于情感分析的金融市場(chǎng)趨勢(shì)預(yù)測(cè)方法SCONV,在引入文本分析的前提下,通過(guò)word2vec進(jìn)行情緒分析,進(jìn)行輸入神經(jīng)元與輸出層的情感分析,得到分為“積極”、“普通”、“消極”的3種情感分類(lèi),并得出每日的情感權(quán)重.再使用卷積LSTM進(jìn)行股價(jià)預(yù)測(cè).本文采用阿里巴巴(BABA.us)、平安銀行(000001.sh)、格力電器(000651.sz)作為實(shí)驗(yàn)數(shù)據(jù),并且不同以往的股價(jià)預(yù)測(cè)中使用5~8年的數(shù)據(jù),本文實(shí)驗(yàn)中分別使用了3年左右(BABA.us)、1.5年左右(000001.sh)、5個(gè)月左右(000651.sz)較小的樣本來(lái)進(jìn)行實(shí)驗(yàn),使用CNN,LSTM,LSTM-CNN等傳統(tǒng)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文提出的SCONV的預(yù)測(cè)性能更好,在不同時(shí)間長(zhǎng)度、不同文本數(shù)量的數(shù)據(jù)集中依舊可以穩(wěn)定預(yù)測(cè),具有一定的魯棒性.
未來(lái)的工作會(huì)嘗試研究國(guó)家政策、市場(chǎng)、突發(fā)事件等不確定性因素影響,嘗試使用長(zhǎng)周期樣本以及更小的樣本來(lái)進(jìn)一步試驗(yàn)完善模型和參數(shù),提高模型的性能.