国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多源異構(gòu)數(shù)據(jù)融合驅(qū)動(dòng)的股票指數(shù)預(yù)測研究

2021-10-28 05:53:04耿立校劉麗莎李恒昱
關(guān)鍵詞:準(zhǔn)確率卷積情緒

耿立校,劉麗莎,李恒昱

河北工業(yè)大學(xué) 經(jīng)濟(jì)管理學(xué)院,天津 300401

隨著信息時(shí)代的到來和網(wǎng)絡(luò)媒體的普及,股票市場預(yù)測已經(jīng)受到學(xué)術(shù)界各個(gè)領(lǐng)域的廣泛關(guān)注。在金融市場中,根據(jù)傳統(tǒng)的有效市場假說理論,股票的價(jià)格基本反映目前可用的信息,同時(shí)指出股票價(jià)格總是由理性的投資者驅(qū)動(dòng),大致反映出公司預(yù)期未來收益的合理現(xiàn)值[1]。因此股票價(jià)格受新信息的影響很小,遵循隨機(jī)的變化路徑。但是隨著信息技術(shù)的發(fā)展,越來越多的投資者會(huì)關(guān)注與股票市場相關(guān)的信息并不斷地做出改變,意見的不一致使得股票實(shí)際價(jià)格與內(nèi)在價(jià)值產(chǎn)生差異,最終產(chǎn)生價(jià)格的波動(dòng)[2-4]。近年來行為金融學(xué)領(lǐng)域的實(shí)證研究發(fā)現(xiàn)股票走勢并不是無跡可尋的,Chan[5]在研究公司新聞發(fā)布對股票的影響中發(fā)現(xiàn)股票面對公司負(fù)面新聞時(shí)表現(xiàn)不佳,會(huì)出現(xiàn)比較大的波動(dòng),而面對好消息時(shí)表現(xiàn)出較小的波動(dòng)。Vega研究了私人信息和公共新聞對股票的影響,實(shí)證結(jié)果表明,投資者(私人或公眾)對資產(chǎn)真實(shí)價(jià)值的了解越多,對該信息的認(rèn)同程度越高,交易的異常收益波動(dòng)越小[6]。雖然傳統(tǒng)金融學(xué)與行為金融學(xué)領(lǐng)域?qū)π畔⑷绾斡绊懝善笔袌龅囊庖姴灰恢?,但是也證明了信息對股票市場是存在影響的。

網(wǎng)絡(luò)媒體的出現(xiàn),使得信息釋放、傳播和吸收的方式發(fā)生了翻天覆地的變化?,F(xiàn)階段研究中股票市場預(yù)測主要是依靠三方面的信息:基本面信息、技術(shù)指標(biāo)信息以及網(wǎng)絡(luò)媒體信息?;久嫘畔⒅饕ü镜目傮w經(jīng)營情況、財(cái)務(wù)報(bào)告、管理能力以及宏觀經(jīng)濟(jì)一些指標(biāo)信息,Cheung等研究了隨時(shí)間變化公司規(guī)模與股票價(jià)格波動(dòng)之間的關(guān)系[7]。技術(shù)指標(biāo)信息主要是包括反應(yīng)當(dāng)天的交易情況數(shù)據(jù),例如每日的收盤價(jià)、最高價(jià)和最低價(jià)等等。越來越多的研究者使用歷史價(jià)格來預(yù)測未來的趨勢,前兩種信息是定量信息,獲取是相對來說比較容易的。技術(shù)的進(jìn)步使得信息交互的方式發(fā)生了變化,由單向傳播變成了雙向多元傳播,人們對股票相關(guān)信息的看法和態(tài)度擁有更多的表達(dá)渠道,社交媒體中用戶的廣泛參與導(dǎo)致網(wǎng)絡(luò)媒體信息的重要性越來越大[8]。因此行為金融學(xué)與計(jì)算機(jī)科學(xué)領(lǐng)域?qū)W科的學(xué)者開始探索網(wǎng)絡(luò)媒體信息對股票的影響,Li等提出了媒體感知量化交易框架,發(fā)現(xiàn)公共情緒會(huì)因公司的特征對股票走勢產(chǎn)生不同的影響[9]。Nguyen等提出一種基于方面的情感分析方法,通過大規(guī)模的實(shí)驗(yàn)研究了社交媒體對股票走勢的影響[10]。網(wǎng)絡(luò)媒體信息屬于定性信息,在研究過程中對于前兩類信息來說屬于互補(bǔ)信息。股票信息更新快速并且以“前所未有”的速度傳播著,對于投資者來說在正式統(tǒng)計(jì)報(bào)告出來之前獲取第一手信息尤為重要[11-13]。

為了研究多種來源信息的共同影響,金融學(xué)領(lǐng)域的學(xué)者開始應(yīng)用計(jì)量經(jīng)濟(jì)學(xué)分析模型[14],主要有線性回歸、邏輯回歸、向量自回歸(VAR)以及時(shí)間序列模型自回歸綜合移動(dòng)平均(ARIMA)。計(jì)算機(jī)科學(xué)領(lǐng)域的研究人員提供了更多可選擇的方法,主流的是機(jī)器學(xué)習(xí)的模型[15],可以找出股票走勢和信息來源之間的非線性關(guān)系,SVM和KNN是最初廣泛運(yùn)用的模型,可以預(yù)測未來的股票走勢及股票價(jià)格。深度學(xué)習(xí)的方法近年來開始被廣泛應(yīng)用到預(yù)測模型中,它可以彌補(bǔ)機(jī)器學(xué)習(xí)中一些缺點(diǎn),例如可以更好地處理時(shí)序化數(shù)據(jù),捕獲高度的非線性關(guān)系[16-17]。

根據(jù)以往的研究,越來越多的數(shù)據(jù)源被運(yùn)用到股票預(yù)測中,但對于股票話題數(shù)據(jù)情感的分析大多集中在情感詞典以及詞袋方法上,較少地運(yùn)用深度學(xué)習(xí)的算法;因此本文的投資者情緒將采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型,捕獲更深層次的情感特征。

為了更準(zhǔn)確地預(yù)測股票市場的變化,在此基礎(chǔ)上引入深度學(xué)習(xí)中的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)構(gòu)建股指漲跌預(yù)測模型,旨在將股票交易數(shù)據(jù)、技術(shù)指標(biāo)以及投資者情緒三種源數(shù)據(jù)結(jié)合起來,探究其對股票指數(shù)趨勢的共同影響。通過LSTM和其他基線方法的比較,驗(yàn)證多種數(shù)據(jù)源以及深度學(xué)習(xí)模型的有效性。

1 基于卷積神經(jīng)網(wǎng)絡(luò)的情感分析模型

1.1 卷積神經(jīng)網(wǎng)絡(luò)原理

卷積神經(jīng)網(wǎng)絡(luò)(CNN)屬于監(jiān)督學(xué)習(xí)中的深度學(xué)習(xí)算法,實(shí)驗(yàn)之前需要對數(shù)據(jù)進(jìn)行標(biāo)注,通過對打標(biāo)數(shù)據(jù)構(gòu)建語料庫,深度學(xué)習(xí)文本中的復(fù)雜特征,同時(shí)考慮語義之間的聯(lián)系。

假設(shè)需要對一些句子進(jìn)行分類,句子中每個(gè)詞是由n維詞向量組成的,也就是說輸入矩陣大小為m×n,其中m為句子長度。模型需要對輸入樣本進(jìn)行卷積操作,對于文本數(shù)據(jù),卷積核采用向下移動(dòng)的方式,提取詞與詞間的局部相關(guān)性,最終得到多個(gè)卷積后的向量。然后對每一個(gè)向量進(jìn)行最大化池化操作并拼接各個(gè)池化值,最終得到這個(gè)句子的特征表示,將這個(gè)句子向量輸入到分類器中進(jìn)行分類,至此完成整個(gè)流程。CNN情感分析模型結(jié)構(gòu)設(shè)計(jì)如圖1所示。

圖1 CNN情感分析模型結(jié)構(gòu)圖Fig.1 Structural figure of CNN emotion analysis model

以下具體介紹每一層的具體工作原理。

(1)嵌入層(Embedding Layer):通過將股吧評論進(jìn)行過濾和分詞操作后,句子表示為多個(gè)詞語的集合,因此需要將每個(gè)句子的長度對齊統(tǒng)一嵌入層的維度;在此之后通過word2vec訓(xùn)練進(jìn)行詞向量的表示,將編碼后的句子作為輸入層。

(2)卷積層(Convolution Layer):卷積層的作用是通過不同的卷積核從嵌入向量中提取多維的特征,在text-CNN中,卷積核的寬度的取值為3、4、5,每個(gè)尺寸卷積核的數(shù)量為256;可以通過卷積層從不同的角度分析句子,考慮了語義之間的關(guān)系,以獲取更全面更深層次的特征表達(dá)。在卷積層后加一個(gè)激活函數(shù),用于生成每個(gè)尺寸卷積核的特征遍歷。

(3)池化層(Pooling Layer):池化層中采用最大池化的方法,即抽取每個(gè)特征向量的最大值表示最重要的特征。當(dāng)對所有卷積層生成的特征向量進(jìn)行池化之后,還需要將每個(gè)特征值給拼接起來,合成一個(gè)長形特征向量。在池化層到全連接層之前可以加上dropout防止過擬合。

(4)全連接層(Fully connected layer):全連接層使用SoftMax激活函數(shù)可得到屬于每個(gè)類的概率,根據(jù)概率計(jì)算出情感值以及每日的消極與積極的分?jǐn)?shù)。在模型的評估方面,在分類問題中損失值常采用交叉熵?fù)p失函數(shù),除此之外,精準(zhǔn)率、召回率以及F1值也是本實(shí)驗(yàn)中的主要評價(jià)指標(biāo)。

1.2 情感分析流程

在情感分析的過程中,將獲取到的社交媒體文本進(jìn)行劃分,在原則上選取全部數(shù)據(jù)集的一部分進(jìn)行打標(biāo),為后續(xù)的模型訓(xùn)練做準(zhǔn)備??傮w的情感分析流程如圖2所示。

圖2 CNN情感分析流程圖Fig.2 CNN flow chart of emotion analysis

具體步驟如下:

(1)標(biāo)注數(shù)據(jù):由于CNN是一種監(jiān)督學(xué)習(xí)算法,因此需要對數(shù)據(jù)集進(jìn)行標(biāo)注,本文采取交叉打標(biāo)的方法,確保數(shù)據(jù)標(biāo)注的質(zhì)量;其中積極和中性的文本標(biāo)注為1,消極的文本標(biāo)注為0;打標(biāo)的數(shù)據(jù)集參與模型的訓(xùn)練過程,而另外一部分則為實(shí)例數(shù)據(jù)集。

(2)劃分訓(xùn)練集與測試集:將標(biāo)注好的數(shù)據(jù)集進(jìn)行訓(xùn)練集和測試集的劃分,并且分別將積極和消極的數(shù)據(jù)區(qū)分開來,按照命名規(guī)范統(tǒng)一存儲(chǔ)到一個(gè)文件夾內(nèi)。

(3)數(shù)據(jù)預(yù)處理:主要包含數(shù)據(jù)清洗,將不符合規(guī)范或空值的文本信息進(jìn)行處理,根據(jù)去停用詞的列表將無意義字符與標(biāo)點(diǎn)符號去除,之后使用jieba分詞對每條文本進(jìn)行分詞,為后續(xù)的詞向量轉(zhuǎn)換做準(zhǔn)備。

(4)生成詞向量:首先根據(jù)分詞結(jié)果統(tǒng)計(jì)訓(xùn)練集中所有的詞匯,生成vocab.txt,根據(jù)詞匯來構(gòu)建索引,并將每個(gè)單詞映射到0~M間的整數(shù)(M為詞匯大?。瑢⒚總€(gè)句子都成為整數(shù)向量,生成vec.txt。

(5)模型訓(xùn)練:首先定義模型訓(xùn)練前的一些參數(shù),包含句子長度(統(tǒng)一后)、輸出層的類別數(shù)(本文是兩類:積極和消極)、嵌入維度、濾波器的數(shù)量等等,定義之后梳理輸入層、卷積層、池化層以及輸出層的代碼,細(xì)節(jié)如上一節(jié)中的模型設(shè)計(jì)。根據(jù)定義好的模型進(jìn)行結(jié)果以及評估指標(biāo)的輸出,根據(jù)驗(yàn)證集的結(jié)果來保存最優(yōu)的參數(shù)。

(6)模型復(fù)用及測試:將測試集通過相同的數(shù)據(jù)預(yù)處理方式得到詞向量,根據(jù)訓(xùn)練過程中保存的參數(shù),進(jìn)行模型的加載與復(fù)用,最終對得到的結(jié)果進(jìn)行評估,結(jié)果可以再次優(yōu)化,重新訓(xùn)練,直到最終的效果最優(yōu)。

以上為CNN情感分析的流程,后續(xù)通過測試集得到最優(yōu)的結(jié)果之后可將其用于實(shí)例數(shù)據(jù)的情感極性結(jié)果的輸出,作為投資者情緒來源。本文設(shè)定了兩個(gè)參數(shù),作為投資者情緒的量化指標(biāo),在情感分析的研究中,如需給文本的情感賦值為積極與消極,大多是采用1和0的方式;本文的情感分析模型是卷積神經(jīng)網(wǎng)絡(luò)(CNN),是一個(gè)二分類模型,因此本文將積極情感賦值為1,消極情感賦值為0,這樣就可以得出定正向和負(fù)向的數(shù)量。首先需要統(tǒng)計(jì)當(dāng)日積極和消極的條數(shù)來去確定當(dāng)日股吧帖子條數(shù),以一天為一個(gè)單位為當(dāng)日內(nèi)情感極性為積極的帖子數(shù)量,為當(dāng)日內(nèi)情感極性為消極的帖子數(shù)量,numt為t天的股吧論壇帖子數(shù)量,見公式(1);另外本文將非交易日周六和周日的帖子數(shù)量總和放在周五,共同影響周一的股票市場。

投資者情緒參數(shù)是通過對每一條文本信息輸出情感極性之后,將根據(jù)對數(shù)平均值的方法來量化當(dāng)日股民的情緒值。由于規(guī)定積極的情感值輸出為1,消極的為0,最終是以對數(shù)函數(shù)為基礎(chǔ)來定義,可以得出持有某種傾向的投資者數(shù)量的多少,為senti t,計(jì)算方法見公式(2)。情感指標(biāo)值越大,說明偏向于積極情感的投資者數(shù)量越多。

2 基于LSTM的股票漲跌預(yù)測

2.1 長短期神經(jīng)網(wǎng)絡(luò)(LSTM)原理

長短記憶神經(jīng)網(wǎng)絡(luò)(通常稱作LSTM),是一種特殊的RNN,能夠?qū)W習(xí)更長的依賴關(guān)系。LSTM由Hochreiter和Schmidhuber[18]引入,并被許多人進(jìn)行了改進(jìn)和普及,現(xiàn)在被廣泛使用。

LSTM是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò),解決了RNN長期依賴中梯度消失和梯度爆炸的弊端,在時(shí)間序列數(shù)據(jù)的預(yù)測方面具有優(yōu)勢。LSTM的內(nèi)部空間的單元結(jié)構(gòu)如圖3所示。

圖3 LSTM模型單元結(jié)構(gòu)圖Fig.3 LSTM model unit structure diagram

模型中相較于RNN添加了輸入門、遺忘門和輸出門三種記憶細(xì)胞的狀態(tài),其中模型輸入的參數(shù)是h t-1和x t,分別代表上一個(gè)的隱藏層輸出狀態(tài)和t時(shí)刻的變量值,通過對輸入的參數(shù)對無用信息進(jìn)行處理,而同時(shí)更加注重有用信息,達(dá)到遺忘門的作用,給出式(3),參數(shù)為左側(cè)第一列中遺忘門的權(quán)重矩陣(w)與偏置項(xiàng)(b),同理,第二三列為輸入門,計(jì)算方法為式(4)和式(5),第四列的式(6)為輸出門以及單元狀態(tài)的權(quán)重矩陣與偏置項(xiàng):

步驟中的σ為sigmoid函數(shù),tanh為正切函數(shù),上述步驟計(jì)算完成之后,式(7)計(jì)算了t時(shí)刻的輸出狀態(tài)C t,是使用遺忘門和輸入門的參數(shù)f t、i t和C′t;最終在輸出門狀態(tài)下,式(8)使用正切函數(shù)計(jì)算t時(shí)刻的隱藏層輸出。

至此,一個(gè)LSTM層的計(jì)算完成,t時(shí)刻的輸出將被傳遞到下一個(gè)時(shí)刻進(jìn)行計(jì)算。

2.2 融合投資者情緒的股票漲跌預(yù)測

在本研究中,本文的預(yù)測模型的功能是捕獲多個(gè)信息來源與未來股價(jià)走勢之間的關(guān)系。本節(jié)將從股票市場的特點(diǎn)以及影響其變化的主要因素出發(fā),借助網(wǎng)絡(luò)媒體平臺,將股票交易數(shù)據(jù)、技術(shù)指標(biāo)以及投資者情緒特征整合起來,通過深度學(xué)習(xí)的方法構(gòu)建股票趨勢預(yù)測模型,探索它們對股票走勢的綜合影響。其中論壇文本數(shù)據(jù)采用卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行投資者情緒的挖掘,整合多維特征數(shù)據(jù),輸入LSTM模型進(jìn)行預(yù)測,最終輸出分類結(jié)果。后續(xù)將在此基礎(chǔ)上,選取4個(gè)在股票預(yù)測研究中常見的方法作為基線方法,與主體方法進(jìn)行對比實(shí)驗(yàn)。

將特征數(shù)據(jù)進(jìn)行預(yù)處理之后輸入LSTM模型進(jìn)行預(yù)測,最終輸出分類結(jié)果。整體預(yù)測框架圖如圖4所示。

圖4 融合投資者情緒的股票預(yù)測框架圖Fig.4 Block diagram of stock forecast incorporating investor sentiment

本文的主題是股票市場的漲跌預(yù)測,由于是時(shí)間序列預(yù)測,因此要考慮時(shí)間步長,不同的步長效果會(huì)有所不同;在預(yù)測模型的輸入中,可以從圖5流程圖中看出,左側(cè)是輸入前t天的股票特征數(shù)據(jù),其中包括股票每日交易數(shù)據(jù)、技術(shù)指標(biāo)以及投資者情緒,而右側(cè)則是輸出下一個(gè)交易的股票趨勢,分為上漲和下跌。

圖5 股票漲跌模型預(yù)測流程圖Fig.5 Stock rise and fall model prediction flow char

模型訓(xùn)練的過程中,采取交叉驗(yàn)證的方法,以此來減小損失,損失計(jì)算選擇均方誤差作為損失函數(shù),利用隨機(jī)梯度下降的方法更新權(quán)重。模型評估則是通過計(jì)算真實(shí)值和預(yù)測值的誤差來進(jìn)行比較,最后在驗(yàn)證集中驗(yàn)證模型的準(zhǔn)確率,選取最優(yōu)的模型進(jìn)行測試集結(jié)果的輸出。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 樣本選取與實(shí)驗(yàn)設(shè)置

交易數(shù)據(jù)以及技術(shù)指標(biāo)數(shù)據(jù):本文選擇上海股票主板市場的代表“上證50指數(shù)”(上海證券市場最具影響力的一批優(yōu)質(zhì)大盤企業(yè))作為研究對象。時(shí)間跨度為2017-03-20至2020-03-20。在選擇時(shí),選取接口中的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、漲跌額、漲跌幅、成交量以及成交額是最重要的變量,這應(yīng)該是投資者主要關(guān)注的因素;除以上變量外,還手動(dòng)構(gòu)建了5和10日的移動(dòng)平均線(MA)、指數(shù)移動(dòng)平均線(EMA)、變動(dòng)率指標(biāo)(ROC)、相對強(qiáng)弱指數(shù)(RSI)、能量潮(OBV)技術(shù)指標(biāo)等量化數(shù)據(jù)。

社交媒體文本數(shù)據(jù):根據(jù)股票指數(shù)數(shù)據(jù),從東方財(cái)富平臺的股吧論壇(http://guba.eastmoney.com)獲取社交媒體話題數(shù)據(jù),這一時(shí)間段的選取為2017年03月20日—2020年03月20日。為了自動(dòng)化抓取網(wǎng)絡(luò)媒體中的評論數(shù)據(jù),本文在PyCharm平臺基于Python編寫爬蟲程序。網(wǎng)絡(luò)爬蟲主要收集了包括浦發(fā)銀行(600000)、上海機(jī)場(600009)、民生銀行(600016)、中國石化(600028)、中信證券(600030)、三一重工(600031)等50只包含在“上證50指數(shù)”中股票的股吧評論,主要用于股票論壇語料庫的構(gòu)建,一共爬取到約240萬條評論。

3.2 模型驗(yàn)證與對比

3.2.1 數(shù)據(jù)預(yù)處理

(1)文本預(yù)處理

文本數(shù)據(jù)預(yù)處理包括查看重復(fù)評論數(shù)據(jù)、去除評論中出現(xiàn)的數(shù)字和英文字符、分詞、去除停用詞及詞性標(biāo)注。數(shù)據(jù)清洗:首先對爬取到的文本進(jìn)行清洗,刪除內(nèi)容或者時(shí)間缺失與異常的評論,通過對應(yīng)去停用詞將評論中的標(biāo)點(diǎn)符號以及無意義詞清洗掉。中文分詞與去停用詞:使用python的jieba分詞器完成分詞工作,并使用哈工大停用詞表,在分詞過程中直接去除停用詞;與此同時(shí),進(jìn)行詞性標(biāo)注。詞向量生成:通過word2vec訓(xùn)練出評論的詞向量,并統(tǒng)一詞序列的長度,作為模型的輸入。數(shù)據(jù)對應(yīng)關(guān)系:當(dāng)天15點(diǎn)之前的評論數(shù)據(jù)影響當(dāng)天的股票走勢,15點(diǎn)之后的影響下一天的股票走勢。

(2)標(biāo)準(zhǔn)化處理

由于每個(gè)特征屬于不同量綱,因此需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,使用的是Z-score方法,進(jìn)行特征縮放,保證處理后的數(shù)據(jù)符合正態(tài)分布。計(jì)算方法如式(9):

其中,μ為樣本均值,σ為樣本標(biāo)準(zhǔn)差,x為樣本數(shù)據(jù)本身。

將整體的數(shù)據(jù)集按照8∶2的比例劃分訓(xùn)練集與測試集,再從訓(xùn)練集中挑選10%的數(shù)據(jù)作為驗(yàn)證集。在訓(xùn)練過程中,采取每次40條交易數(shù)據(jù)的批量,總迭代次數(shù)為500次,時(shí)間窗的跨度為5~14天,選擇不同的時(shí)間窗做對比實(shí)驗(yàn)。

3.2.2 模型驗(yàn)證及結(jié)果分析

根據(jù)設(shè)置好的具體參數(shù),將數(shù)據(jù)輸入LSTM漲跌預(yù)測模型進(jìn)行結(jié)果的輸出。在此基礎(chǔ)上,實(shí)驗(yàn)選取機(jī)器學(xué)習(xí)中分類預(yù)測表現(xiàn)比較出色的隨機(jī)森林(RF),K最近鄰(KNN),樸素貝葉斯(NB)以及支持向量機(jī)(SVM)這四種基線方法進(jìn)行對比,通過改變時(shí)間窗的大小,分別研究方法以及時(shí)間窗對預(yù)測模型的影響。

首先是針對本文所提出的模型的分析,LSTM模型的預(yù)測效果如圖6所示,圖中為測試集的146條數(shù)據(jù)的預(yù)測結(jié)果,可以看出股票漲跌的趨勢基本是一致,當(dāng)股價(jià)變化比較小時(shí),預(yù)測得比較準(zhǔn)確,但是在100~140這個(gè)區(qū)間可以看出當(dāng)股價(jià)變化較大的時(shí)候,真實(shí)值與預(yù)測值之間的誤差變大,準(zhǔn)確率會(huì)有所下降。一個(gè)方面是因?yàn)樵谶@段期間,“上證50指數(shù)”每日的收盤價(jià)、開盤價(jià)等交易數(shù)據(jù)變化較大,導(dǎo)致以此為基礎(chǔ)構(gòu)建的技術(shù)指標(biāo)的變化也相對較大,多個(gè)指標(biāo)的不確定性增加,因此導(dǎo)致了預(yù)測的偏差較大;另外一個(gè)方面是由于當(dāng)時(shí)的大環(huán)境處于新冠肺炎疫情期間,大多數(shù)股民的情感偏向與消極,因此情感指標(biāo)的不確定性再次導(dǎo)致預(yù)測的誤差偏大。雖然指標(biāo)的不確定性導(dǎo)致預(yù)測值與真實(shí)值的偏差較大,但是總體看來,模型在此期間的漲跌趨勢預(yù)測是準(zhǔn)確的,具有一定的指導(dǎo)意義。

圖6 模型預(yù)測結(jié)果Fig.6 Model prediction results

其次是與基線方法的比較,圖7為五種方法的預(yù)測準(zhǔn)確率對比圖。從圖中可以看出,根據(jù)不同方法的對比,雖然隨著時(shí)間窗的增加,LSTM模型從整體上看準(zhǔn)確率基本高于其他方法,呈上升的趨勢,但是增長幅度比較小,說明了在LSTM模型中交易信息的長期與短期數(shù)據(jù)對股市的影響基本沒有太大變化。

圖7 預(yù)測模型準(zhǔn)確率對比圖Fig.7 Comparison of prediction model accuracy

從圖7中可以看出,隨著時(shí)間窗的增加,基線方法的準(zhǔn)確率呈逐步增長的跡象,說明了時(shí)間窗越大,模型學(xué)習(xí)到的信息越多,預(yù)測效果越好;但是從12天到14天的變化中可以看出,大部分算法的準(zhǔn)確率呈下降趨勢,說明時(shí)間窗的設(shè)置并不是越長越好。

從總體上可以看出,在預(yù)測下一個(gè)交易日的漲跌方面,LSTM方法的準(zhǔn)確率在這幾種方法中表現(xiàn)最好,并且時(shí)間窗在一定范圍內(nèi)的改變下,準(zhǔn)確率的波動(dòng)比較小,整體上都高于其他的基線方法,表現(xiàn)出了其在處理時(shí)間序列數(shù)據(jù)的優(yōu)越性;在基線方法中,SVM方法的準(zhǔn)確率在5~9天的范圍內(nèi)隨時(shí)間窗變化的波動(dòng)變化比較大,之后呈現(xiàn)上升的趨勢;其中隨機(jī)森林(RF)的表現(xiàn)最好,其次是KNN、NB、SVM方法。

上面的實(shí)驗(yàn)基本驗(yàn)證了模型的有效性,接下來在模型的輸入變量上,本文尋求了更多的可能性。通過手動(dòng)構(gòu)造技術(shù)指標(biāo)以及投資者情緒來衡量其對股票市場的影響,對實(shí)驗(yàn)做進(jìn)一步的改進(jìn),形成更加多樣的對比實(shí)驗(yàn),從而使本文的結(jié)論更加豐富。

3.3 對比實(shí)驗(yàn)一:添加技術(shù)指標(biāo)

上述實(shí)驗(yàn)中,本文考慮了接口中固定的幾個(gè)指標(biāo),因此在特征工程方面,嘗試構(gòu)造更多的技術(shù)指標(biāo)來探究對股票市場的影響;技術(shù)指標(biāo)都是由交易數(shù)據(jù)計(jì)算得出的,本文在技術(shù)指標(biāo)的選取一方面是考慮到中國股市的交易周期是一周五天,構(gòu)建了5日和10日的移動(dòng)平均線(MA),另外由于漲跌預(yù)測是一個(gè)趨勢預(yù)測,為了更好地觀察股票價(jià)格的變化,還構(gòu)建了指數(shù)移動(dòng)平均線(EMA)、RSI指標(biāo)(相對強(qiáng)弱指數(shù):某一個(gè)期間內(nèi)股價(jià)上漲總幅度占股價(jià)變化總幅度平均值的百分比),另外就是能量潮O(jiān)BV(統(tǒng)計(jì)成交量變化的趨勢)和ROC(變動(dòng)率)這幾個(gè)指標(biāo),旨在通過添加特征來提高準(zhǔn)確率。在本次實(shí)驗(yàn)中,選取時(shí)間窗中的第11天(該參數(shù)下各個(gè)算法的準(zhǔn)確率比較穩(wěn)定),調(diào)整不同的算法進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

表1 添加技術(shù)指標(biāo)后的準(zhǔn)確率Table 1 Accuracy after adding technical indicators

從表中可以看出,添加技術(shù)指標(biāo)之后,各個(gè)算法的準(zhǔn)確率都有不同程度的增加,股票市場預(yù)測模型的預(yù)測效果有所提升,說明本文構(gòu)造的技術(shù)指標(biāo)對于股票市場也是有一定影響的。

后期通過PCA方法對添加的技術(shù)指標(biāo)進(jìn)行指標(biāo)排序,排名靠前的是漲跌點(diǎn)、成交額、指數(shù)移動(dòng)平均線、變動(dòng)率,說明這些特征對股市的影響更加突出。

3.4 對比實(shí)驗(yàn)二:添加投資者情緒

通過訓(xùn)練CNN情感分類模型,對上證50中的50支股票約240萬條評論進(jìn)行情感值的輸出。由并將每日的15點(diǎn)作為節(jié)點(diǎn),按照日期匯總每日情感值;由于非交易日也有部分評論,考慮到周六周日的評論會(huì)影響周一的股票市場,故將其歸結(jié)到周五的評論中,共同影響周一的股市。最終結(jié)果的輸出為看漲與看跌,對應(yīng)股民積極和消極的情感傾向。實(shí)驗(yàn)最后輸出第一個(gè)情緒特征(藍(lán)線)與收盤價(jià)(紅線)進(jìn)行Z-score標(biāo)準(zhǔn)化之后基本變化如圖8所示。

圖8 每日收盤價(jià)與每日情緒趨勢Fig.8 Daily closing price and daily mood trend

從圖中可以看出,相對于股價(jià)的變化來說,股民每日的情感值變化波動(dòng)較大,間接說明了股價(jià)牽動(dòng)著萬千股民的心。

整個(gè)時(shí)間的跨度為2017-03-20到2020-03-20,從整體上觀察可以看出在2017年到2018年6月份之間和2019年到2020年3月份之間兩個(gè)特征的趨勢基本一致,股價(jià)上漲,股民的情感呈現(xiàn)上升的趨勢,上升的程度較?。坏枪蓛r(jià)一旦下跌,股民的情感會(huì)很敏感,負(fù)向情感比較明顯,與前一天產(chǎn)生比較大的落差,聯(lián)想實(shí)際可以看出股民對于股價(jià)下跌的接受程度比較小。比較反常的是2018年6月份到2019年初,這段期間股價(jià)在3年之內(nèi)屬于最低的一部分,股民情緒前后落差較大,但是股民的情感在股價(jià)下跌的過程中整體呈現(xiàn)上升的趨勢,預(yù)估是股民們覺得股價(jià)應(yīng)該不會(huì)跌到如此程度,抱著看漲的心態(tài),但是好景不長上升一段時(shí)間后開始急速下降,之后股價(jià)的一點(diǎn)點(diǎn)上升都會(huì)引起情感值大幅度的上升,間接體現(xiàn)了當(dāng)股市處于低迷時(shí),股民的情緒比平常更加不穩(wěn)定。

通過將每日的兩個(gè)情感特征輸入到前一個(gè)階段的股票預(yù)測模型中,實(shí)驗(yàn)結(jié)果如圖9所示:綠色線為添加投資者情緒之后的準(zhǔn)確率結(jié)果??梢詮膱D中看出:添加投資者情緒之后,各個(gè)算法準(zhǔn)確率都增加了。

圖9 添加投資者情緒后的準(zhǔn)確率Fig.9 Accuracy of adding investor sentiment

實(shí)驗(yàn)結(jié)果顯示上文中通過CNN情感分析得到的股民情緒雖然起伏比較大,但是一定程度上反映在了股票市場的決策方面,投資者情緒變量對預(yù)測股票市場漲跌有一定的作用,驗(yàn)證了本文的研究目的,可以在一定程度上輔助相關(guān)利益者及時(shí)做出決策。

4 結(jié)束語

本文首先提出了卷積神經(jīng)網(wǎng)絡(luò)模型,提取深度情感特征,構(gòu)建了股票市場中的投資者情緒特征;引入深度學(xué)習(xí)中的LSTM,建立了一種股票指數(shù)漲跌預(yù)測模型,定量研究了交易數(shù)據(jù)、技術(shù)指標(biāo)以及投資者情緒三種源數(shù)據(jù)對股票市場漲跌的影響。通過對上證50指數(shù)近三年數(shù)據(jù)的實(shí)證研究,與單一數(shù)據(jù)源和基線方法相比,融合投資者情緒的LSTM模型預(yù)測效果更佳,擬合程度更高;證明股票市場對于公眾的情緒是相對敏感的,模型可以為相關(guān)利益者輔助決策。目前存在的問題是未考慮投資者的社交關(guān)系,后期可以考慮增加社交節(jié)點(diǎn)權(quán)重來豐富模型的輸入,進(jìn)而提升模型的性能。

猜你喜歡
準(zhǔn)確率卷積情緒
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
小情緒
小情緒
小情緒
灵台县| 武清区| 承德市| 集安市| 望江县| 牟定县| 兴业县| 尉氏县| 平陆县| 许昌市| 务川| 来安县| 民县| 勐海县| 靖州| 新干县| 涟水县| 五河县| 尤溪县| 阳东县| 青岛市| 中牟县| 河津市| 达尔| 正定县| 麟游县| 开封县| 隆子县| 湘潭市| 长阳| 乳山市| 灵丘县| 尼木县| 彰武县| 三穗县| 岳西县| 抚远县| 博罗县| 宁乡县| 盐边县| 腾冲县|