国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合文本情感、主題、社交特征和深度學(xué)習(xí)的股價(jià)預(yù)測(cè)方法

2020-01-04 07:08陳媛先
管理學(xué)家 2020年19期

陳媛先

[摘 要] 文章旨在提出一種結(jié)合文本數(shù)據(jù)情感值、文本主題、社交數(shù)據(jù),并基于深度學(xué)習(xí)算法LSTM模型(Long-Short Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))的股價(jià)預(yù)測(cè)方法。文章通過(guò)將情感測(cè)量值豐富到6種,特別是測(cè)量了情感分歧值(情感值標(biāo)準(zhǔn)差),為情感參與股價(jià)預(yù)測(cè)提供了新的特征值。同時(shí),將社交數(shù)據(jù)(文本的閱讀數(shù)、點(diǎn)贊數(shù))納入模型中,考慮到了社交影響因素。在此基礎(chǔ)上,文章將文本的主題因素納入股價(jià)預(yù)測(cè)中,最終形成情感、主題、社交相結(jié)合的豐富文本特征集。基于OLS回歸,首先驗(yàn)證了情感、主題、社交等特征和股價(jià)的相關(guān)性,然后,使用LSTM算法對(duì)特征與預(yù)測(cè)值進(jìn)行了模型訓(xùn)練,最后基于訓(xùn)練好的模型對(duì)樣本進(jìn)行了回測(cè)。從回測(cè)結(jié)果看,增加了情感和主題后,模型具有良好的預(yù)測(cè)能力,對(duì)下一天收盤價(jià)的預(yù)測(cè)誤差控制在0.5元以內(nèi)。

[關(guān)鍵詞] 文本情感;文本主題;LSTM;社交特征;股價(jià)預(yù)測(cè)

中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A

使用文本信息進(jìn)行股票走勢(shì)預(yù)測(cè)的研究越來(lái)越常見,在使用到的文本信息中,個(gè)股新聞和財(cái)報(bào)(徐偉, 李韻喆. 2015; 張夢(mèng)吉, 杜婉鈺, 鄭楠. 2019; 楊陽(yáng). 2015)是比較常用到的一種文本信息[1-3]。此外,社交文本也成為重要的分析信息來(lái)源,比如,微博文本(朱夢(mèng)珺, 蔣洪迅, 許偉. 2016; 張棟凱, 齊佳音. 2015)[4-5]。

在使用文本信息進(jìn)行股價(jià)預(yù)測(cè)的時(shí)候,主要的分析方向有甄別市場(chǎng)情緒、分析主題、分析文本的傳播效果等。大部分的研究通過(guò)其中1種或者2種方向來(lái)對(duì)股市做分析和預(yù)測(cè)。其中,情感、情緒結(jié)合股價(jià)分析是最常見的一種文本信息挖掘和使用的思路。盡管當(dāng)前已經(jīng)有不少研究成果,但是,我們認(rèn)為當(dāng)前的研究仍然存在不足,在本文中,我們將提出一種更深度利用文本信息預(yù)測(cè)股價(jià)的方式。

我們認(rèn)為,現(xiàn)有結(jié)合情感、主題的預(yù)測(cè)方法主要不足在于:1、情感值參與預(yù)測(cè)時(shí)候僅考慮情感方向、情感強(qiáng)度,沒有體現(xiàn)情感的波動(dòng)。而在同一個(gè)文本中(如一個(gè)討論特定話題的帖子),參與者不同,情感有差異,這種差異在傳統(tǒng)的情感使用中被抹殺了,只考慮整體的情感方向和數(shù)值,本文增加考慮同一個(gè)文本中,不同情感表達(dá)的差異性,以正向方差、負(fù)向方差的方式進(jìn)行體現(xiàn)。2、當(dāng)前情感和主題參與預(yù)測(cè)時(shí)候,不考慮社交因素,本文將文本獲得的關(guān)注度或者影響面加入了考慮,以文本被閱讀、被點(diǎn)贊的數(shù)據(jù)參加模型預(yù)測(cè)。3、LDA和情感結(jié)合使用的時(shí)候,目前技術(shù)主要是使用LDA來(lái)提升對(duì)情感分類的準(zhǔn)確性,在本文中,我們將情感和主題都當(dāng)作獨(dú)立的特征值,參與到LSTM算法模型的預(yù)測(cè)中。4、當(dāng)前技術(shù)在結(jié)合情感進(jìn)行股價(jià)預(yù)測(cè)的時(shí)候,主要使用SVM等傳統(tǒng)分類方法進(jìn)行,本文在算法選擇上主要選擇LSTM算法。

在文章中,我們將針對(duì)如上提到的不足進(jìn)行優(yōu)化,主要?jiǎng)?chuàng)新在于,第一、豐富了情感的測(cè)量。在納入到股價(jià)預(yù)測(cè)中的情感指標(biāo)中,不僅僅考慮了情感值的正負(fù)向、情感值的大小,還考慮了情感的波動(dòng)(每個(gè)討論的情感波動(dòng),包括正向情感標(biāo)準(zhǔn)差,負(fù)向情感標(biāo)準(zhǔn)差);第二、考慮了社交特征,將文本的閱讀數(shù)、點(diǎn)贊數(shù)加入到預(yù)測(cè)模型中,將文本的影響面考慮到,并納入估計(jì)預(yù)測(cè)模型中;第三、對(duì)股吧本文信息進(jìn)行了主題挖掘,將發(fā)現(xiàn)的主題以新的特征加入到預(yù)測(cè)模型中。

我們的重要發(fā)現(xiàn)包括:基于OLS回歸,我們發(fā)現(xiàn):情感值的多少(評(píng)論內(nèi)容)和價(jià)格、交易量、交易金額不相關(guān)。相對(duì)來(lái)說(shuō),當(dāng)天積極方向的情感平均值意味著10天后股價(jià)的下降。 積極方向的情感值標(biāo)準(zhǔn)差往往意味著股價(jià)在未來(lái)的上漲。而消極方向的情感值得標(biāo)準(zhǔn)差往往意味著股價(jià)在5-10天會(huì)下降。消極情感標(biāo)準(zhǔn)差值還和未來(lái)10天內(nèi)的成交股數(shù)、成交金額負(fù)相關(guān)。社交帖子瀏覽數(shù)(Read)和未來(lái)成交股數(shù)、成交金額呈現(xiàn)顯著正相關(guān)關(guān)系,而和未來(lái)股票價(jià)格存在顯著負(fù)相關(guān)關(guān)系,意味著投資者多瀏覽帖子和后續(xù)的交易選擇存在相關(guān)性,更大的可能性是在在決定是否買入的環(huán)節(jié)多瀏覽帖子會(huì)促進(jìn)購(gòu)買,而在出售環(huán)節(jié),如果多參考網(wǎng)友意見,也會(huì)加快出售。即,投資者在買入新股和售出股票環(huán)節(jié),都會(huì)受到網(wǎng)友的影響。而主題4和主題5的匹配會(huì)促進(jìn)成交股數(shù)和成交金額,但是,和股價(jià)的顯著下降也相關(guān),因此,可以看到主題4和主題5的匹配主要影響股票出售策略。即,討論如果圍繞實(shí)業(yè)經(jīng)營(yíng)、產(chǎn)業(yè)周期等,意味著未來(lái)交易放量、成交活躍相關(guān)但是股價(jià)下降。主題1促進(jìn)促進(jìn)成交股數(shù)、交易金額和股價(jià)同步下降,即,交易萎縮、價(jià)格下降。主題3和收盤價(jià)上漲相關(guān)。主題2主要和未來(lái)10天的開盤價(jià)下跌有關(guān)。而在我們挖掘的股吧內(nèi)容中,主題4和主題5主要涉及實(shí)業(yè)經(jīng)營(yíng)、產(chǎn)業(yè)更相關(guān),而主題1、主題2和主題3主要和股票的技術(shù)走勢(shì)相關(guān)。

在OLS驗(yàn)證了特征與未來(lái)股票交易存在相關(guān)性后,我們將特征引入到深度學(xué)習(xí)中,使用LSTM算法,對(duì)特征進(jìn)行學(xué)習(xí),訓(xùn)練合適的模型。我們發(fā)現(xiàn),在LSTM預(yù)測(cè)股價(jià)的模型中引入情感、主題特征后,不管是在預(yù)測(cè)短期1天的股價(jià),還是相對(duì)更長(zhǎng)時(shí)間,比如10天的股價(jià)方面,模型的預(yù)測(cè)精準(zhǔn)度都顯著提高,這有效證明豐富的情感特征、文本主題特征對(duì)股價(jià)預(yù)測(cè)具有有效的作用。

一、文獻(xiàn)綜述

情緒結(jié)合股價(jià)進(jìn)行分析和預(yù)測(cè)的方法已成為一種重要的股票分析方法。常見的分析思路如:分析投資者情緒和回報(bào)率之間的關(guān)系(Baker M , Wurgler J. 2004;Wurgler J A , Baker M P. 2006;Gregory, W, Brown,et la. 2004. Sun L , Zhang L . 2017)[6-10]。隨著自然語(yǔ)言處理技術(shù)(NLP)的發(fā)展,國(guó)內(nèi)學(xué)者在這個(gè)領(lǐng)域的研究也在快速推進(jìn)當(dāng)中,利用金融文本進(jìn)行情感和股價(jià)關(guān)聯(lián)分析的文章近些年也開始增多(王鴻睿, 朱青. 2010; 馬馳宇2016) [11-12] 。

在文本和股價(jià)的研究中,投資者情緒的分析是一種常見的文本分析思路。一般來(lái)說(shuō),用于挖掘的文本有三類:第一類是泛文本數(shù)據(jù),如微博論壇的社交評(píng)論文本數(shù)據(jù)。第二類是財(cái)經(jīng)相關(guān)社交評(píng)論文本數(shù)據(jù),如股吧文本數(shù)據(jù)。孟志青, 鄭國(guó)杰, 趙韻雯(2018)采用東方財(cái)富股吧文本進(jìn)行研究。他們結(jié)合詞典,分析投資者情緒,然后基于AKMA-GARCH方法進(jìn)行個(gè)股收益率預(yù)測(cè),發(fā)現(xiàn)情緒對(duì)收益有短期影響,而收益率對(duì)情緒具有長(zhǎng)期影響[13]。第三類是財(cái)報(bào)類數(shù)據(jù),這是最正式的一種文本數(shù)據(jù)。孫伯維(2020)就通過(guò)挖掘年報(bào)文本,提煉相關(guān)特征用于進(jìn)行股價(jià)預(yù)測(cè)[14]。

文本主題是通過(guò)構(gòu)建文檔、主題、詞語(yǔ)三級(jí)概率分布的模式來(lái)對(duì)文本進(jìn)行描述,這種方法已經(jīng)廣泛應(yīng)用到金融分析中。徐翔, 靳菁, 呂偉欣(2018)基于LDA的方法來(lái)挖掘網(wǎng)絡(luò)輿情,并且將分析到的網(wǎng)絡(luò)輿情作為社會(huì)的傳感器,用于預(yù)測(cè)股指走向(漲跌)。在他們的分析中,使用了支持向量機(jī)(SVM)的方法進(jìn)行分類。該篇文章主要是單獨(dú)使用主題分析方法來(lái)預(yù)測(cè)股市的研究[15]。涂帥(2018)在他的博士論文中將網(wǎng)絡(luò)輿情和股票信息進(jìn)行量化結(jié)合,構(gòu)建了股票價(jià)格變化率的預(yù)測(cè)模型,這是利用文本信息進(jìn)行股票價(jià)格預(yù)測(cè)的嘗試。主題分析的思路除了在股票應(yīng)用外,在其他領(lǐng)域的研究也開始有所研究,證明這種分析方法的廣泛可行性[16]?;漩?019)在她的博士論文中,使用LDA主題模型的方法分析患者情感。她使用的文本信息主要來(lái)自患者留言本,在對(duì)文本信息做出情感極性分析的基礎(chǔ)上,進(jìn)行主題分析。在她的方法中,結(jié)合了LSTM的機(jī)器學(xué)習(xí)方法[17]。

在投資者情緒分析方面,情感結(jié)合文本主題的方法逐漸得到大家的認(rèn)可。何永繼(2016)在他的博士論文中研究了基于文本信息進(jìn)行股票預(yù)測(cè)的方法。他基于微博內(nèi)容,對(duì)財(cái)經(jīng)類微博用戶的情感進(jìn)行分析,同時(shí)結(jié)合關(guān)鍵詞和主題分析方法,構(gòu)建股票的預(yù)測(cè)方法[18]。延豐,杜騰飛, 毛建華(2017)提出了基于情感詞典和主題預(yù)測(cè)股價(jià)的方法。在他們的方法中,使用了情感詞典來(lái)分析文本情感,包括情感的傾向、程度和相關(guān)度。在方法上,他們主要采用基于機(jī)器學(xué)習(xí)的算法,包括SVM和K-mean算法。同時(shí),他們對(duì)文本計(jì)算了主題概率分布,最后通過(guò)結(jié)合情感+主題的方法來(lái)預(yù)測(cè)股市[19]。

LSTM(Long Short Term Memory networks)是深度學(xué)習(xí)的一種算法,在處理時(shí)序性數(shù)據(jù)上獨(dú)具優(yōu)勢(shì)。LSTM的優(yōu)勢(shì)在于在它的算法中通過(guò)sigmoid函數(shù)對(duì)信息進(jìn)行了特殊的控制,即“門”的機(jī)制。在LSTM算法中,一共有三種特殊的控制“門”,分別為:遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)。其中,遺忘門決定在運(yùn)算中拋棄哪些信息;輸入門用于決定保存的信息,而輸出門決定輸出的隱函數(shù)。

LSTM原理如下圖1:

如圖1所示,LSTM算法最上層C線用于控制信息的增刪,它是一個(gè)核心。模型中涉及到的參數(shù)如下:

h:神經(jīng)元細(xì)胞的計(jì)算結(jié)果

X:輸入向量

C:細(xì)胞狀態(tài)

H:神經(jīng)原細(xì)胞輸出的隱向量

f:遺忘門

i:門

o:輸出門

LDA(Latent Dirichlet Allocation)是機(jī)器學(xué)習(xí)領(lǐng)域重要的算法模型。Blei, David M.、Ng, Andrew Y.、Jordan, et al. (2012)提出LDA的文本分析方法后[6],該方法迅速成為重要的文本分析方法,結(jié)合經(jīng)濟(jì)的很多相關(guān)分析也開始嘗試使用該方法進(jìn)行使用。

LDA分類的對(duì)象是文本-詞-主題,通過(guò)LDA的算法,可以對(duì)海量文本構(gòu)建文本-主題-詞的概率分布,示意圖如圖2:

如圖2所示,在計(jì)算文本-主題-詞概率分布的時(shí)候,有兩個(gè)基本的步驟,從α到θ的過(guò)程為構(gòu)建文檔-主題的概率過(guò)程(Z,其中m和n分別代表文檔編號(hào)和主題編號(hào)),得到p(topic|doc)。而β到Ψ為構(gòu)建主題-詞的過(guò)程(w),得到詞匯信息,得到p(word|topic)。通過(guò)不斷迭代、收斂,可以得到最優(yōu)的θ和Ψ組合。計(jì)算公式如下:

二、理論構(gòu)建和技術(shù)處理

盡管有文章已經(jīng)嘗試通過(guò)情感和主題的方法來(lái)進(jìn)行股價(jià)預(yù)測(cè),但是普遍有不足在于:

首先,在情感上沒有測(cè)量上,普遍測(cè)量的情感值只包括情感方向(正向、反向),部分研究考慮了情感的極性(比如,-7代表極強(qiáng)的負(fù)向情感,0代表中性,而+7代表極強(qiáng)的正向情感)。但是,我們認(rèn)為情感的波動(dòng)率體現(xiàn)了大眾對(duì)特定事情的看法差異性,這種差異性如果沒有納入到考慮中,而只是采用一種平均的方向或者強(qiáng)度來(lái)替代,可能會(huì)抹殺意見分歧帶來(lái)的未來(lái)變動(dòng)可能。此外,分析的文本也大部分是基于微博等大眾社交平臺(tái),而不是專業(yè)的股票社交平臺(tái)文本。

此外,在情感值得計(jì)算上,一般按天將所有內(nèi)容進(jìn)行合并,然后得到得是一個(gè)綜合的,并不考慮每個(gè)具體內(nèi)容對(duì)應(yīng)的社交影響力。我們認(rèn)為,如果拋棄了社交信息建模,實(shí)際是漏掉了關(guān)鍵的信息,可能會(huì)導(dǎo)致模型誤差更大,因?yàn)榧词?個(gè)文本情感值一樣,但是觀看和點(diǎn)贊的人數(shù)不一樣,代表這2個(gè)文本塊的社會(huì)影響力是存在差異的,這種差異性如果不考慮,就會(huì)可能出現(xiàn)中重要特征的遺漏。

基于此,我們想構(gòu)建一個(gè)完整的基于文本情感、主題、社交的股票預(yù)測(cè)模型,并且采用LSTM的方法來(lái)進(jìn)行計(jì)算和預(yù)測(cè)。在構(gòu)建模型前,我們需要考慮的問題有:

問題一,股吧文本很多,如何處理不同的文本,合并還是單個(gè)帖子處理?在同一個(gè)社交帖子中,不同的人針對(duì)同一個(gè)帖子的討論主題可能具有不同的情感傾向,集合起來(lái),一個(gè)帖子里面,整體的情感波動(dòng)如何測(cè)量?哪些情感特征對(duì)股價(jià)具有預(yù)測(cè)意義?

問題二,在不同的社交文本中,即使情感值是類似的,但是文本指向的主題不同,可能對(duì)股價(jià)影響的權(quán)重是有差異的。比如,一個(gè)文本涉及的是公司財(cái)務(wù)做假,一個(gè)涉及的是公司銷售客服質(zhì)量,兩個(gè)即使情感相似,但是因?yàn)橹黝}差異很大,在影響股價(jià)方面可能是有差異的。因此,如何將文本涉及的主題結(jié)合到股價(jià)預(yù)測(cè)中?

問題三,文本在社交方面的實(shí)際覆蓋程度,可能會(huì)導(dǎo)致在同樣情感和主題下,文本對(duì)股價(jià)的預(yù)測(cè)能力有差異。比如,一段文本只有1個(gè)人觀看,另一段文本可能有100個(gè)人觀看,那么即使這兩個(gè)文本的情感值和涉及到的主題一樣,那么對(duì)股價(jià)的預(yù)測(cè)影響也是不一樣的。如何將這種差異性考慮到股價(jià)預(yù)測(cè)模型中?

問題四,采用何種機(jī)器學(xué)習(xí)的算法進(jìn)行預(yù)測(cè)?因?yàn)楣善钡膬r(jià)格具有一定的時(shí)序性質(zhì),因此,考慮時(shí)序性的算法可能會(huì)更具有優(yōu)勢(shì)。

實(shí)際上,在情感處理上,我們將同一個(gè)討論主題下的所有文本內(nèi)容進(jìn)行匯總,然后基于自有的情感詞典進(jìn)行情感測(cè)量。在我們的情感詞典結(jié)構(gòu)如下圖4所示:

積極詞匯如好、美、不錯(cuò)等,而消極詞匯為糟糕、郁悶等。否定詞如:不,非、無(wú)、勿等。程度詞為極端、非常、特別、絕對(duì)等表達(dá)程度的詞匯。在計(jì)算帖子情感詞邏輯中,我們的處理邏輯如下圖4所示:

通過(guò)如上處理,我們可以在文字中得到積極情感詞和消極情感詞的數(shù)字序列,將序列進(jìn)行計(jì)算,得到加總值(Pos,Neg)、平均值(AvePos,AveNeg)和標(biāo)準(zhǔn)差(StdPos,StdNeg)。

在文本主題處理上,我們做了取舍,只考慮前5個(gè)主題和前10個(gè)詞語(yǔ)。即,將所有文本中(單個(gè)帖子的匯總文字)涉及到得最重要得主題進(jìn)行挖掘,得到文本的主題和每個(gè)主題下的重要詞語(yǔ)。

在社交特征方面,我們將帖子對(duì)應(yīng)的的點(diǎn)贊、閱讀數(shù)據(jù)作為單獨(dú)的字段加入預(yù)測(cè)模型的特征值序列中。

在模型算法上,我們選擇LSMT(Long-Short Term Memory)作為支撐算法。LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò)),是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM通過(guò)輸入門、遺忘門、輸出門的設(shè)置,在處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件方面具有獨(dú)特的優(yōu)勢(shì)??紤]到涉及不同情感和不同主題的討論文本在真實(shí)的環(huán)境中可能延續(xù)不同的時(shí)間,LSTM是一個(gè)比較好的選擇。最終完整的預(yù)測(cè)流程如下圖5:

三、實(shí)證分析

(一)數(shù)據(jù)和處理過(guò)程

我們從tushare拉取了東方雨虹(股票代碼為:002271)歷史股價(jià)數(shù)據(jù),數(shù)據(jù)格式為天, 數(shù)據(jù)字段包括時(shí)間(天)、開盤價(jià)(open)、收盤價(jià)(close)、最高價(jià)(high)、最低價(jià)(low)、股價(jià)變動(dòng)(change)、股價(jià)漲跌幅(pct_change)、前一天收盤價(jià)(pre_ close)、成交手?jǐn)?shù)(vol)、成交量(amount)。

我們的文本數(shù)據(jù)來(lái)自某股吧論壇。我們爬取了東方雨虹(股票代碼為:002271)股吧的討論帖子,一共9076多個(gè)帖子。爬取關(guān)于東方雨虹股票歷年社交評(píng)論的文本數(shù)據(jù),包括:文本內(nèi)容、對(duì)應(yīng)社交文本當(dāng)前最新的閱讀數(shù)量、被點(diǎn)贊數(shù)量,每類數(shù)據(jù)為1列,分別設(shè)置字段為Text、Read、UP_vote。每個(gè)文本數(shù)據(jù)賦予獨(dú)立ID,ID按照時(shí)間(天)順序,從1開始編號(hào),為1,2,….,依次編號(hào)。

我們首先對(duì)文本數(shù)據(jù)(帖子內(nèi)容)進(jìn)行處理,處理過(guò)程為:分詞(結(jié)巴工具)、進(jìn)行主題分析(基于LDA,分析的參數(shù)設(shè)置為:主題5個(gè),每個(gè)主題10個(gè)詞語(yǔ)),得到前5個(gè)主題和對(duì)應(yīng)詞,如下:

主題1對(duì)應(yīng)詞匯:”大宗”“解禁”“拋出”“吸回”“誘多”“下車”“崩盤”。

主題2對(duì)應(yīng)詞匯:“見底”“腰斬”“老股民”“納斯達(dá)克”“領(lǐng)先”“不同”“相似”“意味著“。

主題3對(duì)應(yīng)詞匯:“飛天”“下車”“邏輯”“倉(cāng)位”“崩盤”“一半”“后市”“前天”“優(yōu)秀“。

主題4對(duì)應(yīng)詞匯:“科技”“5g”“產(chǎn)業(yè)”“周期”“中長(zhǎng)期”“進(jìn)軍”“世界”“資本”“安全”“現(xiàn)金流”“裁員“。

主題5對(duì)應(yīng)詞匯:“頂背離”“臥倒”“安全”“研究”“智能”“背離”“理論”“邊緣”“工程”“護(hù)盤”“macd”。

可以看到,主題4和主題5討論話題和實(shí)業(yè)經(jīng)營(yíng)、產(chǎn)業(yè)更相關(guān),而主題1、主題2和主題3主要和股票的技術(shù)走勢(shì)相關(guān)。

在此基礎(chǔ)上,我們創(chuàng)建了5個(gè)新的字段:Topic1,Topic2,Topic3,Topic4和Topic5,然后分別賦值,賦值邏輯如下:

如果當(dāng)前文本(Text)涉及主題1中任何一個(gè)詞語(yǔ),則Topic1賦值為1,否則為0;

如果當(dāng)前文本(Text)涉及主題2中任何一個(gè)詞語(yǔ),則Topic2賦值為1,否則為0;

如果當(dāng)前文本(Text)涉及主題3中任何一個(gè)詞語(yǔ),則Topic3賦值為1,否則為0;

如果當(dāng)前文本(Text)涉及主題4中任何一個(gè)詞語(yǔ),則Topic4賦值為1,否則為0;

如果當(dāng)前文本(Text)涉及主題5中任何一個(gè)詞語(yǔ),則Topic5賦值為1,否則為0;

接著,我們將文本數(shù)據(jù)(帖子內(nèi)容)進(jìn)行情感分析,處理過(guò)程為:分詞(結(jié)巴工具)、情感分析。在處理帖子的時(shí)候,首先將單個(gè)帖子的所有評(píng)論匯總,然后分析帖子內(nèi)容的情感值。在情感值分析上,對(duì)內(nèi)容進(jìn)行了如下情感值處理:

首先識(shí)別分詞后詞向量中有的情感詞,是積極詞匯還是消極詞匯,如果是積極詞匯,則賦值1,消極詞匯賦值-1。情感詞匯的識(shí)別按照詞典方式進(jìn)行管理。然后識(shí)別是否情感詞詞有反轉(zhuǎn),如果在情感詞前面有強(qiáng)化助詞,如非常、太等,會(huì)對(duì)情感詞進(jìn)行加權(quán),加權(quán)分四級(jí),如非常、很、更、通常,加權(quán)分?jǐn)?shù)為4,3,2,1。四級(jí)強(qiáng)度詞依據(jù)詞典進(jìn)行加權(quán)。

通過(guò)以上處理,在一個(gè)帖子內(nèi)容中,我們可以得到多個(gè)情感詞和對(duì)應(yīng)分值。我們將情感數(shù)值按帖子內(nèi)容處理得到如下情感指標(biāo):正向情感值累加值、負(fù)向情感值累加值、正向情感標(biāo)準(zhǔn)差、負(fù)向情感標(biāo)準(zhǔn)差、正向情感平均值、負(fù)向情感累加值, 分別對(duì)應(yīng)字段為:Pos、Neg、AvePos、AveNeg、StdPos、StdNeg。

最后我們合并股價(jià)數(shù)據(jù)、主題數(shù)據(jù)、情感數(shù)據(jù)、社交數(shù)據(jù)依據(jù)ID進(jìn)行匯總,得到包含如下字段的文件。

至此,我們的數(shù)據(jù)處理部分完成。樣本總量為9076,單個(gè)帖子積極情值最高為2980000,消極情感值為1850000。所有帖子的平均積極情感值為442.655,消極情感值為251.143。因此,在所有帖子中,積極的情感詞比消極的情感值要高。情感波動(dòng)方面,積極情感值的波動(dòng)率為251.143,而消極情感值波動(dòng)率為152.332,即,在積極情感方面看法差異較大。帖子的平均閱讀數(shù)量為2127.626,因此股吧帖子的瀏覽還是比較大的。點(diǎn)贊平均值為1.29,大部分的帖子是沒點(diǎn)贊。涉及到主題1的帖子占77.1%,涉及到主題2的帖子為68.1%,涉及主題3的帖子為37.4%,涉及主題4的為24.4%,涉及主題5的為38.7%。因此,大部分的帖子討論的還是技術(shù)走勢(shì),涉及主題4和5,即實(shí)業(yè)和長(zhǎng)遠(yuǎn)經(jīng)營(yíng)的帖子占比較低。開盤價(jià)平均為26.502,收盤價(jià)平均為27.061,收盤價(jià)平均為26.526。日成交量平均204000,日股價(jià)漲跌幅在-2.17%和3.28%之間,日價(jià)格最高波動(dòng)為跌-7.987和漲10.025元,平均變動(dòng)了18.2%。

(二)特征相關(guān)性驗(yàn)證-基于OLS回歸

在實(shí)證部分,我們驗(yàn)證情感指標(biāo)、主題指標(biāo)和社交指標(biāo)與未來(lái)股價(jià)、交易量和交易金額的相關(guān)性。我們主要在控制了前一天交易數(shù)據(jù)基礎(chǔ)上進(jìn)行分析,前一天交易數(shù)據(jù)的變量包括開盤價(jià)(open)、最高價(jià)(high)、最低價(jià)(low)、收盤價(jià)(close)、成交股數(shù)(vol)、交易金額(amount)、漲跌幅(change)和股價(jià)變動(dòng)(pct_ chg)。

驗(yàn)證情感指標(biāo)、主題指標(biāo)和社交指標(biāo)與未來(lái)股價(jià)(收盤價(jià))的相關(guān)性采用簡(jiǎn)單OLS回歸,回歸結(jié)果見表1。

從表2可以看到,情感值的總和(logPos, logNeg)對(duì)未來(lái)1天(next1day_close)、未來(lái)5天(next5day_ close)和未來(lái)10天(next10day_close)的收盤價(jià)無(wú)顯著相關(guān)性。當(dāng)天的情感波動(dòng)是標(biāo)準(zhǔn)差是正的,和未來(lái)1天的收盤價(jià)無(wú)顯著相關(guān)關(guān)系,但是和未來(lái)5天及10天的股價(jià)是顯著正相關(guān)的。當(dāng)天的情感波動(dòng)是標(biāo)準(zhǔn)差是負(fù)的,和未來(lái)1天的收盤價(jià)無(wú)顯著相關(guān)關(guān)系,但是和未來(lái)5天及10天的股價(jià)是顯著負(fù)相關(guān)的。

當(dāng)天社交帖子的閱讀數(shù)顯著增多,和未來(lái)1天的收盤價(jià)是顯著正相關(guān)關(guān)系,而和未來(lái)5天、10天的股價(jià)顯著負(fù)相關(guān)。當(dāng)天社交帖子的點(diǎn)贊數(shù)顯著增多,則和未來(lái)1天的收盤價(jià)顯著負(fù)相關(guān),但是和未來(lái)5天和10天的股價(jià)無(wú)任何相關(guān)關(guān)系。

當(dāng)天的社交帖子內(nèi)容如果匹配到Topic1,則和未來(lái)5天股價(jià)顯著負(fù)相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic2,和未來(lái)1天、5天、10天收盤價(jià)無(wú)顯著相關(guān)性。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic3,和未來(lái)5天收盤價(jià)顯著正相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic4,和未來(lái)5天、10天收盤價(jià)顯著負(fù)相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic5,和未來(lái)5天收盤價(jià)顯著負(fù)相關(guān)。

從表2可以看到,情感值的總和(logPos, logNeg)對(duì)未來(lái)1天(next1day_open)、未來(lái)5天(next5day_open)和未來(lái)10天(next10day_open)的開盤價(jià)影響都是不顯著的。情感值平均值 logAvePos, logAveNeg總,積極的情感平均值和未來(lái)10天的開盤價(jià)是負(fù)相關(guān)的,但是消極的情感平均值和未來(lái)開盤價(jià)不相關(guān)。當(dāng)天的情感波動(dòng)是標(biāo)準(zhǔn)差是正的,和未來(lái)1天、未來(lái)5天及10天的開盤價(jià)是顯著正相關(guān)的。當(dāng)天的情感波動(dòng)是標(biāo)準(zhǔn)差是負(fù)的,和10天的開盤價(jià)是顯著負(fù)相關(guān)的。

當(dāng)天社交帖子的閱讀數(shù)顯著增多,和未來(lái)1天、未來(lái)5天、10天的開盤價(jià)顯著負(fù)相關(guān)。當(dāng)天社交帖子的點(diǎn)贊數(shù)顯著增多,則和未來(lái)1天、未來(lái)5天和10天的開盤價(jià)無(wú)任何相關(guān)關(guān)系。

當(dāng)天的社交帖子內(nèi)容如果匹配到Topic1,則和未來(lái)1天、5天開盤價(jià)顯著負(fù)相關(guān),但是和未來(lái)10天開盤價(jià)無(wú)顯著相關(guān)性。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic2,和未來(lái)10天開盤價(jià)顯著負(fù)相關(guān),但是和1天、5天的開盤價(jià)無(wú)顯著相關(guān)性。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic3,和未來(lái)1天、5天開盤價(jià)顯著正相關(guān),但是和未來(lái)10天開盤價(jià)不相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic4,和未來(lái)5天、10天開盤價(jià)顯著負(fù)相關(guān),和未來(lái)1天不相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic5,和未來(lái)5天開盤價(jià)顯著負(fù)相關(guān)。

從下表3可以看到,當(dāng)天的情感波動(dòng)是標(biāo)準(zhǔn)差是負(fù)的,和10天的成交股數(shù)VOL是顯著負(fù)相關(guān)的, 情感的其他指標(biāo)和未來(lái)1天(next1day_vol)、5天(next5day_ vol)和10天(next10day_vol)的成交股數(shù)VOL均無(wú)顯著相關(guān)性。

當(dāng)天社交帖子的閱讀數(shù)顯著增多,和未來(lái)1天、未來(lái)5天的成交股數(shù)VOL顯著正相關(guān)。當(dāng)天社交帖子的點(diǎn)贊數(shù)和未來(lái)1天、未來(lái)5天、未來(lái)10天的成交股數(shù)VOL無(wú)顯著相關(guān)性。

當(dāng)天的社交帖子內(nèi)容如果匹配到Topic1,則和未來(lái)1天、5天、10天成交股數(shù)VOL顯著負(fù)相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic4,和未來(lái)0天成交股數(shù)VOL顯著正相關(guān),和未來(lái)1天、5天無(wú)顯著相關(guān)性。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic5,和未來(lái)5天、10天的成交股數(shù)VOL顯著正相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic2和Topic3,則和未來(lái)1天、5天和10天的當(dāng)天成交股數(shù)VOL無(wú)顯著相關(guān)性。

從下表4可以看到,當(dāng)天的情感波動(dòng)是標(biāo)準(zhǔn)差是負(fù)的,和未來(lái)5天、10天的成交金額Amount是顯著負(fù)相關(guān)的, 情感的其他指標(biāo)和未來(lái)1天、5天和10天的成交金額Amount均無(wú)顯著相關(guān)性。

當(dāng)天社交帖子的閱讀數(shù)顯著增多,和未來(lái)1天的成交金額Amount顯著正相關(guān)。和未來(lái)5天的成交金額Amount顯著負(fù)相關(guān)。當(dāng)天社交帖子的點(diǎn)贊數(shù)和未來(lái)10天的成交金額Amount顯著正相關(guān)。

當(dāng)天的社交帖子內(nèi)容如果匹配到Topic1,則和未來(lái)5天、10天成交金額Amount顯著負(fù)相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到Topic5,和未來(lái)5天、10天的成交金額Amount顯著正相關(guān)。當(dāng)天的社交帖子內(nèi)容如果匹配到主題,則和未來(lái)1天、5天和10天的當(dāng)天成交金額Amount無(wú)顯著相關(guān)性。

注:顯著性標(biāo)準(zhǔn)為*** p<0.01, ** p<0.05, * p<0.1

從以上分析,我們可以觀察到一個(gè)現(xiàn)象,情感值的多少(評(píng)論內(nèi)容)和價(jià)格、交易量、交易金額不相關(guān)。相對(duì)來(lái)說(shuō),當(dāng)天積極方向的情感平均值意味著10天后股價(jià)的下降。積極方向的情感值標(biāo)準(zhǔn)差往往意味著股價(jià)在未來(lái)的上漲。而消極方向的情感值得標(biāo)準(zhǔn)差往往意味著股價(jià)在5-10天會(huì)下降。我們認(rèn)為情感標(biāo)準(zhǔn)差體現(xiàn)的是意見的差異,意見差異大,意味著分歧多,而積極和消極兩個(gè)方向的標(biāo)準(zhǔn)差體現(xiàn)的是哪個(gè)方向的合理更大些,因此,和股價(jià)的趨勢(shì)存在一定的相關(guān)性。消極情感標(biāo)準(zhǔn)差值還和未來(lái)10天內(nèi)的成交股數(shù)、成交金額負(fù)相關(guān)。

社交帖子瀏覽數(shù)(Read)和未來(lái)成交股數(shù)、成交金額呈現(xiàn)顯著正相關(guān)關(guān)系,而和未來(lái)股票價(jià)格存在顯著負(fù)相關(guān)關(guān)系。意味著投資者多瀏覽帖子和后續(xù)的交易選擇存在相關(guān)性,更大的可能性是在在決定是否買入的環(huán)節(jié)多瀏覽帖子會(huì)促進(jìn)購(gòu)買,而在出售環(huán)節(jié),如果多參考網(wǎng)友意見,也會(huì)加快出售。即,投資者在買入新股和售出股票環(huán)節(jié),都會(huì)受到網(wǎng)友的影響。

Topic4和topic5的匹配會(huì)促進(jìn)成交股數(shù)和成交金額,但是,和股價(jià)的顯著下降也相關(guān),因此,可以看到topic4和topic5的匹配主要影響股票出售策略。即,討論如果圍繞實(shí)業(yè)經(jīng)營(yíng)、產(chǎn)業(yè)周期等,意味著未來(lái)交易放量、成交活躍相關(guān)但是股價(jià)下降。Topic1促進(jìn)促進(jìn)成交股數(shù)、交易金額和股價(jià)同步下降,即,交易萎縮、價(jià)格下降。Topic3和收盤價(jià)上漲相關(guān)。Topic2主要和未來(lái)10天的開盤價(jià)下跌有關(guān)。

(三)基于深度學(xué)習(xí)LSTM算法的模型訓(xùn)練和預(yù)測(cè)結(jié)果

我們采用Pytorch框架進(jìn)行機(jī)器學(xué)習(xí),選擇的算法是LSTM。因?yàn)闃颖玖枯^少(處理為天后,樣本量只有367個(gè)),我們將樣本劃分為訓(xùn)練集和預(yù)測(cè)集,各自比例為0.94和0.06。作為特征進(jìn)行學(xué)習(xí)的字段包括:Pos、Neg、AvePos、AveNeg、StdPos、StdNeg、Read、UP_vote、Topic1,Topic2,Topic3,Topic4, Topic5,開盤價(jià)(open),最高價(jià)(high)、最低價(jià)(low)和收盤價(jià)(close),交易量(vol)、成交額(amount)、前一天收盤價(jià)(pre_ close)、漲跌幅(change)、股價(jià)變動(dòng)(pct_chg)。我們需要預(yù)測(cè)的值為下一天的收盤價(jià)(next1day_close)。我們的目標(biāo)是預(yù)測(cè)未來(lái)1天收盤價(jià),在訓(xùn)練好模型后調(diào)用,得到預(yù)測(cè)值,然后將預(yù)測(cè)值和真實(shí)值進(jìn)行對(duì)比。在LSTM預(yù)測(cè)上,我們將數(shù)據(jù)處理為均值,即對(duì)特征指標(biāo)和預(yù)測(cè)指標(biāo)均按天計(jì)算均值。

Train loss是訓(xùn)練數(shù)據(jù)上的損失,衡量模型在訓(xùn)練集上的擬合能力。Valid loss是在驗(yàn)證集上的損失,衡量的是在未見過(guò)數(shù)據(jù)上的擬合能力,也可以說(shuō)是泛化能力。模型的真正效果應(yīng)該用valid loss來(lái)衡量。損失函數(shù)定義為:Loss=(真實(shí)值-預(yù)測(cè)值)2的均值

我們?cè)O(shè)置迭代20次,可以看到,隨著迭代次數(shù)增多,損失下降很快,在迭代到20次的時(shí)候,訓(xùn)練損失和驗(yàn)證損失趨平(圖6)。

將訓(xùn)練好的模型進(jìn)行回測(cè),回測(cè)價(jià)格和真實(shí)價(jià)格的對(duì)比如下圖7。 圖中藍(lán)色為真實(shí)價(jià)格,紅色為預(yù)測(cè)價(jià)格??梢钥吹剑A(yù)測(cè)價(jià)格和真實(shí)價(jià)格之間差距在0.5元以內(nèi),模型具有較好的預(yù)測(cè)效果(圖7)。

四、結(jié)語(yǔ)

本文旨在提出一種結(jié)合文本數(shù)據(jù)情感值、文本主題、社交數(shù)據(jù)和LSTM(Long-Short Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))算法的股價(jià)預(yù)測(cè)模型。本文通過(guò)將情感分類從簡(jiǎn)單的正負(fù)向豐富為情感波動(dòng),包括6種情感值,為情感參與基于深度學(xué)習(xí)的股價(jià)預(yù)測(cè)提供了新的特征值。同時(shí),將文本的社交數(shù)據(jù)(文本的閱讀數(shù)、點(diǎn)贊數(shù))納入模型中,考慮到了文本本身產(chǎn)生的影響面因素。更為重要的是,本文在此基礎(chǔ)上,將文本所重要表達(dá)的主題加入的股價(jià)預(yù)測(cè)模型中。

本文通過(guò)對(duì)股吧的帖子文本進(jìn)行分析,在帖子的維度將情感值、主題、社交等特征進(jìn)行提取,然后和股價(jià)信息合并。一共采用了9076多條帖子內(nèi)容,時(shí)間跨度從2018/8/2到2020/5/26(共367個(gè)交易日)。首先通過(guò)OLS回歸,驗(yàn)證了情感、主題、社交等特征變量和股票交易存在相關(guān)性,然后基于深度學(xué)習(xí)模型(LSTM)對(duì)進(jìn)行數(shù)據(jù)訓(xùn)練,最后基于訓(xùn)練好的模型對(duì)數(shù)據(jù)進(jìn)行了回測(cè)。從回測(cè)結(jié)果看,預(yù)測(cè)值和真實(shí)值的差距在0.5元左右,模型具有較好的預(yù)測(cè)能力。

本文的不足在只在單只股票上進(jìn)行了測(cè)試,尚未完成將單只股票方法推廣到其他股票,因此,這種方法是否在其他股票上也會(huì)存在很好的預(yù)測(cè)能力,尚需要進(jìn)一步研究。其次,本文在處理主題的時(shí)候,選擇的是5個(gè)主題和10個(gè)詞語(yǔ)的方法,這種方法是否是一種最優(yōu)的方案也存在質(zhì)疑,也需要進(jìn)一步研究。

參考文獻(xiàn):

[1]徐偉,李韻喆.行業(yè)與個(gè)股新聞對(duì)股票價(jià)格影響的定量分析[J].財(cái)經(jīng)界,2015(020):31-32.

[2]張夢(mèng)吉,杜婉鈺,鄭楠.引入新聞短文本的個(gè)股走勢(shì)預(yù)測(cè)模型[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019(5):11-18.

[3]楊陽(yáng).上市公司新聞情感傾向?qū)蓛r(jià)的影響分析[D].北京:北京理工大學(xué),2015.

[4]朱夢(mèng)珺,蔣洪迅,許偉.基于金融微博情感與傳播效果的股票價(jià)格預(yù)測(cè)[J].山東大學(xué)學(xué)報(bào) (理學(xué)版),2016(11):13-25.

[5]張棟凱,齊佳音.基于微博的企業(yè)突發(fā)危機(jī)事件網(wǎng)絡(luò)輿情的股價(jià)沖擊效應(yīng)[J].情報(bào)雜志, 2015(003):132-137.

[6]Blei, David M.、Ng, Andrew Y.、Jordan, et al. Latent Dirichlet Allocation[J]. J. Mach. Learn. Res,2012(3):

993-1022.

[7]Wurgler J A , Baker M P . Investor Sentiment and the Cross-Section of Stock Returns[J]. Economic Management Journal, 2006,61(4):1645-1680.

[8]Baker M,Wurgler J . Investor Sentiment and the Cross-Section of Stock Returns[J]. NBER Working Papers,2004.

[9]Gregory, W, Brown,et la. Investor sentiment and the near-term stock market[J]. Journal of Empirical Finance,

2004.

[10]Sun L , Zhang L . Optimal consumption and investment under irrational beliefs[J]. Journal of Industrial and Management Optimization, 2017,7(1):139-156.

[11]馬馳宇.網(wǎng)絡(luò)金融信息情感分析及其與股票市場(chǎng)波動(dòng)關(guān)聯(lián)關(guān)系研究[D].合肥:合肥工業(yè)大學(xué),2016.

[12]王鴻睿,朱青.基于金融文本情感的股價(jià)關(guān)聯(lián)挖掘模型[J].企業(yè)技術(shù)開發(fā),2010(21):78-79.

[13]孟志青,鄭國(guó)杰,趙韻雯.網(wǎng)絡(luò)投資者情緒與股票市場(chǎng)價(jià)格關(guān)系研究——基于文本挖掘技術(shù)分析[J].價(jià)格理論與實(shí)踐,2018(008):127-130.

[14]孫伯維.年報(bào)文本與數(shù)據(jù)分析及可視化的設(shè)計(jì)與實(shí)現(xiàn)[D].大連:大連理工大學(xué),2020.

[15]徐翔,靳菁,呂偉欣.網(wǎng)絡(luò)輿情作為社會(huì)傳感器對(duì)股票指數(shù)的影響——基于LDA主題模型的挖掘分析[J].財(cái)務(wù)與金融,

2018,176(06):5-13.

[16]涂帥.基于網(wǎng)絡(luò)輿情的股票信息分析與建模[D].蘭州:蘭州理工大學(xué),2018.

[17]花樹雯.基于LSTM和LDA模型的患者情感分析研究[D].杭州:浙江理工大學(xué),2018.

[18]何永繼.基于微博情感分析的股市預(yù)測(cè)方法研究[D].南京:南京大學(xué),2016.

[19]延豐,杜騰飛,毛建華,等.基于情感詞典與LDA模型的股市文本情感分析[J].電子測(cè)量技術(shù),2017(12):82-87.

海盐县| 白河县| 托克逊县| 庆云县| 潞城市| 芦山县| 镇宁| 牡丹江市| 九台市| 台山市| 马边| 淮北市| 分宜县| 礼泉县| 容城县| 城口县| 宝山区| 龙泉市| 洛隆县| 南部县| 商水县| 黄浦区| 颍上县| 齐齐哈尔市| 章丘市| 奉节县| 资中县| 利津县| 阜平县| 犍为县| 巴林右旗| 灵台县| 渝北区| 会宁县| 宝应县| 邵东县| 杭锦旗| 杭州市| 抚远县| 金山区| 苏尼特右旗|