国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

股票評(píng)論信息能夠預(yù)測股票市場的下行風(fēng)險(xiǎn)嗎?

2022-08-16 09:40魯萬波鄭天照
統(tǒng)計(jì)與信息論壇 2022年8期
關(guān)鍵詞:股票市場詞典投資者

魯萬波,張 萌,鄭天照

(1.西南財(cái)經(jīng)大學(xué) a.管理與工程學(xué)院,b.統(tǒng)計(jì)學(xué)院,四川 成都 611130;2.度小滿科技(北京)有限公司 風(fēng)險(xiǎn)管理部,北京 100089)

一、引 言

隨著現(xiàn)代社會(huì)信息化的發(fā)展,信息傳遞的方式發(fā)生了巨大的變化,以前多是通過報(bào)紙、廣播以及電視等獲取信息,但如今獲取與傳遞信息的方式主要依賴于互聯(lián)網(wǎng)。很多金融網(wǎng)站也專門為股市投資者提供了交流互動(dòng)的股吧平臺(tái),產(chǎn)生的海量評(píng)論所包含的信息在一定程度上反映著投資者的心理和行為。

行為金融理論認(rèn)為非理性股市投資者的心理和行為會(huì)對(duì)股票市場的價(jià)格走勢產(chǎn)生影響,而且目前學(xué)術(shù)界已經(jīng)有很多學(xué)者研究股評(píng)等文本信息對(duì)股票市場的影響。然而還沒有學(xué)者研究股評(píng)信息對(duì)于股票市場下行風(fēng)險(xiǎn)的影響,股票下行風(fēng)險(xiǎn)發(fā)生的概率雖然很小,但產(chǎn)生的后果非常嚴(yán)重,于是本文探索性進(jìn)行了股票評(píng)論信息與股票市場下行風(fēng)險(xiǎn)影響和預(yù)測能力的實(shí)證分析,一定程度上彌補(bǔ)了該領(lǐng)域研究的不足。

本文的主要貢獻(xiàn)體現(xiàn)在三個(gè)方面:第一,利用文本情感分析技術(shù)充分挖掘了東方財(cái)富網(wǎng)股吧評(píng)論數(shù)據(jù),探索性進(jìn)行了股評(píng)信息與股票市場下行風(fēng)險(xiǎn)影響和預(yù)測能力的實(shí)證分析;第二,選擇基于情感詞典的無監(jiān)督學(xué)習(xí)的文本分類方法,并且構(gòu)建特定金融領(lǐng)域的情感詞典,提高了基于情感詞典的文本分類方法在股評(píng)上的文本分類準(zhǔn)確度;第三,從反映投資者關(guān)注度的角度、反映投資者對(duì)于股市走向情感預(yù)期的角度以及從反映投資者情感預(yù)期傳播程度的角度構(gòu)建了較為完善的投資者情緒指標(biāo)體系。

二、文獻(xiàn)綜述

近年來,越來越多的學(xué)者通過挖掘股評(píng)等文本的情感傾向,研究投資者情緒對(duì)股票市場的影響。挖掘股評(píng)等文本的情感傾向涉及文本情感分析技術(shù),目前在互聯(lián)網(wǎng)數(shù)據(jù)呈爆炸性增長的背景下,文本情感分析技術(shù)已經(jīng)得到了蓬勃發(fā)展。

文本情感分類的算法主要有兩種,第一種是基于情感詞典的分類算法,在進(jìn)行文本分類時(shí),根據(jù)詞典設(shè)計(jì)一定規(guī)則組合來完成對(duì)句子情感極性的判斷。Ohana和Tierney提出將SentiWordNet詞典應(yīng)用于電影評(píng)論的情感分類,通過對(duì)正負(fù)情感詞得分計(jì)數(shù)來確定情感傾向[1]。Qiu等根據(jù)語法和共現(xiàn)模式提取了語料庫的意見詞匯,并基于此對(duì)產(chǎn)品評(píng)論信息進(jìn)行情感分類[2]。明均仁研究并設(shè)計(jì)了一種融合語義關(guān)聯(lián)挖掘的文本情感分析算法,實(shí)現(xiàn)語義層面的情感分析與用戶情感知識(shí)挖掘[3]。在領(lǐng)域情感詞典構(gòu)建方面,鐘敏娟等構(gòu)建了音樂領(lǐng)域情感詞典[4]。唐曉波和蘭玉婷構(gòu)建了手機(jī)評(píng)論的領(lǐng)域情感詞典以及微博表情符號(hào)詞典[5]。郁圣衛(wèi)等構(gòu)建了電商領(lǐng)域的情感詞典[6]。姚加權(quán)等通過詞典重組和深度學(xué)習(xí)算法構(gòu)建了適用于正式文本與非正式文本的金融領(lǐng)域中文情緒詞典,并基于詞典構(gòu)建了上市公司的年報(bào)語調(diào)和社交媒體情緒指標(biāo)[7]。第二種是基于機(jī)器學(xué)習(xí)的分類算法,即通過對(duì)已經(jīng)標(biāo)注好的訓(xùn)練文本進(jìn)行分類學(xué)習(xí),使其能夠應(yīng)用于新文本分類預(yù)測的一種有監(jiān)督學(xué)習(xí)算法。Pang等首次將SVM和貝葉斯分類應(yīng)用到情感分析中[8]。Zhang等提出了一種門控循環(huán)神經(jīng)網(wǎng)絡(luò),能夠考慮上下文之間的交互關(guān)系,從而使得文本分類效果得到顯著提升[9]。王剛等通過對(duì)經(jīng)典情感分析數(shù)據(jù)集進(jìn)行試驗(yàn),提出了一種比其他半監(jiān)督學(xué)習(xí)方法效果都好的改進(jìn)方法[10]。

在投資者情緒對(duì)于股票市場影響研究方面,Corredor等研究發(fā)現(xiàn)投資者情感對(duì)股票市場影響顯著[11]。Porshnev等提取股評(píng)情感利用神經(jīng)網(wǎng)絡(luò)與遺傳算法對(duì)道瓊斯工業(yè)指數(shù)進(jìn)行了預(yù)測[12]。陳曉紅等考察了投資者情緒與股票市場指數(shù)的相關(guān)性及預(yù)測能力,結(jié)果表明情緒指數(shù)對(duì)股票價(jià)格有預(yù)測作用[13]。張寧等研究發(fā)現(xiàn)基于文本挖掘構(gòu)建的BSI指標(biāo)與上證綜指的價(jià)格和收益顯著相關(guān)[14]。趙明清和武圣強(qiáng)結(jié)合百度指數(shù)構(gòu)建了基于微博情感分析的股市加權(quán)預(yù)測模型,結(jié)果表明微博情感綜合傾向與股票價(jià)格變化情形幾乎一致且預(yù)測準(zhǔn)確率較高[15]。程蕭瀟通過VAR模型探討新聞熱度、新聞情感和社交媒體熱度對(duì)股指收益率的效應(yīng)及影響機(jī)制,研究新聞情感和社交媒體熱度對(duì)股指收益率產(chǎn)生顯著影響,而新聞熱度卻對(duì)股指收益率不產(chǎn)生顯著影響[16]。歐陽資生和李虹宣系統(tǒng)性梳理了國內(nèi)外學(xué)者從理論和實(shí)證分析等方面對(duì)網(wǎng)絡(luò)輿情對(duì)金融市場影響的研究[17]。黃創(chuàng)霞等使用情感分析技術(shù),提出了一種改進(jìn)的個(gè)體投資者情緒度量的情感傾向點(diǎn)互信息算法,運(yùn)用格蘭杰因果檢驗(yàn)方法研究了個(gè)體投資者情緒與市場收益率和成交量的互動(dòng)關(guān)系[18]。姜富偉等研究發(fā)現(xiàn)媒體文本情緒可以更準(zhǔn)確地衡量中國股市投資者情緒的變化,對(duì)中國股票回報(bào)有顯著的樣本內(nèi)和樣本外預(yù)測能力[19]。

股票市場下行風(fēng)險(xiǎn)是指股價(jià)未來會(huì)發(fā)生下跌,并且下跌的程度會(huì)超出分析師或者投資者預(yù)期的風(fēng)險(xiǎn)。史永東和楊瑞杰選取2007—2016年中國A股上市公司股票為樣本,研究了不同信息對(duì)股價(jià)下行風(fēng)險(xiǎn)的影響,構(gòu)造股價(jià)下行風(fēng)險(xiǎn)度量指標(biāo)——收益率分布的負(fù)偏度系數(shù)和收益率上升、下降階段的波動(dòng)率之比考察了過度自信和損失厭惡兩種不同的投資者行為是否會(huì)影響信息與股價(jià)下行風(fēng)險(xiǎn)之間的關(guān)系[20]。Yamai和Yoshiba對(duì)風(fēng)險(xiǎn)測度指標(biāo)VaR和ES的優(yōu)缺點(diǎn)進(jìn)行了全面的比較[21-24]。VaR和ES雖然各有優(yōu)缺點(diǎn),但是VaR測度被廣泛使用且其回測方法較為成熟,而ES的回測方法并不成熟且不被公認(rèn)。對(duì)于VaR的度量,Ergün和Jun研究發(fā)現(xiàn)基于GARCH和極值理論(EVT)的模型能夠更好地預(yù)測標(biāo)普500指數(shù)的VaR[25]。呂永健和王鵬基于包括GAST在內(nèi)的多種分布建立原油市場下行風(fēng)險(xiǎn)預(yù)測模型,得出GAST分布計(jì)算的VaR測度最精確的結(jié)論[26]。

綜上所述,越來越多的機(jī)器學(xué)習(xí)算法被應(yīng)用到文本情感分類的領(lǐng)域中,但是考慮到該方法需要大量已經(jīng)標(biāo)注好的數(shù)據(jù),所以本文選擇了使用基于情感詞典的無監(jiān)督文本分類方法。雖然已經(jīng)有很多學(xué)者研究股票評(píng)論的情感傾向和股票市場之間的關(guān)系,但是鮮有學(xué)者研究股票評(píng)論與股票市場下行風(fēng)險(xiǎn)之間的影響關(guān)系以及股票評(píng)論對(duì)股票市場下行風(fēng)險(xiǎn)的預(yù)測能力,同時(shí)鑒于VaR測度的回測方法較為成熟,本文以VaR來測度股市下行風(fēng)險(xiǎn)。和以往研究相比,本文利用文本情感分析技術(shù)充分挖掘東方財(cái)富網(wǎng)股吧評(píng)論數(shù)據(jù),使用基于情感詞典的無監(jiān)督學(xué)習(xí)的文本分類方法構(gòu)建了特定金融領(lǐng)域的情感詞典和相應(yīng)的投資者情緒指標(biāo),并探索性地研究了股市評(píng)論對(duì)股票市場下行風(fēng)險(xiǎn)的影響關(guān)系以及預(yù)測能力,具有較高的應(yīng)用價(jià)值。

三、基于股評(píng)信息的投資者情緒指標(biāo)構(gòu)建

本文選取東方財(cái)富網(wǎng)股吧平臺(tái)上證指數(shù)吧的評(píng)論數(shù)據(jù),時(shí)間范圍是2018年7月2日至2020年6月30日,共抓取917 911條數(shù)據(jù),獲取的評(píng)論信息包含每條評(píng)論的時(shí)間、內(nèi)容以及閱讀量,例如,發(fā)布時(shí)間:2020-03-09,評(píng)論內(nèi)容:買了就跌,閱讀量:201。上證指數(shù)吧較為活躍,平均每天有近2 000條評(píng)論,能夠在一定程度上反映投資者的情感信息。

目前也已經(jīng)有較多的學(xué)者使用東方財(cái)富網(wǎng)的股吧評(píng)論數(shù)據(jù)來研究其與股市的影響關(guān)系。部慧等基于東方財(cái)富網(wǎng)股吧評(píng)論提出融合股評(píng)看漲看跌預(yù)期和投資者關(guān)注程度的投資者情緒度量指標(biāo),探討投資者情緒對(duì)中國股票市場的影響[27]。尹海員和吳興穎挖掘東方財(cái)富網(wǎng)股吧評(píng)論,構(gòu)建了投資者日度情緒指標(biāo)并探討其對(duì)股票流動(dòng)性的影響[28]。

(一)金融領(lǐng)域詞典構(gòu)建

通用基礎(chǔ)情感詞典在對(duì)特定領(lǐng)域文本進(jìn)行情感分類時(shí)存在不足,于是在通用情感詞典的基礎(chǔ)上構(gòu)建了金融領(lǐng)域的情感詞典。所構(gòu)建的詞典組成結(jié)構(gòu)如圖1所示。

圖1 詞典的組成結(jié)構(gòu)

1.N-GRAM算法構(gòu)造新詞詞典

文本分詞效果對(duì)于自然語言處理非常重要,本文使用Python的jieba庫進(jìn)行分詞,但是在處理特定領(lǐng)域文本時(shí),因詞庫無法識(shí)別部分未登錄詞,便會(huì)對(duì)后續(xù)產(chǎn)生持續(xù)影響。本文采用N-GRAM算法進(jìn)行新詞發(fā)現(xiàn),首先將字符組合分為1-k元組,同時(shí)考慮字符組合左右鄰字豐富程度和內(nèi)部凝聚度,構(gòu)造了一個(gè)統(tǒng)計(jì)量來衡量一個(gè)字符組合成詞的可能性大小:

score=AMI+L(W)

(1)

其中:

(2)

Entropy(w)=-∑wn∈WNeighborP(wn|w)log2P(wn|w)

(3)

(4)

LE、RE為候選詞左右信息熵,W表示字符組合,sigma是一個(gè)非常小的非0正數(shù),Entropy(w)為信息熵計(jì)算公式,WNeighbor為字符組合左/右鄰字的集合,c1,c2,…,cn表示字符組合包含的所有單個(gè)字符。

根據(jù)該統(tǒng)計(jì)量來判斷股評(píng)語料庫中最有可能成詞的字符組合,過濾jieba庫分詞詞典包含的候選詞,再通過人工判斷,生成特定領(lǐng)域的新詞分詞詞典,最終得到1 402個(gè)新詞。

2.基礎(chǔ)情感詞典構(gòu)建

本文將知網(wǎng)Hownet情感詞典、臺(tái)灣大學(xué)NTUSD簡體中文情感詞典和清華大學(xué)李軍褒貶義詞典進(jìn)行合并去重,從而得到綜合后的基礎(chǔ)情感詞典,包含27 169個(gè)詞,其中積極情感詞11 879個(gè),消極情感詞15 290個(gè)。

3.擴(kuò)展基礎(chǔ)情感詞典

本文使用PMI算法對(duì)情感詞典擴(kuò)展來構(gòu)建領(lǐng)域情感詞典,該方法認(rèn)為如果一個(gè)詞語和帶有情感傾向的詞語相關(guān)性越大,那么該詞語就越有可能帶有相同的情感極性,這里用點(diǎn)互信息來代表詞語之間的相關(guān)性。

點(diǎn)互信息(PMI)的計(jì)算公式如下:

(5)

其中,word1和word2表示兩個(gè)詞匯,P(word1&word2)表示兩個(gè)詞匯在股票評(píng)論文本中同時(shí)出現(xiàn)的概率,P(word1)表示word1在股票評(píng)論文本中出現(xiàn)的概率,P(word2)表示word2在股票評(píng)論文本中出現(xiàn)的概率。

為了提高詞語極性判斷的可靠性,需要選擇一組積極情感種子詞匯(Pwords)和一組消極情感種子詞匯(Nwords)作為基準(zhǔn)詞,然后把積極情感種子詞匯和消極情感種子詞匯與詞語之間的點(diǎn)間互信息之和進(jìn)行作差,最后利用這個(gè)差值來衡量詞語的情感傾向。計(jì)算公式如下:

SO-PMI(word)=∑Pword∈PwordsPMI(word,Pword)-∑Nword∈NwordsPMI(word,Nword)

(6)

其中,word為待判斷詞性的詞匯,Pword是積極情感詞,Nword是消極情感詞。

最終擴(kuò)展的情感詞包含股票領(lǐng)域的情感詞以及基礎(chǔ)情感詞典中沒有涵蓋的情感詞共有1 058個(gè),其中新增積極情感詞有429個(gè),新增消極情感詞有629個(gè)。

4.輔助情感詞典的構(gòu)建

本文所使用的停用詞詞典是對(duì)哈爾濱工業(yè)大學(xué)停用詞表、百度停用詞表和四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫合并去重得到的,共有2 130個(gè)。在知網(wǎng)程度副詞詞典的基礎(chǔ)上,本文又添加了一些自行整理的程度副詞從而構(gòu)建了程度副詞詞典,根據(jù)詞語的程度分為6個(gè)級(jí)別,分別是最、很、較、稍、欠和超,個(gè)數(shù)分別為69、42、36、13、29和33。所使用的否定詞典是本文自行整理的否定詞,共87個(gè)。

(二)文本情感分類規(guī)則制定

一條股評(píng)包含多個(gè)分句,股評(píng)的情感應(yīng)該由這些分句共同決定。股評(píng)文本情感傾向值計(jì)算的思路是:首先對(duì)股票評(píng)論文本分句,分別對(duì)每一個(gè)分句計(jì)算情感傾向值;然后將分句情感傾向分?jǐn)?shù)進(jìn)行簡單平均,如果分?jǐn)?shù)大于0說明股評(píng)的情感傾向是積極的,分?jǐn)?shù)等于0說明股評(píng)的情感傾向是中性的,分?jǐn)?shù)小于0說明股評(píng)的情感傾向是消極的。

對(duì)于分句的情感傾向計(jì)算,首先,依次搜索分句中的情感詞,記錄是積極情感詞還是消極情感詞,如果是積極情感詞則對(duì)該詞打分為1,如果是消極情感詞則對(duì)該詞打分為-1;其次,搜索當(dāng)前情感詞和前一個(gè)情感詞之間的程度副詞和否定詞,計(jì)算并且判斷否定詞個(gè)數(shù)是奇數(shù)還是偶數(shù),如果是奇數(shù),當(dāng)前情感詞的分?jǐn)?shù)乘以-1,反之不變化,如果存在程度副詞,則根據(jù)程度副詞的級(jí)別對(duì)情感詞得分進(jìn)行加權(quán);最后,將該分句所出現(xiàn)的所有情感詞的分?jǐn)?shù)進(jìn)行求和并作為該分句的情感傾向分?jǐn)?shù)。

(三)情感指標(biāo)構(gòu)建

股評(píng)信息主要反映投資者對(duì)股票市場的關(guān)注度和對(duì)股票市場的情感傾向,因此本文構(gòu)建了關(guān)注度指標(biāo)、情感傾向指標(biāo)以及關(guān)注度和情感傾向相結(jié)合的指標(biāo)。

關(guān)注度指標(biāo)反映的是投資者對(duì)于股票市場的參與熱情,具體指標(biāo)為每日每條評(píng)論的平均閱讀量。

投資者的情感傾向指標(biāo)反映的是投資者對(duì)于股票后續(xù)漲跌的預(yù)期,具體指標(biāo)分別是每日正向評(píng)論比例、每日負(fù)向評(píng)論比例、每日中性評(píng)論比例以及投資者一致性指數(shù),其中投資者一致性指數(shù)的計(jì)算公式是:

(7)

其中,xi是第i天的投資者分歧指數(shù),Npi是第i天積極情感傾向評(píng)論的個(gè)數(shù),Nni是第i天消極情感傾向評(píng)論的個(gè)數(shù)。

關(guān)注度和情感傾向相結(jié)合的指標(biāo)反映了投資者情感預(yù)期傳播程度,具體指標(biāo)分別是每日正向評(píng)論閱讀量的比例、每日中性評(píng)論閱讀量的比例、每日負(fù)向評(píng)論閱讀量的比例。

四、基于投資者情緒的股票市場下行風(fēng)險(xiǎn)分析與預(yù)測

(一)股票市場下行風(fēng)險(xiǎn)的測度

1.股票交易數(shù)據(jù)的選取與處理

本文選擇上證指數(shù)來綜合反映股市的價(jià)格變動(dòng),并且從CSMAR數(shù)據(jù)庫下載了2018年7月2日至2020年6月30日的交易數(shù)據(jù),數(shù)據(jù)量為485個(gè)。

上證指數(shù)的日收益率的計(jì)算公式如下:

(8)

其中,P_closet表示第t日的收盤價(jià),P_opent表示第t日的開盤價(jià)。

2.建立ARMA-GARCH模型

對(duì)上證指數(shù)收益率建立ARMA-GARCH模型,通過選取不同的階數(shù)反復(fù)建模,綜合考慮AIC、BIC和SIC原則,最終確定的模型是ARMA(4,5)-GARCH(1,1)模型。其中,mu是ARMA模型的常數(shù)項(xiàng),ar1~ar4是AR模型的變量,ma1~ma5是MA模型的變量,omega、alpha和beta1是GARCH模型的變量,r為ARMA-GARCH模型的標(biāo)準(zhǔn)化殘差。

根據(jù)表1可知,本文構(gòu)建的ARMA-GARCH模型除omega以外的參數(shù)都是顯著的,標(biāo)準(zhǔn)化殘差序列及其平方進(jìn)行Ljung-Box檢驗(yàn),在階數(shù)分別為10、15和20時(shí),得到的P值均遠(yuǎn)大于顯著性水平0.05,則可以認(rèn)為模型的標(biāo)準(zhǔn)化殘差序列及其平方均無自相關(guān),說明本文構(gòu)建的均值方程以及方差方程是充分的。

擬合的ARMA(4,5)-GARCH(1,1)模型為:

表1 上證指數(shù)收益率ARMA(4,5)-GARCH(1,1)模型估計(jì)及診斷結(jié)果

rt=0.002 3-0.454 4rt-1+0.459 0rt-2-0.536 8rt-3-0.843 6rt-4+0.314 0at-1-0.431 7at-2+

0.823 5at-3+0.788 0at-4-0.121 8at-5

(9)

at=σtεt

(10)

(11)

其中,假設(shè)εt服從標(biāo)準(zhǔn)正態(tài)分布。

3.VaR的計(jì)算與回測檢驗(yàn)

根據(jù)上證指數(shù)收益率擬合的均值方程和方差方程,把均值方程和方差方程t時(shí)刻的擬合值,分別作為t時(shí)刻收益率假定分布的均值和標(biāo)準(zhǔn)差,然后利用VaR的計(jì)算公式,分別計(jì)算出在99%、95%、90%的顯著性水平下上證指數(shù)收益率各個(gè)時(shí)刻VaR。

表2 樣本內(nèi)數(shù)據(jù)回測檢驗(yàn)結(jié)果

下面對(duì)擬合出來的VaR進(jìn)行Kupiec檢驗(yàn),結(jié)果見表2。由表2可知,擬合出來的VaR在99%、95%和90%的置信水平下,檢驗(yàn)統(tǒng)計(jì)量的P值都大于顯著性水平5%,則應(yīng)該認(rèn)為建立的模型是有效的。

(二)投資者情緒對(duì)股票市場下行風(fēng)險(xiǎn)的影響分析

1.平穩(wěn)性檢驗(yàn)

表3是本文所構(gòu)建的投資者情緒指標(biāo)體系。

本文在使用VAR模型檢驗(yàn)變量之間的相互影響關(guān)系之前,需要檢驗(yàn)每一個(gè)投資者情緒指標(biāo)和股票市場下行風(fēng)險(xiǎn)(本章節(jié)以95%置信水平的VaR為例)的平穩(wěn)性,各變量的ADF平穩(wěn)性檢驗(yàn)結(jié)果如表4。根據(jù)表4結(jié)果可知,在5%的顯著性水平下,投資者情緒指標(biāo)體系和95%置信水平下的VaR都是平穩(wěn)的時(shí)間序列,說明可以對(duì)這些變量進(jìn)行格蘭杰因果檢驗(yàn)。

表3 投資者情緒指標(biāo)體系

表4 變量的平穩(wěn)性檢驗(yàn)結(jié)果

2.格蘭杰因果檢驗(yàn)

本文分別構(gòu)建了每一個(gè)投資者情緒指標(biāo)與上證綜合指數(shù)95%置信水平VaR的VAR模型來研究其與上證指數(shù)95%置信水平VaR的影響關(guān)系。VAR模型滯后階數(shù)的選擇綜合考慮了AIC、HQ、SC、FPE這4項(xiàng)評(píng)判標(biāo)準(zhǔn),然后確定大小適中的滯后階數(shù),這樣既可以體現(xiàn)模型的動(dòng)態(tài)特征也不會(huì)導(dǎo)致模型的自由度過小。為了確定變量之間的因果關(guān)系,對(duì)構(gòu)建的每一個(gè)模型進(jìn)行了格蘭杰因果檢驗(yàn),表5是格蘭杰因果檢驗(yàn)的結(jié)果。

表5 投資者情緒特征對(duì)VaR的格蘭杰因果關(guān)系檢驗(yàn)結(jié)果

根據(jù)表5可知,在5%的顯著性水平下,除了neuredrat(每日中性評(píng)論閱讀量的比例)以外的所有投資者情緒指標(biāo)都是上證指數(shù)VaR的格蘭杰原因,但是反之均不成立。

3.VAR模型診斷

根據(jù)格蘭杰因果檢驗(yàn)的結(jié)果可知,除了neuredrat(每日中性評(píng)論閱讀量的比例)以外的所有投資者情緒指標(biāo)和股票市場的下行風(fēng)險(xiǎn)之間存在單向因果關(guān)系,接下來對(duì)每一個(gè)VAR模型進(jìn)行了回歸方程的顯著性檢驗(yàn),并且對(duì)模型進(jìn)行了系統(tǒng)平穩(wěn)性檢驗(yàn)。模型回歸結(jié)果如表6、7和8所示。

根據(jù)回歸方程顯著性檢驗(yàn)結(jié)果可知,本文所構(gòu)建的VAR模型涉及的回歸方程的顯著性檢驗(yàn)P值都小于0.01,說明在1%的顯著性水平下,回歸方程是顯著的。

表6 VAR模型的估計(jì)及檢驗(yàn)結(jié)果一

模型系統(tǒng)穩(wěn)定性檢驗(yàn)的結(jié)果見圖2,該圖形的橫軸是時(shí)間,縱軸是殘差累計(jì)和,如果殘差累計(jì)和超出圖中的兩條臨界線,說明系統(tǒng)是不穩(wěn)定的。根據(jù)上述檢驗(yàn)結(jié)果可知,模型都是系統(tǒng)穩(wěn)定的。

對(duì)于投資者情緒指標(biāo)對(duì)股票市場下行風(fēng)險(xiǎn)的影響關(guān)系,avgred(每日每條評(píng)論的平均閱讀量)反映的是投資者對(duì)于股市的關(guān)注程度,關(guān)注程度增高,很有可能導(dǎo)致市場波動(dòng)加劇,從而會(huì)導(dǎo)致下行風(fēng)險(xiǎn)增加,posrat(每日正向評(píng)論比例)和negrat(每日負(fù)性評(píng)論比例)代表了廣大投資者對(duì)于股市行情的漲跌預(yù)期,posrat和negrat的增多可能會(huì)加劇股市行情的變化,從而導(dǎo)致下行風(fēng)險(xiǎn)的增加,neurat(每日中性評(píng)論比例)反映的是廣大投資者對(duì)于股票市場行情的看平預(yù)期,icidx(投資者一致性指數(shù))反映的是廣大投資者對(duì)于股市行情漲跌預(yù)期的平衡程度,neurat和icidx的增加反映到市場上可能會(huì)導(dǎo)致股票市場行情的波動(dòng)更小,從而導(dǎo)致下行風(fēng)險(xiǎn)的下降,posredrat(每日正向評(píng)論閱讀量的比例)和negredrat(每日負(fù)向評(píng)論閱讀量的比例)反映的是投資者看漲看跌預(yù)期的情感傳播程度,由于情緒的傳染性可能會(huì)出現(xiàn)posredrat和negredrat的增加導(dǎo)致股市行情的波動(dòng)增加及股市的下行風(fēng)險(xiǎn)增加。

表7 VAR模型的估計(jì)及檢驗(yàn)結(jié)果二

4.脈沖響應(yīng)分析

圖3是所建立的每一個(gè)模型的脈沖響應(yīng)函數(shù)圖,可以看出avgred(每日每條評(píng)論的平均閱讀量)的沖擊對(duì)于VaR的影響整體是正向的,這種影響在第一期的時(shí)候影響最大,后續(xù)波動(dòng)幾期之后開始逐漸收斂;posrat(每日正向評(píng)論比例)的沖擊對(duì)VaR的影響整體上是正向的;neurat(每日中性評(píng)論比例)的沖擊對(duì)于VaR的影響是負(fù)向的,這種影響在第2期的時(shí)候影響達(dá)到最大,持續(xù)7期左右,影響開始逐漸消失;negrat(每日負(fù)向評(píng)論比例)的沖擊對(duì)于VaR的影響是正向的,這種影響在第4期達(dá)到最大,之后隨著時(shí)間的推移影響逐漸減小,最終收斂為0;icidx(投資者一致性指數(shù))的沖擊對(duì)于VaR的影響整體上是負(fù)向的;posredrat(每日正向評(píng)論閱讀量的比例)的沖擊對(duì)于VaR的影響整體上是正向的,這種影響在第2期達(dá)到最大,之后持續(xù)幾期之后逐漸收斂為0;negredrat(每日負(fù)向評(píng)論閱讀量的比例)的沖擊對(duì)于VaR的影響是正向的,這種影響在第3期達(dá)到最大,之后逐漸減弱,最終收斂為0。總體來看投資者情緒指標(biāo)對(duì)于股票市場下行風(fēng)險(xiǎn)的影響具有滯后效應(yīng),持續(xù)時(shí)間大概在兩周左右,并且脈沖響應(yīng)圖反映的影響關(guān)系符合預(yù)期。

表8 VAR模型的估計(jì)及檢驗(yàn)結(jié)果三

圖2 系統(tǒng)穩(wěn)定性檢驗(yàn)

圖3 脈沖響應(yīng)圖

(三)基于投資者情緒預(yù)測下行風(fēng)險(xiǎn)

上述研究結(jié)果表明,本文基于東方財(cái)富網(wǎng)構(gòu)建的情緒指標(biāo)對(duì)于股票市場的下行風(fēng)險(xiǎn)是有影響的,接下來進(jìn)一步研究投資者情緒指標(biāo)對(duì)股票市場下行風(fēng)險(xiǎn)的預(yù)測能力。

1.預(yù)測的實(shí)證分析

因?yàn)閂aR的真實(shí)數(shù)值是不可知的,但是能夠獲得VaR的擬合值,所以利用機(jī)器學(xué)習(xí)模型基于投資者情緒指標(biāo)對(duì)樣本期內(nèi)擬合的VaR進(jìn)行訓(xùn)練,預(yù)測樣本期外的VaR,并使用VaR的評(píng)估指標(biāo)來評(píng)估模型預(yù)測效果。

比較不同模型VaR的預(yù)測效果,分位數(shù)損失(QL)是最常見的選擇之一[29]。給定置信水平為1-α的分位數(shù)損失定義為:

QLt+1(α)=(α-dt(α))(yt-VaRt(α))

(12)

其中,dt(α)=1(yt-VaRt(α)),VaRt(α)表示置信水平為1-α的樣本期外第t期的VaR預(yù)測值。

對(duì)于A、B兩個(gè)模型之間的比較,如果QLA/QLB<1,則模型A優(yōu)于模型B,反之亦然。

為了評(píng)估投資者情緒指標(biāo)對(duì)于股票市場下行風(fēng)險(xiǎn)VaR的預(yù)測能力,本文需要將上證指數(shù)收益率數(shù)據(jù)劃分為樣本期內(nèi)數(shù)據(jù)和樣本期外數(shù)據(jù),為了更好地體現(xiàn)樣本期外預(yù)測效果的差異,本文選擇的樣本期外數(shù)據(jù)約占總數(shù)據(jù)的1/4,劃分的樣本內(nèi)數(shù)據(jù)的時(shí)間范圍為2018年7月2日至2019年12月26日共365個(gè)數(shù)據(jù),樣本期外數(shù)據(jù)的時(shí)間范圍為2019年12月27日至2020年6月30日共120個(gè)數(shù)據(jù)。

由于VaR不是真實(shí)發(fā)生的,只有擬合值,所以在研究投資者情緒對(duì)上證指數(shù)VaR的預(yù)測能力時(shí),不能直接使用全樣本數(shù)據(jù)擬合的VaR作為因變量,并對(duì)其劃分樣本期內(nèi)和樣本期外數(shù)據(jù),然后利用投資者情緒、收益率以及VaR的滯后項(xiàng)去預(yù)測VaR。如此設(shè)計(jì),預(yù)測時(shí)便利用了未來數(shù)據(jù)的信息,即VaR的滯后項(xiàng)也是由全樣本數(shù)據(jù)擬合得到的,會(huì)導(dǎo)致結(jié)果不夠嚴(yán)謹(jǐn)。

因此,本文使用固定窗口為365來滾動(dòng)擬合VaR,每次獲得365個(gè)VaR擬合值,接著訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,并且去預(yù)測下一個(gè)時(shí)刻的VaR,這樣可以依次獲得120組長度為365的VaR擬合值,同時(shí)可以依次獲得120個(gè)VaR預(yù)測值。最后比較實(shí)驗(yàn)組和對(duì)照組的預(yù)測效果,就可以判斷投資者情緒指標(biāo)對(duì)于VaR的預(yù)測能力。

本文使用了LightGBM模型,對(duì)95%置信水平下的VaR進(jìn)行預(yù)測,具體步驟如下:

第一步:實(shí)驗(yàn)組和對(duì)照組的設(shè)定

實(shí)驗(yàn)組的模型輸入特征包括除neuredrat以外的所有投資者情緒指標(biāo)的滯后項(xiàng)(1~3階)以及上證指數(shù)收益率和下行風(fēng)險(xiǎn)的滯后項(xiàng)(1~3階),對(duì)照組的模型輸入特征只使用收益率和下行風(fēng)險(xiǎn)的滯后項(xiàng)(1~3階),目的是通過比較兩組的預(yù)測效果來驗(yàn)證投資者情緒對(duì)于下行風(fēng)險(xiǎn)VaR的預(yù)測能力。

第二步:進(jìn)行特征選擇和模型參數(shù)的設(shè)定

在滾動(dòng)擬合并且利用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測時(shí),由于模型的預(yù)測值沒有可供參考的真實(shí)值,所以沒有辦法進(jìn)行特征篩選和模型參數(shù)調(diào)整,于是本文先對(duì)全樣本擬合出來的VaR劃分訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,從而訓(xùn)練LightGBM模型并選擇模型最優(yōu)參數(shù)以及進(jìn)行特征篩選。最終,對(duì)照組選擇的特征是收益率和下行風(fēng)險(xiǎn)的滯后項(xiàng)(1~3階)共6個(gè)特征,實(shí)驗(yàn)組選擇的特征是特征重要程度前15個(gè)特征,包括收益率和下行風(fēng)險(xiǎn)的滯后項(xiàng)(1~3階)這6個(gè)特征以及投資者情緒的9個(gè)特征。

第三步:滾動(dòng)窗口擬合VaR

使用ARMA-GARCH模型對(duì)上證指數(shù)的收益率進(jìn)行滾動(dòng)窗口擬合,由于樣本外的數(shù)據(jù)設(shè)置的是120個(gè),所以共進(jìn)行了120次的擬合,每一次模型擬合相應(yīng)地計(jì)算出擬合的VaR值,共獲得長度為365的VaR擬合值120組。

第四步:機(jī)器學(xué)習(xí)模型預(yù)測

基于前一步擬合出來的每一組VaR的值,構(gòu)建實(shí)驗(yàn)組和對(duì)照組的輸入特征,對(duì)每一組數(shù)據(jù)訓(xùn)練一個(gè)LightGBM模型,并且對(duì)下一個(gè)時(shí)刻的VaR進(jìn)行預(yù)測。最終訓(xùn)練了120個(gè)LightGBM模型,并且分別獲得了實(shí)驗(yàn)組和對(duì)照組樣本外的120個(gè)VaR預(yù)測值。

第五步:實(shí)驗(yàn)組和對(duì)照組的效果比較

對(duì)于獲得的120個(gè)VaR預(yù)測值,使用分位數(shù)損失的比例來評(píng)估兩個(gè)模型的優(yōu)劣,從而判斷投資者情緒對(duì)于VaR的預(yù)測能力。

表9 VaR預(yù)測效果檢驗(yàn)和比較

檢驗(yàn)結(jié)果表明,實(shí)驗(yàn)組和對(duì)照組檢驗(yàn)統(tǒng)計(jì)量的P值都大于0.05,說明在5%顯著水平下,VaR的預(yù)測是有效的。實(shí)驗(yàn)組的分位數(shù)損失和對(duì)照組的分位數(shù)損失的比值小于1,說明實(shí)驗(yàn)組對(duì)于VaR的預(yù)測效果更好一些,也即是說明投資者情緒對(duì)于VaR是有預(yù)測能力的,為了進(jìn)一步驗(yàn)證結(jié)論的穩(wěn)健性,下面進(jìn)行了穩(wěn)健性分析。

2.穩(wěn)健性分析

從三個(gè)角度來驗(yàn)證預(yù)測效果的穩(wěn)健性,第一個(gè)角度是使用LightGBM模型對(duì)不同置信水平下的VaR進(jìn)行預(yù)測,置信水平的選擇分別是99%、95%和90%;第二個(gè)角度是使用不同的模型進(jìn)行預(yù)測,本文除了使用LightGBM模型外,又使用了Random Forest模型進(jìn)行預(yù)測;第三個(gè)角度是在使用ARMA-GARCH模型對(duì)上證指數(shù)收益率進(jìn)行滾動(dòng)建模時(shí),又引入了擴(kuò)展窗口滾動(dòng)擬合,即以遞歸的方式用新的觀測值來增加采樣周期,例如第一次擬合的數(shù)據(jù)范圍是1-d,第二次擬合的數(shù)據(jù)范圍是1-d+1。預(yù)測出來的VaR的檢驗(yàn)和比較結(jié)果如表10所示:

表10 基于滾動(dòng)窗口擬合值的預(yù)測效果檢驗(yàn)和比較

上述檢驗(yàn)和比較結(jié)果表明,基于滾動(dòng)窗口擬合值和基于擴(kuò)展窗口擬合值的預(yù)測結(jié)論一樣的,在使用LightGBM模型和Random Forest模型進(jìn)行預(yù)測時(shí),無論是實(shí)驗(yàn)組和對(duì)照組Kupiec檢驗(yàn)的P值都大于0.05,說明在5%的顯著性水平下,都不能夠拒絕原假設(shè),應(yīng)該認(rèn)為預(yù)測模型都是有效的,然后可以看出分位數(shù)損失的比值都小于1,說明實(shí)驗(yàn)組的預(yù)測效果好于對(duì)照組的效果。這也說明投資者情感指標(biāo)對(duì)于上證指數(shù)的VaR是有預(yù)測能力的,且預(yù)測能力是穩(wěn)健的。

表11 基于擴(kuò)展窗口擬合值的預(yù)測效果檢驗(yàn)和比較

五、結(jié) 論

本文選取2018年7月到2020年6月上證指數(shù)股評(píng)數(shù)據(jù)作為原始文本數(shù)據(jù),采用基于情感詞典的方法來挖掘股評(píng)的情感傾向信息,并且構(gòu)建了較為完善的投資者情緒指標(biāo),利用VAR模型研究投資者情緒指標(biāo)對(duì)于上證指數(shù)下行風(fēng)險(xiǎn)的影響,并且使用機(jī)器學(xué)習(xí)模型實(shí)證考察了投資者情緒指標(biāo)對(duì)于上證指數(shù)下行風(fēng)險(xiǎn)的預(yù)測能力。研究發(fā)現(xiàn):第一,基于情感詞典的文本分類方法,不僅將現(xiàn)有的各種較權(quán)威的詞典進(jìn)行合并去重,而且還對(duì)新詞詞典和領(lǐng)域詞典進(jìn)行了擴(kuò)展,構(gòu)建了更加完善合理的金融領(lǐng)域詞典,實(shí)現(xiàn)了比只使用通用詞典進(jìn)行文本情感分類更好的分類效果。第二,脈沖響應(yīng)的結(jié)果表明,投資者情緒指標(biāo)在短期內(nèi)對(duì)股票市場下行風(fēng)險(xiǎn)有持續(xù)性的作用,其中每日每條評(píng)論的平均閱讀量、每日正向評(píng)論比例、每日負(fù)向評(píng)論比例、每日正向評(píng)論閱讀量的比例以及每日負(fù)向評(píng)論閱讀量的比例的沖擊整體上對(duì)于下行風(fēng)險(xiǎn)的影響是正向的,每日中性評(píng)論比例和投資者一致性指數(shù)的沖擊整體上對(duì)于下行風(fēng)險(xiǎn)的影響是負(fù)向的。第三,股票評(píng)論信息對(duì)于股票市場的下行風(fēng)險(xiǎn)具有一定的預(yù)測能力。通過使用LightGBM模型和Random Forest模型對(duì)股票市場的下行風(fēng)險(xiǎn)進(jìn)行預(yù)測,結(jié)果表明,相對(duì)于只使用下行風(fēng)險(xiǎn)和收益率的滯后數(shù)據(jù),加入投資者情緒指標(biāo)在樣本期外能更好地預(yù)測股票市場的下行風(fēng)險(xiǎn)。本文的研究結(jié)論支持了金融監(jiān)管機(jī)構(gòu)通過加強(qiáng)網(wǎng)絡(luò)輿論的監(jiān)管來維持中國金融市場的穩(wěn)定發(fā)展,從而能夠在一定程度上防范金融市場異常波動(dòng)以及金融危機(jī)的發(fā)生。

猜你喜歡
股票市場詞典投資者
聊聊“普通投資者”與“專業(yè)投資者”
糾紛調(diào)解知多少
米蘭·昆德拉的A-Z詞典(節(jié)選)
米沃什詞典
中國股票市場對(duì)外開放進(jìn)入下半場
貨幣政策與股票市場流動(dòng)性的互相關(guān)關(guān)系研究
貨幣政策與股票市場流動(dòng)性的互相關(guān)關(guān)系研究
詞典引發(fā)的政治辯論由來已久 精讀
新興市場對(duì)投資者的吸引力不斷增強(qiáng)
我國股票市場的有效性研究
灯塔市| 岑溪市| 巴楚县| 蒲城县| 通许县| 辽中县| 二连浩特市| 合水县| 九江市| 怀柔区| 武平县| 桃江县| 赫章县| 布拖县| 大姚县| 保定市| 锡林郭勒盟| 通城县| 绵阳市| 乡城县| 宜昌市| 衢州市| 襄垣县| 寿阳县| 桓仁| 济源市| 松原市| 申扎县| 漳州市| 沙河市| 兖州市| 碌曲县| 治县。| 石柱| 嘉祥县| 浠水县| 哈密市| 石屏县| 丰顺县| 大邑县| 云南省|