(北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院 北京 100083)
互聯(lián)網(wǎng)技術(shù)及應(yīng)用飛速發(fā)展,為人們提供了方便快捷的信息傳送與分享渠道。社交媒體,例如微博、微信、博客、論壇等更是越來(lái)越多的占據(jù)著人們的生活?;ヂ?lián)網(wǎng)已成為所有人獲取信息、表達(dá)觀點(diǎn)和情感以及分享觀點(diǎn)的主要方式。截至2017年 12 月,根據(jù)中國(guó)互聯(lián)網(wǎng)信息中心公布的《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]的數(shù)據(jù),我國(guó)網(wǎng)民規(guī)模達(dá)7.72億,互聯(lián)網(wǎng)普及率為55.8%,超出全球水平4.1%,且網(wǎng)民數(shù)量保持繼續(xù)增長(zhǎng)。在金融領(lǐng)域,互聯(lián)網(wǎng)已經(jīng)成為投資者獲取各種投資信息的主要來(lái)源,通過(guò)大型的金融網(wǎng)站,投資者可及時(shí)地獲取政府出臺(tái)的經(jīng)濟(jì)政策、貨幣政策、產(chǎn)業(yè)政策、實(shí)時(shí)的股市、期貨、外匯等金融產(chǎn)品的信息、宏觀經(jīng)濟(jì)指數(shù)、企業(yè)基本信息、專家點(diǎn)評(píng)分析等信息,同時(shí)可以實(shí)現(xiàn)信息的迅速傳播、分享、交流和討論。
投資者的投資決策過(guò)程是一個(gè)信息收集、整理、分析、得出結(jié)論并采取策略的過(guò)程。傳統(tǒng)的經(jīng)濟(jì)學(xué)、金融學(xué)投資模型大多建立在較為理想的假設(shè)條件下,比如市場(chǎng)的參與者都是完全理性的,所有交易沒(méi)有摩擦、信息對(duì)稱等。然而,傳統(tǒng)的投資模型無(wú)法解釋今天的很多金融異象,特別是在今天的信息傳播與以往有著本質(zhì)差別的時(shí)代。傳統(tǒng)的金融理論都基于一些理想的假設(shè),認(rèn)為證券的價(jià)格應(yīng)該正確反映其內(nèi)在價(jià)值,證券價(jià)格反映了所有可能獲得的信息,幾乎都沒(méi)有考慮投資者作為社會(huì)人的心理特征。人的投資行為是不理性的,人的決策受情感、環(huán)境、市場(chǎng)氛圍以及當(dāng)時(shí)的心理情緒得影響。分析投資者群體的心理行為是投資成功與否的關(guān)鍵。
本文研究目的是利用文本挖掘的方法分析散布在微博、財(cái)經(jīng)新聞、金融論壇等互聯(lián)網(wǎng)上的評(píng)論信息,研究投資者的情緒,分析投資者情緒與中國(guó)股市的相關(guān)性及影響程度。最后通過(guò)實(shí)證研究分析投資者情緒與滬深300指數(shù)的相關(guān)性關(guān)系。
本文的安排如下:
第一部分為背景介紹,第二部分為國(guó)內(nèi)外研究概況介紹,第三部分是投資者情緒的度量,第四部分是實(shí)證研究,第五部分是結(jié)果與展望。
近些年,國(guó)內(nèi)外很多學(xué)者在關(guān)于投資者的情緒對(duì)資本市場(chǎng)的影響做了大量的研究。在如何度量投資者情緒的方法上采用的方法也各有不同。早期的研究都是利用單個(gè)指標(biāo)來(lái)衡量投資者的情緒,比如利用封閉式基金折價(jià)。近期的研究擴(kuò)展到多個(gè)指標(biāo),但是都是基于結(jié)構(gòu)化數(shù)據(jù)的指標(biāo)。易志高、茅寧(2009)[2]通過(guò)利用多個(gè)指標(biāo)構(gòu)建我國(guó)股票市場(chǎng)的投資者情緒指數(shù),即封閉式基金折價(jià)率、IPO數(shù)量、消費(fèi)者信心指數(shù)、新增投資者開(kāi)戶數(shù),此方法采用多個(gè)指標(biāo)構(gòu)成一個(gè)綜合指標(biāo)來(lái)反映整體市場(chǎng)的情緒。王美今和孫建軍(2004)[3]基于中國(guó)股市研究,認(rèn)為投資者接受價(jià)格時(shí)的情緒是影響市場(chǎng)均衡價(jià)格的系統(tǒng)性因素,實(shí)證發(fā)現(xiàn)投資者情緒顯著地影響了滬深兩市的收益且反向修正收益率的波動(dòng)。姚登寶(2017)[4]利用主成分分析法構(gòu)建投資者情緒和金融市場(chǎng)穩(wěn)定的新指標(biāo),應(yīng)用TVP-SV-SVAR模型研究了投資者情緒和市場(chǎng)流動(dòng)性對(duì)金融市場(chǎng)穩(wěn)定的影響力。研究結(jié)果表明投資者情緒對(duì)金融市場(chǎng)穩(wěn)定的影響力逐年減弱且存在時(shí)滯效應(yīng),投資者情緒與市場(chǎng)流動(dòng)性存在非對(duì)稱性的關(guān)系。楊陽(yáng)和萬(wàn)迪昉(2010)[5]應(yīng)用上證股市的相關(guān)數(shù)據(jù)分析投資者情緒與股市收益在不同情形下的關(guān)系。結(jié)果表明我國(guó)投資者情緒對(duì)股票市場(chǎng)的收益并無(wú)顯著影響。楊墨竹(2013)[6]對(duì)A股市場(chǎng)ETF總資金流與市場(chǎng)收益的關(guān)系進(jìn)行了研究,文章把研究由傳統(tǒng)型開(kāi)放式基金擴(kuò)展到ETF。結(jié)論顯示投資者情緒假說(shuō)解釋了金融危機(jī)之后的波動(dòng)。楊亮、王鎮(zhèn)(2016)[7]研究了散戶投資者的交易行為及散戶投資者在我國(guó)資本市場(chǎng)中的主要地位。結(jié)論表明,中國(guó)的散戶投資者存在羊群效應(yīng)和跟風(fēng)操作行為。晏艷陽(yáng)(2010)[8]對(duì)投資者情緒是否構(gòu)成系統(tǒng)風(fēng)險(xiǎn)方面進(jìn)行了研究,結(jié)果表明中國(guó)的投資者情緒是不同市值股票差異的重要因素,但是對(duì)整個(gè)市場(chǎng)不構(gòu)成系統(tǒng)性風(fēng)險(xiǎn)。熊偉、陳浪南(2015)[9]將受情緒影響的噪聲交易者引入莫頓模型,以滬深兩市股市數(shù)據(jù)樣本分析了投資者情緒與股票收益以及波動(dòng)率的關(guān)系。結(jié)果表明,股票收益率與股票特質(zhì)波動(dòng)率正相關(guān),股市流動(dòng)性和投資者情緒是影響收益率的重要原因。伍燕然、韓立巖(2007)[10]利用非完全理性投資者的情緒分析了封閉式基金的折價(jià)現(xiàn)象,論證了投資者情緒是資產(chǎn)定價(jià)的重要因素。結(jié)果顯示,積極的情緒對(duì)股票收益具有顯著的正面影響,而消極的情緒對(duì)收益的影響并不大。
國(guó)外也有大量學(xué)者研究了投資者情緒對(duì)其金融市場(chǎng)的影響,他們采用的研究方法與中國(guó)學(xué)者的研究方法類似,但是角度各有不同。Corridor,F(xiàn)errer和Santamaria(2015)[11]研究了投資者情緒對(duì)捷克共和國(guó)、匈牙利和波蘭三個(gè)中歐市場(chǎng)股票收益的影響。研究結(jié)果顯示,情緒是影響這三個(gè)市場(chǎng)上交易的股票價(jià)格的一個(gè)關(guān)鍵變量,它的影響力比在更發(fā)達(dá)的歐洲市場(chǎng)更明顯,而且這種影響與股票特征有關(guān),存在某些股票更容易受投資者情緒影響。情緒對(duì)股市影響在各國(guó)國(guó)家還并不一致,對(duì)波蘭和捷克共和國(guó)的影響程度較大。Kleinnijenhuis等(2012)[12]等通過(guò)2007年到2009年金融危機(jī)期間美國(guó)新聞、英國(guó)新聞和荷蘭新聞對(duì)三家荷蘭銀行的影響程度,分析了金融類新聞是否會(huì)導(dǎo)致市場(chǎng)恐慌。研究表明新聞的長(zhǎng)期效應(yīng)與有效市場(chǎng)假說(shuō)相悖,新的經(jīng)濟(jì)思想、新的傳播理論、高頻交易和高頻情緒分析會(huì)影響金融市場(chǎng)的走勢(shì)。Wang,Li和Lin(2009)[13]研究了投資者情緒對(duì)臺(tái)灣期貨交易所的影響,應(yīng)用EGB-2模型揭示了市場(chǎng)情緒與波動(dòng)性之間存在著明確而顯著的關(guān)系。研究發(fā)現(xiàn)情緒變量的預(yù)測(cè)能力有限,通過(guò)引入Hamilton(1994)的Swatch模型來(lái)分析投資者情緒的波動(dòng)機(jī)制,發(fā)現(xiàn)大多數(shù)投資者在下一時(shí)期都會(huì)保持相同的波動(dòng)機(jī)制。Chiang,Tsai和Lee(2011)[14]利用臺(tái)灣建筑公司的股票業(yè)績(jī)來(lái)檢驗(yàn)市場(chǎng)是否存在泡沫。通過(guò)采用面板數(shù)據(jù)檢驗(yàn)來(lái)確定建筑公司股票的價(jià)格是否反映了基本面指標(biāo),并檢測(cè)了股票價(jià)格的泡沫成分。文章中建立了一個(gè)衡量股市泡沫的指標(biāo),并研究了它與投資者情緒的關(guān)系。實(shí)證結(jié)果表明,在樣本期內(nèi)外國(guó)投資者的情緒與泡沫有關(guān)。Finter,Niessen-Ruenzi和Ruenzi(2012)[15]為德國(guó)市場(chǎng)建立了一個(gè)廣義的情緒指標(biāo),研究投資者情緒是否可以解釋德國(guó)股市的股票收益,在主成分分析的基礎(chǔ)上,構(gòu)造了一種融合了情感代理變量的情感指標(biāo)。并通過(guò)新的情感指標(biāo)解釋了對(duì)情緒波動(dòng)敏感的股票和對(duì)情緒波動(dòng)不敏感的股票之間的收益率差。
由此可見(jiàn),國(guó)內(nèi)外學(xué)者都認(rèn)識(shí)到投資者情緒對(duì)金融市場(chǎng)的影響是顯著的,但是對(duì)金融市場(chǎng)的預(yù)測(cè)能力各不相同。
本文通過(guò)結(jié)合宏觀和微觀的經(jīng)濟(jì)指標(biāo),在前人的基礎(chǔ)上,引入了文本情感作為度量整體市場(chǎng)的投資者情緒的重要指標(biāo),以下介紹變量的選擇以及如何度量投資者的情緒。
本文選取消費(fèi)者信心指數(shù)(CCI)、IPO數(shù)量(IPON)、換手率(TURN)、交易量(VOLUME)、新增開(kāi)戶數(shù)(NOPEN)以及文本情感值(ST)作為基礎(chǔ)變量用于度量市場(chǎng)的投資者情緒。對(duì)于文本情感值的計(jì)算,按照以下步驟進(jìn)行:
第一步,對(duì)于給定的一個(gè)句子,首先對(duì)句子進(jìn)行分詞。對(duì)分詞的原理和算法,在此不詳細(xì)描述。
第二步,專業(yè)詞典構(gòu)造與詞的極性標(biāo)注。本文結(jié)合通用型《知網(wǎng)情感詞典》和構(gòu)造的金融情感詞典,對(duì)每一個(gè)詞屬于“正面”或者“負(fù)面”進(jìn)行判定。而對(duì)于金融類的情感詞典,本文構(gòu)建了金融投資領(lǐng)域的正面或者負(fù)面的詞極標(biāo)注詞典。
表1 金融投資情感詞典
第三步,計(jì)算文本的情感值。整篇文章的情感值是由句子的情感值組成,而句子的情感值又是通過(guò)其包含的詞情感值構(gòu)成。所以,最細(xì)的情感值分析單元是詞的情感值。文章情感值的計(jì)算是自下而上的聚合過(guò)程,聚合的方法采用一般平均方法。
本文通過(guò)主成分分析法構(gòu)建整體市場(chǎng)的投資者情緒指標(biāo),令第p個(gè)主成分為:
Fp=a1iZx1+a2iZx2+…apiZp3
其中,a1i,a2i…api表示X的協(xié)方差矩陣∑的特征值所多對(duì)應(yīng)的特征向量,Zx1,Zx2,Zxp是數(shù)據(jù)標(biāo)準(zhǔn)化后的值,標(biāo)準(zhǔn)化的目的是為了消除量綱。對(duì)于a1i,a2i…api對(duì)應(yīng)的特征值λ1,λ2…λp,有λ1≥λ2…λp≥0。
市場(chǎng)的情緒綜合指數(shù)通過(guò)被選取的主成分的加權(quán)平均計(jì)算得出。投資者的整體情緒本身是一個(gè)很難度量的指標(biāo),很多因素都可能影響到投資者的情緒。
對(duì)于所有變量,由于量綱不同,首先需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,本文采用的是交易日數(shù)據(jù)為基本單位,需要把數(shù)據(jù)平滑到每日的數(shù)據(jù)。除文本情感值之外,其他幾個(gè)變量均可以通過(guò)東方財(cái)富網(wǎng)上獲得。對(duì)于文本分析的情感值的計(jì)算,本文主要從天涯社區(qū)等比較活躍的金融論壇爬取數(shù)據(jù),使用Python爬蟲(chóng)程序爬取數(shù)據(jù)。數(shù)據(jù)的時(shí)間段是2018年1月1日到2018年12月31日。
表2 文本數(shù)據(jù)源
從三個(gè)論壇獲取的文章數(shù)量平均每天為240篇左右,計(jì)算出每日的文本情感值,如下圖所示。
圖1 每日文本情感值
本文定義的文本情感值在-1和1之間,市場(chǎng)的投資者情緒越高漲,則文本的情感值越靠近1;當(dāng)市場(chǎng)的投資者情緒越是低迷,則文本的情感值越靠近-1。
本節(jié)以主成分分析為主要方法,通過(guò)對(duì)變量的降維完成主成分的提取,確保壓縮后的指標(biāo)仍能充分反映原始變量的大部分信息,進(jìn)而構(gòu)建出本文所需投資者綜合情緒指數(shù)。其相應(yīng)操作步驟如下:
(1)首先計(jì)算6個(gè)變量之間的相關(guān)矩陣以及特征值;
(2)計(jì)算特征值及貢獻(xiàn)率,前三個(gè)主成分的累積貢獻(xiàn)率已經(jīng)達(dá)到86.58%;
(3)計(jì)算Z1,Z2,Z3主成分載荷。
得到主成分的表達(dá)式為:
Z1=0.638*CCIt-0.231*IPONt-0.964*TURNt+0.0042*VOLt+0.8234*NOPENt+0.819*STt
Z2=-0.523*CCIt-0.887*IPONt+0.0096*TURNt+0.868*VOLT+0.444*NOPENt+0.179*STt
Z3=-0.0061*CCIt-0.0028*IPONt+0.0095*TURNt-0.0011*VOLt+0.125*NOPENt-0.251*STt
通過(guò)Z1,Z2,Z3的加權(quán)平均,得到第t日整體市場(chǎng)的投資者情緒值如下:
ISVt=(0.5179*Z1+0.2321*Z2+0.1158*Z3)/0.8658
由于滬深300指數(shù)選取的是流動(dòng)性強(qiáng)和規(guī)模大的代表性股票,是能反映整個(gè)市場(chǎng)綜合性指標(biāo),所以本文選擇滬深300指數(shù)作為研究目標(biāo)。2018年的滬深300指數(shù)成下跌趨勢(shì),股指從年初的4000點(diǎn)跌到年底的3000點(diǎn)附近,全年下跌超過(guò)25%。
令收益率Rt=(Pt-Pt-1)/Pt-1,則是滬深300指數(shù)在2018年的收益率如下圖。
圖2 滬深300收益率
可以看出,滬深300指數(shù)的收益率在2018年大部分在是負(fù)收益,而且有多個(gè)時(shí)點(diǎn)上的收益率在-2%以下。也存在收益率在2%以上甚至超過(guò)4%,這說(shuō)明即使在全年熊市的情況下,仍然存在階段性的機(jī)會(huì)。
考慮到情緒指數(shù)對(duì)股市的影響可能存在滯后效應(yīng),所以本文分別檢驗(yàn)了滯后1到5階的投資者情緒指數(shù)與股市收益率之間的相關(guān)分析。
首先,分別對(duì)市場(chǎng)情緒指數(shù)與收益率進(jìn)行正態(tài)分布檢驗(yàn),對(duì)于滯后階的投資者情緒指數(shù),其分布與原數(shù)據(jù)序列一致,因此只需要檢驗(yàn)原序列的正態(tài)性。
通過(guò)Shapiro-Wilk正態(tài)分布檢驗(yàn)結(jié)果,由于P<0.05,因此拒絕序列是正態(tài)的假設(shè)。對(duì)序列進(jìn)行對(duì)數(shù)變化,即STNew=log(ST),然后對(duì)STNew進(jìn)行正態(tài)分布檢驗(yàn),結(jié)果如下:
表3 情緒指數(shù)對(duì)數(shù)的正態(tài)分布檢驗(yàn)
P值大于0.05,則符合正態(tài)分布的結(jié)論。因此進(jìn)行對(duì)數(shù)變換后的市場(chǎng)投資者情緒數(shù)據(jù)滿足正態(tài)分布。同樣的,對(duì)股市收益率序列進(jìn)行正態(tài)分布檢驗(yàn)。下面是對(duì)其進(jìn)行正態(tài)檢驗(yàn)的結(jié)果:
表4 收益率正態(tài)分布檢驗(yàn)
從檢驗(yàn)結(jié)果中可以看到P>0.05,說(shuō)明滬深300股票收益率服從正態(tài)分布,因此收益率可以直接用于建立回歸方程。
對(duì)于變換后的投資者情緒序列與收益率序列,均滿足正態(tài)分布分布,因此使用Person相關(guān)系數(shù)來(lái)分析變量之間的相關(guān)性??紤]到投資者情緒序列對(duì)股市收益率存在滯后影響,因此本文分別檢驗(yàn)了滯后1階到5階的情緒指數(shù)與收益率的相關(guān)性。
表5 收益率與情感指數(shù)相關(guān)性
從以上結(jié)果我們可以得出,滯后3階的投資者綜合情緒指數(shù)同股票收益率的線性相關(guān)性最高,其Pearson系數(shù)達(dá)到了0.74。這也進(jìn)一步驗(yàn)證了本文的定性假設(shè)。接下來(lái)通過(guò)回歸分析研究市場(chǎng)投資者綜合情緒指數(shù)與股市收益率的影響程度。
建議回歸分析方程為:
Return=α+β*Lag3(log(ST))
以下為回歸分析的結(jié)果:
表6 方差分析結(jié)果
均方根誤差0.00942R方0.5503因變量均值-0.00114調(diào)整R方0.5484變異系數(shù)-823.57184
參數(shù)估計(jì)變量自由度參數(shù)估計(jì)標(biāo)準(zhǔn)誤差t值Pr>|t|Intercept1-0.024340.00148-16.41<.0001lag3_st10.683080.0398617.14<.0001
對(duì)于方差分析部分的P值小于0.05,說(shuō)明整個(gè)方程是有效的。對(duì)于參數(shù)的估計(jì)部分,P值都小于0.05,因此系數(shù)是顯著不為0的。對(duì)于殘差的檢驗(yàn)發(fā)現(xiàn)殘差是滿足均值為0正態(tài)分布的白噪聲序列。因此,我們得到線性回歸方程為:
Retrun=-0.02434+0.68306*Lag3(Log(st))……(4)
同時(shí),其調(diào)整的R方僅能達(dá)到0.548,這說(shuō)明僅靠市場(chǎng)的投資者情緒指數(shù)來(lái)解釋收益率的變化也不是非常完美。但是情緒指數(shù)對(duì)收益率的影響是顯著的,是不能被忽視的因素。
本文從延展“信息”的概念開(kāi)始,把從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)提取信息的方式拓展到從非結(jié)構(gòu)化到文本信息中提取信息。從投資者的網(wǎng)絡(luò)評(píng)論中,通過(guò)文本挖掘的手段提取出文本情感,再結(jié)合宏觀經(jīng)濟(jì)的相關(guān)指標(biāo),用主成分分析方法計(jì)算出代表整體市場(chǎng)的投資者情緒指數(shù)。利用2018年的滬深300指數(shù)作為研究目標(biāo),本文得到的結(jié)論是投資者情緒顯著影響了滬深300指數(shù)的收益率。本人認(rèn)為以下方面值得進(jìn)一步研究:
1.對(duì)于文本數(shù)據(jù)的爬取,本文只爬取了比較活躍的幾個(gè)網(wǎng)站的數(shù)據(jù),以此來(lái)代表全網(wǎng)投資者的情感傾向,并沒(méi)有進(jìn)行全網(wǎng)的爬取。
2.對(duì)于互聯(lián)網(wǎng)數(shù)據(jù)的“真”、“假”鑒別值得進(jìn)一步分析。由于投資者情緒與股票收益的相關(guān)性,對(duì)于單只股票而言,不排除莊家在互聯(lián)網(wǎng)散步假消息,制造假情緒進(jìn)行惡意炒作股票的行為。
3.對(duì)于金融詞典的構(gòu)建可以進(jìn)一步完善,更豐富的表達(dá)正面或者負(fù)面情感的詞匯,有助于更精確的度量情感。