張同輝,苑 瑩,曾 文
(1.東北大學(xué)工商管理學(xué)院,遼寧 沈陽 110169;2.中國科學(xué)技術(shù)信息研究所,北京 100038;3.瑞士蘇黎世聯(lián)邦理工學(xué)院管理技術(shù)與經(jīng)濟(jì)系,瑞士 蘇黎世 8952)
投資者對(duì)股市信息的關(guān)注是導(dǎo)致市場(chǎng)價(jià)格波動(dòng)的前提和基礎(chǔ),“有效市場(chǎng)假說”認(rèn)為參與市場(chǎng)交易的投資者是“理性、同質(zhì)的決策體”[1],投資者關(guān)注有限性引發(fā)的認(rèn)知偏差并不會(huì)對(duì)市場(chǎng)價(jià)格波動(dòng)產(chǎn)生影響。而事實(shí)上,由于市場(chǎng)中信息不對(duì)稱、交易摩擦等問題,大量投資者是非理性、異質(zhì)的,投資者行為對(duì)市場(chǎng)波動(dòng)的影響并非如經(jīng)典假設(shè)般無足輕重。有限理性的投資者擁有不同的投資偏好、關(guān)注不同的市場(chǎng)信息,由此形成了不同的市場(chǎng)認(rèn)知和未來預(yù)期。投資者對(duì)市場(chǎng)認(rèn)知的偏差會(huì)通過交易行為反饋到市場(chǎng)價(jià)格的波動(dòng)中。由于大量投資者認(rèn)知和預(yù)期不同而產(chǎn)生的價(jià)格波動(dòng)反映了投資者關(guān)注對(duì)股票市場(chǎng)的內(nèi)源性影響。
目前,大多數(shù)學(xué)者已經(jīng)認(rèn)同異質(zhì)的投資者關(guān)注會(huì)對(duì)股票市場(chǎng)波動(dòng)產(chǎn)生影響。但受制于投資者關(guān)注無法準(zhǔn)確衡量,現(xiàn)有研究大多通過定義不同期限的市場(chǎng)累積波動(dòng)率來模擬異質(zhì)投資者的行為。突破基于股市歷史價(jià)格數(shù)據(jù)研究市場(chǎng)波動(dòng)的局限,將投資者關(guān)注對(duì)市場(chǎng)波動(dòng)的直接影響考慮進(jìn)市場(chǎng)波動(dòng)率的相關(guān)研究中,不僅對(duì)明晰股票市場(chǎng)運(yùn)行機(jī)制有一定的啟發(fā)性意義,對(duì)金融市場(chǎng)的實(shí)踐也具有重要的應(yīng)用價(jià)值。
現(xiàn)有市場(chǎng)波動(dòng)率的研究大多基于GARCH 族和SV 族模型。但隨著高頻數(shù)據(jù)可獲得性的提高,基于日內(nèi)高頻數(shù)據(jù)研究市場(chǎng)波動(dòng)率成為學(xué)術(shù)界和實(shí)務(wù)界的廣泛共識(shí)。Andersen和Bollerslev[2]提出的已實(shí)現(xiàn)波動(dòng)率(realized volatility,RV)測(cè)度方法和Corsi[3]基于“異質(zhì)市場(chǎng)假說”構(gòu)建的異質(zhì)自回歸模型(HAR),逐漸成為普遍接受的市場(chǎng)波動(dòng)率測(cè)度及建模方法。
其后,大量學(xué)者分別從對(duì)內(nèi)將已實(shí)現(xiàn)波動(dòng)率進(jìn)一步分解為連續(xù)性波動(dòng)和跳躍性波動(dòng)兩部分,對(duì)外通過引入杠桿效應(yīng)等其他變量對(duì)HAR 模型進(jìn)行改進(jìn)。例如:Andersen等[4]基于多種跳躍統(tǒng)計(jì)檢驗(yàn)方法,建立了HAR-RV-J和HAR-RV-CJ模型,證實(shí)了分離已實(shí)現(xiàn)波動(dòng)可以提高HAR-RV 模型的預(yù)測(cè)表現(xiàn)。Corsi等[5]利用修正的門限多次冪變差提出了HAR-RV-TCJ模型。Corsi和Reno[6]進(jìn)一步將收益率負(fù)向沖擊的異質(zhì)結(jié)構(gòu)引入HAR 模型,構(gòu)建了LHAR 模型。此外,國內(nèi)學(xué)者馬鋒等[7]提出兩個(gè)含跳躍識(shí)別檢驗(yàn)的符號(hào)跳躍變差,宋亞瓊和王新軍[8]提出考慮跳躍行為及杠桿效應(yīng)的LHARQ-CJ模型,羅嘉雯等[9]構(gòu)建包含杠桿效應(yīng)的HAR 貝葉斯時(shí)變模型等,都從內(nèi)外兩個(gè)角度對(duì)HAR 模型進(jìn)行了不同程度的改進(jìn)。
國內(nèi)外學(xué)者關(guān)于市場(chǎng)波動(dòng)率模型的研究已十分豐富,但現(xiàn)有文獻(xiàn)均是基于市場(chǎng)交易的歷史數(shù)據(jù)來研究和預(yù)測(cè)未來市場(chǎng)波動(dòng)率,即使如HAR 類模型,也未將投資者關(guān)注等因素有效的引入波動(dòng)率模型之中。隨著行為金融學(xué)的興起,定量化研究投資者的關(guān)注行為,并進(jìn)一步研究投資者關(guān)注對(duì)市場(chǎng)的影響成為新的研究熱點(diǎn)[10-12]。
傳統(tǒng)的投資者關(guān)注通常使用漲停板事件[13]、廣告費(fèi)用[14]以及新聞報(bào)道[15]等間接代理變量。隨著互聯(lián)網(wǎng)的普及,基于海量在線搜索數(shù)據(jù)量化投資者關(guān)注行為成為新的可能。Da等[16]首次采用谷歌趨勢(shì)(Google Trends)研究投資者關(guān)注,發(fā)現(xiàn)與傳統(tǒng)間接代理變量相比,搜索引擎的搜索指數(shù)可以更直接的反映投資者對(duì)股票的關(guān)注程度。Aouadi等[17]在個(gè)股層面證實(shí)了以谷歌趨勢(shì)為代理變量的投資者信息需求與股票市場(chǎng)流動(dòng)性存在正向相關(guān)關(guān)系。Joseph等[18]和Smith[19]的研究均表明,谷歌搜索強(qiáng)度可以可靠地預(yù)測(cè)股票回報(bào)和交易量。Hamid等[20]和Dimpfl等[21]利用谷歌趨勢(shì)預(yù)測(cè)道瓊斯工業(yè)平均指數(shù)的波動(dòng)時(shí)也發(fā)現(xiàn),預(yù)測(cè)的準(zhǔn)確性會(huì)隨著投資者關(guān)注的增強(qiáng)而顯著提高。Weng等[22]證實(shí)了納斯達(dá)克市場(chǎng)上市公司股票具有與市場(chǎng)指數(shù)相同的結(jié)論。Peilin[23]從跨期網(wǎng)絡(luò)搜索與市場(chǎng)波動(dòng)的影響關(guān)系出發(fā),指出網(wǎng)絡(luò)搜索的增加可能預(yù)示著市場(chǎng)波動(dòng)性的增加,并將降低后一期的股票回報(bào)率。Dzieliński等[24]進(jìn)一步研究了投資者關(guān)注的非對(duì)稱性與市場(chǎng)波 動(dòng) 間 的 關(guān) 系 問 題。Yu Lean 等[25]和Guan Hongjun等[26]則從網(wǎng)絡(luò)搜索角度對(duì)市場(chǎng)波動(dòng)預(yù)測(cè)問題進(jìn)行研究,指出與傳統(tǒng)波動(dòng)率預(yù)測(cè)方法相比,考慮網(wǎng)絡(luò)搜索數(shù)據(jù)可以獲得更好的預(yù)測(cè)效果。
然而,與谷歌搜索相比,百度搜索引擎在中國市場(chǎng)具有更為廣泛的市場(chǎng)份額,成為研究中國市場(chǎng)投資者關(guān)注的重要數(shù)據(jù)來源。例如,俞慶進(jìn)和張兵[27]利用百度指數(shù)代理投資者關(guān)注,發(fā)現(xiàn)投資者關(guān)注與同期股票收益率之間存在正向相關(guān)關(guān)系。Fan等[28]的研究也證實(shí)基于百度指數(shù)的投資者關(guān)注對(duì)未來市場(chǎng)價(jià)格表現(xiàn)存在正向壓力。趙龍凱等[29]利用百度指數(shù)研究了投資者關(guān)注與股票收益率之間的關(guān)系,發(fā)現(xiàn)高關(guān)注股票的收益率要顯著大于低關(guān)注股票。Wang Xiaolin等[30]基于股指期貨市場(chǎng)的研究發(fā)現(xiàn)百度搜索在短期內(nèi)存在反轉(zhuǎn)效應(yīng)。Shen Dehua等[31-33]通過系列研究證實(shí)了百度搜索信息流與市場(chǎng)收益率波動(dòng)存在顯著的領(lǐng)先滯后關(guān)系。衛(wèi)強(qiáng)等[34]通過研究個(gè)股的百度搜索量和目標(biāo)股票價(jià)格間的關(guān)系,提出了個(gè)股層面的交易策略。張誼浩等[35]、Kou Yi等[36]和陳聲利等[37]的研究都試圖證實(shí)基于百度指數(shù)的網(wǎng)絡(luò)搜索量具有預(yù)測(cè)未來股票市場(chǎng)的作用。
綜上所述,目前國內(nèi)外學(xué)者的研究已經(jīng)證實(shí)投資者關(guān)注與股票市場(chǎng)具有顯著的相互影響關(guān)系。但是較少學(xué)者深入探討投資者關(guān)注對(duì)未來市場(chǎng)波動(dòng)的預(yù)測(cè)作用,也未提出系統(tǒng)的研究方法和模型,而且現(xiàn)有研究中投資者關(guān)注與市場(chǎng)波動(dòng)在統(tǒng)計(jì)上的強(qiáng)相關(guān)性,也無法得出投資者關(guān)注就是導(dǎo)致市場(chǎng)波動(dòng)的影響因素[38]。只有進(jìn)一步揭示投資者關(guān)注是否存在對(duì)市場(chǎng)的預(yù)測(cè)能力,才能更好的理解二者之間的關(guān)系,也更具實(shí)踐意義。基于此,本文以中國股票市場(chǎng)最具代表性的上證指數(shù)和深證成指為研究樣本,通過聚合多種網(wǎng)絡(luò)搜索指數(shù)數(shù)據(jù),分別構(gòu)建了上證指數(shù)和深證成指的投資者關(guān)注指標(biāo)。然后基于時(shí)間延遲的去趨勢(shì)交叉相關(guān)性分析(DCCA)方法[39],克服現(xiàn)有研究中面臨的時(shí)間序列的不穩(wěn)定性和非線性特征等問題,深入探究投資者關(guān)注和股票指數(shù)序列間的交叉相關(guān)性及其領(lǐng)先滯后關(guān)系。
與以往研究相比,本文的主要貢獻(xiàn)在于:首先,本文將投資關(guān)注從個(gè)股層面轉(zhuǎn)向股票市場(chǎng)的整體,克服了個(gè)股層面投資者關(guān)注研究面臨的噪聲交易者和關(guān)注度不足的問題。其次,不同于現(xiàn)有利用搜索引擎絕對(duì)搜索量或?qū)?shù)處理的形式構(gòu)造投資者關(guān)注指標(biāo)的方法,本文采用多種網(wǎng)絡(luò)搜索指數(shù)的相對(duì)變化率定義新的投資者關(guān)注代理變量,不僅彌補(bǔ)了已有方法的部分缺陷,而且在實(shí)證研究中驗(yàn)證了新指標(biāo)的有效性。再次,本文將投資者關(guān)注與股票市場(chǎng)的關(guān)系研究拓展到非線性的交叉相關(guān)性研究,并進(jìn)一步揭示了二者的傳導(dǎo)方向和傳導(dǎo)強(qiáng)度,從而為投資者關(guān)注融入波動(dòng)率預(yù)測(cè)模型掃清了障礙。最后,本文將投資者關(guān)注變量引入波動(dòng)率預(yù)測(cè)模型,構(gòu)建了新的投資者關(guān)注波動(dòng)率預(yù)測(cè)模型,并證實(shí)了在投資者高關(guān)注時(shí)期,引入投資者關(guān)注變量可以更加有效的預(yù)測(cè)中國股票市場(chǎng)。
本文選擇2011年1月4日至2016年11月10日上證指數(shù)(000001.sh)和深證成指(399001.sz)5分鐘高頻數(shù)據(jù)作為研究樣本。選擇上述研究樣本基于以下三點(diǎn)考慮:(1)上證指數(shù)和深證成指作為上海證券交易所和深圳證券交易所各自代表性指數(shù),能夠充分反映中國證券市場(chǎng)價(jià)格波動(dòng)的整體態(tài)勢(shì)和運(yùn)行狀況。(2)由于滬深兩地交易所上市公司規(guī)模的不同,上證指數(shù)和深證成指可以分別代表大盤股票和中小盤股票的波動(dòng)性特征,進(jìn)而提高研究的全面性和穩(wěn)健性。(3)百度指數(shù)提供自2011年1月1日之后的搜索數(shù)據(jù),剔除非交易日數(shù)據(jù),共可得到1422個(gè)交易日數(shù)據(jù),這一樣本區(qū)間涵蓋了中國證券市場(chǎng)相對(duì)完整的牛熊市波動(dòng)周期。
上證指數(shù)和深證成指5 分鐘高頻數(shù)據(jù)來源于Wind數(shù)據(jù)庫,同期的網(wǎng)絡(luò)搜索數(shù)據(jù)通過抓取百度指數(shù)(http://index.baidu.com)官方網(wǎng)站獲得。上海和深圳證券交易所每個(gè)交易日有4個(gè)小時(shí)的交易時(shí)間,在5分鐘的采樣頻率下,每個(gè)交易日內(nèi)共有48個(gè)樣本點(diǎn)(不含開盤價(jià))。本文采用已實(shí)現(xiàn)波動(dòng)率衡量股票市場(chǎng)波動(dòng),與日收益率平方相比,這種方法可以有效降低噪聲及誤差對(duì)波動(dòng)率估計(jì)量的影響。形式如下:
其中RVsz,t和RV sc,t分別代表第t日的上證指數(shù)和深證成指的已實(shí)現(xiàn)波動(dòng)率。
本文選擇百度指數(shù)作為構(gòu)建投資者關(guān)注度代理變量的基礎(chǔ)。百度指數(shù)是根據(jù)百度每日海量用戶網(wǎng)絡(luò)搜索數(shù)據(jù)整理而成。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2017年7月)》和《2015 年中國網(wǎng)民搜索行為調(diào)查報(bào)告》及Stat Counter的統(tǒng)計(jì)數(shù)據(jù),在中國6.09億搜索引擎用戶中,百度搜索的品牌滲透率為93.10%,樣本期內(nèi)百度搜索月均市場(chǎng)占有率為69.03%。此外,上海證券交易所和深圳證券交易所統(tǒng)計(jì)年鑒也表明,中國網(wǎng)絡(luò)搜索用戶和股民的地區(qū)分布、年齡結(jié)構(gòu)、學(xué)歷層次具有高度耦合性,這說明百度作為占據(jù)市場(chǎng)主導(dǎo)地位的搜索引擎,亦是大多數(shù)投資者的首要信息檢索工具,因此以百度指數(shù)為基礎(chǔ)構(gòu)建投資者關(guān)注代理變量具有很好的代表性。
現(xiàn)有文獻(xiàn)大多采用百度指數(shù)絕對(duì)搜索量或?qū)?shù)數(shù)據(jù)作為投資者關(guān)注的代理變量。這種方法存在明顯的不足:(1)隨著互聯(lián)網(wǎng)的普及和手機(jī)搜索用戶的崛起,百度指數(shù)經(jīng)歷了井噴式的快速發(fā)展,現(xiàn)有文獻(xiàn)中采用的絕對(duì)搜索量和對(duì)數(shù)處理的方法已不能滿足數(shù)據(jù)平穩(wěn)性這一基本假設(shè)。(2)相對(duì)于搜索量的絕對(duì)變化,投資者每日關(guān)注的相對(duì)變化趨勢(shì)更能反映百度搜索存量用戶對(duì)股票市場(chǎng)的關(guān)注,因此蘊(yùn)含了更有價(jià)值的關(guān)注信息。(3)由于百度指數(shù)自身量級(jí)的急劇變化,傳統(tǒng)方法在模型參數(shù)估計(jì)方面也面臨較大的困難。
此外,上證指數(shù)和深證成指作為中國最具代表性的股票市場(chǎng)指數(shù),不同區(qū)域投資者的語言偏好不同,可能會(huì)使用股指的全稱、簡稱、股指代碼等不同關(guān)鍵詞進(jìn)行檢索。俞慶進(jìn)和張兵[27]指出搜索證券簡稱和證券代碼的用戶,更可能是潛在的投資者。因此,本文在考慮不同搜索關(guān)鍵詞的同時(shí)采用了百度指數(shù)“需求圖譜”功能。該功能提供了樣本期內(nèi)不同搜索關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系及關(guān)聯(lián)強(qiáng)度。圖1展示了以“深證成指”和“399001”為搜索關(guān)鍵詞的百度需求圖譜。
從圖1可以看出:(1)上證指數(shù)和深證成指的百度指數(shù)搜索關(guān)鍵詞具有極強(qiáng)的搜索關(guān)聯(lián)性,這不僅說明滬深兩市的投資者具有高度耦合性,也說明將這兩只股指成對(duì)研究具有理論和實(shí)踐上的必要性。(2)“深證成指”和“深證指數(shù)”也具有較強(qiáng)的相關(guān)性,這說明同一股指在不同投資者群體中存在不同的簡稱。(3)股指簡稱和股指代碼互不為相似關(guān)鍵詞,這說明投資者使用百度搜索信息時(shí)具有較為固定的搜索習(xí)慣,較少投資者混用股指名稱和股指代碼進(jìn)行搜索。因此,本文采用股指名稱和代碼的集合構(gòu)成相應(yīng)股指的網(wǎng)絡(luò)搜索指數(shù)。即,以“上證指數(shù)”、“000001”和“上證”的百度指數(shù)搜索集合定義上證搜索指數(shù)(BaiduSVsz),以“深證成指”、“399001”和“深證指數(shù)”的百度指數(shù)搜索集合定義深成搜索指數(shù)(BaiduSVsc)。進(jìn)一步,通過每網(wǎng)絡(luò)搜索指數(shù)BaiduSVt的相對(duì)變化率定義投資者關(guān)注度代理變量(BIt):
其中BaiduSVi,t表示從百度指數(shù)獲取的第i只股指的第t日的網(wǎng)絡(luò)搜索指數(shù)。
圖1 百度搜索關(guān)鍵詞需求圖譜
通過對(duì)樣本期內(nèi)上證指數(shù)和深證成指市場(chǎng)表現(xiàn)的考察,本文以2014年10月28日為節(jié)點(diǎn)將樣本數(shù)據(jù)劃分為兩個(gè)子區(qū)間。圖2是上證指數(shù)已實(shí)現(xiàn)波動(dòng)率和搜索指數(shù)的雙坐標(biāo)圖,表1為樣本指數(shù)的基本統(tǒng)計(jì)特征。
從圖2可以看出,上證指數(shù)在樣本期內(nèi)的已實(shí)現(xiàn)波動(dòng)率和搜索指數(shù)具有高度正向同步性,市場(chǎng)高漲時(shí)期的投資者網(wǎng)絡(luò)搜索指數(shù)也顯著升高,市場(chǎng)低迷時(shí)期的投資者網(wǎng)絡(luò)搜索指數(shù)也在低位震蕩徘徊。因此,根據(jù)市場(chǎng)波動(dòng)強(qiáng)度和投資者關(guān)注水平劃分樣本區(qū)間,進(jìn)而研究投資者關(guān)注與市場(chǎng)波動(dòng)態(tài)勢(shì)間的影響關(guān)系,可以更好的揭示二者之間的相互作用機(jī)制。
由表1可知,在樣本期二時(shí)期,上證指數(shù)和深證成指已實(shí)現(xiàn)波動(dòng)率的均值、標(biāo)準(zhǔn)差均顯著高于樣本一時(shí)期,說明滬深證券市場(chǎng)的波動(dòng)強(qiáng)度在兩個(gè)子時(shí)期發(fā)生了改變。此外,樣本期內(nèi)的已實(shí)現(xiàn)波動(dòng)率序列的偏度和峰度表明,與正態(tài)分布相比其形態(tài)表現(xiàn)為右偏性及尖峰特征;通過Jarque-Bera統(tǒng)計(jì)量也可以看出,波動(dòng)率序列在1%的顯著性水平下拒絕了正態(tài)分布的假設(shè);ADF 單位根檢驗(yàn)和滯后5、10、22期的Ljung-BoxQ檢驗(yàn)表明,已實(shí)現(xiàn)波動(dòng)率序列是存在自相關(guān)特征的平穩(wěn)序列。在兩個(gè)子樣本期內(nèi),投資者關(guān)注大部分的描述性統(tǒng)計(jì)特征與已實(shí)現(xiàn)波動(dòng)率相似,也是存在自相關(guān)特征的非正態(tài)分布的平穩(wěn)序列。
圖2 上證指數(shù)已實(shí)現(xiàn)波動(dòng)率和搜索指數(shù)雙坐標(biāo)圖
表1 樣本指數(shù)已實(shí)現(xiàn)波動(dòng)率和投資者關(guān)注統(tǒng)計(jì)量
本文采用基于時(shí)間延遲的DCCA 方法判定投資者關(guān)注和市場(chǎng)指數(shù)波動(dòng)之間的影響關(guān)系及傳導(dǎo)方向。該方法在DCCA 方法的基礎(chǔ)上引入時(shí)間延遲變量τ,可以更好的判定不同時(shí)滯下序列的交叉?zhèn)鲗?dǎo)方向和領(lǐng)先滯后關(guān)系。為了更加清晰的展示各序列的傳導(dǎo)方向,參照文獻(xiàn)[40]定義傳導(dǎo)強(qiáng)度指標(biāo),形式如下:
圖3和圖4分別是樣本指數(shù)與投資者關(guān)注在不同時(shí)滯下的交叉相關(guān)關(guān)系圖。
圖3 不同時(shí)滯下上證指數(shù)與投資者關(guān)注交叉相關(guān)性圖
圖4 不同時(shí)滯下深證成指與投資者關(guān)注交叉相關(guān)性圖
從圖3(a)、(c)和圖4(a)、(c)可以看出,已實(shí)現(xiàn)波動(dòng)率和投資者關(guān)注滯后1~22日的標(biāo)度指數(shù)均大于0.5,表明二者之間存在顯著的長程相關(guān)性;而且,在第二個(gè)樣本時(shí)期內(nèi)的標(biāo)度指數(shù)均顯著高于第一個(gè)樣本時(shí)期,表明隨著市場(chǎng)指數(shù)波動(dòng)性的提高和投資者關(guān)注的顯著增強(qiáng),這一時(shí)期表現(xiàn)出更強(qiáng)的聯(lián)動(dòng)性特征。從圖3(b)、(d)和圖4(b)、(d)可以看出,當(dāng)滯后1 期時(shí),兩個(gè)樣本區(qū)間的和都顯著為負(fù),表明市場(chǎng)指數(shù)波動(dòng)對(duì)投資者關(guān)注的影響更強(qiáng);同時(shí),在兩個(gè)樣本區(qū)間內(nèi),隨滯后階數(shù)的增加呈現(xiàn)衰減趨勢(shì),說明隨著市場(chǎng)波動(dòng)時(shí)滯和投資者關(guān)注時(shí)滯的延長,投資者關(guān)注與市場(chǎng)指數(shù)波動(dòng)間相互影響逐漸減弱,這可能是因?yàn)橥顿Y者進(jìn)行交易決策時(shí)更加關(guān)注短期內(nèi)的市場(chǎng)信息和市場(chǎng)波動(dòng),受中長期市場(chǎng)表現(xiàn)的影響較?。淮送?,第二個(gè)樣本時(shí)期內(nèi)高于基線(零線)的數(shù)量要明顯多于第一個(gè)樣本時(shí)期,這說明在市場(chǎng)波動(dòng)更為劇烈的時(shí)期,投資者關(guān)注對(duì)市場(chǎng)指數(shù)的波動(dòng)存在更為持久的影響。
綜上,投資者關(guān)注與市場(chǎng)指數(shù)波動(dòng)存在顯著的相關(guān)性,當(dāng)投資者關(guān)注(市場(chǎng)指數(shù)波動(dòng))滯后時(shí),會(huì)對(duì)當(dāng)期市場(chǎng)指數(shù)波動(dòng)(投資者關(guān)注)產(chǎn)生影響,并且這種影響會(huì)隨著滯后期的增大而逐漸衰減。因此,二者之間的傳導(dǎo)是雙向的。但是,從傳導(dǎo)強(qiáng)度來說,投資者關(guān)注對(duì)市場(chǎng)指數(shù)波動(dòng)的傳導(dǎo)要始終強(qiáng)于反向的傳導(dǎo),而且傳導(dǎo)強(qiáng)度隨著市場(chǎng)波動(dòng)性的提高而顯著增強(qiáng)。
ARMA 模型是一種較為成熟的波動(dòng)率預(yù)測(cè)模型,由自回歸(AR)和移動(dòng)平均(MA)兩部分構(gòu)成,標(biāo)準(zhǔn)的ARMA(p,q)模型如下:
但是,ARMA 模型沒有考慮金融資產(chǎn)普遍存在的長記憶性,即波動(dòng)序列的自相關(guān)性;而ARFIMA模型中AR 部分表現(xiàn)出的緩慢的雙曲線衰減過程可以較好模擬波動(dòng)時(shí)間序列的自相關(guān)行為,本文沿襲Andersen等[41]的建模思路,采用ARFIMA 模型對(duì)已實(shí)現(xiàn)波動(dòng)率建模,ARFIMA(p,d,q)模型如下:
其中(1-L)d代表分?jǐn)?shù)差分算子,μ為母體均值。
Corsi[3]將交易者分為三類:日交易者,周交易者及月交易者,分別代表短期、中期和長期交易,建立了HAR-RV 模型。HAR-RV 模型既具有長記憶特征又體現(xiàn)了波動(dòng)信息異質(zhì)性,形式如下:
其中RV t、RVt-5和RV t-22分別代表日、周和月的已實(shí)現(xiàn)累積波動(dòng)率。
Andersen等[4]的研究表明,將已實(shí)現(xiàn)波動(dòng)率分解為持續(xù)性部分和跳躍性部分,進(jìn)而構(gòu)造HARRV-J模型和HAR-RV-CJ模型,可以顯著提高HAR-RV 模型的預(yù)測(cè)精度。這兩種模型的表達(dá)形式如下:
其 中J t= max(RV t-BPV t,0),BPV t=是標(biāo)準(zhǔn)正態(tài)分布隨機(jī)變量Z絕對(duì)值的均值;Ct=I(Zt≤Φa)·RV t+I(Zt≥Φa)·BPV t,CJ t=I(Zt>Φa)·[RV t-BPV t],I(·)是示性函數(shù)。
為了考察“杠桿效應(yīng)”對(duì)未來波動(dòng)的非對(duì)稱性影響,Corsi等[6]引 入變 量 來 構(gòu)建了LHAR-RV 模型,其表達(dá)形式如下:
從前文投資者關(guān)注與市場(chǎng)指數(shù)的關(guān)系研究可知,滯后的投資者關(guān)注對(duì)市場(chǎng)指數(shù)具有更強(qiáng)的影響。因此,對(duì)已有模型的一種自然改進(jìn)就是將投資者關(guān)注變量BI t加入已有模型。
本文首先將投資者關(guān)注變量引入ARMA 類模型,在ARMAX 和ARFIMAX 模型范式的基礎(chǔ)上,分別建立ARMA-BI(p,q,b)模型和ARFIMABI(p,d,q,b)模型。以ARMA-BI為例,在ARMA 模型回歸中引入滯后b階的投資者關(guān)注變量BI t,具體形式如下:
其中H(L)=η1L+…+ηb L b代表滯后b階的滯后算子。
隨后,本文進(jìn)一步將代表投資者累積關(guān)注的BI t、BIt-5和BIt-22變量引入HAR 模型,分別建立HAR-RV-BI、HAR-RV-JBI、HAR-RVCJBI、LHAR-RV-JBI和LHAR-RV-CJBI共5種投資者關(guān)注模型。為了更加清晰的表示HAR類模型,在下文中均省略模型名稱中的RV 部分,即上述5種改進(jìn)模型在下文中分別簡寫為HAR-BI、HAR-JBI、HAR-CJBI、LHAR-JBI和LHARCJBI。以HAR-BI模型為例,其形式如下:
表2和表3分別是上證指數(shù)ARMA 類模型和HAR 類模型的參數(shù)估計(jì)結(jié)果。由于與上證指數(shù)結(jié)果相似,為節(jié)省篇幅,本文省略了深證成指的參數(shù)估計(jì)結(jié)果。
從表2和表3 可得到如下結(jié)論:(1)從表2 可知,ARFIMA 模型分整參數(shù)d的估計(jì)值顯著大于0,說明與ARMA 模型相比,ARFIMA 模型可以更好的擬合樣本序列具有的顯著長記憶性和分?jǐn)?shù)維單整性質(zhì)。(2)從表3可知,代表短期、中期和長期已實(shí)現(xiàn)波動(dòng)率的參數(shù)(βd、βw和βm)在大部分情況下都是顯著的,說明市場(chǎng)波動(dòng)存在很強(qiáng)的持續(xù)性。此外,通過對(duì)比兩個(gè)樣本時(shí)期參數(shù)顯著性可以發(fā)現(xiàn),市場(chǎng)的跳躍行為和“杠桿效應(yīng)”在第二個(gè)樣本時(shí)期更為明顯,說明在市場(chǎng)波動(dòng)較劇烈的階段更易發(fā)生并捕捉到上述行為。(3)綜合比較兩表的擬合優(yōu)度R2可知,預(yù)測(cè)模型在第二個(gè)樣本時(shí)期內(nèi)的樣本擬合能力要顯著優(yōu)于第一時(shí)期。在第一個(gè)樣本區(qū)間內(nèi),ARMA 類模型的樣本擬合能力要稍遜于HAR 類模型;在第二個(gè)樣本區(qū)間內(nèi),ARMA 類模型的樣本擬合能力大幅提升,尤其是ARFIMA-BI模型的R2超過本時(shí)期內(nèi)的其他預(yù)測(cè)模型。(4)對(duì)比包含投資者關(guān)注變量的改進(jìn)模型和原始模型的參數(shù)估計(jì)結(jié)果可知,改進(jìn)模型的擬合效果要明顯優(yōu)于原始模型。通過觀察投資者關(guān)注變量的t統(tǒng)計(jì)量值和顯著性水平也可以發(fā)現(xiàn),除樣本期一的上證指數(shù)HAR-BI模型外,其他改進(jìn)模型中投資者關(guān)注變量的參數(shù)估計(jì)結(jié)果(η和βbid、βbiw、βbim)至少存在一個(gè)在10%的顯著性水平上顯著;而且,投資者關(guān)注變量的參數(shù)顯著性水平在樣本期二內(nèi)顯著提升。因此,投資者關(guān)注變量的加入更好的解釋了股票市場(chǎng)的波動(dòng)性特征。
表2 上證指數(shù)ARMA類模型參數(shù)估計(jì)結(jié)果
表3 上證指數(shù)HAR 類模型參數(shù)估計(jì)結(jié)果
為進(jìn)一步研究上述波動(dòng)率模型的預(yù)測(cè)能力,本文采用“滑動(dòng)時(shí)間窗”的樣本外預(yù)測(cè)方法,將樣本區(qū)間的前80%劃分為估計(jì)樣本,將余下的20%作為保留樣本。此外,由于目前對(duì)波動(dòng)率預(yù)測(cè)模型的評(píng)價(jià)標(biāo)準(zhǔn)尚未有統(tǒng)一意見,因此本文采用了5種廣泛使用的損失函數(shù)指標(biāo)作為判斷模型預(yù)測(cè)精度的標(biāo)準(zhǔn)。形式如下:
與此同時(shí),為進(jìn)一步增強(qiáng)檢驗(yàn)結(jié)果的穩(wěn)健性,本文采用“模型信度設(shè)定”(MCS)檢驗(yàn)[42]方法來提高檢驗(yàn)結(jié)果的準(zhǔn)確性。樣本指數(shù)的MCS檢驗(yàn)結(jié)果分別在表4和表5中列示。
從表4可知:(1)不論在何種損失函數(shù)標(biāo)準(zhǔn)及MCS統(tǒng)計(jì)量下,除ARFIMA 模型的T SQ統(tǒng)計(jì)量外,其他ARMA 類模型都被檢驗(yàn)剔除(p值小于0.1),即這兩類模型的預(yù)測(cè)效果明顯弱于HAR 類模型。(2)對(duì)比表中包含投資者關(guān)注變量的改進(jìn)模型和原始模型的檢驗(yàn)結(jié)果可知,總體來說,幸存的改進(jìn)模型和原始模型的數(shù)量并未有顯著差異;但是,原始模型的損失函數(shù)值普遍低于改進(jìn)模型,其對(duì)應(yīng)的p值也普遍高于改進(jìn)模型。因此,在第一個(gè)樣本時(shí)期,加入投資者關(guān)注變量的改進(jìn)模型并未表現(xiàn)出顯著的改進(jìn)作用。(3)HAR-J、HAR-CJ、LHAR-J 和LHAR-CJ在14種模型中的波動(dòng)率預(yù)測(cè)效果較為突出,每個(gè)模型至少在一種損失函數(shù)標(biāo)準(zhǔn)和MCS統(tǒng)計(jì)量下獲得了最小的損失函數(shù)值和最大的p值(p=1)。這一結(jié)果有力地證明了HAR 類模型在市場(chǎng)走勢(shì)的平穩(wěn)時(shí)期具有良好的預(yù)測(cè)能力。進(jìn)一步,LHAR-CJ模型和LHAR-J模型各自在3 種損失函數(shù)標(biāo)準(zhǔn)(LHAR-CJ:MAE、HMAE、R2LOG,LHAR-J:HMSE、MAE、HMAE)及對(duì)應(yīng)的MCS統(tǒng)計(jì)量(p=1)下,被檢驗(yàn)為樣本指數(shù)預(yù)測(cè)值的最優(yōu)模型。因此,與其他模型相比,這2種波動(dòng)率預(yù)測(cè)模型的優(yōu)勢(shì)更為顯著。這也說明,雖然同處于第一個(gè)樣本時(shí)期,上證指數(shù)和深證成指的波動(dòng)特征也存在細(xì)微的差異。
從表5可知:(1)與第一個(gè)樣本時(shí)期相比,ARMA 類模型在本時(shí)期的預(yù)測(cè)能力顯著提升。尤其是加入投資者關(guān)注變量的ARFIMA-BI模型,在五種損失函數(shù)標(biāo)準(zhǔn)和MCS統(tǒng)計(jì)量下獲得了最小的損失函數(shù)值和最大的p值(p=1);此外,上證指數(shù)的ARMA-BI模型也在MAE 標(biāo)準(zhǔn)及對(duì)應(yīng)的MCS統(tǒng)計(jì)量下,表現(xiàn)出更優(yōu)的預(yù)測(cè)能力。這說明,市場(chǎng)的劇烈波動(dòng)吸引了更多投資者的加入,大量投資者在網(wǎng)絡(luò)上搜索市場(chǎng)信息使投資者關(guān)注變量的信息含量更為充分,因此加入投資者關(guān)注變量BIt可以顯著改善模型的預(yù)測(cè)能力。(2)通過10種HAR 類模型的檢驗(yàn)結(jié)果可知,總體來說,HAR 類模型的預(yù)測(cè)能力要稍弱于ARMA 類模型;同時(shí),加入投資者關(guān)注變量的改進(jìn)模型的表現(xiàn)要稍強(qiáng)于原始模型,這一特征在MAE、HMAE 和R2LOG 三種標(biāo)準(zhǔn)下更為突出(改進(jìn)模型的損失函數(shù)值更?。R虼?,雖然在市場(chǎng)平穩(wěn)時(shí)期的原始HAR 類模型表現(xiàn)出更優(yōu)的波動(dòng)率預(yù)測(cè)能力;但是隨著市場(chǎng)逐漸從低谷期走向繁榮期,股市的繁榮吸引了眾多投資者的強(qiáng)烈關(guān)注,所以在本時(shí)期內(nèi)加入投資者關(guān)注變量的改進(jìn)模型可以獲得比原始模型更優(yōu)的樣本外預(yù)測(cè)效果。
表4 上證指數(shù)和深證成指在樣本一時(shí)期的損失函數(shù)及MCS檢驗(yàn)結(jié)果
表5 上證指數(shù)和深證成指在樣本期二時(shí)期的損失函數(shù)及MCS檢驗(yàn)結(jié)果
注:表中數(shù)字為損失函數(shù)值,每種損失函數(shù)下的最小值用加粗表示;MCS檢驗(yàn)的顯著性水平設(shè)定為90%,表中括號(hào)內(nèi)數(shù)字為進(jìn)行了10 000次Bootstrap模擬的MCS檢驗(yàn)p值,p值大于0.1(加粗和下劃線的數(shù)字)表示對(duì)應(yīng)模型通過MCS檢驗(yàn),TR和T SQ分別為范圍統(tǒng)計(jì)量(Range statistic)和半二次方統(tǒng)計(jì)量(Semi-quadratic statistic)。
本文采用連續(xù)等級(jí)概率評(píng)分(CRPS)方法來進(jìn)一步檢驗(yàn)實(shí)證結(jié)果的穩(wěn)健性。CRPS方法可以突破正態(tài)分布的假設(shè)限制,并且考慮到了分布的位置和形狀特征,在風(fēng)險(xiǎn)度量、資產(chǎn)配置等眾多對(duì)波動(dòng)分布形態(tài)更為關(guān)注的領(lǐng)域,擁有更好的預(yù)測(cè)評(píng)價(jià)能力。CRPS衡量的是預(yù)測(cè)值與實(shí)際值累計(jì)分布函數(shù)的絕對(duì)誤差平均,具體形式如下:
其中F為累計(jì)分布函數(shù),I{·}是示性函數(shù)。CRPS是負(fù)導(dǎo)向的評(píng)分方法,即CRPS值越小,說明模型的預(yù)測(cè)精度越高。樣本指數(shù)的檢驗(yàn)結(jié)果在表6中列示。
從表6可以看出,CRPS與MCS的檢驗(yàn)結(jié)果基本一致,HAR 類模型和ARMA 類模型在兩個(gè)樣本時(shí)期依次顯示出更優(yōu)的預(yù)測(cè)能力。通過觀察成對(duì)排列的改進(jìn)模型和原始模型,原始模型的CRPS值在樣本一時(shí)期均低于改進(jìn)模型,而在樣本二時(shí)期高于改進(jìn)模型。此外,在CRPS檢驗(yàn)中,LHAR-CJ和LHAR-J模型分別為上證指數(shù)和深證成指在樣本期一的最優(yōu)模型,ARFIMA-BI模型為上證指數(shù)和深證成指在樣本期二的最優(yōu)模型。上述結(jié)果不僅證明了MCS檢驗(yàn)結(jié)果的穩(wěn)健性,而且進(jìn)一步驗(yàn)證了投資者關(guān)注變量在市場(chǎng)劇烈波動(dòng)時(shí)期具有更為優(yōu)異的預(yù)測(cè)能力。
表6 樣本指數(shù)CRPS檢驗(yàn)結(jié)果
本文基于百度指數(shù)定義了新的投資者關(guān)注代理變量,以中國股市最具代表性的上證指數(shù)和深證成指為研究樣本,建立了新的投資者關(guān)注波動(dòng)率預(yù)測(cè)模型。本文研究結(jié)果表明:投資者關(guān)注不僅可以提高現(xiàn)有波動(dòng)率預(yù)測(cè)模型的樣本內(nèi)擬合能力,而且在投資者高關(guān)注時(shí)期,投資者關(guān)注可以顯著且穩(wěn)健的提高波動(dòng)模型的樣本外預(yù)測(cè)能力。
本文的研究結(jié)果具有重要的實(shí)踐意義??紤]到中國的網(wǎng)絡(luò)規(guī)模和網(wǎng)絡(luò)用戶已躍居世界第一,在互聯(lián)網(wǎng)的覆蓋廣度和使用深度方面,具有其他國家無法比擬的獨(dú)特優(yōu)勢(shì)。而搜索引擎作為基礎(chǔ)的網(wǎng)絡(luò)服務(wù),記錄和保存了海量的信息檢索數(shù)據(jù)。充分挖掘這些檢索數(shù)據(jù)隱含的金融價(jià)值,對(duì)投資者來說,可以“先人一步”的把握市場(chǎng)發(fā)展趨勢(shì),增加獲利機(jī)會(huì);對(duì)監(jiān)管部門而言,可以更加高效的監(jiān)控市場(chǎng)動(dòng)態(tài),強(qiáng)化市場(chǎng)監(jiān)管績效,加快形成完備有效的股票交易市場(chǎng)。