李宜軒 山東工商學院統(tǒng)計學院
隨著我國網(wǎng)民數(shù)量不斷增加,網(wǎng)絡包含的信息也得到倍數(shù)的增長,而當前的研究熱點就是如何挖掘出互聯(lián)網(wǎng)所蘊含的信息。2019年全球貿(mào)易擴張趨弱、中美貿(mào)易摩擦不斷升級,以及突如其來的新冠肺炎病毒(Covid-2019)全球大爆發(fā)都對2020年中國經(jīng)濟增長帶來了較大負面沖擊。目前國內(nèi)外復雜的經(jīng)濟形勢加大了預測GDP的難度,因此,如何有效地預測GDP是值得研究的重要理論與現(xiàn)實問題。
在利用網(wǎng)絡搜索數(shù)據(jù)進行經(jīng)濟研究方面,Ettredge(2005)很早利用網(wǎng)絡搜索數(shù)據(jù)對美國的失業(yè)率進行預測[1]。Thomas B.G?tz,Thomas A.Knetsch(2019)等利用谷歌網(wǎng)絡搜索數(shù)據(jù)結合偏最小二乘法、LASSO方法等選擇指標加入傳統(tǒng)的橋梁方程模型(Bridge Equation Models)預測德國的GDP[2]。Robin F.Niesert,Jochem A.Oorschot,Christian P.Veldhuisen(2020)利用Google搜索數(shù)據(jù)來預測美國,英國,加拿大,德國和日本的失業(yè)率,CPI和消費者信心指數(shù)[3]。劉濤雄,徐曉飛(2015)應用網(wǎng)絡搜索數(shù)據(jù)使用“兩步法”以及單方程線性模型對GDP進行了預測[4]。在宏觀經(jīng)濟研究方面,仝冰(2010)利用中國數(shù)據(jù),建立了一個中等規(guī)模的動態(tài)隨機一般均衡(DSGE)模型,主要宏觀經(jīng)濟變量進行預測[5]。劉漢,劉金全(2011)利用混合數(shù)據(jù)抽樣模型(MIDAS)對我國季度GDP進行了預報和預測[6]。袁靖(2014)基于VAR模型,在貝葉斯推斷下,深入分析推導了FAVAR、TVP-VAR和TVP-FAVAR模型的狀態(tài)空間形式,引入了因子分析思想和時變參數(shù)特征,解決了待估參數(shù)過多降低模型維度問題,并且預測能力逐步顯著改善[7]。這為本文的研究提供了思路,將在前人研究的基礎上繼續(xù)改進和探究。
rij(i,j=1,2,…,p)為原變量xi與xj的相關性系數(shù),rij=rji,其計算公式為
(1)貢獻率:
(2)累計貢獻率:
做前m個主成分F1,F(xiàn)2,…,F(xiàn)p對因變量的多元線性回歸,得到回歸模型
由于每個主成分F1,F(xiàn)2,…,F(xiàn)p均是自變量X1,X2,…,Xp的線性組合,因此,經(jīng)過轉化可得最終線性回歸模型
本研究的預測變量為GDP,解釋變量分為兩類。一類為政府統(tǒng)計指標,屬于結構化數(shù)據(jù)。本文的結構化數(shù)據(jù)選取了12個與宏觀經(jīng)濟緊密相關的指標,將沿用其所選的指標,數(shù)據(jù)來源于2011-2019年中華人民共和國統(tǒng)計局網(wǎng)站的政府統(tǒng)計月度數(shù)據(jù),包括消費價格指數(shù)、社會消費品零售總額等,經(jīng)過整理、計算成季度數(shù)據(jù)(樣本的統(tǒng)計特征見表1)。為消除異方差的影響,對出口總值、進口總值、外商直接投資、社會消費品零售總額、國家財政收入、流通中現(xiàn)金、貨幣和準貨幣變量取自然對數(shù)。
表1 政府統(tǒng)計指標樣本的統(tǒng)計特征
另一類解釋變量來源于互聯(lián)網(wǎng)搜索行為,為2015-2019年的百度指數(shù)網(wǎng)站的相關關鍵詞的百度指數(shù)。經(jīng)過初步篩選,確定對外貿(mào)易、環(huán)境等125個關鍵詞。通過進一步將這些關鍵詞的搜索指數(shù)與季度GDP數(shù)據(jù)進行詞向量技術分析,剔除掉一些相關性較小的關鍵詞,并結合經(jīng)濟邏輯的基礎上最終保留了85個關鍵詞。將此85個百度搜索指數(shù)分成五類,根據(jù)GDP的構成和宏觀經(jīng)濟增長的主要決定因素,這五類分別為:消費、投資、進出口、資本和技術創(chuàng)新。除此之外,考慮到宏觀經(jīng)濟增長也受政策和環(huán)境的影響,本文也將經(jīng)濟政策不確定性指數(shù)(EPU)作為一個重要變量。
本研究全部數(shù)據(jù)為2011年第一季度至2020年第四季度共40期,把2011年第一季度至2019年第四季度共36期作為訓練集;預測集分為樣本內(nèi)預測集和樣本外預測集,共8期。本文分別建立兩個主成分回歸模型,模型一為僅有政府統(tǒng)計數(shù)據(jù)的回歸模型,模型二是在模型一的基礎上加入了經(jīng)濟政策不確定性指數(shù)和網(wǎng)絡搜索指數(shù)的回歸模型,運用模型一和模型二分別對變量做回歸和預測,并計算出兩種模型的相對誤差,結果由圖1展示。
圖1 兩種模型結果與真實值的比較
由表2可知,無論是樣本內(nèi)預測還是樣本外預測,加入互聯(lián)網(wǎng)搜索數(shù)據(jù)和經(jīng)濟政策不定性指數(shù)后的預測誤差都遠小于用政府數(shù)據(jù)預測的季度GDP。
表2 模型擬合結果比較及季度GDP樣本內(nèi)外預測結果的比較
1.加入網(wǎng)絡搜索指數(shù)和經(jīng)濟政策不確定性指數(shù)對經(jīng)濟總量GDP的擬合和預測效果比較好,基本可以實現(xiàn)對我國宏觀經(jīng)濟進行實時監(jiān)測,且提高了預測精度。
2.傳統(tǒng)統(tǒng)計方法在預測方面的應用中,主成分回歸對處理高維數(shù)據(jù)可以表現(xiàn)得非常出色,模型可以達到較好的擬合效果,預測精度也比較高。
3.大數(shù)據(jù)應用方面而言,要充分利用非結構化數(shù)據(jù),挖掘更加有效的在線信息,結合傳統(tǒng)宏觀經(jīng)濟統(tǒng)計數(shù)據(jù),將中長期經(jīng)濟監(jiān)測向?qū)崟r監(jiān)測轉變。