李氣芳, 蘇梽芳
(1.閩南師范大學數(shù)學與統(tǒng)計學院,福建 漳州 363000;2.華僑大學經(jīng)濟與金融學院,福建 泉州 362021)
在宏觀經(jīng)濟和金融市場的混頻數(shù)據(jù)分析中,傳統(tǒng)的計量模型是利用加總或插值的方法轉(zhuǎn)化成同頻數(shù)據(jù)進行建模,這樣會損失掉高頻數(shù)據(jù)的大量信息。Ghysels等[1]提出混合數(shù)據(jù)抽樣(MIDAS)模型,利用滯后權(quán)重函數(shù)把高頻數(shù)據(jù)轉(zhuǎn)化成低頻數(shù)據(jù),充分利用樣本數(shù)據(jù)信息,大大提高模型的預測精度。Clements和Galv?o[2]最先將MIDAS模型應用于宏觀GDP 的預測。劉漢和劉金全[3]基于MIDAS 模型對中國宏觀經(jīng)濟總量進行實時預報和短期預測。尚玉皇和鄭挺國[4]提出一種包含宏觀因子的混頻短期利率模型對短期利率波動進行測度與預測。龔玉婷等[5]基于MIDAS-AR 模型、魯王波和楊冬[6]基于半?yún)?shù)混頻誤差修正模型研究CPI的預測。
但是,MIDAS 模型在估計的時候,會面臨權(quán)重函數(shù)類別和參數(shù)個數(shù)選擇的問題。而金融領(lǐng)域的高頻數(shù)據(jù)表現(xiàn)出函數(shù)型數(shù)據(jù)特征,可以利用函數(shù)型數(shù)據(jù)分析(FDA)理論來研究。該理論是由加拿大統(tǒng)計學家Ramsay首次提出[7],已經(jīng)廣泛應用到氣象[8]、生物[9]、金融[10]、生態(tài)[11]等領(lǐng)域。于是,本文借鑒函數(shù)型數(shù)據(jù)分析思想,把高頻數(shù)據(jù)看成是某個隨機過程產(chǎn)生的函數(shù)曲線,利用部分函數(shù)線性回歸模型對CPI進行混頻預測,為混頻數(shù)據(jù)分析提供一種新的分析方法。該模型由Zhang等[12]首次提出,程麗娟[13]把部分函數(shù)線性回歸模型應用到上證指數(shù)的預測中,方連娣[14]在模型中加入輔助向量給出了極大經(jīng)驗似然估計。但現(xiàn)有部分函數(shù)線性回歸模型估計和應用中,都假設(shè)函數(shù)型變量是服從獨立同分布(i.i.d.)的,這顯然與金融高頻數(shù)據(jù)的相依特征不相符。于是針對相依的金融高頻數(shù)據(jù),本文提出部分函數(shù)線性回歸模型估計的改進方法,并通過數(shù)值模擬和實例與現(xiàn)有的部分函數(shù)線性回歸模型及MIDAS模型進行對比分析。
Zhang等[12]提出了部分函數(shù)線性回歸模型,包含1維標量因變量、p 維標量和1維函數(shù)型自變量,該模型把多元線性回歸模型和函數(shù)線性回歸模型結(jié)合在一起,具體的表達式為(1):
式(1)中Zi=(Zi1,Zi2,…,Zip)' 為p 維自變量向量,α = (α1,α2,…,αp)' 為p 維 回 歸 系 數(shù),Xi(t)為函數(shù)型變量且在[0,1]上平方可積,β(t)為回歸系數(shù)函數(shù),εi為隨機誤差項。
實際中,根據(jù)需要,很容易把模型(1)推廣到兩個或多個函數(shù)型自變量的情形,本文只考慮模型
在模型估計之前,首要任務(wù)是把觀測到的高頻數(shù)據(jù)表示成函數(shù)曲線。
假設(shè)高頻數(shù)據(jù)服從獨立同分布(i.i.d.)假設(shè),那么利用K-L展開式就可以表示為
由于金融系統(tǒng)的慣性,會導致金融高頻數(shù)據(jù)之間具有相依特征,利用式(3)計算得到的樣本協(xié)方差函數(shù)不再是總體協(xié)方差函數(shù)一致估計,所以式(4)的函數(shù)表示不夠準確,也可能會導致模型估計出現(xiàn)偏差。于是把Wang等[15]的思想推廣到函數(shù)型數(shù)據(jù)情形,提出一種基于殘差協(xié)方差函數(shù)的函數(shù)表示方法:假設(shè)定義在時間[0,1]上的函數(shù)之間是相依的,比如金融市場今天和明天的某只高頻股票價格曲線,那么在[0,1]的每個時間點t 上,N 條函數(shù)曲線的觀測數(shù)據(jù)可以看成是一列相依的時間序列數(shù)據(jù),利用AR(p)模型對每列相依時間序列數(shù)據(jù)進行擬合,從而得到i.i.d.的殘差函數(shù)ηi(t),于是函數(shù)可以表示為
在得到i.i.d.的殘差函數(shù)ηi(t)后,就可以利用i.i.d.條件下的FDA 方法計算殘差協(xié)方差函數(shù),再通過殘差協(xié)方差函數(shù)計算得到殘差函數(shù)主成分,進而利用K-L展開式把函數(shù)表示為
對高頻進行函數(shù)表示后,就可以代入模型進行估計,下面介紹兩種估計方法:一種是現(xiàn)有的基于i.i.d.的協(xié)方差函數(shù)的估計方法,本文把它推廣到二元情形;另一種是本文針對相依的金融高頻數(shù)據(jù)提出的改進方法。
1.3.1 獨立同分布(i.i.d.)條件下基于協(xié)方差函數(shù)的估計
假設(shè)函數(shù)型數(shù)據(jù)已經(jīng)由式(4)表示成
同時假設(shè)回歸系數(shù)函數(shù)也可以用相同的函數(shù)主成分基線性表示,即有
所以部分函數(shù)線性回歸模型轉(zhuǎn)化為多元回歸模型,利用最小二乘法就可以估計得到回歸系數(shù)向量
參考已有研究,數(shù)據(jù)是由MIDAS模型
產(chǎn)生的,具體的模擬步驟如下:
(1)低頻變量X1t和X2t由N(0,1)各生成(N+10)個數(shù)據(jù),高頻變量X3t由ARMA(2,2)生成12*(N+10)個數(shù)據(jù),高頻變量X4t由ARMA(2,2)生成20*(N+10)個數(shù)據(jù)。指數(shù)Almon 滯后權(quán)重多項式初始參數(shù)設(shè)定為γ1=( 1 ,-0.5)',γ2=( 2,0.5,-0.1)'。 誤 差 項εt由N(0,0.01)生成(N+10)個數(shù)據(jù)。這樣生成的高頻數(shù)據(jù)X3t和X4t具有相依特征。
(2)把生成數(shù)據(jù)代入MIDAS模型得到因變量Yt的值。前N個樣本作為訓練集,后10個樣本作為樣本外預測集。樣本容量N分別50/100/200/300。
(3)利用M(2)-MIDAS和M(2)-MIDAS-AR(1)模型進行擬合,并得到樣本外預測值1i和
2i。
(4)利用基于協(xié)方差函數(shù)估計方法估計回歸系數(shù)函數(shù),并進一步得到樣本外預測值
3i。
(5)利用基于殘差協(xié)方差函數(shù)的估計方法估計回歸系數(shù)函數(shù),并進一步得到樣本外預測值
4i。
(6)計算均方預測誤差平方根RMSPE。
(7)重復步驟1-6 共200 次,計算平均的RMSPE。
數(shù)值模擬結(jié)果見表1,其中M(2)-MIDAS表示二元混頻預測模型,M(2)-MIDAS-AR(1)表示滯后1期的二元混頻預測模型,FPC 表示基于獨立同分布(i.i.d.)條件下基于協(xié)方差函數(shù)的估計方法,RFPC表示相依條件下基于殘差協(xié)方差函數(shù)的估計方法。
表1 不同估計方法的預測精度比較
從表1可以看出,隨著樣本量的增加,四種估計方法的樣本外預測誤差都呈現(xiàn)遞減的趨勢。在每個樣本容量下,考慮了滯后1期的MIDAS-AR(1)模型比MIDAS的樣本外預測誤差要小;函數(shù)型數(shù)據(jù)分析方法FPC和RFPC的樣本外預測誤差比混頻模型MIDAS和MIDAS-AR(1)的小;本文提出的基于殘差協(xié)方差函數(shù)的估計方法RFPC的樣本外預測誤差最小。
影響CPI的因素很多,本文從貨幣供應量、生產(chǎn)水平、能源和農(nóng)產(chǎn)品四個因素選擇了月度同頻變量M2和PPI、日度高頻變量原油價格和豆類價格作為影響CPI的主要原因[5,16-17],同時考慮CPI滯后1期的影響。數(shù)據(jù)從2013年1月至2019年7月,其中2013年1月至2018年12月的月度數(shù)據(jù)和2013年1月1日至2018年12月31日的日度數(shù)據(jù)作為訓練集,2019年1月至7月的月度數(shù)據(jù)和2019年1月1日至2019年7月31日的日度數(shù)據(jù)作為預測集。具體的部分函數(shù)線性回歸模型為
由于每個月天數(shù)28至31天不等且非交易日及節(jié)假日無數(shù)據(jù)更新,實際每個月觀測18 至23天。參考已有研究,本文從每個月中選取20個交易日,對少量數(shù)據(jù)缺失部分進行插值。數(shù)據(jù)來自Choice金融終端,所有數(shù)據(jù)都以當月同比增長率來表示。基于R 語言,沒有考慮CPI滯后期的預測結(jié)果見表2。
表2 不同估計方法的CPI預測精度比較
從表2可以看出,函數(shù)型數(shù)據(jù)分析方法FPC和RFPC的樣本外預測誤差比混頻模型M(2)-MIDAS的小;本文提出的基于殘差協(xié)方差函數(shù)的估計方法RFPC的樣本外預測誤差最小。下面加入CPI滯后1期,預測結(jié)果見表3。
表3 加入滯后1期后不同估計方法的CPI預測精度比較
從表3可以看出,加入CPI滯后1期后,三種估計方法的樣本外預測誤差都變小了。函數(shù)型數(shù)據(jù)分析方法FPC和RFPC的樣本外預測誤差還是比混頻模型M(2)-MIDAS-AR(1)的小;本文提出的基于殘差協(xié)方差函數(shù)的估計方法RFPC 的樣本外預測誤差最小。從表2和表3是可以看出,本文針對金融高頻數(shù)據(jù)相依特征提出的改進方法在預測精度上具有一定的優(yōu)勢。
針對宏觀經(jīng)濟和金融市場的混頻數(shù)據(jù),提出一種新的混頻數(shù)據(jù)分析方法,把金融高頻數(shù)據(jù)看成是由某個隨機過程產(chǎn)生的函數(shù)曲線,利用部元函數(shù)線性回歸模型對混頻數(shù)據(jù)進行分析。并根據(jù)金融高頻數(shù)據(jù)的相依特征,提出了模型估計的改進方法。結(jié)果表明:(1)數(shù)值模擬中,隨著樣本量的增加,四種估計方法的樣本外預測誤差都呈現(xiàn)遞減的趨勢,但在每個樣本容量下,函數(shù)型數(shù)據(jù)分析方法FPC和RFPC 的樣本外預測誤差比混頻模型MIDAS和MIDAS-AR(1)的小,且本文提出的估計方法RFPC的樣本外預測誤差最小;(2)CPI混頻數(shù)據(jù)預測中,本文提出的改進方法比現(xiàn)有部分函數(shù)線性回歸模型以及MIDAS模型的樣本外預測誤差要小、精度要高。