郭俊峰
(廈門大學(xué)經(jīng)濟學(xué)院,福建廈門361005)
變量懲罰效應(yīng)在貝葉斯分位數(shù)回歸模型的應(yīng)用
郭俊峰
(廈門大學(xué)經(jīng)濟學(xué)院,福建廈門361005)
盡管貝葉斯分位數(shù)回歸方法能夠有效克服經(jīng)濟金融數(shù)據(jù)的尖峰厚尾、結(jié)構(gòu)突變等問題,充分借鑒已有研究成果信息,但是其并不能很好解決多維變量模型的維數(shù)災(zāi)難問題。為此,文章在貝葉斯分位數(shù)回歸基礎(chǔ)上,結(jié)合自適應(yīng)Lasso變量懲罰作用,構(gòu)建了基于MH抽樣的自適應(yīng)Lasso懲罰貝葉斯分位數(shù)回歸模型。通過仿真模擬實驗以及MCMC鏈條檢驗,證明上述模型具有優(yōu)良擬合性質(zhì),尤其是在小樣本情形下。
維數(shù)災(zāi)難;自適應(yīng)Lasso懲罰;貝葉斯;分位數(shù)回歸
伴隨著計算機技術(shù)和計量模型的發(fā)展,學(xué)者們開始將分位數(shù)回歸(Quantile Regression,QR)方法運用于經(jīng)濟金融、衛(wèi)生統(tǒng)計等領(lǐng)域的研究,它能夠有效克服數(shù)據(jù)的尖峰厚尾以及結(jié)構(gòu)突變等問題,還對極端異常值有很強的魯棒性,因此該方法日益受到研究人員重視。分位數(shù)回歸方法本身也不斷擴展延伸,其中一個重要方向是與貝葉斯估計結(jié)合,通過不對稱Laplace分布來構(gòu)建貝葉斯分位數(shù)回歸(Bayesian Quantile Regression,BQR)模型[1],從而有效利用以往研究成果信息、提高樣本數(shù)據(jù)較少時的參數(shù)估計精度。
可是在多維變量模型中,BQR方法平等估計每個解釋變量而不考慮變量作用顯著與否,換句話說,BQR模型不能解決維數(shù)災(zāi)難問題,即使Tibshirani在1996年[2]提出了Lasso變量懲罰方法,也不能很好處理多維變量模型的維數(shù)災(zāi)難問題,因為該方法對所有自變量都施以相同懲罰,而這顯然與不同自變量對因變量影響各異的規(guī)律相悖。
基于此,本文在貝葉斯分位數(shù)回歸模型基礎(chǔ)上,嘗試著結(jié)合自適應(yīng)Lasso變量(Adaptive Lasso)懲罰作用[3],對不同自變量給予不同懲罰系數(shù)。經(jīng)過理論推導(dǎo),最終構(gòu)建了基于MH抽樣的自適應(yīng)Lasso懲罰貝葉斯分位數(shù)回歸(Adaptive Lasso Bayesian Quantile Regression,ALBQR)模型。仿真模擬分析表明,相比于0LS模型、QR模型及BQR模型,ALBQR模型有更好的擬合效果。
1.1貝葉斯分位數(shù)回歸BQR模型
Koenker和Bassett(1978)[4]率先提出分位數(shù)回歸方法。給定自變量X信息后,Y的第τ分位數(shù)水平線性條件分位數(shù)模型表達式為
也就是
得到QR模型系數(shù)β的估計值,其中ρτ(u)=u(τ-I(u為示性函數(shù)。
實際研究中,我們往往還可以參照以前相關(guān)成果。然而,普通QR模型并沒有借鑒這些經(jīng)驗,所以下面對該模型進行貝葉斯分析推導(dǎo),構(gòu)建貝葉斯分位數(shù)回歸BQR模型。為了將貝葉斯方法納入到分位數(shù)回歸框架,本文需要運用不對稱拉普拉斯先驗分布(Asymmetric Laplace Distribution,ALD)。給定,μ是位置參數(shù),σ是尺度參數(shù),p是偏度參數(shù),那么其密度函數(shù)如下:
Tsionas(2003)[5]證明,如果x~ALD(μ,σ,p),那么x可以等價表示為:
比較式(3)與式(7),看出極小化式(3)等價于極大化式(7),分位數(shù)水平τ等同于ALD分布的偏度系數(shù)P。根據(jù)式(6),將因變量yt表示成:
相應(yīng)地,BQR模型的參數(shù)估計值為:
1.2帶有變量懲罰效應(yīng)的貝葉斯分位數(shù)回歸模型
盡管BQR模型可以很好地解決數(shù)據(jù)的尖峰厚尾、結(jié)構(gòu)突變等問題,也充分利用了已有先驗信息。但在參數(shù)估計時,該方法卻不加選擇地平等對待每個解釋變量。由于多維變量模型普遍存在“維數(shù)災(zāi)難”難題,所以Tibshirani(1996)[2]提出了Lasso變量懲罰方法。可是Lasso懲罰方法沒有0 racle估計性質(zhì),其對所有變量的回歸系數(shù)都施以相同懲罰。這顯然與現(xiàn)實規(guī)律相違背。為此,對于BQR模型,我們借助自適應(yīng)Lasso懲罰方法,通過選擇適當(dāng)權(quán)重,對不同變量給予不同懲罰系數(shù),從而得到自適應(yīng)Lasso懲罰貝葉斯分位數(shù)回歸(Adaptive Lasso Bayesian Quantile Regression,ALBQR)模型,其具有0 racle性質(zhì)的參數(shù)估計值為:
其中λj是非負的可變懲罰系數(shù)。
1.3ALBQR模型參數(shù)估計與算法設(shè)計
進而
式(14)中,δ、ψ為超參數(shù)。綜上所述,本文通過假設(shè)參數(shù)βj和誤差項εt都服從ALD先驗分布,并對參數(shù)βj施以可變懲罰作用參數(shù)先驗分布分別為:
貝葉斯估計參數(shù)時,后驗分布密度函數(shù)較難求解并且形式復(fù)雜,一般很難得到后驗分布密度的明確表達式,所以只能借助模擬抽樣技術(shù)。MCMC是一種簡單有效的數(shù)值模擬計算方法,包括Gibbs抽樣和MH抽樣,Gibbs抽樣本質(zhì)是接受概率恒為1的MH抽樣特例,本文用MH抽樣算法來進行貝葉斯參數(shù)估計。MH抽樣從建議分布q(θ,θ')中抽樣得到候選樣本θ',然后以概率a(θ,θ')決定是否接受由θ→θ',形成轉(zhuǎn)移核p(θ,θ'),具體如下:
設(shè)第k步馬爾可夫鏈的狀態(tài)向量為θ(k),根據(jù)建議分布產(chǎn)生另一狀態(tài)向量θ‘,然后隨機從均勻分布U(0,1)中抽取a,如果就接受,否則θ(k+1)=θ。
2.1數(shù)據(jù)來源
我們接下來進行仿真模擬,以檢驗ALBQR模型的合理性和優(yōu)越性,尤其在小樣本情形下。簡單起見,設(shè)定123456為隨機數(shù)種子,生成6個在不同區(qū)段的均勻分布變量,變量個數(shù)用N表示,本文取N為20、50及100。然后根據(jù)下列方程式生成因變量Y:
上式中,誤差項εt被設(shè)為服從零均值、異方差的正態(tài)分布。很明顯,對于7×N個模擬數(shù)據(jù)而言,式(16)就是多維變量模型回歸方程,并且樣本數(shù)量N也有大有小,因此這些數(shù)據(jù)符合仿真模擬的要求。
2.2仿真結(jié)果分析
假定ALBQR模型的先驗參數(shù)σ~Gamma(0.001,0.001),步長是1。進行MH抽樣50000次,預(yù)燒30000次,剩下數(shù)據(jù)用于估計上述6個模擬變量的系數(shù)。表1—表3分別提供了樣本量N為20、50及100時的參數(shù)后驗均值。為便于比較,我們還列出0L和BQR模型的相應(yīng)結(jié)果。
根據(jù)表1至表3,我們發(fā)現(xiàn)如下規(guī)律:第一,普通最小二乘法0LS的參數(shù)估計值的確介于不同分位數(shù)水平的BQR(或者ALBQR)估計值之間,這是由于0LS方法估計的是條件均值方程,注重平均角度,而分位數(shù)模型通過變動分位數(shù)水平,還可以研究兩端尾部極端情況下的變量關(guān)系,所以0LS能夠挖掘出的信息量最少。第二,就同一模型來說,隨著樣本量N增大,所有估計值都越來越顯著,這說明誤差百分比逐漸降低,參數(shù)估計精度都得到提高。同時,0LS、BQR與ALBQR模型之間的估計精度差別也不斷縮小。第三,在同一樣本量下,0LS方法最不準確,相比而言,ALBQR的參數(shù)估計系數(shù)最接近各個模擬變量的真實值。尤其是在樣本量很?。∟=20)時,ALBQR模型的優(yōu)勢更加明顯。
采用貝葉斯方法估計參數(shù)后,需要檢驗變量MCMC鏈條的收斂性,本文使用Geweke檢驗方法。限于篇幅,我們只列出樣本量N為100時的MCMC鏈條(tau=0.25、0.5、0.75)收斂性判斷結(jié)果。表4匯報了檢驗情況。
表1 仿真模擬結(jié)果(樣本量N=20)
表2 仿真模擬結(jié)果(樣本量N=50)
表3 仿真模擬結(jié)果(樣本量N=100)
表4 MCMC鏈條收斂性判斷(樣本量N=100)
在表4,樣本量為100時,BQR模型和ALBQR模型所有鏈條的Z統(tǒng)計量絕對值都小于2,均通過Geweke收斂性檢驗,因此判斷這些MCMC鏈條收斂穩(wěn)定,從而側(cè)面印證前文關(guān)于ALBQR模型的分析結(jié)論是合理有根據(jù)的。
雖然貝葉斯分位數(shù)回歸模型可以解決數(shù)據(jù)普的尖峰厚尾、結(jié)構(gòu)突變等問題,也充分利用先驗信息,但該方法沒有很好地處理多維變量模型的維數(shù)災(zāi)難問題,本文在貝葉斯分位數(shù)回歸方法基礎(chǔ)上,采用自適應(yīng)Lasso懲罰進行變量選擇,構(gòu)建了基于MH抽樣算法的自適應(yīng)Lasso懲罰貝葉斯分位數(shù)回歸模型。仿真模擬實驗表明,在小樣本時,ALBQR模型的擬合性能更優(yōu)也更穩(wěn)健。
[1]陳耀輝,郭俊峰,殷文超.人民幣升值對中小板市場波動的影響——基于貝葉斯分位數(shù)回歸的分析[J].系統(tǒng)工程,2015,(1).
[2]Tibshirani R.Regression Shrinkage and Selection via the Lasso[J]. Journalof the Royal Statistical Society(Series B),1996,58(1).
[3]Zou H.The Adaptive Lasso and Its Oracle Properties[J].Journal of the American Statistical Association,2006,101(476).
[4]Koenker R,BassettG.Regression Quantiles[J].Econometrica:Jour?nalof the Econometric Society,1978,46(1).
[5]Tsionas E G.Bayesian Quantile Inference[J].Journal of Statistical Computation and Simulation,2003,79(3).
[6]Andrews D F,Mallows C L.Scale Mixtures of Normal Distributions [J].Journalof the Royal StatisticalSociety(Series B),1974,36(1).
(責(zé)任編輯/易永生)
0212
A
1002-6487(2016)19-0020-03
國家自然科學(xué)基金面上項目(71373219);國家自然科學(xué)基金青年項目(71103150);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(2013221012)
郭俊峰(1988—),男,江西贛州人,博士研究生,研究方向:金融計量經(jīng)濟學(xué)。