變量懲罰效應(yīng)在貝葉斯分位數(shù)回歸模型的應(yīng)用

2016-12-09 07:51:06郭俊峰

統(tǒng)計與決策 2016年19期

關(guān)鍵詞：樣本量位數(shù)參數(shù)估計

郭俊峰

（廈門大學(xué)經(jīng)濟學(xué)院，福建廈門361005）

變量懲罰效應(yīng)在貝葉斯分位數(shù)回歸模型的應(yīng)用

郭俊峰

（廈門大學(xué)經(jīng)濟學(xué)院，福建廈門361005）

盡管貝葉斯分位數(shù)回歸方法能夠有效克服經(jīng)濟金融數(shù)據(jù)的尖峰厚尾、結(jié)構(gòu)突變等問題，充分借鑒已有研究成果信息，但是其并不能很好解決多維變量模型的維數(shù)災(zāi)難問題。為此，文章在貝葉斯分位數(shù)回歸基礎(chǔ)上，結(jié)合自適應(yīng)Lasso變量懲罰作用，構(gòu)建了基于MH抽樣的自適應(yīng)Lasso懲罰貝葉斯分位數(shù)回歸模型。通過仿真模擬實驗以及MCMC鏈條檢驗，證明上述模型具有優(yōu)良擬合性質(zhì)，尤其是在小樣本情形下。

維數(shù)災(zāi)難；自適應(yīng)Lasso懲罰；貝葉斯；分位數(shù)回歸

0　引言

伴隨著計算機技術(shù)和計量模型的發(fā)展，學(xué)者們開始將分位數(shù)回歸（Quantile Regression，QR）方法運用于經(jīng)濟金融、衛(wèi)生統(tǒng)計等領(lǐng)域的研究，它能夠有效克服數(shù)據(jù)的尖峰厚尾以及結(jié)構(gòu)突變等問題，還對極端異常值有很強的魯棒性，因此該方法日益受到研究人員重視。分位數(shù)回歸方法本身也不斷擴展延伸，其中一個重要方向是與貝葉斯估計結(jié)合，通過不對稱Laplace分布來構(gòu)建貝葉斯分位數(shù)回歸（Bayesian Quantile Regression，BQR）模型[1]，從而有效利用以往研究成果信息、提高樣本數(shù)據(jù)較少時的參數(shù)估計精度。

可是在多維變量模型中，BQR方法平等估計每個解釋變量而不考慮變量作用顯著與否，換句話說，BQR模型不能解決維數(shù)災(zāi)難問題，即使Tibshirani在1996年[2]提出了Lasso變量懲罰方法，也不能很好處理多維變量模型的維數(shù)災(zāi)難問題，因為該方法對所有自變量都施以相同懲罰，而這顯然與不同自變量對因變量影響各異的規(guī)律相悖。

基于此，本文在貝葉斯分位數(shù)回歸模型基礎(chǔ)上，嘗試著結(jié)合自適應(yīng)Lasso變量（Adaptive Lasso）懲罰作用[3]，對不同自變量給予不同懲罰系數(shù)。經(jīng)過理論推導(dǎo)，最終構(gòu)建了基于MH抽樣的自適應(yīng)Lasso懲罰貝葉斯分位數(shù)回歸（Adaptive Lasso Bayesian Quantile Regression，ALBQR）模型。仿真模擬分析表明，相比于0LS模型、QR模型及BQR模型，ALBQR模型有更好的擬合效果。

1　模型構(gòu)建與貝葉斯分析推導(dǎo)

1.1貝葉斯分位數(shù)回歸BQR模型

Koenker和Bassett（1978）[4]率先提出分位數(shù)回歸方法。給定自變量X信息后，Y的第τ分位數(shù)水平線性條件分位數(shù)模型表達式為

也就是

得到QR模型系數(shù)β的估計值，其中ρτ(u)=u(τ-I(u為示性函數(shù)。

實際研究中，我們往往還可以參照以前相關(guān)成果。然而，普通QR模型并沒有借鑒這些經(jīng)驗，所以下面對該模型進行貝葉斯分析推導(dǎo)，構(gòu)建貝葉斯分位數(shù)回歸BQR模型。為了將貝葉斯方法納入到分位數(shù)回歸框架，本文需要運用不對稱拉普拉斯先驗分布（Asymmetric Laplace Distribution，ALD）。給定，μ是位置參數(shù)，σ是尺度參數(shù)，p是偏度參數(shù)，那么其密度函數(shù)如下：

Tsionas（2003）[5]證明，如果x～ALD(μ，σ，p)，那么x可以等價表示為：

比較式（3）與式（7），看出極小化式（3）等價于極大化式（7），分位數(shù)水平τ等同于ALD分布的偏度系數(shù)P。根據(jù)式（6），將因變量yt表示成：

相應(yīng)地，BQR模型的參數(shù)估計值為：

1.2帶有變量懲罰效應(yīng)的貝葉斯分位數(shù)回歸模型

盡管BQR模型可以很好地解決數(shù)據(jù)的尖峰厚尾、結(jié)構(gòu)突變等問題，也充分利用了已有先驗信息。但在參數(shù)估計時，該方法卻不加選擇地平等對待每個解釋變量。由于多維變量模型普遍存在“維數(shù)災(zāi)難”難題，所以Tibshirani（1996）[2]提出了Lasso變量懲罰方法。可是Lasso懲罰方法沒有0 racle估計性質(zhì)，其對所有變量的回歸系數(shù)都施以相同懲罰。這顯然與現(xiàn)實規(guī)律相違背。為此，對于BQR模型，我們借助自適應(yīng)Lasso懲罰方法，通過選擇適當(dāng)權(quán)重，對不同變量給予不同懲罰系數(shù)，從而得到自適應(yīng)Lasso懲罰貝葉斯分位數(shù)回歸（Adaptive Lasso Bayesian Quantile Regression，ALBQR）模型，其具有0 racle性質(zhì)的參數(shù)估計值為：

其中λj是非負的可變懲罰系數(shù)。

1.3ALBQR模型參數(shù)估計與算法設(shè)計

進而

式（14）中，δ、ψ為超參數(shù)。綜上所述，本文通過假設(shè)參數(shù)βj和誤差項εt都服從ALD先驗分布，并對參數(shù)βj施以可變懲罰作用參數(shù)先驗分布分別為：

貝葉斯估計參數(shù)時，后驗分布密度函數(shù)較難求解并且形式復(fù)雜，一般很難得到后驗分布密度的明確表達式，所以只能借助模擬抽樣技術(shù)。MCMC是一種簡單有效的數(shù)值模擬計算方法，包括Gibbs抽樣和MH抽樣，Gibbs抽樣本質(zhì)是接受概率恒為1的MH抽樣特例，本文用MH抽樣算法來進行貝葉斯參數(shù)估計。MH抽樣從建議分布q(θ，θ')中抽樣得到候選樣本θ'，然后以概率a(θ，θ')決定是否接受由θ→θ'，形成轉(zhuǎn)移核p(θ，θ')，具體如下：

設(shè)第k步馬爾可夫鏈的狀態(tài)向量為θ(k)，根據(jù)建議分布產(chǎn)生另一狀態(tài)向量θ‘，然后隨機從均勻分布U(0，1)中抽取a，如果就接受，否則θ(k+1)=θ。

2　仿真模擬分析

2.1數(shù)據(jù)來源

我們接下來進行仿真模擬，以檢驗ALBQR模型的合理性和優(yōu)越性，尤其在小樣本情形下。簡單起見，設(shè)定123456為隨機數(shù)種子，生成6個在不同區(qū)段的均勻分布變量，變量個數(shù)用N表示，本文取N為20、50及100。然后根據(jù)下列方程式生成因變量Y：

上式中，誤差項εt被設(shè)為服從零均值、異方差的正態(tài)分布。很明顯，對于7×N個模擬數(shù)據(jù)而言，式（16）就是多維變量模型回歸方程，并且樣本數(shù)量N也有大有小，因此這些數(shù)據(jù)符合仿真模擬的要求。

2.2仿真結(jié)果分析

假定ALBQR模型的先驗參數(shù)σ～Gamma(0.001，0.001)，步長是1。進行MH抽樣50000次，預(yù)燒30000次，剩下數(shù)據(jù)用于估計上述6個模擬變量的系數(shù)。表1—表3分別提供了樣本量N為20、50及100時的參數(shù)后驗均值。為便于比較，我們還列出0L和BQR模型的相應(yīng)結(jié)果。

根據(jù)表1至表3，我們發(fā)現(xiàn)如下規(guī)律：第一，普通最小二乘法0LS的參數(shù)估計值的確介于不同分位數(shù)水平的BQR（或者ALBQR）估計值之間，這是由于0LS方法估計的是條件均值方程，注重平均角度，而分位數(shù)模型通過變動分位數(shù)水平，還可以研究兩端尾部極端情況下的變量關(guān)系，所以0LS能夠挖掘出的信息量最少。第二，就同一模型來說，隨著樣本量N增大，所有估計值都越來越顯著，這說明誤差百分比逐漸降低，參數(shù)估計精度都得到提高。同時，0LS、BQR與ALBQR模型之間的估計精度差別也不斷縮小。第三，在同一樣本量下，0LS方法最不準確，相比而言，ALBQR的參數(shù)估計系數(shù)最接近各個模擬變量的真實值。尤其是在樣本量很?。∟=20）時，ALBQR模型的優(yōu)勢更加明顯。

采用貝葉斯方法估計參數(shù)后，需要檢驗變量MCMC鏈條的收斂性，本文使用Geweke檢驗方法。限于篇幅，我們只列出樣本量N為100時的MCMC鏈條（tau=0.25、0.5、0.75）收斂性判斷結(jié)果。表4匯報了檢驗情況。

表1　仿真模擬結(jié)果（樣本量N=20）

表2　仿真模擬結(jié)果（樣本量N=50）

表3　仿真模擬結(jié)果（樣本量N=100）

表4　MCMC鏈條收斂性判斷（樣本量N=100）

在表4，樣本量為100時，BQR模型和ALBQR模型所有鏈條的Z統(tǒng)計量絕對值都小于2，均通過Geweke收斂性檢驗，因此判斷這些MCMC鏈條收斂穩(wěn)定，從而側(cè)面印證前文關(guān)于ALBQR模型的分析結(jié)論是合理有根據(jù)的。

3　結(jié)束語

雖然貝葉斯分位數(shù)回歸模型可以解決數(shù)據(jù)普的尖峰厚尾、結(jié)構(gòu)突變等問題，也充分利用先驗信息，但該方法沒有很好地處理多維變量模型的維數(shù)災(zāi)難問題，本文在貝葉斯分位數(shù)回歸方法基礎(chǔ)上，采用自適應(yīng)Lasso懲罰進行變量選擇，構(gòu)建了基于MH抽樣算法的自適應(yīng)Lasso懲罰貝葉斯分位數(shù)回歸模型。仿真模擬實驗表明，在小樣本時，ALBQR模型的擬合性能更優(yōu)也更穩(wěn)健。

[1]陳耀輝，郭俊峰，殷文超.人民幣升值對中小板市場波動的影響——基于貝葉斯分位數(shù)回歸的分析[J].系統(tǒng)工程，2015，(1).

[2]Tibshirani R.Regression Shrinkage and Selection via the Lasso[J]. Journalof the Royal Statistical Society(Series B),1996,58(1).

[3]Zou H.The Adaptive Lasso and Its Oracle Properties[J].Journal of the American Statistical Association,2006,101(476).

[4]Koenker R,BassettG.Regression Quantiles[J].Econometrica:Jour?nalof the Econometric Society,1978,46(1).

[5]Tsionas E G.Bayesian Quantile Inference[J].Journal of Statistical Computation and Simulation,2003,79(3).

[6]Andrews D F,Mallows C L.Scale Mixtures of Normal Distributions [J].Journalof the Royal StatisticalSociety(Series B),1974,36(1).

（責(zé)任編輯/易永生）

0212

1002-6487（2016）19-0020-03

國家自然科學(xué)基金面上項目（71373219）；國家自然科學(xué)基金青年項目（71103150）；中央高?；究蒲袠I(yè)務(wù)費專項資金資助項目（2013221012）

郭俊峰（1988—），男，江西贛州人，博士研究生，研究方向：金融計量經(jīng)濟學(xué)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

變量懲罰效應(yīng)在貝葉斯分位數(shù)回歸模型的應(yīng)用

0 引言

1 模型構(gòu)建與貝葉斯分析推導(dǎo)

2 仿真模擬分析

3 結(jié)束語

0　引言

1　模型構(gòu)建與貝葉斯分析推導(dǎo)

2　仿真模擬分析

3　結(jié)束語