何曉霞,徐偉,李緩,吳傳菊
(武漢科技大學理學院,湖北武漢430065)
面板數(shù)據(jù)分位數(shù)回歸模型的參數(shù)估計與變量選擇
何曉霞,徐偉,李緩,吳傳菊
(武漢科技大學理學院,湖北武漢430065)
本文研究了基于面板數(shù)據(jù)的分位數(shù)回歸模型的變量選擇問題.通過增加改進的自適應(yīng)Lasso懲罰項,同時實現(xiàn)了固定效應(yīng)面板數(shù)據(jù)的分位數(shù)回歸和變量選擇,得到了模型中參數(shù)的選擇相合性和漸近正態(tài)性.隨機模擬驗證了該方法的有效性.推廣了文獻[14]的結(jié)論.
面板數(shù)據(jù);分位數(shù)回歸;自適應(yīng)Lasso;變量選擇;漸近正態(tài)性
近年來,由于計算機技術(shù)的日益成熟,分位數(shù)回歸在理論和方法上都得到了廣泛的應(yīng)用. Koenker[1]首次提出了分位數(shù)回歸,如今分位數(shù)回歸作為均值回歸分析的穩(wěn)健替代,被廣泛地用于探索響應(yīng)變量與協(xié)變量之間的潛在關(guān)系.在實際應(yīng)用中,分位數(shù)回歸可以刻畫響應(yīng)變量更多的分布特征.Koenker[2]發(fā)現(xiàn)分位數(shù)回歸的結(jié)果可以提供比普通條件均值回歸更豐富,更有針對性.特別是,它提供了探索異質(zhì)性的來源與合作的響應(yīng)變量一種方法,并深入研究了分位回歸模型及其估計.王新宇[3]系統(tǒng)地介紹了分位數(shù)的基本模型及其擴展、分位數(shù)回歸模型的經(jīng)典統(tǒng)計推斷.Tang等[4]研究了加權(quán)復(fù)合分位數(shù)(WCQ)與隨機截尾線性回歸模型.在這個模型中,提出了可變選擇的自適應(yīng)懲罰程序,并證明了一致性和漸近正態(tài)性. Wang和Yin[5]研究了無界意義下的在線變化分位數(shù)回歸算法.
分位數(shù)回歸模型中的變量選擇問題一直受到廣泛的關(guān)注.Shows等[6]針對一種多元線性模型,提出了對隨機刪失數(shù)據(jù)的自適應(yīng)Lasso加權(quán)LAD(AWLAD)變量選擇方法.Wang等[7]提出了BIC調(diào)整參數(shù)選擇方法,證明了這種方法能夠辨別出真模型,并在模擬中驗證了理論的有效性.Wu等[8]研究了懲罰分位數(shù)回歸,在一些較弱的條件下得到了SCAD和自適應(yīng)Lasso懲罰分位數(shù)回歸的Oracle性質(zhì).Zou[9]提出了分位數(shù)回歸模型的自適應(yīng)Lasso的變量選擇方法,也得到了其Oracle性質(zhì).呂亞召等[10]研究部分線性單指標復(fù)合分位數(shù)回歸模型,提出了用自適應(yīng)Lasso的變量選擇方法,該方法用BIC選擇最優(yōu)調(diào)整參數(shù),在隨機模擬中驗證了所提方法的優(yōu)良性.
相對于橫截面或是時間序列數(shù)據(jù)來說,面板數(shù)據(jù)含有更多的信息,因此,面板數(shù)據(jù)回歸模型的研究越來越受關(guān)注.巴爾塔基[11]提出了面板數(shù)據(jù)模型及其參數(shù)的估計方法,并給出了實際應(yīng)用.李揚等[12]提出了懲罰似然變量選擇問題,證明了面板數(shù)據(jù)的自適Lasso具有Oracle性質(zhì).在選擇最優(yōu)調(diào)整參數(shù)時,模擬顯示BIC和GCV的選擇結(jié)果一般比AIC有優(yōu)勢.曲婷等[13]對平衡縱向數(shù)據(jù)模型,通過Lasso方法可將模型的系數(shù)壓縮到0,采用AIC和BIC準則選取最優(yōu)參數(shù),從而達到變量選擇的目的.Koenker[14]首次提出了面板數(shù)據(jù)分位數(shù)回歸模型,用加權(quán)的形式控制分位數(shù)對效應(yīng)的影響,并加入l1懲罰項,既保持了線性規(guī)劃形式,又保持了結(jié)果設(shè)計矩陣的稀疏性.李翰芳等[15]對隨機效應(yīng)面板數(shù)據(jù),通過引入條件Laplace先驗,構(gòu)造了一種新的貝葉斯Lasso分位數(shù)回歸法,與一般貝葉斯分位回歸法相比更有效的將異質(zhì)變量的系數(shù)壓縮到0,從而起到變量選擇的作用.
分位數(shù)回歸對誤差項的分布沒有具體的限制,對異質(zhì)點或者是非正態(tài)分布的參數(shù)的估計具有一定的穩(wěn)健性,將分位數(shù)回歸和面板數(shù)據(jù)模型兩者結(jié)合起來,在控制個體差異的同時,可以分析各種變量在不同分位點之間的關(guān)系.基于面板數(shù)據(jù)的分位數(shù)回歸模型,本文提出了一種在改進的自適應(yīng)Lasso的罰函數(shù)下對變量進行選擇的方法,對系數(shù)變量的值進行壓縮,使得異質(zhì)變量的系數(shù)為0,從而達到變量選擇的效果,并證明了相合性和漸近正態(tài)性,在模擬中用驗證了選擇的有效性.
考慮一般的隨機效應(yīng)面板數(shù)據(jù)模型
其中yij是因變量,xij是自變量,αi是不可觀測的時間不變效應(yīng),uij是誤差項.寫成矩陣的形式如下y=XTβ+Zα+u,其中y是n×1維,X是nm×p維,Z是nm×n維的虛擬變量的關(guān)聯(lián)矩陣,α和u是獨立的隨機向量.
令ρτk(u)=u(τk-I(u≤0)),yij的分位數(shù)函數(shù)為
為了更好的估計參數(shù),對(2.1)式提出加權(quán)分位數(shù)估計方法,
最小化(2.3)是一個凸規(guī)劃問題,加權(quán)分位數(shù)回歸估計方法可以凸優(yōu)化來實現(xiàn).在分位數(shù)函數(shù)(2.2)中,α與因變量的條件分位數(shù)相對應(yīng),為了更好的估計截面的分位數(shù)方程,Koenker[14]引入了懲罰項代替高斯懲罰項,
由于E[I(yij-ξij(τk)<0)-τk]=0,結(jié)合中心極限定理和Cram′er-Word定理,Zn,m,k和Wn,m,k依分布收斂到Zk和W1,其中Zk是一個正態(tài)隨機變量,均值為0,W1是一個n維正態(tài)向量,均值為0.因此可以得到
因此當mn→∞時,
則有
另外,由于
其中
則
由Koenker[14]中引理1,可以得到?u→dN(0,D-1ΣD-1).
在對數(shù)據(jù)進行統(tǒng)計分析時,人們一般會借助一些相關(guān)變量對所關(guān)心的變量進行分析,建模,以便得到理想的結(jié)果,一般稱這些相關(guān)的變量為協(xié)變量,而所關(guān)心的變量為因變量.在開始建模的時候,希望加入更多的相關(guān)變量,來得到更真實的結(jié)果,然而,隨著協(xié)變量的增多,異質(zhì)變量存在的可能性就越大,于是,希望尋找一個有效方法來選出對響應(yīng)變量有顯著影響的協(xié)變量.因此變量選擇就是統(tǒng)計學中一個重要的問題.本節(jié)對上述面板數(shù)據(jù)分位數(shù)模型的變量選擇進行分析,在(4.1)式中需要指定調(diào)節(jié)參數(shù)λ2,本文最優(yōu)的調(diào)整參數(shù)λ2可以通過BIC (Bayesian information criterion)準則選取.在加權(quán)分位數(shù)估計的同時,同時希望對變量做選擇,本節(jié)選的罰函數(shù)是自適應(yīng)Lasso罰函數(shù).令
令BIC(λ)=logPλ+dfλ·log(mn)/mn,其中
(i)因為Lmn(δ)是對δ的分段線性函數(shù),在每個可微的點,對k=1,2,···,K,j= q+1,···,p取Lmn(δ)對δkj的偏導(dǎo),有
在本節(jié)給出兩個例子,比較不同的方法對參數(shù)估計值優(yōu)勢,并驗證自適應(yīng)Lasso罰函數(shù)對變量選擇的有效性.
例1考慮n=50,m=5,p=1,響應(yīng)變量由下面的模型生成
其中β=1,αi和uij服從標準正態(tài)分布,ω=(0.25,0.5,0.25)在三個分位點τ=(0.25,0.5,0.75), xij由高斯分布生成
γi和vij獨立同分布,相應(yīng)的組內(nèi)相關(guān)系數(shù),
就是xij和xik之間的相關(guān)系數(shù),當j 6=k時,在的模擬中,都令ρx=0.5.而λ1選擇位置參數(shù)比σu/σα,λ2的選擇由上一節(jié)BIC得到,α和uij分兩種情況.
1.都來自于標準正態(tài);
2.都來自于自由度為3的t分布.
這樣可以得到分別在分位數(shù)回歸的估計方法(QR)、分位數(shù)效應(yīng)罰函數(shù)估計(PQR)、分位數(shù)回歸自適應(yīng)罰函數(shù)估計(LPQR),對β的估計,如表1,可以看出在α和uij的兩種情況PQR和LPQR都比QR估計更優(yōu).
表1:例1中β參數(shù)估計
表2:例2中β罰估計
表3:例2中β變量選擇
例2令m=5,n=50,p=8,響應(yīng)變量來自下面的模型
β=(3,1.5,0,0,0,0,2,0),xij由(5.1),(5.2)式生成,αi和uij同樣分兩種情況.
1.都來自于標準正態(tài);
2.都來自于自由度為3的t分布.
表2是分位數(shù)罰估計(PQR)分別對上面兩種情形下β的估計,表3是分位數(shù)自適應(yīng)Lasso罰函數(shù)(LPQR)對參數(shù)的估計,通過模擬可以看出PQR可以對參數(shù)做近似估計,但對異質(zhì)變量不能做選擇,而LPQR在參數(shù)估計的同時對變量做了選擇,0參數(shù)都選擇出來了,不管是參數(shù)估計還是變量選擇都比PQR有優(yōu)勢.
[1]Koenker R.Bassett G.Regression quantiles[J].Econo.,1978,46:33-50.
[2]Koenker R.Quantile regression[M].Cambridge:Cambridge University Press,2005.
[3]王新宇.分位數(shù)回歸理論及其在金融風險測量中的應(yīng)用[M].北京:經(jīng)濟科學出版社,2010.
[4]Tang L,Zhou Z,Wu C.Weighted composite quantile estimation and variable selection method for censored regression model[J].Stat.Prob.Lett.,2012,3:653-663.
[5]Wang B,Yin H.Varying quantile regression with online scheme and unbounded sampling[J].J. Math.,2015,34:281-286.
[6]Shows H,Lu W,Zhang H.Sparse estimation and inference for censored median regression[J].Stat. Plan.Infer.,2010,140:1903-1917.
[7]Wang H,Li R,Tsai C L.Tuning parameter selectors for the smoothly clipped absolute deviation method[J].Biometrika,2007,94:553-568.
[8]Wu Y,Liu Y.Variable selection in quantile regression[J].Statist.Sinica,2009,19:801-817.
[9]Zou H.The adaptive Lasso and its oracle properties[J].Amer.Stat.Assoc.,2006,101:1418-1429.
[10]呂亞召,張日權(quán)等.部分線性單指標模型的復(fù)合分位數(shù)回歸及變量選擇[J].中國科學,2014,12:1299-1322.
[11]巴爾塔基.面板數(shù)據(jù)計量經(jīng)濟分析[M].北京:中國人民大學出版社,2010.
[12]李揚,曾憲斌.面板數(shù)據(jù)模型的懲罰似然變量選擇方法研究[J].統(tǒng)計研究,2014,3:83-89.
[13]曲婷,王靜.基于Lasso方法的平衡縱向數(shù)據(jù)模型變量選擇[J].黑龍江大學自然科學學報,2012,29:715-722.
[14]Koenker R.Quantile regression for longitudinal data[J].J.Multi.Anal.,2004,91:71-89.
[15]李翰芳,羅幼喜等.面板數(shù)據(jù)的貝葉斯LASSO分位回歸方法[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究,2013,2:138-149.
[16]Knight K.Limiting distributions for L1regression estimators under general conditions[J].Ann. Stat.,1998,26:755-770.
PARAMETER ESTIMATION AND VARIABLE SELECTION IN THE QUANTILE REGRESSION MODEL FOR PANEL DATA
HE Xiao-xia,XU Wei,LI Huan,WU Chuan-ju
(College of Science,Wuhan University of Science and Technology,Wuhan 430065,China)
In this paper,we consider the variable selection problem for the quantile regression model based on panel data.By adding an improved adaptive lasso penalty term, we realize the quantile regression and variable selection for the panel data with f i xed ef f ect simultaneously,and obtain the consistency and asymptotical normality for the selection of the parameters.Simulation studies show the validity of the proposed method,which extend that of [14].
panel data;quantile regression;adaptive lasso;variable selection;asymptotic normality
O211.7
A
0255-7797(2017)05-1101-10
2015-09-26接收日期:2016-02-25
國家自然科學基金資助(11201356).
何曉霞(1979-),女,湖北大悟,副教授,主要研究方向:數(shù)理統(tǒng)計.
2010 MR Subject Classif i cation:62F12;62J05