高啟兵,于 歡,時倩倩,朱桂梅
(南京師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 江蘇 南京 210046)
廣義線性模型同時適用于連續(xù)和離散數(shù)據(jù)分析,其應(yīng)用范圍比正態(tài)線性模型更廣泛,在生物、醫(yī)學(xué)、社會和經(jīng)濟(jì)金融等領(lǐng)域有重要應(yīng)用,所以自Nelder和Wedderburn提出該模型以來就一直備受相關(guān)學(xué)者關(guān)注[1]。有關(guān)廣義線性模型統(tǒng)計推斷的漸近理論研究可參見文獻(xiàn)[2-9]。
變量選擇是近代回歸分析中的熱點(diǎn)問題。在實(shí)際應(yīng)用中,研究者通常收集較多相關(guān)變量,但只有部分是顯著有用的。如果將過多不顯著的變量用于統(tǒng)計建模,會降低模型的有效性及可解釋性,同時可能得出錯誤的結(jié)論。因此,變量選擇在各類統(tǒng)計建模中具有重要作用。傳統(tǒng)的變量選擇方法有逐步回歸和最優(yōu)子集方法,但它們都有一些局限性,如缺乏穩(wěn)定性等。近年來,基于懲罰的變量選擇方法被應(yīng)用于各類統(tǒng)計模型,且備受關(guān)注。如Tibshirani提出的Lasso懲罰方法[10],其具有能同時進(jìn)行變量選擇和參數(shù)估計的特性;Fan等在指出Lasso方法的一些不足之后,提出能同時具有變量選擇及參數(shù)估計的Scad懲罰方法,該方法具有稀疏性、連續(xù)性、相合性及Oracle性質(zhì)[11]。其他懲罰方法還有 Frank等提出的橋懲罰方法[12]、Zou等提出的具有分組效應(yīng)的彈性網(wǎng)懲罰方法[13]及Zhang提出的MCP凹懲罰方法等[14]。由于Lasso方法在某些情況下是不相合的,Zou為了改進(jìn)Lasso方法而提出了自適應(yīng)Lasso方法,并且還證明了自適應(yīng)Lasso具有Oracle性質(zhì)[15]。近年來,也有關(guān)于廣義線性模型基于懲罰方法的變量選擇方法研究:Wang等考慮了橋懲罰估計方法及其性質(zhì)[16];Wang等研究Lasso和組Lasso方法的漸近性質(zhì)[17];Cui等探討基于擬似然的橋懲罰估計的漸近性質(zhì)[18];Cui等討論自適應(yīng)Lasso懲罰最小二乘估計的漸近性質(zhì)[19];陳夏等考慮自適應(yīng)Lasso擬似然估計的漸近性質(zhì)等[20]。但是,他們考慮的都是獨(dú)立數(shù)據(jù)或固定設(shè)計下的廣義線性模型,不適應(yīng)于自適應(yīng)設(shè)計廣義線性模型,即具有時間序列成分或一定相依結(jié)構(gòu)的動態(tài)數(shù)據(jù)廣義線性模型分析。本文將對自適應(yīng)設(shè)計廣義線性模型的自適應(yīng)Lasso懲罰最小二乘方法的漸近性質(zhì)進(jìn)行探討。
假設(shè)觀測數(shù)據(jù)為{(yi,Xi),i=1,2,…,n},滿足
式中:yi是一維響應(yīng)變量;Xi是q維設(shè)計向量;β=(β1,β2,…,βq)T為未知的q-維參數(shù),具有真值β0;μ(·)為已知的均值函數(shù);Fi-1是由{(yi,Xj),j=1,2,…,i-1}生成的σ-域,Xi關(guān)于Fi-1可測,即設(shè)計向量由歷史數(shù)據(jù)而定。
以上模型稱為自適應(yīng)設(shè)計廣義線性模型,對該模型的研究主要應(yīng)用極大擬似然方法,有關(guān)參數(shù)極大擬似估計的漸近理論參考文獻(xiàn)[4,9,21]等。
為進(jìn)行參數(shù)估計和變量選擇,考慮以下自適應(yīng)Lasso懲罰最小二乘目標(biāo)函數(shù):
(1)
式中Θn是參數(shù)空間。
為獲得本文的結(jié)果,需要下列假設(shè)條件。
下面給出在自適應(yīng)設(shè)計下自適應(yīng)Lasso懲罰最小二乘的漸近性質(zhì)。
定理1若條件C1~C5滿足,則有
定理2若條件C1~C5滿足,則當(dāng)n→∞時有
在模擬中,生成N=200組數(shù)據(jù)集,每組數(shù)據(jù)集都包含n個觀測數(shù)據(jù)。在自適應(yīng)設(shè)計下考慮以下Logistic回歸模型:
式中β0是11維的向量,設(shè)β01=1,β02=1,β05=0.8,β08=-1,其余分量均為0??紤]2種不同的樣本量:n=200和n=400。協(xié)變量Xi=(1,ui,yi-1,yi-2,yi-3,yi-4),其中第一項(xiàng)是截距項(xiàng),ui是服從均值為0、方差為1且第(i,j)個元素的協(xié)方差是r|i-j|的6維多元正態(tài)分布,其中對于r也考慮了2種情況:r=0.2和r=0.4。
為了對比不同方法在模型選擇上的性能優(yōu)劣,計算以下模型誤差ME(式中簡記為er):
表1 Logistic模型中MRME、(C,I)以及參數(shù)估計值的比較(r=0.2)
通過模擬研究,可得以下結(jié)論。
1)自適應(yīng)Lasso產(chǎn)生的模型的MRME比Lasso要小,與Lasso方法相比,自適應(yīng)Lasso估計選擇的零系數(shù)的數(shù)目接近真實(shí)值,這與定理3的變量選擇結(jié)果一致。
2)在參數(shù)估計上自適應(yīng)Lasso估計也要優(yōu)于Lasso方法,尤其是對自適應(yīng)設(shè)計部分非零參數(shù)的估計,自適應(yīng)Lasso估計值更接近真實(shí)值。隨著樣本數(shù)的增多,自適應(yīng)Lasso參數(shù)估計的精度明顯提高。
表2 Logistic模型中MRME、(C,I)以及參數(shù)估計值的比較(r=0.4)
為證明本文結(jié)果,需要以下引理。
引理1假設(shè)條件C1~C4成立,則有
證明令uk和ul是q維單位向量,且它們的第k個和第l個分量分別為1。因?yàn)閧ei,i=1,2,…}是一個鞅差,并且Xi是Fi-1可測的,所以
s=1,2,…,n
引理2假設(shè)條件C1~C4成立,則有
式中C是一個正常數(shù)。
證明令βu=β0+αnCu。經(jīng)過計算,可以把Wn(β)分為4個部分。首先,
然后對上式求導(dǎo)可得
Wn(βu)=-An(βu)-Bn+Cn(βu)+Vn(βu)。
式中:
從而有
πn3(βu)+πn4(βu)。
式中:
根據(jù)條件C1可知當(dāng)n→∞時,有
由C1和C3,有
由C3,有
因此,可以推出
同理,可以類似地證明
經(jīng)過計算不難看出,
根據(jù)引理1,‖Mn‖=op(1),由條件C3知‖Nn‖=O(1)。從而有
類似地,可以證明
綜上,可以推斷出
πn2+πn3(βu)+πn4(βu)‖≤
‖πn1(βu)‖+‖πn2‖+‖πn3(βu)‖+
‖πn4(βu)‖=op(1)。
故引理2得證。
引理3假設(shè)條件C1~C5成立,則有
證明根據(jù)Ln(β)定義,有
Op(1)。
故引理3得證。
不妨令
[Qn1(β0+αnCu)-Qn1(β0)]+
式中:
Ψn1=[Qn1(β0+αnCu)-Qn1(β0)];
要證明定理1,只要證明這2部分在‖u‖=1上均一致大于0即可。對于Ψn1,2次應(yīng)用積分中值定理有
Ψn1=Qn1(β0+αnCu)-Qn1(β0)=
Ln(β0)]dt1=αnCuTLn(β0)+
根據(jù)引理3可知
再由引理2有
所以有
綜上所述,?ε>0,當(dāng)C取足夠大時就可以以大于1-ε的概率使得Ψn1+Ψn2>0。定理1得證。
式中i=t+1,…,q。
應(yīng)用積分中值定理,有
(β-β0)+F2(β2)。
式中1q-t是一個分量全是1的q-t的維向量。根據(jù)引理3以及c1nIq≤Vn≤c2nIq可知
因此,
即
即
β01)+Op(n-1/2),
β01)+Op(n-1/2)。
把以上2式代入前一個式子,可得
另一方面,根據(jù)條件C1~C3,易得c1nIt≤Sn≤c2nIt,從而結(jié)合條件C5及ωnj的定義有
綜上所述,可得
定理3得證。
本文在已知均值結(jié)構(gòu)的前提下,研究自適應(yīng)設(shè)計下廣義線性模型自適應(yīng)Lasso懲罰最小估計的漸近性質(zhì)。在一定條件下,可以得到自適應(yīng) Lasso懲罰最小二乘估計的相合性和Oracle性質(zhì)。該結(jié)果將固定設(shè)計的廣義線性模型的變量選擇問題推廣到自適應(yīng)設(shè)計的廣義線性模型中,為動態(tài)觀測數(shù)據(jù)(如時間序列數(shù)據(jù))的分析提供理論保障。最后,通過模擬顯示,同Lasso懲罰及Oracle方法的結(jié)果進(jìn)行對比,自適應(yīng)Lasso懲罰方法要優(yōu)于Lasso懲罰方法并接近Oracle方法。