国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Elastic Net方法在縱向數(shù)據(jù)模型中的應(yīng)用*

2016-10-20 06:18許麗慶田凱熊琴
關(guān)鍵詞:數(shù)據(jù)模型性質(zhì)觀測(cè)

許麗慶田凱熊琴

(1.廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,南寧,530004;2.廣西科技大學(xué)醫(yī)學(xué)院,柳州,545006)

Elastic Net方法在縱向數(shù)據(jù)模型中的應(yīng)用*

許麗慶1田凱1熊琴2

(1.廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,南寧,530004;2.廣西科技大學(xué)醫(yī)學(xué)院,柳州,545006)

將Elastic Net方法(EN方法)運(yùn)用于平衡縱向數(shù)據(jù)模型的變量選擇中,建立了相應(yīng)的縱向數(shù)據(jù)模型,證明了平衡縱向數(shù)據(jù)模型的EN估計(jì)具有組效應(yīng)性質(zhì),通過(guò)數(shù)值模擬比較EN方法和Lasso方法,表明EN方法在處理強(qiáng)相關(guān)變量時(shí)因其能將強(qiáng)相關(guān)變量全部選入縱向數(shù)據(jù)模型而優(yōu)于Lasso方法.

Elastic Net方法 縱向數(shù)據(jù)模型 變量選擇 組效應(yīng)性質(zhì)

1 引言

縱向數(shù)據(jù)自提出以后在社會(huì)科學(xué),心理學(xué),生物醫(yī)學(xué),計(jì)量經(jīng)濟(jì)學(xué)等領(lǐng)域普遍存在.通過(guò)對(duì)觀測(cè)對(duì)象中的每一個(gè)受試個(gè)體或者每一個(gè)受試單位在不同時(shí)間點(diǎn)上重復(fù)觀測(cè)得到的數(shù)據(jù)稱為縱向數(shù)據(jù).因此數(shù)據(jù)即包含同一時(shí)間點(diǎn)上不同樣本的數(shù)據(jù),也包含不同時(shí)間點(diǎn)上的觀測(cè)數(shù)據(jù).所以,縱向數(shù)據(jù)把截面數(shù)據(jù)和時(shí)間數(shù)據(jù)有效的結(jié)合在一起,既能夠很好地分析出個(gè)體隨時(shí)間變化的趨勢(shì),又能很好的反映個(gè)體間的差異及個(gè)體內(nèi)的變化趨勢(shì).

關(guān)于縱向數(shù)據(jù)的研究一直是統(tǒng)計(jì)研究的熱點(diǎn),其中變量選擇問(wèn)題一直受到廣泛的關(guān)注.為了選擇重要的變量和增強(qiáng)預(yù)測(cè)精度,統(tǒng)計(jì)學(xué)家們經(jīng)常應(yīng)用不同的方法,例如逐步回歸法和子集選擇法,但是由于這兩種方法算法的不穩(wěn)定性[1-2],導(dǎo)致它們的理論性不強(qiáng).1970年,由Hoerl和Kennard[3]提出的嶺回歸雖然增加了穩(wěn)定性可是它并不能將任何系數(shù)設(shè)置為零,所以其不能給出一個(gè)簡(jiǎn)單的解析模型.1996年,Tibshirani[4]提出的Lasso方法,它可以同時(shí)做到變量的選擇和參數(shù)估計(jì).2005年,Zou和Hastie[5]提出的Elastic Net(EN)方法,它是Lasso方法的一種有效改進(jìn),它在處理變量間存在組效應(yīng)的數(shù)據(jù)方面要顯著優(yōu)于Lasso法.

當(dāng)每個(gè)受試個(gè)體重復(fù)觀測(cè)的次數(shù)和時(shí)刻相同就得到了平衡縱向數(shù)據(jù),平衡縱向數(shù)據(jù)模型要求自變量之間相互獨(dú)立,至少不允許出現(xiàn)很強(qiáng)的相關(guān)性,同時(shí)還要求所研究的樣本量n大于預(yù)測(cè)變量個(gè)數(shù)p,但是現(xiàn)實(shí)生活中往往出現(xiàn)p?n的情形,所以在處理高維度且變量間有強(qiáng)相關(guān)性的縱向數(shù)據(jù)時(shí),傳統(tǒng)的縱向數(shù)據(jù)就不再適用了.本文將EN方法用于縱向數(shù)據(jù)模型,建立相應(yīng)的縱向數(shù)據(jù)模型,對(duì)高維度強(qiáng)相關(guān)的變量選擇問(wèn)題進(jìn)行了有益的探索.

2 平衡縱向數(shù)據(jù)模型和EN方法

2.1平衡縱向數(shù)據(jù)模型

平衡縱向數(shù)據(jù)要求對(duì)每個(gè)個(gè)體重復(fù)觀測(cè)的次數(shù)相同,因此每個(gè)個(gè)體內(nèi)部數(shù)據(jù)的個(gè)數(shù)相同且同分布,對(duì)第i個(gè)個(gè)體的響應(yīng)變量和p個(gè)預(yù)測(cè)變量重復(fù)觀測(cè)n次可得到:

多數(shù)的縱向數(shù)據(jù)分析都是基于回歸模型基礎(chǔ)上的,如線性模型.對(duì)于平衡縱向數(shù)據(jù),考慮線性模型:其中,β=β1,β2,…,βp

()′是一個(gè)p維向量,表示待估計(jì)的回歸系數(shù),εij為隨機(jī)誤差項(xiàng),表示響應(yīng)變量與x′β的偏差.不失一般性,對(duì)于任意的i和j,令xij1=1,即β1為線性模型中的截距項(xiàng).利用矩陣描述,其第i個(gè)回歸方程有下面的形式:

2.2EN方法

Elastic Net,又稱彈性網(wǎng)技術(shù),它是在Lasso的基礎(chǔ)上,通過(guò)引入系數(shù)的二次懲罰項(xiàng)而得到的[5],它比Lasso方法[6,11]更能有效的處理高維小樣本數(shù)據(jù)的方法.

假設(shè)數(shù)據(jù)的樣本量為n,預(yù)測(cè)變量個(gè)數(shù)為p,響應(yīng)變量y=y1,…,y n(

)T,預(yù)測(cè)變量xj=,X是由p個(gè)預(yù)測(cè)變量組成的矩陣,首先對(duì)響應(yīng)變量和預(yù)測(cè)變量分別進(jìn)行中心化處理和標(biāo)準(zhǔn)化處理.

對(duì)于普通線性模型,EN方法定義如下:

3 EN方法在平衡縱向數(shù)據(jù)模型中的應(yīng)用

3.1平衡縱向數(shù)據(jù)EN估計(jì)的方法

通過(guò)對(duì)每個(gè)實(shí)驗(yàn)個(gè)體的重復(fù)觀測(cè),可以獲得相應(yīng)變量Yi和預(yù)測(cè)變量Xi,i=1,…,m.利用極大似然函數(shù)估計(jì)方法來(lái)估計(jì)系數(shù),其極大似然函數(shù)定義如下:

對(duì)上式取e為底的對(duì)數(shù),得到似然函數(shù)[8]:

參數(shù)β的估計(jì)為:

3.2平衡縱向數(shù)據(jù)模型EN估計(jì)的性質(zhì)

EN估計(jì)具有組效應(yīng)性質(zhì)[6.7],對(duì)于強(qiáng)相關(guān)變量組的數(shù)據(jù),能將其全部選入模型而不是只選擇一個(gè),彌補(bǔ)了Lasso方法只能選擇變量組中的一個(gè)變量的不足.現(xiàn)研究在平衡縱向數(shù)據(jù)模型下,EN估計(jì)的組效應(yīng)性質(zhì).

所以

同理,

定理1從理論上揭示了平衡縱向數(shù)據(jù)模型的EN估計(jì)具有組效應(yīng)性質(zhì),對(duì)于具有強(qiáng)相關(guān)性的變量,EN估計(jì)能將強(qiáng)相關(guān)變量全部選入模型,而并非只選擇其中一個(gè),且系數(shù)估計(jì)的差距隨著相關(guān)系數(shù)的增大而減小.

3.3數(shù)值模擬

現(xiàn)通過(guò)數(shù)值模擬加以驗(yàn)證EN方法在處理具有強(qiáng)相關(guān)變量組的數(shù)據(jù)上更具有有效性.由于EN方法的解經(jīng)轉(zhuǎn)換后可表達(dá)為L(zhǎng)asso方法的解的形式,故可以利用最下角回歸算法解決其算法問(wèn)題.結(jié)合Lars算法[12],在R軟件[9,10]中進(jìn)行變量篩選.應(yīng)用R軟件產(chǎn)生m組平衡縱向數(shù)據(jù),Xi的每一列都是獨(dú)立同分布于Nn×10,I(),隨機(jī)誤差εi=εi1,εi2,…,εin(

)′~Nn×10,Σ().對(duì)于任意給定的β=β1,β2,…,βp(

)′,應(yīng)用線形模型Yi=Xiβ+εi,可以獲得Y= Y1,Y2,…,Ym()′.這里用來(lái)仿真模擬的平衡縱向數(shù)據(jù)形式如(1)式所示.現(xiàn)假設(shè)在模型中的變量關(guān)系如下:

表1 數(shù)值模擬得到的系數(shù)估計(jì)值

由表1可知:兩種方法均可以準(zhǔn)確估計(jì)出參數(shù)值,如xij4真實(shí)值為1,EN方法和Lasso方法估計(jì)的參數(shù)值分別為0.9994和1.但在變量強(qiáng)相關(guān)條件下,兩種方法結(jié)果不同.例如:對(duì)于存在強(qiáng)相關(guān)的變量組xij1與xij2,EN 方法把xij1與xij2都選入了模型,而Lasso方法只選擇了變量xij1;同樣,對(duì)于強(qiáng)相關(guān)變量xij9和xij10,EN方法把xij9與xij10都選入了模型,而Lasso方法只選擇了變量xij9;這是由于EN方法具有組效應(yīng)性質(zhì).同時(shí)這也表明,對(duì)于數(shù)據(jù)中存在強(qiáng)相關(guān)變量組的情形,運(yùn)用EN方法選擇出的變量更接近于真實(shí)模型.

綜上,在將平衡縱向數(shù)據(jù)模型與EN方法結(jié)合后,EN方法仍然在處理具有強(qiáng)相關(guān)變量組的數(shù)據(jù)上顯著優(yōu)于Lasso方法.

4 結(jié)論

本文鑒于EN方法能有效處理強(qiáng)相關(guān)數(shù)據(jù)的事實(shí),將EN方法運(yùn)用于縱向數(shù)據(jù)模型中,證明縱向數(shù)據(jù)模型的EN估計(jì)具有組效應(yīng)性質(zhì),并通過(guò)數(shù)值模擬驗(yàn)證了EN方法能將強(qiáng)相關(guān)變量全部選入縱向數(shù)據(jù)模型而Lasso方法并沒(méi)有這方面的作用.

綜上可知,EN方法能有效克服傳統(tǒng)縱向數(shù)據(jù)參數(shù)估計(jì)方法的不足,使縱向數(shù)據(jù)變量估計(jì)的擬合效果和預(yù)測(cè)能力得到改善.

[1]BREIMAN L.Heuristics of instability and stabilization in model selection[J].Ann Statist,1996,24(6):2350-2383.

[2]FAN Jian-qing,LI Run-ze.Variable selection via nonconcave penalized likelihood and its oracle propertrices[J].Journal of the American Statistical Association,2001,96:1348-1360.

[3]A.E.Hoerl,R.W.Kennard.(1970)Ridge regression:biased setimation for nonorthogonal probled.Technometrics 12(1):55-67.

[4]TIBSHIRANI R.Regression shrinkage and selection via the Lasso[J].Journal of the Royal Statistical Society,Series B,1996,58:267-288.

[5]Zou H,HASTIE T.Regularization and Variable Selection via the Elastic Net[J].Journal of the Royal Statistical Society,Series B.2055,67(1):301-320.

[6]TIBSHITANI R.Regression Shrinkage and Selection via the Lasso[J].Journal of the Royal Statistical Society,Series B,1996,58:267-288.

[7]盧穎.廣義線性模型基于Elastic Net的變量選擇方法研究[D].北京:北京交通大學(xué),2001.

[8]李春紅,韋新星.Elastic Net方法在COX模型變量選擇中的研究[J].重慶:西南大學(xué)學(xué)報(bào),2015.

[9]吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,2010.

[10]薛毅,陳立萍.R語(yǔ)言實(shí)用教程[M].北京:清華大學(xué)出版社,2014.

[11]曲婷,王靜.基于Lasso方法的平衡縱向數(shù)據(jù)模型變量選擇[J].哈爾濱:黑龍江大學(xué)自然科學(xué)學(xué)報(bào):2012.

[12]Efron B,Hastie T,Johnstone I,et al.Least Angle Regression Model[J].Biometrika,1982,69(1):239

-241.

Application of Elastic Net Method in Balanced Longitudinal Data Models

Xu Liqing1Tian Kai1Xiong Qin2
(1.Guang Xi University,Academy of Mathematics and Information Sciences,Nan Ning 530004,China;2.Guangxi University of Science Technology,Medical College,Liu Zhou 545006,China)

We apply the Elastic Net method to select variables so as to establish the corresponding longitudinal data model.It is found that the Elastic Net method possesses a group effect property.The numerical simulations on the Elastic Net method and the Lasso method show that the former is superior to the latter in dealing with strong correlated variables in longitudinal data models.

Elastic Net method Longitudinal data model Model selection Group effect property

國(guó)家自然科學(xué)基金(71462002)和廣西自然科學(xué)基金(2013GXNSFAA019340)資助

2016年01月14日

猜你喜歡
數(shù)據(jù)模型性質(zhì)觀測(cè)
隨機(jī)變量的分布列性質(zhì)的應(yīng)用
完全平方數(shù)的性質(zhì)及其應(yīng)用
九點(diǎn)圓的性質(zhì)和應(yīng)用
面板數(shù)據(jù)模型截面相關(guān)檢驗(yàn)方法綜述
厲害了,我的性質(zhì)
2018年18個(gè)值得觀測(cè)的營(yíng)銷趨勢(shì)
天測(cè)與測(cè)地VLBI 測(cè)地站周圍地形觀測(cè)遮掩的討論
可觀測(cè)宇宙
高分辨率對(duì)地觀測(cè)系統(tǒng)
基于分位數(shù)回歸的電力負(fù)荷特性預(yù)測(cè)面板數(shù)據(jù)模型