馬學(xué)俊
(中國人民大學(xué) 應(yīng)用統(tǒng)計(jì)科學(xué)研究中心, 北京 100872)
GSIS超高維變量選擇
馬學(xué)俊
(中國人民大學(xué) 應(yīng)用統(tǒng)計(jì)科學(xué)研究中心, 北京 100872)
變量選擇在超高維統(tǒng)計(jì)模型中非常重要。Fan 和Lv基于簡(jiǎn)單相關(guān)系數(shù)提出確保獨(dú)立篩選法(SIS),但當(dāng)自變量被分成組時(shí),SIS就會(huì)失效。因?yàn)镾IS只能對(duì)單個(gè)變量進(jìn)行選擇,不能對(duì)組變量進(jìn)行選擇。為此,基于邊際組回歸提出組確保獨(dú)立篩選法(GSIS),該方法不僅對(duì)組變量有效,對(duì)單個(gè)變量也有效,或者兩者的混合也同樣有效。Monte Carlo模擬結(jié)果顯示,GSIS的表現(xiàn)優(yōu)于SIS。
組確保獨(dú)立篩選法;確保獨(dú)立篩選法;變量選擇;邊際組回歸
伴隨著人類社會(huì)的發(fā)展,收集數(shù)據(jù)的種類越來越多。通常存在一種樣本量n相對(duì)于變量個(gè)數(shù)p特別小的數(shù)據(jù),或者說變量的個(gè)數(shù)遠(yuǎn)大于樣本量個(gè)數(shù)的數(shù)據(jù),如遺傳、基因芯片和磁共振成像等[1]。一般地,我們假設(shè)lnp=O(nα),其中α∈(0,1/2),即自變量個(gè)數(shù)是樣本量個(gè)數(shù)的指數(shù)倍,也稱為NP(Nonpolynomial)災(zāi)難,或超高維(Ultrahigh)災(zāi)難。通常假定只有很少的自變量對(duì)于因變量產(chǎn)生影響,這也是統(tǒng)計(jì)學(xué)中經(jīng)常說的“稀疏性(Sparsity)”假設(shè)。這種假定具有一定的合理性,影響某一個(gè)事物的因素也許有很多個(gè),但是起主要作用也許只有少數(shù)幾個(gè)或很少的幾個(gè)因素。稀疏性的假定是處理超高維(高維)問題的基本假定。
變量選擇是統(tǒng)計(jì)學(xué)研究的重要問題。比較常見的方法有LASSO、 SCAD、MCP、 GLASSO、GSCAD和GMCP等,但是這些方法不能處理超高維的問題[2]。為了處理超高維問題。Fan和Lv基于簡(jiǎn)單相關(guān)系數(shù)提出確保獨(dú)立篩選法(Sure Independence Screening),為了方便記為SIS[3]。確保(Sure)意味著該方法可以保證真實(shí)對(duì)于因變量有顯著影響的自變量幾乎都可以被選出。獨(dú)立(Independence)的含義是指考慮每一個(gè)自變量與因變量的關(guān)系。Hall和Miller利用廣義簡(jiǎn)單相關(guān)系數(shù)處理超高維問題[4]。Fan等利用邊際似然對(duì)廣義線性模型和分類模型進(jìn)行了超高維的變量選擇[5-6]。Fan等利用邊際回歸對(duì)可加模型和變系數(shù)模型進(jìn)行了超高維的變量選擇[7-8]。Liu基于條件相關(guān)系數(shù)對(duì)變系數(shù)模型進(jìn)行了超高維的變量選擇[9]。
實(shí)際應(yīng)用中,存在某些變量組成一個(gè)整體,它們“同甘苦共患難”。在變量選擇過程中,要么都保留,要么都刪去。如我們?cè)谔幚矶喾诸愖兞繒r(shí),經(jīng)常使用虛擬變量。這些虛擬變量就是一組變量,變量選擇時(shí)它們不能分開。此時(shí)SIS將不能勝任對(duì)于組變量的選擇,因?yàn)楹?jiǎn)單相關(guān)系數(shù)針對(duì)的是兩個(gè)變量而言,不是兩組組變量。為此,本文提出組確保獨(dú)立篩選法(Group Sure Independence Screening,簡(jiǎn)記為GSIS)。該方法不僅對(duì)組變量有效,對(duì)單個(gè)變量也有效,或者兩者的混合也同樣有效。
(一)邊際組回歸
Y是因變量,Z=(Z1,Z2,…,Zp)′是p維的自變量向量。我們研究如下線性模型:
Y=β0+Zγ+ε
(1)
其中γ=(γ1,γ2,…,γp)′是p維未知參數(shù),ε是隨機(jī)誤差項(xiàng)。
一般而言,超高維變量選擇通過兩個(gè)步驟實(shí)現(xiàn)。第一步是通過某一個(gè)“規(guī)則”初步選擇變量;第二步是利用傳統(tǒng)的方法對(duì)第一步選擇出來的變量再進(jìn)行變量選擇。經(jīng)過第一步計(jì)算,對(duì)于因變量有影響的自變量已初步選出,并且此時(shí)的自變量個(gè)數(shù),傳統(tǒng)的方法已可以快速計(jì)算。顯然,第一步非常重要,第二步只是利用已有的方法進(jìn)行變量選擇。所以,本文重點(diǎn)闡述第一步的實(shí)施,第二步可以利用GLASSO、GSCAD和GMCP進(jìn)行變量選擇[2]。
設(shè)Z為已列標(biāo)準(zhǔn)化(即每個(gè)自變量已標(biāo)準(zhǔn)化),SIS是計(jì)算Y與每一個(gè)Zt(t=1,2,…,p)的相關(guān)系數(shù),即:
w=Z′y
(2)
假設(shè)p個(gè)自變量可以分為J組,此時(shí)模型(1)可以寫為:
(3)
與SIS類似,GSIS考慮邊際組回歸,讓第j組自變量Xj對(duì)Y進(jìn)行回歸,即最小化為:
(4)
如果Xj對(duì)Y有作用,那么邊際回歸模型的殘差平方和就比較?。环粗?,如果Xj對(duì)Y沒有作用,那么它們擬合的殘差平方和比較大。SIS利用簡(jiǎn)單相關(guān)系數(shù),而GSIS利用殘差平方和。具體算法如下:
GSIS有效地利用了模型的殘差信息,不僅對(duì)組變量有效,對(duì)單個(gè)變量也有效,或者兩者的混合都有效。另外,GSIS可以推廣到變系數(shù)模型、可加模型和分位數(shù)回歸模型等統(tǒng)計(jì)模型。
(二)GSIS的延拓
對(duì)于變系數(shù)模型和可加模型,我們先用B樣條逼近變系數(shù)部分或非參數(shù)部分,從而將非參數(shù)邊際回歸轉(zhuǎn)為參數(shù)邊際回歸,然后對(duì)邊際回歸的殘差平方和排序即可。以變系數(shù)模型為例,變系數(shù)模型的表達(dá)式一般是:
Y=a0(u)+a′(u)X+ε
(5)
其中a(u)={a1(u),a2(u),…,ap(u)}′是p維未知的函數(shù)向量,u∈[0,1]是指示變量(如時(shí)間等),ε是隨機(jī)誤差項(xiàng),且E(ε|X,u)=0。
我們考慮邊際非參數(shù)回歸,即對(duì)第j個(gè)自變量Xj對(duì)Y進(jìn)行回歸,即最小化:
(6)
設(shè)B(u)={B1(u),B2(u),…,BK(u)}′是B樣條基函數(shù),其中K=T+r+1,r是樣條函數(shù)的階數(shù),T為節(jié)點(diǎn)數(shù),所以aj(u)≈η1jB1(u)+η2jB2(u)+…+ηKjBK(u),則式(6)可以轉(zhuǎn)化為:
(7)
可以看出通過B樣條逼近,將非參數(shù)邊際回歸式(6)轉(zhuǎn)化為參數(shù)邊際回歸式(7)。也就是說,對(duì)于單個(gè)自變量Xj的選擇轉(zhuǎn)化為對(duì)于組自變量B1(u)Xj,B2(u)Xj,…,BK(u)Xj的選擇,進(jìn)而利用GSIS對(duì)自變量進(jìn)行變量選擇。可加模型與變系數(shù)模型類似,只需將式(7)修改為:
(8)
另外,對(duì)于分位數(shù)變系數(shù)模型和分位數(shù)可加模型,只需將式(7)、式(8)中的平方損失函數(shù)換成ρτ(v)=v(τ-I(v>0))損失函數(shù)即可。
這里將進(jìn)行Monte Carlo模擬,我們考慮如下模型:
模型(A):Y=2X1+X2+1.5X3+ε
其中X1=2Z1+3Z2+0.5Z3,X2=Z4+5Z5+3Z6,X3=1.2Z7+3Z8+Z9。
模型(B):Y=Z1+2Z2+3Z3+ε
其中Z={Z1,Z2,…,Zp}′~N(0,Σ),Σ是p×p正定矩陣,其元素ρij=0.5|i-j|,誤差項(xiàng)ε~N(0,1)。我們重復(fù)模擬1 000次。樣本量n=50,p=1 000,從而[n/log(n)]=13。我們考慮d=v[n/log(n)]=13v,其中v取1、2和3時(shí)相應(yīng)的d記d1、d2和d3。
為了與SIS相比較,我們考慮如下指標(biāo):第一,bj為第j個(gè)非零自變量被正確選取的比例;第二,b為M?Mδ的比例,即全部非零自變量被正確選出的比例,其中M是真實(shí)非零自變量的下標(biāo)集合。對(duì)于模型(A),GSIS和SIS的M分別是{1,2,3}、{1,2,3,4,5,6,7,8,9}。對(duì)于模型(B),GSIS和SIS的M都是{1,2,3}。SIS和GSIS對(duì)于模型(A)和模型(B)的結(jié)果見表1和表2。
表1 模型(A)的SIS和GSIS結(jié)果
表2 模型(B)的SIS和GSIS結(jié)果
對(duì)于模型(A)而言,無論是單個(gè)自變量的選擇,還是全部自變量的選擇,GSIS的效果均優(yōu)于SIS。如d=d1時(shí),GSIS的b3=0.991,即1 000次模擬,只有9次不包含有X3,但SIS的b3=0.721,也就是說模擬1 000次,有279次沒有選擇X3。不同的d,GSIS的結(jié)果變化比較小,而SIS的結(jié)果變化比較大。如從d1變成3倍的d1,GSIS的b值只提高了0.009,而SIS從0.332 提高到0.707,其提高了2倍多??梢奡IS對(duì)d比較敏感。對(duì)于實(shí)際問題,我們建議GSIS的d=[n/log(n)]。對(duì)于比較大的d,SIS對(duì)于個(gè)別組變量的識(shí)別效果還算可以,但是對(duì)全部自變量的識(shí)別能力欠佳。如d=d3時(shí),SIS對(duì)于單個(gè)自變量(X1、X2或X3)的識(shí)別率均達(dá)到85%,但全部自變量的識(shí)別率只達(dá)到70%左右。相反,無論單個(gè)自變量,還是全部自變量,GSIS識(shí)別能力均可以達(dá)到99%以上。
對(duì)于模型(B)而言,SIS和GSIS效果都非常好,幾乎都可以正確識(shí)別。對(duì)于X1和全部自變量的識(shí)別,GSIS 的效果仍略優(yōu)于SIS。這一方面說明SIS和GSIS對(duì)于單個(gè)自變量的有效性,另一方面也說明了GSIS不僅僅可以勝任組自變量的選擇,也可以勝任單個(gè)自變量的選擇。綜上所述,說明GSIS優(yōu)于SIS。
用心肌病數(shù)據(jù)研究基因?qū)τ贕蛋白耦聯(lián)受體(G protein-coupled receptor)Rol的影響。該數(shù)據(jù)的樣本量是30,自變量是6 319個(gè)基因,因變量是Rol。為了消除量綱的影響,我們將自變量進(jìn)行標(biāo)準(zhǔn)化處理。GSIS得到排列最靠前的2個(gè)基因是 Msa.2 134.0 和Msa.2 877.0。為了檢驗(yàn)我們方法的合理性,我們總結(jié)了關(guān)于心肌病數(shù)據(jù)研究的幾種結(jié)果(見表3)。Segal等得到Msa.2 877.0對(duì)于Rol的影響最大[10];Hall和Miller利用廣義相關(guān)系數(shù)法排序得到前兩個(gè)基因是Msa.2 877.0和Msa.1 166.0[4];Li等利用距離相關(guān)系數(shù)法排序得到前兩個(gè)基因是Msa.2 134.0 和Msa.2 877.0。另外,Li等論證過:相對(duì)于Msa.2 877.0和Msa.1 166.0或Msa.2 877.0, Msa.2 134.0 和Msa.2 877.0對(duì)于Rol的影響更加顯著[11]。從表3可以得到我們的方法支持Li等的結(jié)論,這也印證了GSIS方法的合理性。
表3 心肌病數(shù)據(jù)研究的幾種結(jié)果
本文基于邊際組回歸,針對(duì)組自變量提出GSIS。該方法有效利用模型擬合的殘差信息,即如果自變量對(duì)于因變量有影響,那么它們邊際回歸模型的殘差平方會(huì)比較小,相反,殘差平方和會(huì)比較大。GSIS方法可以推廣到變系數(shù)模型、可加模型以及分位數(shù)模型的超高維變量選擇。根據(jù)Monte Carlo模擬的結(jié)果,我們可以得到SIS不能勝任組自變量的選擇,而GSIS不僅可以勝任組自變量的選擇,也可以勝任非組自變量的選擇。對(duì)于單個(gè)自變量選擇效果,GSIS仍會(huì)略優(yōu)于SIS。
[1] 馬超. 基于多基因組合選擇模型的結(jié)腸癌特征基因選取[J]. 統(tǒng)計(jì)與信息論壇, 2012,27(6).
[2] Huang J, Breheny P, Ma S. A Selective Review of Group Selection in High Dimensional Models[J]. Statistical Science, 2012,27(4).
[3] Fan J, Lv J. Sure Independence Screening for Ultrahigh Dimensional Feature Space[J]. Journal of the Royal Statistical Society, Ser. B, 2008,70(5).
[4] Hall P, Miller H. Using Generalized Correlation to Effect Variable Selection in Very High Dimensional Problems[J]. Journal of Computational and Graphical Statistics, 2009,18(3).
[5] Fan J, Samworth R, Wu Y. Ultrahigh Dimensional Feature Selection: Beyond the Linear Model[J]. Journal of Machine Learning Research, 2009(10).
[6] Fan J, Song R. Sure Independence Screening in Generalized Linear Models With NP-Dimensionality[J]. The Annals of Statistics,2010, 38(6).
[7] Fan J, Feng Y, Song R. Nonparametric Independence Screening in Sparse Ultra-high-dimensional Additive Models[J]. Journal of the American Statistical Association, 2011,106(494).
[8] Fan J, Ma Y, Dai W. Nonparametric Independence Screening in Sparse Ultra-high-dimensional Varying Coefficient Models[J]. Journal of the American Statistical Association, 2014,109(507).
[9] Liu J, Li R, Wu S. Feature Selection for Varying Coefficient Models with Ultrahigh-dimensional Covariates[J]. Journal of the American Statistical Association, 2014, 109(505).
[10]Segal M, Dahlquist D, Conklin B. Regression Approach for Microarray Data Analysis[J]. Journal of Computational Biology,2003,10(6).
[11]Li R, Wei Z, Zhu L. Feature Screening Via Distance Correlation Learning[J]. Journal of the American Statistical Association,2012,107(499).
(責(zé)任編輯:李 勤)
Group Sure Independence Screening for Ultrahigh Dimensional Variable Selection
MA Xue-jun
(Center for Applied Statistics, Renmin University of China, Beijing 100872, China)
Variable selection plays an important role in high dimensional models. Fan and Lv showed sure independent screening(SIS) based on simple correlation. But when independent variable can be naturally grouped, SIS does not work. Because SIS is designed for individual variable selection, but not group selection. In this paper, we propose group sure independent screening(GSIS) based on marginal group regression . The method is designed for either variable selection or group selection, also for both. Monte Carlo simulations indicate that GSIS has superior performance in group and individual variable selection relative to SIS.
GSIS; SIS; variable selection; marginal group regression
2014-11-18;修復(fù)日期:2015-03-20
中國人民大學(xué)2014年度拔尖創(chuàng)新人才培育資助計(jì)劃項(xiàng)目《變系數(shù)模型的變量選擇》
馬學(xué)俊,男,安徽潁上人,博士生,研究方向:應(yīng)用數(shù)理統(tǒng)計(jì)。
F224.0∶O212
A
1007-3116(2015)08-0016-04