李 冬 梅, 王 明 秋, 王 秀 麗
(曲阜師范大學(xué) 統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院, 山東 曲阜 273165 )
近年來,變量選擇問題逐漸成為統(tǒng)計學(xué)熱點研究問題之一,隨著數(shù)據(jù)采集能力的提高,人們所能收集到的變量數(shù)量越來越多,但是其中有很多變量可能是不重要的,且變量數(shù)量的增加會造成計算成本增大、最優(yōu)化難以實現(xiàn)等問題,因此變量選擇在數(shù)據(jù)分析中起著至關(guān)重要的作用.有效的變量選擇不僅可以給出簡潔易懂的模型,而且可以提高模型的可解釋性和預(yù)測效果.變量選擇的概念最初出現(xiàn)在20世紀60年代,一開始是通過子集選擇法進行變量選擇,主要有最優(yōu)子集法和逐步法等,這些方法具有很強的實用性,但是也具有一些局限性,例如Fan等[1]指出最優(yōu)子集法將參數(shù)估計與變量選擇分開,因此參數(shù)估計會額外受到變量選擇過程中帶來的隨機誤差影響.目前廣受歡迎的一類方法是基于懲罰函數(shù)的變量選擇法,最早是Breiman[2]提出的nonnegative garrote(NNG)方法,之后Tibshirani[3]提出了可以同時進行參數(shù)估計和變量選擇的Lasso方法,后來學(xué)者們又相繼對Lasso方法進行改進,提出了多種單變量選擇方法,如MCP方法[4]、Bridge方法[5]等.從Lasso懲罰函數(shù)開始,研究傾向于關(guān)注可微的損失函數(shù)和懲罰函數(shù)的特定組合,但這種特定組合大大增加了計算的復(fù)雜度,因此Liu等[6]利用Majorization-Minimization(MM)算法作為其核心優(yōu)化引擎提出了一類通用算法,用于優(yōu)化滿足一定條件的各種非光滑懲罰目標(biāo)函數(shù).
在實際應(yīng)用中,解釋變量有時具有群組結(jié)構(gòu),例如考慮某個化學(xué)反應(yīng)的反應(yīng)速度這個多因子方差分析問題時,解釋變量中包含反應(yīng)溫度、反應(yīng)時間、催化劑種類,這3個解釋變量均呈現(xiàn)分組結(jié)構(gòu),因此在這種情形下進行變量選擇時,首先要能夠正確地選擇整組變量,特別地,在雙層變量選擇問題中合理的變量選擇方法要求在正確地選擇出整組變量的基礎(chǔ)上還能夠正確選擇單個變量.在研究群組變量選擇時,Zou等[7]提出了最早的具有群組變量選擇功能的Elastic Net(EN)方法,該方法的懲罰函數(shù)包括兩部分,其中嶺回歸部分可以處理具有多重共線性的數(shù)據(jù),而Lasso部分可以進行變量選擇.有時可以知道解釋變量所具有的分組結(jié)構(gòu),Yuan等[8]最早提出了用于已知分組結(jié)構(gòu)的Group Lasso方法,使用該方法選擇群組變量時具有全進全出的特點,即整組變量同時選入或剔除,而不能在組內(nèi)選擇單個變量.但是在實際應(yīng)用中,不僅要能選出重要群組變量而且需要進行組內(nèi)單個變量的選擇,因此產(chǎn)生了雙層變量選擇方法.Huang等[9]最早提出了進行雙層變量選擇的Group Bridge方法,該方法的主要思想是在組內(nèi)和組間均采用單個變量懲罰函數(shù).之后,Breheny等[10]又提出了組內(nèi)和組間懲罰都是MCP函數(shù)的Composite MCP方法.
異常值會引起較大的偏差,從而影響模型的擬合效果,且通常會使得參數(shù)估計變大,但是在使用logistic回歸模型的過程中發(fā)現(xiàn)極大似然估計(MLE)方法在解釋變量異常值存在的情況下會引起參數(shù)內(nèi)爆,即參數(shù)向量收縮為零向量[11].于是在數(shù)據(jù)中存在異常值時,如果仍然使用極大似然估計方法進行參數(shù)估計,并基于Lasso方法[3]的懲罰函數(shù)進行變量選擇,那么一些非零參數(shù)向量收縮為零向量會導(dǎo)致一些重要變量被忽略,從而會降低變量選擇的準(zhǔn)確率,進而降低模型的解釋性和預(yù)測效果.因此,針對logistic回歸模型的參數(shù)內(nèi)爆現(xiàn)象,應(yīng)該研究穩(wěn)健的參數(shù)估計并進行群組變量選擇和雙層變量選擇.針對異常值的問題,Basu等[12]提供了極大似然估計的一個穩(wěn)健擴展,他們提出了一種最小散度估計方法來進行穩(wěn)健的參數(shù)估計.而基于最小距離法的L2距離之前被用于解決分類問題,Kim等[13]使用L2距離來進行分類,他們對L2距離的應(yīng)用主要是與非參數(shù)密度估計有關(guān),而不是考慮穩(wěn)定地擬合參數(shù)模型.Chi等[14]基于最小距離法研究了解釋變量中存在異常值時logistic回歸模型的變量選擇方法,然而他們沒有將該方法推廣到自然群組變量選擇和雙層變量選擇問題中,而且,目前還沒有關(guān)于群組結(jié)構(gòu)的logistic回歸模型下基于最小距離法實現(xiàn)穩(wěn)健群組變量選擇的研究,這正是本文所做的工作.
假設(shè)響應(yīng)變量Y是0-1型隨機變量,記Y的取值集合為χ={0,1}.現(xiàn)有n個獨立同分布的觀測樣本(xi1,…,xid;yi)(i=1,…,n),則logistic回歸模型可以表示為
(1)
通常使用極大似然估計方法對logistic回歸模型進行參數(shù)估計,由yi~B(1,pi)易知y1,…,yn的似然函數(shù)為
(2)
其負對數(shù)似然函數(shù)為
(3)
假設(shè)Pθ是隨機變量Y的含有未知參數(shù)的概率質(zhì)量函數(shù),其中未知參數(shù)θ∈Θ,記Θ為參數(shù)空間,而真實的概率質(zhì)量函數(shù)是P.假如P已知,那么一個直觀的參數(shù)估計方法就是去尋找使得Pθ最接近P的參數(shù).根據(jù)這個想法,可以考慮Pθ與P之間的L2距離,通過最小化該距離來得到上述logistic回歸模型的參數(shù)估計.
(4)
(5)
(6)
尋找上述logistic回歸模型的L2估計量問題可以歸結(jié)為求解一個目標(biāo)函數(shù)最小值問題.由于MM算法在數(shù)值上表現(xiàn)穩(wěn)定、易于操作并且也可以用來處理基于Lasso的懲罰函數(shù),因此本文使用MM算法來求解這個最小化問題.但是MM算法不直接對目標(biāo)函數(shù)進行最優(yōu)化求解,而是尋找目標(biāo)函數(shù)的近似替代函數(shù),對這個替代函數(shù)進行迭代優(yōu)化.每迭代一次,就尋找一個目標(biāo)函數(shù)的上界函數(shù),然后求這個上界函數(shù)的最小值,如此一來就可以將一個比較難的優(yōu)化問題轉(zhuǎn)化為一系列較為簡單的優(yōu)化問題.
(7)
(8)
則可推出(Mθ*)ii≤η,從而有
(9)
(10)
因此,目標(biāo)函數(shù)LL2E的近似替代函數(shù)為
(11)
可以寫成
(12)
(13)
綜上所述,最小化LL2E的MM算法可以寫成如下步驟:
(2)利用下列迭代公式更新估計值:
(14)
(3)重復(fù)(2),迭代直至收斂,算法收斂性的證明詳見文獻[14].
(15)
基于懲罰函數(shù)的群組變量選擇方法主要是先通過加入懲罰函數(shù)對模型的整組參數(shù)β(j)進行約束,在這種約束性質(zhì)下往往會產(chǎn)生一些恰好為零的系數(shù);之后在約束條件下最小化損失函數(shù),從而同時實現(xiàn)參數(shù)估計和群組變量選擇.群組變量選擇方法的目標(biāo)函數(shù)一般可以表示為
(16)
式中:LL2E(β)為損失函數(shù),Pλ(β(j))為懲罰函數(shù),λ>0為調(diào)整參數(shù).
僅能選擇群組變量的懲罰函數(shù)可以表示為組間懲罰Po和組內(nèi)懲罰Pi的復(fù)合函數(shù):
(17)
其中組內(nèi)懲罰Pi只作用在組內(nèi)參數(shù)上,不具有變量選擇功能.
本文主要使用以下3種僅能選擇群組變量的懲罰函數(shù):
(1)Group Lasso方法(GLasso)[8]
(18)
(2)Group MCP方法(GMCP)[15]
(19)
(3)Group SCAD方法(GSCAD)[16]
(20)
其中γ>2,
(21)
雙層變量選擇方法不僅能進行群組變量選擇,而且能對組內(nèi)變量進行單個變量選擇,其懲罰函數(shù)可以表示為組間懲罰Po和組內(nèi)懲罰Pi的復(fù)合函數(shù),則第j組變量的復(fù)合懲罰函數(shù)可以表示為
本文主要使用如下3種雙層變量選擇方法的懲罰函數(shù):
(1)Group Exponential Lasso方法(GEL)[17]
(22)
(2)復(fù)合MCP方法(CMCP)[10]
(23)
(3)Group Bridge方法(GBridge)[9]
(24)
為了較全面地通過數(shù)值模擬來檢驗L2E方法的有限樣本表現(xiàn),設(shè)計了兩種不同類型的變量選擇問題且同時考慮兩種變量維數(shù)(p),結(jié)合上文中介紹的6種變量選擇方法進行模擬,該模擬試驗借助R語言的grpreg數(shù)據(jù)包實現(xiàn).
懲罰函數(shù)中調(diào)整參數(shù)λ的選取對模型求解至關(guān)重要.先計算最大值λmax,然后設(shè)定最小值λmin為λmax的很小比例,如λmin=0.01λmax.本文利用訓(xùn)練集建立模型,然后利用驗證集選取最優(yōu)的λ.訓(xùn)練集中樣本量為205,驗證集中樣本量為1 005,模擬重復(fù)1 000次.
例1考慮僅具有組稀疏的變量選擇問題并且考慮兩種變量維數(shù)d=20,40.?dāng)?shù)據(jù)生成過程為
yi~B(1,pi)
例2考慮具有雙層稀疏的變量選擇問題并且考慮兩種變量維數(shù)d=30,60.?dāng)?shù)據(jù)的產(chǎn)生方式與例1類似,但每組大小為3.回歸系數(shù)的真實值為
表1 例1的模擬結(jié)果
首先通過比較表1和表2中的L2E與MLE方法可以看出:(1)L2E方法總體上優(yōu)于MLE方法,且不論變量維數(shù)為多少,MLE方法所得到的Fn都很大,這驗證了在logistic回歸模型中當(dāng)解釋變量存在異常值時,MLE方法確實容易把非零參數(shù)估計為零.(2)L2E方法比MLE方法選出正確模型的頻率更高,且在該數(shù)值模擬中采用MLE方法時選出正確模型的頻率均為零,因此在多次進行模擬試驗中,使用L2E方法更有可能選出正確模型.綜合來看,當(dāng)logistic回歸模型中解釋變量存在異常值時,采用L2E方法更為合理,該方法對解釋變量中的異常值穩(wěn)健,減少了參數(shù)內(nèi)爆對變量選擇帶來的影響,提高了變量選擇的性能,降低了參數(shù)估計的誤差.
然后,在采用L2E方法的條件下比較6種懲罰函數(shù),可以得出:(1)根據(jù)表1和表2可知,GLasso方法的優(yōu)點是能夠正確選擇出大部分重要變量,但同時會將不重要變量錯選為重要變量,因此容易造成模型的過擬合,于是為了模型的簡潔不應(yīng)該優(yōu)先選擇GLasso方法.(2)根據(jù)表1可知,在組內(nèi)不存在稀疏性,解釋變量數(shù)量變化時,其余5種方法的衡量指標(biāo)不相上下.根據(jù)表2的結(jié)果可知,在組內(nèi)和組間均存在稀疏性時,使用雙層變量選擇的方法與使用僅選擇群組變量的方法所得到的6個衡量指標(biāo)差別也不是很大,這可能是因為重要變量的數(shù)量和群組規(guī)模比較?。C合比較表1和表2的結(jié)果可知,GBridge方法更勝一籌.綜上所述,應(yīng)該優(yōu)先選擇L2E結(jié)合GBridge方法所得到的目標(biāo)函數(shù)進行穩(wěn)健群組變量選擇.
表2 例2的模擬結(jié)果
本文主要圍繞logistic回歸模型中解釋變量存在異常值時的群組變量選擇問題進行研究,首先基于最小距離法介紹了具有穩(wěn)健性的L2E方法,當(dāng)解釋變量中存在異常值時,該方法能夠減少回歸系數(shù)縮減為零帶來的對變量選擇的影響;之后,利用MM算法得到了L2E的迭代公式;最后,通過數(shù)值模擬比較了基于L2E方法和MLE方法在模型具有組稀疏和雙層稀疏的情況下,6種變量選擇方法在不同維數(shù)下的有限樣本表現(xiàn),結(jié)果不僅驗證了本文L2E方法的合理性,即在logistic回歸模型中當(dāng)解釋變量存在異常值時L2E方法具有穩(wěn)健性,而且指出了在這6種懲罰函數(shù)方法中使用Group Bridge方法進行變量選擇的準(zhǔn)確度更高.