蔣仕旗 戴家佳
(貴州大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴陽550025)
Logistic 回歸是一種解決分類問題流行且有效的方法.對于某一分類問題,它的解決效果和解釋能力取決于擬合模型的變量及其對應(yīng)的參數(shù)估計(jì)值,故對它而言,有效估計(jì)參數(shù)和選取變量是十分重要的.在現(xiàn)有的方法中,能同時(shí)有效解決Logistic 回歸這兩方面問題的方法是正則化法[1],該方法考慮在優(yōu)化的損失函數(shù)上添加一個(gè)懲罰項(xiàng)來估計(jì)參數(shù),同時(shí)通過將部分參數(shù)直接壓縮為零來間接選取重要變量,其中彈性網(wǎng)(Elastic net)[2]是該方法的突出代表之一.
Elastic net[3]通過聯(lián)合Lasso 和Ridge 來一并估計(jì)參數(shù)和間接識別(剔除)重要變量,但它具有兩大不足:第一,缺乏oracle 性質(zhì)[4],即選取出的變量不具有一致性?第二,缺少自適應(yīng)分組效應(yīng)[5,6],即它沒有考慮具有強(qiáng)相關(guān)關(guān)系的變量對響應(yīng)變量的具體影響[7].為克服Elastic net 的第一個(gè)不足,Ghosh[4]將Adaptive lasso[8]和Ridge 兩者結(jié)合起來,建立Adaptive elastic net 方法來使選出的變量具有一致性. 然而,使Adaptive elastic net 具有oracle 性質(zhì)的自適應(yīng)系數(shù)向量W1是不易正確設(shè)置的,它一般由參數(shù)的初始估計(jì)和常數(shù)δ確定. Algamal 和Lee[9,10]指出若W1設(shè)置不對,則Adaptive elastic net 在選擇變量時(shí)存在偏差且具有較差的擬合表現(xiàn). 為此,可使用Ridge 估計(jì)量及其標(biāo)準(zhǔn)誤差之比去表示W(wǎng)1. 當(dāng)變量的方差表現(xiàn)出對估計(jì)具有重要影響時(shí),也可將變量的標(biāo)準(zhǔn)差設(shè)置為W1.此外,W1也可由變量的類間平方和(BSS)與類內(nèi)平方和(WSS)之比刻畫[11].這些方法均可改善Adaptive elastic net 的變量選取功能,提高Logistic 回歸的預(yù)測表現(xiàn)[12]. 為解決Elastic net 的第二個(gè)缺陷,Jia 等人[5]依據(jù)Elastic net 估計(jì)量的絕對值大小,通過賦予參數(shù)不同的Lasso 和Ridge 懲罰,提出了Partly adaptive elastic net. Partly adaptive elastic net 在Logistic 回歸上取得了良好的預(yù)測效果[6],但它在給予參數(shù)懲罰約束時(shí)沒有考慮參數(shù)對應(yīng)變量的取值范圍,這可能會(huì)抹殺一些取值極端的重要變量.另外,在求取Logistic 回歸的參數(shù)方法中,還存在Van 等人[13]提出的先對參數(shù)進(jìn)行分組后對各組參數(shù)進(jìn)行不同Ridge 懲罰的Generalized ridge. Generalized ridge 具有自適應(yīng)分組效應(yīng),并且其含有的Adaptive ridge 也享有自適應(yīng)分組效應(yīng),能成功用于估計(jì)Logistic 回歸和線性回歸的參數(shù)[14,15]. 但Generalized ridge 不擁有選取變量的功能且適用情形較窄.
綜合現(xiàn)有解決Elastic net 不足的方法,可知Adaptive lasso 和Adaptive ridge 分別擁有oracle 性質(zhì),自適應(yīng)分組效應(yīng),故可通過結(jié)合這兩者去同時(shí)避免Elastic net 現(xiàn)存的兩大缺陷,這種組合懲罰可稱為雙重自適應(yīng)彈性網(wǎng)(Double adaptive elastic net).
Tan[16]指出在Elastic net 懲罰中,加入變量的相關(guān)系數(shù)有助于改善Elastic net 在分組效應(yīng)上的表現(xiàn). 故在雙重自適應(yīng)彈性網(wǎng)中,Adaptive ridge 可用變量的相關(guān)系數(shù)來刻畫. 在一些嚴(yán)格的假設(shè)條件下,雙重自適應(yīng)彈性網(wǎng)享有oracle 性質(zhì)和自適應(yīng)分組效應(yīng),這確保了它能一起有效解決Logistic回歸的參數(shù)估計(jì)和變量選取問題,并提高Logistic 回歸的擬合表現(xiàn),這在模擬和實(shí)例研究上得到了驗(yàn)證.
考慮一般的Logistic 回歸模型[17]:
其中πi=P(yi= 1|X=Xi),Xi= (1, xi1, xi2, ··· , xip)T,β= (β0, β1, β2, ··· , βp)T,yi ∈{0,1},i=1,2, ··· , n.β可通過最小化負(fù)的對數(shù)似然函數(shù)L(β)所得,其中
欲使估計(jì)而得的?β含有oracle 性質(zhì), 自適應(yīng)分組效應(yīng)和選取重要變量等特性, 可通過組合Adaptive lasso 和Adaptive ridge 懲罰來解決, 這種懲罰可叫雙重自適應(yīng)彈性網(wǎng)(Double adaptive
elastic net),其估計(jì)β的公式為
為求解式(2.1)中的β,可吸取Reid 和Tibshirani[19]使用坐標(biāo)梯度法和牛頓法求解β的做法來求取,式(2.1)可重寫為
由于λ1h?1(t)W1可能存在小于零的系數(shù),以致其難以把某些無關(guān)變量對應(yīng)的參數(shù)壓縮到零.故可抹去h?1(t),式(2.3)可改寫為
步驟1:產(chǎn)生β的初始解?
步驟2:計(jì)算g(t), h(t)?
步驟3:由式(2.4)去計(jì)算β(t+1)?
步驟4:重復(fù)步驟2 和步驟3 直至收斂.
此小節(jié)給出Double adaptive elastic net 具有的一些性質(zhì)及其證明.
C1I(β0)是一個(gè)正定矩陣?
C2 存在一個(gè)含有β0的開集Ω,使得對于任意的β ∈Ω,存在函數(shù)M(·),滿足
且對任意的p維向量u,有E(M(X)(XT u)3)<∞?則Γn(u)?Γn(0)=A1+A2+A3,其中
對于A1,由Taylor 展開式可知,
再由中心極限定理可知,
由大數(shù)定律可知,
故
由條件C2可知,
故
由式(3.1),式(3.2),式(3.3)和Slutsky 定理可得
再由式(3.4),式(3.5)和式(3.6)可知,對于任給的u,
從而
為有效評估并比較Double adaptive elastic net,Elastic net 及其部分改進(jìn)法的性能,本節(jié)分別在一組模擬例子和實(shí)例上進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)的評價(jià)指標(biāo)選用F1, Accuracy, AUC?實(shí)驗(yàn)的訓(xùn)練集量:測試集量=3:1.
為檢驗(yàn)Double adaptive elastic net 是否能有效避免Elastic net 在自適應(yīng)分組效應(yīng)上的不足,可使用具有自適應(yīng)分組效應(yīng)的模擬數(shù)據(jù)來進(jìn)行評估(檢測). 然而,公認(rèn)且能代表具有自適應(yīng)分組效應(yīng)的數(shù)據(jù)并不常見,但它可參考[2]和[4]中模擬數(shù)據(jù)3 的設(shè)置去生成.模擬數(shù)據(jù)3 是一個(gè)公認(rèn)并具有分組效應(yīng)的數(shù)據(jù),與之相反,只需將模擬數(shù)據(jù)3 中重要變量所對應(yīng)的參數(shù)設(shè)置不盡相同即可得到具有自適應(yīng)分組效應(yīng)的模擬數(shù)據(jù),即此類數(shù)據(jù)可通過模型
表1和表2分別展示了Double adaptive elastic net 和一些正則化法在變量存在中度(高度)相關(guān)關(guān)系,重要變量存在自適應(yīng)分組效應(yīng)情形上的預(yù)測表現(xiàn). 表1和表2表明,Double adaptive elastic net的表現(xiàn)優(yōu)于原始的Elastic net,與表現(xiàn)最好的Partly adaptive elastic net 相當(dāng)且隨著樣本量n的增大而變得更好,這暗指Double adaptive elastic net 具有解決選取重要變量存在自適應(yīng)分組效應(yīng)問題的能力.同時(shí),也發(fā)現(xiàn)由于Double adaptive elastic net 可視為以Adaptive elastic net 為載體的改進(jìn)法,故它的預(yù)測精度絕大程度上仍然受制于參數(shù)β的初始估計(jì)?β?. 若?β?不是β的一個(gè)優(yōu)良估計(jì),則Double adaptive elastic net 的預(yù)測精度是較差的.
表1 各方法在具有自適應(yīng)分組效應(yīng)的中度相關(guān)情形上的性能比較
表2 各方法在具有自適應(yīng)分組效應(yīng)的高度相關(guān)情形上的性能比較
為研究離婚成因,Y?ntem 和?lhan[20]收集了一個(gè)由170 對夫妻在54 個(gè)離婚測量指標(biāo)(DPS)上的得分表現(xiàn)所構(gòu)成的數(shù)據(jù)集DPD.在數(shù)據(jù)集DPD 上,響應(yīng)變量為Class,其中Class=1 表示離婚,Class= 0 表示未離婚. 54 個(gè)測量指標(biāo)x1, x2, ··· , x54的取值均從{0,1,2,3,4}中獲取,絕大部分特征間具有強(qiáng)相關(guān)關(guān)系(這可由圖1來說明). 因而,Double adaptive elastic net 和一些Elastic net改進(jìn)法是適合探索影響離婚的主要因素(特征). 各方法的預(yù)測精度如表3所示.
圖1 各特征與其他特征的ρ 高于0.8 的占比,其中 表示占比為0.8 的等高線
表3 各方法在DPD 上的預(yù)測精度比較
由表3可知,Double adaptive elasic net 識別出了41 個(gè)影響離婚的特征,高于表現(xiàn)最好的Elastic net 和其他方法選取出的特征數(shù),但它的表現(xiàn)與Elastic net 是相同的,也能很好解決離婚預(yù)測問題.
本文通過加權(quán)組合Adaptive lasso 和Adaptive ridge,提出了同時(shí)享有oracle 性質(zhì)和自適應(yīng)分組效應(yīng)的雙重自適應(yīng)彈性網(wǎng)(Double adaptive elasic net),并使用模擬和真實(shí)數(shù)據(jù)評估了它對Logistic回歸的提升表現(xiàn).評估結(jié)果表明,在含有自適應(yīng)分組效應(yīng)的中度(高度)相關(guān)情形上,雙重自適應(yīng)彈性網(wǎng)的提升效果不弱于現(xiàn)有的彈性網(wǎng)及其改進(jìn)法,具有良好的預(yù)測精度. 然而,雙重自適應(yīng)彈性網(wǎng)的應(yīng)用范圍可能是較窄的,這是因?yàn)槭顾鼡碛衞racle 性質(zhì)的自適應(yīng)系數(shù)向量W1是難以確定的. 盡管雙重自適應(yīng)彈性網(wǎng)的W1可由參數(shù)β的初始估計(jì)?β?來確定,但當(dāng)?β?不是一個(gè)優(yōu)良估計(jì)時(shí),該方法的表現(xiàn)是較差的. 于是,未來可將雙重自適應(yīng)彈性網(wǎng)中W1的確定作為下一步的研究方向,以完善并推廣雙重自適應(yīng)彈性網(wǎng)的性質(zhì)和適用領(lǐng)域.