Logistic 回歸模型的一種改進(jìn)彈性網(wǎng)估計(jì)

2022-07-01 23:37:30蔣仕旗戴家佳

數(shù)學(xué)理論與應(yīng)用 2022年2期

蔣仕旗戴家佳

(貴州大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴陽550025)

1 引言

Logistic 回歸是一種解決分類問題流行且有效的方法.對于某一分類問題,它的解決效果和解釋能力取決于擬合模型的變量及其對應(yīng)的參數(shù)估計(jì)值,故對它而言,有效估計(jì)參數(shù)和選取變量是十分重要的.在現(xiàn)有的方法中,能同時(shí)有效解決Logistic 回歸這兩方面問題的方法是正則化法[1],該方法考慮在優(yōu)化的損失函數(shù)上添加一個(gè)懲罰項(xiàng)來估計(jì)參數(shù),同時(shí)通過將部分參數(shù)直接壓縮為零來間接選取重要變量,其中彈性網(wǎng)(Elastic net)[2]是該方法的突出代表之一.

Elastic net[3]通過聯(lián)合Lasso 和Ridge 來一并估計(jì)參數(shù)和間接識別(剔除)重要變量,但它具有兩大不足:第一,缺乏oracle 性質(zhì)[4],即選取出的變量不具有一致性?第二,缺少自適應(yīng)分組效應(yīng)[5,6],即它沒有考慮具有強(qiáng)相關(guān)關(guān)系的變量對響應(yīng)變量的具體影響[7].為克服Elastic net 的第一個(gè)不足,Ghosh[4]將Adaptive lasso[8]和Ridge 兩者結(jié)合起來,建立Adaptive elastic net 方法來使選出的變量具有一致性. 然而,使Adaptive elastic net 具有oracle 性質(zhì)的自適應(yīng)系數(shù)向量W1是不易正確設(shè)置的,它一般由參數(shù)的初始估計(jì)和常數(shù)δ確定. Algamal 和Lee[9,10]指出若W1設(shè)置不對,則Adaptive elastic net 在選擇變量時(shí)存在偏差且具有較差的擬合表現(xiàn). 為此,可使用Ridge 估計(jì)量及其標(biāo)準(zhǔn)誤差之比去表示W(wǎng)1. 當(dāng)變量的方差表現(xiàn)出對估計(jì)具有重要影響時(shí),也可將變量的標(biāo)準(zhǔn)差設(shè)置為W1.此外,W1也可由變量的類間平方和(BSS)與類內(nèi)平方和(WSS)之比刻畫[11].這些方法均可改善Adaptive elastic net 的變量選取功能,提高Logistic 回歸的預(yù)測表現(xiàn)[12]. 為解決Elastic net 的第二個(gè)缺陷,Jia 等人[5]依據(jù)Elastic net 估計(jì)量的絕對值大小,通過賦予參數(shù)不同的Lasso 和Ridge 懲罰,提出了Partly adaptive elastic net. Partly adaptive elastic net 在Logistic 回歸上取得了良好的預(yù)測效果[6],但它在給予參數(shù)懲罰約束時(shí)沒有考慮參數(shù)對應(yīng)變量的取值范圍,這可能會(huì)抹殺一些取值極端的重要變量.另外,在求取Logistic 回歸的參數(shù)方法中,還存在Van 等人[13]提出的先對參數(shù)進(jìn)行分組后對各組參數(shù)進(jìn)行不同Ridge 懲罰的Generalized ridge. Generalized ridge 具有自適應(yīng)分組效應(yīng),并且其含有的Adaptive ridge 也享有自適應(yīng)分組效應(yīng),能成功用于估計(jì)Logistic 回歸和線性回歸的參數(shù)[14,15]. 但Generalized ridge 不擁有選取變量的功能且適用情形較窄.

綜合現(xiàn)有解決Elastic net 不足的方法,可知Adaptive lasso 和Adaptive ridge 分別擁有oracle 性質(zhì),自適應(yīng)分組效應(yīng),故可通過結(jié)合這兩者去同時(shí)避免Elastic net 現(xiàn)存的兩大缺陷,這種組合懲罰可稱為雙重自適應(yīng)彈性網(wǎng)(Double adaptive elastic net).

Tan[16]指出在Elastic net 懲罰中,加入變量的相關(guān)系數(shù)有助于改善Elastic net 在分組效應(yīng)上的表現(xiàn). 故在雙重自適應(yīng)彈性網(wǎng)中,Adaptive ridge 可用變量的相關(guān)系數(shù)來刻畫. 在一些嚴(yán)格的假設(shè)條件下,雙重自適應(yīng)彈性網(wǎng)享有oracle 性質(zhì)和自適應(yīng)分組效應(yīng),這確保了它能一起有效解決Logistic回歸的參數(shù)估計(jì)和變量選取問題,并提高Logistic 回歸的擬合表現(xiàn),這在模擬和實(shí)例研究上得到了驗(yàn)證.

2 統(tǒng)計(jì)方法

考慮一般的Logistic 回歸模型[17]:

其中πi=P(yi= 1|X=Xi),Xi= (1, xi1, xi2, ··· , xip)T,β= (β0, β1, β2, ··· , βp)T,yi ∈{0,1},i=1,2, ··· , n.β可通過最小化負(fù)的對數(shù)似然函數(shù)L(β)所得,其中

欲使估計(jì)而得的?β含有oracle 性質(zhì), 自適應(yīng)分組效應(yīng)和選取重要變量等特性, 可通過組合Adaptive lasso 和Adaptive ridge 懲罰來解決, 這種懲罰可叫雙重自適應(yīng)彈性網(wǎng)(Double adaptive

elastic net),其估計(jì)β的公式為

為求解式(2.1)中的β,可吸取Reid 和Tibshirani[19]使用坐標(biāo)梯度法和牛頓法求解β的做法來求取,式(2.1)可重寫為

由于λ1h?1(t)W1可能存在小于零的系數(shù),以致其難以把某些無關(guān)變量對應(yīng)的參數(shù)壓縮到零.故可抹去h?1(t),式(2.3)可改寫為

步驟1:產(chǎn)生β的初始解?

步驟2:計(jì)算g(t), h(t)?

步驟3:由式(2.4)去計(jì)算β(t+1)?

步驟4:重復(fù)步驟2 和步驟3 直至收斂.

3 統(tǒng)計(jì)性質(zhì)及其證明

此小節(jié)給出Double adaptive elastic net 具有的一些性質(zhì)及其證明.

3.1 Oracle 性質(zhì)

C1I(β0)是一個(gè)正定矩陣?

C2 存在一個(gè)含有β0的開集Ω,使得對于任意的β ∈Ω,存在函數(shù)M(·),滿足

且對任意的p維向量u,有E(M(X)(XT u)3)<∞?則Γn(u)?Γn(0)=A1+A2+A3,其中

對于A1,由Taylor 展開式可知,

再由中心極限定理可知,

由大數(shù)定律可知,

故

由條件C2可知,

故

由式(3.1),式(3.2),式(3.3)和Slutsky 定理可得

再由式(3.4),式(3.5)和式(3.6)可知,對于任給的u,

從而

3.2 自適應(yīng)分組效應(yīng)

4 模擬及實(shí)例分析

為有效評估并比較Double adaptive elastic net,Elastic net 及其部分改進(jìn)法的性能,本節(jié)分別在一組模擬例子和實(shí)例上進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)的評價(jià)指標(biāo)選用F1, Accuracy, AUC?實(shí)驗(yàn)的訓(xùn)練集量:測試集量=3:1.

4.1 模擬研究

為檢驗(yàn)Double adaptive elastic net 是否能有效避免Elastic net 在自適應(yīng)分組效應(yīng)上的不足,可使用具有自適應(yīng)分組效應(yīng)的模擬數(shù)據(jù)來進(jìn)行評估(檢測). 然而,公認(rèn)且能代表具有自適應(yīng)分組效應(yīng)的數(shù)據(jù)并不常見,但它可參考[2]和[4]中模擬數(shù)據(jù)3 的設(shè)置去生成.模擬數(shù)據(jù)3 是一個(gè)公認(rèn)并具有分組效應(yīng)的數(shù)據(jù),與之相反,只需將模擬數(shù)據(jù)3 中重要變量所對應(yīng)的參數(shù)設(shè)置不盡相同即可得到具有自適應(yīng)分組效應(yīng)的模擬數(shù)據(jù),即此類數(shù)據(jù)可通過模型

表1和表2分別展示了Double adaptive elastic net 和一些正則化法在變量存在中度(高度)相關(guān)關(guān)系,重要變量存在自適應(yīng)分組效應(yīng)情形上的預(yù)測表現(xiàn). 表1和表2表明,Double adaptive elastic net的表現(xiàn)優(yōu)于原始的Elastic net,與表現(xiàn)最好的Partly adaptive elastic net 相當(dāng)且隨著樣本量n的增大而變得更好,這暗指Double adaptive elastic net 具有解決選取重要變量存在自適應(yīng)分組效應(yīng)問題的能力.同時(shí),也發(fā)現(xiàn)由于Double adaptive elastic net 可視為以Adaptive elastic net 為載體的改進(jìn)法,故它的預(yù)測精度絕大程度上仍然受制于參數(shù)β的初始估計(jì)?β?. 若?β?不是β的一個(gè)優(yōu)良估計(jì),則Double adaptive elastic net 的預(yù)測精度是較差的.

表1 各方法在具有自適應(yīng)分組效應(yīng)的中度相關(guān)情形上的性能比較

表2 各方法在具有自適應(yīng)分組效應(yīng)的高度相關(guān)情形上的性能比較

4.2 離婚成因研究

為研究離婚成因,Y?ntem 和?lhan[20]收集了一個(gè)由170 對夫妻在54 個(gè)離婚測量指標(biāo)(DPS)上的得分表現(xiàn)所構(gòu)成的數(shù)據(jù)集DPD.在數(shù)據(jù)集DPD 上,響應(yīng)變量為Class,其中Class=1 表示離婚,Class= 0 表示未離婚. 54 個(gè)測量指標(biāo)x1, x2, ··· , x54的取值均從{0,1,2,3,4}中獲取,絕大部分特征間具有強(qiáng)相關(guān)關(guān)系(這可由圖1來說明). 因而,Double adaptive elastic net 和一些Elastic net改進(jìn)法是適合探索影響離婚的主要因素(特征). 各方法的預(yù)測精度如表3所示.

圖1 各特征與其他特征的ρ 高于0.8 的占比,其中表示占比為0.8 的等高線

表3 各方法在DPD 上的預(yù)測精度比較

由表3可知,Double adaptive elasic net 識別出了41 個(gè)影響離婚的特征,高于表現(xiàn)最好的Elastic net 和其他方法選取出的特征數(shù),但它的表現(xiàn)與Elastic net 是相同的,也能很好解決離婚預(yù)測問題.

5 總結(jié)

本文通過加權(quán)組合Adaptive lasso 和Adaptive ridge,提出了同時(shí)享有oracle 性質(zhì)和自適應(yīng)分組效應(yīng)的雙重自適應(yīng)彈性網(wǎng)(Double adaptive elasic net),并使用模擬和真實(shí)數(shù)據(jù)評估了它對Logistic回歸的提升表現(xiàn).評估結(jié)果表明,在含有自適應(yīng)分組效應(yīng)的中度(高度)相關(guān)情形上,雙重自適應(yīng)彈性網(wǎng)的提升效果不弱于現(xiàn)有的彈性網(wǎng)及其改進(jìn)法,具有良好的預(yù)測精度. 然而,雙重自適應(yīng)彈性網(wǎng)的應(yīng)用范圍可能是較窄的,這是因?yàn)槭顾鼡碛衞racle 性質(zhì)的自適應(yīng)系數(shù)向量W1是難以確定的. 盡管雙重自適應(yīng)彈性網(wǎng)的W1可由參數(shù)β的初始估計(jì)?β?來確定,但當(dāng)?β?不是一個(gè)優(yōu)良估計(jì)時(shí),該方法的表現(xiàn)是較差的. 于是,未來可將雙重自適應(yīng)彈性網(wǎng)中W1的確定作為下一步的研究方向,以完善并推廣雙重自適應(yīng)彈性網(wǎng)的性質(zhì)和適用領(lǐng)域.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡