国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高維數(shù)據(jù)中變量選擇研究

2019-03-05 06:00宋瑞琪朱永忠王新軍
統(tǒng)計(jì)與決策 2019年2期
關(guān)鍵詞:高維樣本量回歸系數(shù)

宋瑞琪,朱永忠,王新軍

(河海大學(xué) 理學(xué)院,南京 211100)

0 引言

如何從海量數(shù)據(jù)中提取有用的信息,是目前研究的熱點(diǎn)以及難點(diǎn)。而在實(shí)際問題中,往往由于時(shí)間、地域、經(jīng)費(fèi)等因素的影響,使得人們尋找到的樣本量低于研究問題的維度,這就出現(xiàn)了高維數(shù)據(jù)模型。

處理高維數(shù)據(jù)的關(guān)鍵在于變量的選擇,按照其特征,變量選擇可以分為子集選擇法和系數(shù)壓縮法。對(duì)于子集選擇法,最早可以追溯到AIC準(zhǔn)則的提出,并逐漸發(fā)展到BIC準(zhǔn)則、向前回歸、向后回歸以及逐步回歸等。劉立祥[1]通過逐步回歸,選取影響水泥凝固放熱的因素。子集選擇法在變量選擇的過程中容易受變量微小變動(dòng)的影響,不具有較好的穩(wěn)健性;同時(shí)子集選擇法將變量選擇與參數(shù)估計(jì)兩步分開進(jìn)行,增加了模型構(gòu)建的誤差,故子集選擇法并不適用于高維數(shù)據(jù)分析。系數(shù)壓縮法可以同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì),從而節(jié)省了模型構(gòu)建的時(shí)間成本,克服了子集選擇法的一些缺點(diǎn)。常見的系數(shù)壓縮法主要有嶺回歸、Lasso、自適應(yīng)Lasso、Elastic Net回歸等。Groll等[2]基于生存模型,采用Lasso、嶺回歸以及Lasso和嶺回歸的組合模型,在仿真和實(shí)際應(yīng)用中進(jìn)行了方法的比較;Zou等[3]首次提出Elastic Net回歸方法,并指出在實(shí)際問題中,Elastic Net回歸往往優(yōu)于Lasso估計(jì);BALL等[4]將Elastic Net回歸運(yùn)用于生物科學(xué)研究中,基于Elastic Net回歸方法選擇合適的變量,從而通過最優(yōu)氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。

本文對(duì)嶺回歸、Lasso、自適應(yīng)Lasso以及Elastic Net回歸的基本原理及實(shí)現(xiàn)進(jìn)行了梳理,基于蒙特卡洛模擬實(shí)現(xiàn)變量選擇。本文通過引進(jìn)敏感性與特異性,來(lái)分析比較不同方法的適用領(lǐng)域,并將方法擴(kuò)展到高維數(shù)據(jù)空間,拓展模型的應(yīng)用。

1 模型簡(jiǎn)介

首先考慮最簡(jiǎn)單的一般線性回歸模型:設(shè)x1,x2…xp為模型的p個(gè)自變量,y為解釋變量,則自變量與解釋變量之間可以建立如下線性回歸模型

其中β0是截距項(xiàng)表示模型的回歸系數(shù),ε為隨機(jī)誤差項(xiàng),并且滿足假設(shè)(xi1,xi2…xip;yi),(i=1,2…n)是n組觀測(cè)變量,X為n×p階設(shè)計(jì)矩陣,并且假設(shè)變量已經(jīng)進(jìn)行了中心化處理,則式(1)的最小二乘估計(jì)可以表示為:

最小二乘估計(jì)是常用的一種系數(shù)估計(jì)方式,在滿足線性回歸的一般假設(shè)條件下,最小二乘估計(jì)的估計(jì)結(jié)果具有無(wú)偏性。但是最小二乘估計(jì)又存在局限性,當(dāng)自變量之間存在多重共線性問題時(shí),回歸系數(shù)的估計(jì)具有很大的不穩(wěn)定性。

嶺回歸:為了解決最小二乘估計(jì)的缺陷,Hoerl和Kennard于1970年提出了一種新的系數(shù)估計(jì)方法——嶺回歸。通過在式(2)中加入懲罰項(xiàng),從而控制了回歸系數(shù)的膨脹性。嶺回歸的定義如下:

其中,λ≥0是調(diào)節(jié)參數(shù),并稱為L(zhǎng)2懲罰項(xiàng)。調(diào)節(jié)參數(shù)λ控制著RSS和L2對(duì)模型中回歸系數(shù)β估計(jì)的相對(duì)影響程度,適當(dāng)?shù)摩酥悼梢允功?,β2…βp中一些系數(shù)往0的方向收縮,當(dāng)λ=0時(shí),嶺回歸為一般的線性回歸模型。與最小二乘估計(jì)不同的是,嶺回歸以增大模型的偏差作為代價(jià),通過壓縮模型的系數(shù)來(lái)減少模型的預(yù)測(cè)方差。但是嶺回歸也存在一定的缺點(diǎn),其并不會(huì)將任何一個(gè)變量壓縮為0(除非λ→∞),即嶺回歸并沒有實(shí)現(xiàn)真正意義上的變量選擇,當(dāng)自變量的個(gè)數(shù)p很大時(shí),模型中將會(huì)含有大量的解釋變量,不利于模型的解釋。

Lasso回歸:1996年Tibesirani將式(3)中的L2懲罰項(xiàng)改為了L1懲罰項(xiàng),并將得到的新的回歸模型定義為L(zhǎng)asso回歸模型:

與嶺回歸類似,Lasso回歸的第一項(xiàng)RSS表示損失函數(shù),度量了回歸模型擬合的好壞,第二項(xiàng)λL1為懲罰函數(shù),可以將回歸系數(shù)中一些很小的系數(shù)壓縮為0,實(shí)現(xiàn)了回歸模型中稀疏模型的構(gòu)建,從而克服了嶺回歸中不能將回歸系數(shù)壓縮為0的缺點(diǎn)。

考慮Lasso的等價(jià)形式(6):在條件量選擇。式(5)是嶺回歸的等價(jià)形式,它表示在的限制下,使得RSS盡量的小。

自適應(yīng)Lasso(簡(jiǎn)稱aLasso):aLasso是對(duì)Lasso模型的改進(jìn),它將回歸系數(shù)賦予不同的權(quán)值,并對(duì)懲罰函數(shù)進(jìn)行了二次懲罰,其主要思想是:將貢獻(xiàn)度較大的回歸系數(shù)進(jìn)行較小程度的懲罰,而將貢獻(xiàn)度較小的回歸系數(shù)進(jìn)行較大的懲罰。其回歸模型如下所示:

其中ωj≥0 為懲罰權(quán)重表示改進(jìn)后的懲罰函數(shù)。ωj的選擇是模型中變量選擇好壞的關(guān)鍵,當(dāng)ω=1時(shí),為一般意義的Lasso模型。取作為自適應(yīng) Lasso的懲罰權(quán)重,其中表示 Lasso估計(jì)中的回歸系數(shù),本文取γ=1。式(7)可以表示為:

值得強(qiáng)調(diào)的是,式(7)與式(8)是一個(gè)凸規(guī)劃問題,并不會(huì)受局部極小點(diǎn)的影響,并且其全局極小點(diǎn)也很容易獲得。

Elastic Net回歸:Lasso雖然具有良好的性質(zhì),可以選擇稀疏模型,但是當(dāng)兩個(gè)或以上變量具有很強(qiáng)的相關(guān)性時(shí),Lasso會(huì)隨機(jī)選取其中一個(gè)變量而排除其他變量。從模型的稀疏性角度來(lái)看,Lasso模型無(wú)疑是滿足要求的。但是從實(shí)際生產(chǎn)的解釋角度而言,人們更希望將所有的相關(guān)變量都選入模型中?;谝陨峡紤],2005年,Zou和Hastie將嶺回歸模型和Lasso模型相結(jié)合,提出了Elastic Net回歸模型:

產(chǎn)科實(shí)驗(yàn)指標(biāo)結(jié)果均進(jìn)行統(tǒng)計(jì)學(xué)計(jì)算,使用統(tǒng)計(jì)學(xué)軟件SPSS18.0。自然分娩率、新生兒窒息率等計(jì)數(shù)指標(biāo)結(jié)果均以%形式展開,進(jìn)行卡方檢驗(yàn)。P<0.05,說明觀察指標(biāo)結(jié)果差異有統(tǒng)計(jì)學(xué)意義。

其中λ1和λ2是模型中兩個(gè)非負(fù)的懲罰參數(shù)。由式(9)可以看出,當(dāng)λ1=0時(shí),Elastic Net回歸模型便是嶺回歸模型,當(dāng)λ2=0時(shí),此時(shí)的Elastic Net回歸模型為L(zhǎng)asso回歸模型。令則式(9)可以表示為:

2 隨機(jī)模擬

2.1 低維數(shù)據(jù)

假設(shè)變量服從一般線性回歸模型y=Xβ+σε,其中

模型1:設(shè)回歸系數(shù)的真實(shí)值為β=(3.7,1,0,2,0,0),變量的影響程度介于較大影響程度和較小影響程度之間。取σ=3,表示信噪比(SNR)為5.7,用ρ|i-j|表示任意兩個(gè)解釋變量Xi與Xj之間的相關(guān)系數(shù),并且取ρ=0.5表示中等相關(guān)。取樣本量n=50,重復(fù)進(jìn)行100次試驗(yàn)?;趲X回歸、Lasso、自適應(yīng)Lasso以及Elastic Net回歸,分別預(yù)測(cè)模型的回歸系數(shù)并將預(yù)測(cè)結(jié)果繪制在圖1中。由圖1(見下頁(yè))可以看出,所有模型都可以正確識(shí)別3個(gè)重要變量。針對(duì)變量X3,X5與X6(對(duì)模型沒有影響),Lasso、自適應(yīng)Lasso和Elastic Net回歸三種回歸均將系數(shù)壓縮為0,但是自適應(yīng)Lasso具有較小的預(yù)測(cè)誤差,在圖中表現(xiàn)為箱線圖的箱線較短,再其次是Lasso估計(jì)。而對(duì)于變量X1,X2與X4(對(duì)模型表現(xiàn)出不同程度的影響),嶺回歸、Lasso以及Elastic Net回歸的預(yù)測(cè)結(jié)果是有偏的,在圖中表現(xiàn)為箱線圖的中心位置偏離真實(shí)值。對(duì)于變量X2的預(yù)測(cè),Elastic Net回歸很好地將回歸系數(shù)壓縮為0,自適應(yīng)回歸將X4的系數(shù)壓縮為0。綜上比較,無(wú)論是預(yù)測(cè)對(duì)模型有影響的回歸系數(shù),還是預(yù)測(cè)對(duì)模型沒有影響的回歸系數(shù),自適應(yīng)Lasso都表現(xiàn)出了很好的預(yù)測(cè)效果。

客觀上,可以用敏感性(Sensitivity)和特異性(Specificity)兩個(gè)指標(biāo)來(lái)評(píng)價(jià)回歸模型中參數(shù)選擇的好壞,敏感性和特異性的定義如下:

圖1 回歸系數(shù)估計(jì)結(jié)果

其中#表示計(jì)數(shù),Sensitivity∈[0,1],Specificity∈[0,1],值越接近1,變量選擇的效果越好。與模型1相同,取樣本量n=50,100,150,分別重復(fù)進(jìn)行100次試驗(yàn),計(jì)算每個(gè)樣本量下模型的敏感性和特異性,結(jié)果見表1。嶺回歸只是對(duì)模型的系數(shù)進(jìn)行了壓縮,并沒有真正的實(shí)現(xiàn)變量選擇,因此在嶺回歸估計(jì)中,其敏感性為1,特異性為0,這與嶺回歸的性質(zhì)相一致。對(duì)于Lasso、自適應(yīng)Lasso以及Elastic Net回歸,當(dāng)樣本量增大時(shí),敏感性和特異性也會(huì)隨之增大,說明模型的選擇效果也在變好。而在相同樣本量的條件下,比較四種模型的敏感性和特異性,發(fā)現(xiàn)自適應(yīng)Lasso對(duì)于變量選擇的能力會(huì)優(yōu)于其他三種模型。

表1 不同樣本量下模型的敏感性與特異性

模型2(含有少量較大影響因素):在這個(gè)例子中,令β=(4,1.5,0,0,2,0,0),Xi與Xj之間的相關(guān)性為ρ=0.5,xj1與xj2之間的相關(guān)系數(shù)為cor(j1,j2)=(0.5)|j1-j2|。 取σ=1,3,6,其對(duì)應(yīng)的SNR分別為21.25,2.35和0.59,取樣本量n為50和100。

對(duì)于模型2和模型3,針對(duì)每一個(gè)組合(n,σ)(n=30,50,σ=1,3,6),本文均進(jìn)行100次模擬試驗(yàn),計(jì)算每次試驗(yàn)RPE。選取每個(gè)組合中RPE的中位數(shù)作為最終模型的RPE。

表2顯示了仿真數(shù)據(jù)的結(jié)果,從表2中可以得到如下結(jié)論:第一,當(dāng)樣本量增大時(shí),模型的精度越來(lái)越好;第二,針對(duì)模型2,自適應(yīng)Lasso似乎自動(dòng)結(jié)合了嶺回歸和Lasso的優(yōu)點(diǎn),在低等或中等水平下的信噪比下,自適應(yīng)Lasso的預(yù)測(cè)精度高于嶺回歸和Elastic Net回歸,在高等水平的信噪比下,自適應(yīng)Lasso的預(yù)測(cè)精度顯著高于Lasso;而對(duì)于模型3,嶺回歸的預(yù)測(cè)精度明顯高于其他模型,其次是Elastic Net回歸,這與模型的定義保持一致。對(duì)于含有大量較小影響因素的模型,Lasso、自適應(yīng)Lasso將不顯著的影響變量的系數(shù)壓縮為0。Elastic Net回歸是Lasso與嶺回歸的組合模型,既有Lasso的特點(diǎn),也保留了嶺回歸的性質(zhì)。

表2 比較各模型的RPE值

模型2和模型3說明,不同的方法適用于不同的模型。一般情況下,只有一小部分解釋變量與響應(yīng)變量不相關(guān)或相關(guān)程度很小時(shí),自適應(yīng)Lasso展現(xiàn)了其獨(dú)特的優(yōu)勢(shì),而當(dāng)每個(gè)解釋變量的解釋程度大致相等時(shí),本文應(yīng)該選用嶺回歸模型。

2.2 高維數(shù)據(jù)

當(dāng)自變量的個(gè)數(shù)大于樣本量的個(gè)數(shù)(即p>n)時(shí),為高維數(shù)據(jù),上文已經(jīng)討論了典型的變量選擇問題,在這種情況下,固定預(yù)測(cè)變量的個(gè)數(shù),不斷增大樣本量的個(gè)數(shù),從而減少預(yù)測(cè)誤差,即上文中討論的是p<n的情形。而在實(shí)際問題中,經(jīng)常出現(xiàn)p=pn→∞的例子,如基因問題,通過確定急性白血病的基因組合,消除沒有影響或影響較小的基因,尋找致病因子,從而尋找并制定合適的醫(yī)療方案,促進(jìn)醫(yī)學(xué)的發(fā)展。雖然p很大,但是由于時(shí)間、經(jīng)費(fèi)、抽樣技術(shù)、地理跨度以及不可避免的客觀因素如基因排序等因素的影響,往往不能滿足p<n,這就是接下來(lái)將要討論的高維數(shù)據(jù)問題。

同樣假設(shè)變量服從一般線性回歸模型y=Xβ+σε,其中取σ=3,用ρ|i-j|表示任意兩個(gè)解釋變量Xi與Xj之間的相關(guān)系數(shù),分別取ρ=0.5和ρ=0.85,表示變量之間中等相關(guān)和高等相關(guān)。取自變量p=70,重復(fù)進(jìn)行100次試驗(yàn)??紤]如下兩種情形:

(1)樣本量n=70,回歸系數(shù)即只有20個(gè)變量與解釋變量有關(guān),此時(shí)p=n。

(2)樣本量n=30,回歸系數(shù)的設(shè)定與第一種情況保持一致,此時(shí)p>n。

利用蒙特卡洛隨機(jī)模擬,對(duì)于每一個(gè)(ρ,n)組合,分別計(jì)算以上兩種情形下模型的敏感性、特異性以及RPE,結(jié)果見表3??梢园l(fā)現(xiàn):(1)在相同樣本量的條件下,比較四種模型的敏感性和特異性,發(fā)現(xiàn)Elastic Net回歸對(duì)于變量選擇的能力會(huì)優(yōu)于其他三種模型,增大樣本量,敏感性與特異性也會(huì)增大。(2)固定自變量的個(gè)數(shù)p值和相關(guān)系數(shù)ρ值,當(dāng)增大樣本量時(shí),模型的相對(duì)預(yù)測(cè)誤差(RPE)也會(huì)減小,說明增大樣本量可以減少模型的預(yù)測(cè)誤差。而往往在現(xiàn)實(shí)生活中,很難獲得如此多的樣本量。此時(shí)應(yīng)該選擇合適的解釋變量加入模型,盲目增加模型的維度反而不利于模型的構(gòu)建,只有加入與因變量真正相關(guān)的自變量,才會(huì)降低模型的預(yù)測(cè)誤差。(3)對(duì)于正確變量的選擇比例,Elastic Net回歸所占比例最高,其次是Lasso和自適應(yīng)Lasso,嶺回歸的選擇效果最差。(4)比較模型的預(yù)測(cè)誤差,Elastic Net回歸的RPE值最小,其次是Lasso。嶺回歸在模型預(yù)測(cè)的過程中并沒有實(shí)現(xiàn)真正的變量選擇,對(duì)于0值得預(yù)測(cè),反而出現(xiàn)了不一致性。當(dāng)相關(guān)系數(shù)值增大時(shí),嶺回歸、Lasso、自適應(yīng)Lasso的RPE值都有所增大,Elastic Net回歸反而有所減少。在高維數(shù)據(jù)中經(jīng)常會(huì)出現(xiàn)共線性問題,即使變量之間是相互獨(dú)立的,由于維數(shù)很高,樣本的相關(guān)性也可能會(huì)很高。高度相關(guān)的變量中,L1懲罰會(huì)表現(xiàn)得很不好,共線性問題會(huì)嚴(yán)重降低Lasso的預(yù)測(cè)能力。當(dāng)相關(guān)性很高的時(shí)候,Lasso的預(yù)測(cè)路徑很不穩(wěn)定。自適應(yīng)Lasso繼承了Lasso估計(jì)的不穩(wěn)定性。而當(dāng)變量之間的相關(guān)性很高的時(shí)候,Elastic Net回歸可以很好地提高預(yù)測(cè)精度。

表3 高維數(shù)據(jù)下各方法的比較

3 結(jié)論

通過隨機(jī)模擬表明:第一,在低維模型中,當(dāng)其他條件一致時(shí),比較四種模型的敏感性和特異性,發(fā)現(xiàn)自適應(yīng)Lasso對(duì)于變量選擇的能力會(huì)優(yōu)于其他三種模型。需要強(qiáng)調(diào)的是,本文并未表明某種模型具有絕對(duì)優(yōu)勢(shì),而是為了說明不同模型適用于不同的數(shù)據(jù)類型,當(dāng)只有小部分解釋變量與響應(yīng)變量不相關(guān)或相關(guān)程度很小時(shí),自適應(yīng)Lasso展現(xiàn)了其獨(dú)特的優(yōu)勢(shì),而當(dāng)每個(gè)解釋變量的解釋程度大致相等時(shí),應(yīng)該選用嶺回歸模型。這一點(diǎn)在模型2和模型3中給出了解釋;第二,在高維數(shù)據(jù)中,通過蒙特卡洛模擬實(shí)驗(yàn)數(shù)據(jù),在相同樣本量的條件下,比較四種模型的敏感性和特異性,發(fā)現(xiàn)Elastic Net回歸對(duì)于變量選擇的能力會(huì)優(yōu)于其他三種模型。而增大模型的相關(guān)系數(shù)時(shí),嶺回歸、Lasso、自適應(yīng)Lasso的RPE值都有所增大,Elastic Net回歸反而有所減少。當(dāng)變量之間的相關(guān)性很高的時(shí)候,Elastic Net回歸可以很好地提高預(yù)測(cè)精度。

猜你喜歡
高維樣本量回歸系數(shù)
一種基于進(jìn)化算法的概化理論最佳樣本量估計(jì)新方法:兼與三種傳統(tǒng)方法比較*
樣本量與東方蜜蜂微衛(wèi)星DNA遺傳多樣性參數(shù)穩(wěn)定性的關(guān)系
基于相關(guān)子空間的高維離群數(shù)據(jù)檢測(cè)算法
網(wǎng)絡(luò)Meta分析研究進(jìn)展系列(二十):網(wǎng)絡(luò)Meta分析的樣本量計(jì)算及精確性評(píng)估
醫(yī)學(xué)研究中樣本量的選擇
雙冗余網(wǎng)絡(luò)高維離散數(shù)據(jù)特征檢測(cè)方法研究
基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法
基于生產(chǎn)函數(shù)模型的地區(qū)經(jīng)濟(jì)發(fā)展影響因素分析
高維洲作品欣賞
電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較