李順勇,衛(wèi)夏利,張曉琴
(1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006,2.山西財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,山西 太原 030006)
回歸是統(tǒng)計(jì)學(xué)中刻畫(huà)數(shù)據(jù)結(jié)構(gòu)常用的方法之一。在回歸建模過(guò)程中,隨著數(shù)據(jù)維度越來(lái)越高,變量選擇發(fā)揮的作用越來(lái)越重要,一旦選入與因變量無(wú)關(guān)的自變量,估計(jì)和預(yù)測(cè)精度就會(huì)下降,模型的泛化能力將會(huì)變差。現(xiàn)階段變量選擇的方法已經(jīng)從傳統(tǒng)的離散最優(yōu)子集回歸發(fā)展到正則化框架,除已知的最小絕對(duì)收縮和選擇算子(Lasso)[1]外,隨著光滑削減絕對(duì)偏差(SCAD)[2]的提出,Oracle性質(zhì)成為變量選擇好壞的評(píng)價(jià)指標(biāo)。2006年,ZOU H[3]提出自適應(yīng)Lasso改進(jìn)Lasso不具有Oracle性質(zhì)的缺點(diǎn)。此外,還有常用的正則化懲罰函數(shù),如彈性網(wǎng)[4]和MCP[5-6],它們?cè)谧钚《嘶貧w中應(yīng)用已有大量成果。
在實(shí)際建模中,另一個(gè)總被忽略的重要特征是異方差性[7]。傳統(tǒng)的最小二乘回歸由于對(duì)誤差項(xiàng)的假設(shè),使得它在處理異方差時(shí)是失效的。分位數(shù)回歸[8]作為一種分析異方差的方法,在回歸過(guò)程中能夠探究給定自變量時(shí)因變量的整個(gè)條件分布[9]。WU Y等[10]研究了懲罰分位數(shù)回歸的變量選擇,并給出誤差項(xiàng)獨(dú)立同分布時(shí)估計(jì)量的漸近性質(zhì);WANG L等[11]通過(guò)超高維數(shù)據(jù)中的正則化稀疏分位數(shù)回歸分析了異方差性。但分位數(shù)回歸存在3個(gè)缺點(diǎn),即不可微性、類高斯誤差分布的無(wú)效率性和絕對(duì)值損失函數(shù)帶來(lái)的計(jì)算壓力。另一種檢測(cè)異方差的方法是基于非對(duì)稱L2范數(shù)提出的非對(duì)稱最小二乘回歸,也稱為Expectile回歸,它表現(xiàn)出許多優(yōu)良的性質(zhì),使回歸方法有了進(jìn)一步的拓展和延伸[12-14]?;貧w誤差服從高斯分布時(shí),GU Y等[15]采用正則化的Expectile回歸分析高維數(shù)據(jù)中的異方差問(wèn)題;趙軍[16]在研究正則化Expectile回歸時(shí)指出,回歸誤差服從高斯分布這一條件在實(shí)際中不易滿足,誤差項(xiàng)有時(shí)具有有限階矩甚至重尾的情況,故研究了當(dāng)回歸誤差具有有限階矩條件下,帶SCAD正則化的Expectile回歸的變量選擇以及在檢測(cè)異方差上的有效性;LIAO L等[17]用SCAD和自適應(yīng)Lasso作為懲罰項(xiàng),研究了正則化Expectile回歸在回歸誤差存在有限階矩時(shí)的變量選擇,同時(shí)給出了誤差項(xiàng)獨(dú)立但不同分布下的Oracle性質(zhì)。
MCP懲罰作為一種非凸懲罰函數(shù),已被證明在理論和實(shí)踐上對(duì)變量選擇和參數(shù)估計(jì)是有效的,這一方法解決了近似無(wú)偏估計(jì)和如何找到凹度最小懲罰計(jì)算困難的問(wèn)題??紤]到MCP在變量選擇和參數(shù)估計(jì)上的優(yōu)良性,將MCP懲罰函數(shù)引入到Expectile回歸中,其誘導(dǎo)的估計(jì)量是否仍然具有良好的性質(zhì)是一個(gè)重點(diǎn)。因此,本文在研究回歸誤差項(xiàng)獨(dú)立同分布假設(shè)的基礎(chǔ)上,構(gòu)建了在有限階矩假設(shè)下獨(dú)立但不同分布的誤差項(xiàng),具有MCP懲罰的正則化Expectile回歸估計(jì)量的漸近性質(zhì)。
分位數(shù)回歸和Expectile回歸分別是基于非對(duì)稱L1范數(shù)和非對(duì)稱L2范數(shù)而提出的。在給出相應(yīng)的優(yōu)化問(wèn)題之前,首先給出一個(gè)隨機(jī)變量Z∈R的τ均值,
Eτ(Z)=arg mina∈REΨτ(Z-a),
式中:τ∈(0,1),為Expectile水平;Ψτ(.)為非對(duì)稱平方損失函數(shù),定義為
Ψτ(u)=|τ-I(u<0)|u2,
(1)
其中,I(.)為示性函數(shù)。
考慮線性模型
Y=Xβ+ε,
式中:Y=(y1,…,yn)′為一個(gè)n維因變量;X=(X1,…,Xp)為n×p維自變量矩陣,該矩陣也可寫(xiě)作X=(x1,…,xn)′,其中xi=(xi1,…,xip)′,i=1,2,…,n;β為p維未知參數(shù)向量;ε為誤差項(xiàng)。
考慮到變量選擇,需對(duì)模型進(jìn)行一定的稀疏性假設(shè),即只有一小部分自變量影響因變量的分布。不失一般性,假設(shè)自變量中前q個(gè)為重要變量,其余的為噪聲變量,即X=(X1,X2)′∈Rp,X1∈Rq,X2∈Rp-q分別對(duì)應(yīng)重要變量和噪聲變量,相應(yīng)的回歸系數(shù)真值為β0=(β10′,β20′)′,其中β10是非0的q維向量,β20是p-q維的0向量。此時(shí)β=(β1′,β2′)′,xi=(xi1′,xi2′)′。線性回歸模型變?yōu)橄∈枘J?/p>
對(duì)一些預(yù)先設(shè)定的τ∈(0,1),隨機(jī)誤差εi的τ均值為0。
基于上述模型,Expectile回歸定義為極小化函數(shù),即
τ∈(0,1),β∈Rp,即Expectile回歸系數(shù)估計(jì)量為
其中,Ψτ(.)為非對(duì)稱平方損失函數(shù),定義見(jiàn)式(1),τ=0.5時(shí),Expectile回歸即為OLS回歸。
分位數(shù)回歸定義為極小化下式:
其中,β∈Rp,α∈(0,1),rα(.)定義為
rα(u)=|α-I(u≤0)|.|u|。
(2)
分位數(shù)回歸基于非對(duì)稱L1范數(shù),對(duì)回歸模型中正負(fù)殘差賦予不同的權(quán)重,使其在回歸過(guò)程中能夠探究給定自變量時(shí)因變量的整個(gè)條件分布。當(dāng)考慮不同的條件分布片段時(shí),相關(guān)自變量集合可能發(fā)生變化。導(dǎo)致異方差存在的其中一個(gè)原因是線性模型中殘差項(xiàng)受到自變量的影響。因此,通過(guò)不同分位數(shù)水平下線性模型中自變量集合的變化,識(shí)別出引起異方差的自變量,進(jìn)而可以有效地檢測(cè)模型的異方差性。
由于分位數(shù)回歸中損失函數(shù)使用L1范數(shù),而Expectile回歸中采用L2范數(shù),故后者比前者對(duì)離群點(diǎn)更敏感,這為Expectile回歸在檢測(cè)異方差性方面比分位數(shù)回歸更顯著提供了理論基礎(chǔ)。
目前對(duì)非凸懲罰研究較為廣泛的有SCAD[2]和MCP[5],其中MCP懲罰函數(shù)為
(3)
它的導(dǎo)數(shù)為
(4)
式中:sgn(.)為符號(hào)函數(shù);λ和γ為正則化參數(shù),γ>1。
考慮懲罰Expectile回歸模型的目標(biāo)函數(shù)
(5)
式中,pλ(|βj|)為相關(guān)懲罰函數(shù)。
本節(jié)給出回歸誤差項(xiàng)獨(dú)立但不同分布下帶有MCP的Expectile回歸理論性質(zhì)。先給出下列條件[10,16-17]:
條件2:X的行向量{xi,i=1,2,…,n}是確定性序列,假設(shè)存在正定陣∑,使得
條件4:假設(shè)存在正定陣∑gτ,∑hτ,使得
gτ(εi)=Ψτ′(εi-t)|t=0=-2τεiI(εi≥0)-
2(1-τ)εiI(εi<0),
hτ(εi)=Ψ″τ(εi-t)|t=0=2τI(εi≥0)+
2(1-τ)I(εi<0),i=1,2,…,n。
基于隨機(jī)誤差項(xiàng)獨(dú)立但不同分布的假設(shè),帶MCP的Expectile回歸系數(shù)估計(jì)量有如下定理。
(6)
(7)
在Rq的任意緊集上一致成立而且不依賴于θ1。
因此n→∞時(shí),
代入式(7)可知,j=1,2,…,q時(shí),
op(1)+o(1),
則
那么
由林德伯格中心極限定理知
由Slutsky定理得
則
為了與帶有MCP的正則化Expectile回歸方法進(jìn)行比較,同時(shí)考慮帶有SCAD的Expectile回歸(E-SCAD)[16-17],帶有自適應(yīng)Lasso的Expectile回歸(E-AL)[17]和帶有SCAD的分位數(shù)回歸[10](Q-SCAD)。由于SCAD和MCP懲罰函數(shù)在優(yōu)化問(wèn)題中存在非凸性,應(yīng)用CCCP算法[10-11,16-17]解決優(yōu)化問(wèn)題,這是一種適用于優(yōu)化函數(shù)可分解為凸函數(shù)和凹函數(shù)之和的算法。先通過(guò)局部線性逼近算法(LLA)尋求目標(biāo)函數(shù)的局部上緊凸函數(shù),接著通過(guò)連續(xù)極小化局部上緊凸函數(shù)尋求一個(gè)局部極小值,下面分別給出E-SCAD,E-AL,Q-SCAD的優(yōu)化問(wèn)題:
(8)
(9)
(10)
其中,懲罰函數(shù)pλ(.)定義為
pλ(|βj|)=λ|βj|I(|βj|≤λ)-
為了研究模型具有異方差時(shí)提出方法在變量選擇和檢測(cè)異方差上的表現(xiàn),模擬數(shù)據(jù)從下述線性模型中產(chǎn)生:
Y=1+X1+X2+X3+(1+X3),
(11)
其中X2=X1+X3+Z,X1和Z均從獨(dú)立標(biāo)準(zhǔn)正態(tài)分布中產(chǎn)生,X3從[0,1]上的均勻分布中產(chǎn)生,X1,X3,Z和ε之間相互獨(dú)立。殘差項(xiàng)受到自變量X3的影響,所以該線性模型具有異方差性。
圖1 各變量與殘差平方的散點(diǎn)圖
為了考查誤差具有有限階矩的表現(xiàn),考慮隨機(jī)誤差項(xiàng)的2種分布,即標(biāo)準(zhǔn)正態(tài)分布和重尾分布t(10)。通過(guò)增加服從標(biāo)準(zhǔn)正態(tài)分布的獨(dú)立噪聲變量,考慮2種不同樣本量和自變量維度,分別為p=10,n=100和p=20,n=200。對(duì)于懲罰Expectile回歸,考慮不同的Expectile水平τ分別為0.1,0.25,0.5,0.75,0.9。當(dāng)給定具體分布時(shí),計(jì)算與τ值一一對(duì)應(yīng)的分位數(shù)水平。
表1列出了在式(11)的數(shù)據(jù)生成下,誤差項(xiàng)服從標(biāo)準(zhǔn)正態(tài)分布假設(shè)時(shí),幾種方法在樣本量n=100自變量維度p=10的模擬結(jié)果。樣本量n=200自變量維度p=20的模擬結(jié)果在表2中列出。誤差項(xiàng)服從t(10)分布時(shí)的模擬結(jié)果分別列于表3和表4。
表1 標(biāo)準(zhǔn)正態(tài)分布假設(shè)時(shí)p=10,n=100模型(11)模擬結(jié)果
續(xù)表1
表2 標(biāo)準(zhǔn)正態(tài)分布假設(shè)時(shí)p=20,n=200模型(11)模擬結(jié)果
表3 t(10)分布假設(shè)時(shí)p=10,n=100模型(11)模擬結(jié)果
表4 t(10)分布假設(shè)時(shí)p=20,n=200模型(11)模擬結(jié)果
表1~4顯示本文提出的方法在模擬中產(chǎn)生更小的絕對(duì)誤差,其中括號(hào)內(nèi)為基于100次模擬結(jié)果所產(chǎn)生的方差。考慮到X3在式(11)中是一個(gè)既對(duì)均值又對(duì)方差有影響的自變量,所以先得到在100次模擬中X1,X2(僅對(duì)均值產(chǎn)生影響的自變量)的變量選擇結(jié)果。對(duì)比之下,4種方法均可以趨于1的概率選取到重要變量。就X3而言,從表1~4中的F1結(jié)果發(fā)現(xiàn),隨著Expectile水平τ增加,對(duì)X3的選取頻率呈明顯增長(zhǎng)趨勢(shì),τ=0.9時(shí)選取到這一自變量的頻率較高,此時(shí)X3可能是引起異方差現(xiàn)象的自變量。
基于上述結(jié)果,按照下述模型生成數(shù)據(jù),執(zhí)行新的模擬
Y=1+X1+X2+(1+X3)ε,
(12)
自變量X1,X2,X3的生成同式(11),在設(shè)定X3只是對(duì)方差有影響的自變量,表5給出在式(12)下誤差項(xiàng)為標(biāo)準(zhǔn)正態(tài)分布假設(shè)時(shí)X3的變量選擇的結(jié)果。
從表5可以看出,隨著τ變化,對(duì)X3的變量選擇結(jié)果并沒(méi)有直接增長(zhǎng)。τ=0.5時(shí),選擇X3的頻率很低,而隨著τ∈(0,1)向0和1的方向變化,選中X3的頻率逐漸增加。而X3正是只對(duì)方差項(xiàng)有影響而對(duì)均值項(xiàng)無(wú)影響的自變量,本文提出的方法在選擇X3上比其他方法均有較好表現(xiàn)。
表5 標(biāo)準(zhǔn)正態(tài)分布假設(shè)時(shí)p=10,n=100模型(12)模擬中X3的選擇結(jié)果
通過(guò)對(duì)比證明,在自變量只影響均值時(shí),本方法可以趨于1的概率選取到重要變量,當(dāng)隨著Expectile水平τ的變化,自變量的選取頻率呈增長(zhǎng)趨勢(shì)時(shí),該自變量既對(duì)均值有影響,又對(duì)方差產(chǎn)生影響。τ=0.5時(shí)選取概率極低,而在其他水平下增高,因此,該自變量只對(duì)方差有影響。綜上所述,模擬試驗(yàn)結(jié)果表明,本文提出的方法在變量選擇中能產(chǎn)生更小的誤差,且比其他方法以更優(yōu)的概率選取到引起異方差的自變量,從而可有效地檢測(cè)出異方差。
本文基于Expectile回歸對(duì)回歸模型中正負(fù)殘差賦予不同的權(quán)重,通過(guò)不同的Expectile水平,在回歸過(guò)程中能夠探究給定自變量時(shí)因變量的整個(gè)條件分布,已有異方差文獻(xiàn)多基于誤差項(xiàng)服從獨(dú)立同分布假設(shè)或者隨機(jī)誤差項(xiàng)服從正態(tài)分布,本文將該假設(shè)弱化為隨機(jī)誤差項(xiàng)獨(dú)立但不同分布,且具有有限階矩,并建立了相應(yīng)的帶有MCP懲罰項(xiàng)的Expectile回歸估計(jì)量的漸近性質(zhì),得到在一定的條件下相應(yīng)估計(jì)量的Oracle性質(zhì)。數(shù)據(jù)模擬結(jié)果表明,本文提出的方法在變量選擇上表現(xiàn)優(yōu)良,并且能夠通過(guò)自變量集合的變化有效地檢測(cè)出異方差。