響應(yīng)數(shù)據(jù)缺失下一般線性分位數(shù)回歸模型的估計(jì)

2022-02-16 06:51黃婉娟羅雙華張成毅

紡織高?；A(chǔ)科學(xué)學(xué)報(bào) 2022年4期

黃婉娟，羅雙華，張成毅

(1.西安工程大學(xué) 理學(xué)院，陜西西安 710048；2.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院，陜西西安 710049)

0 引言

在科學(xué)研究領(lǐng)域，常常由于一些抽樣個(gè)體不愿意提供所需信息，以及一些不可控的因素或調(diào)研人員本身原因，造成收集的數(shù)據(jù)缺失。因此，在進(jìn)行統(tǒng)計(jì)分析時(shí)經(jīng)常會(huì)遇到帶有缺失數(shù)據(jù)的回歸模型，尤其是生物領(lǐng)域和社會(huì)科學(xué)領(lǐng)域。針對(duì)缺失數(shù)據(jù)的研究已有很多[1-4]。在統(tǒng)計(jì)分析缺失數(shù)據(jù)的回歸模型時(shí)，通常假設(shè)數(shù)據(jù)隨機(jī)缺失，普遍使用逆概率加權(quán)的方法：ROBINS提出使用逆概率加權(quán)的方法去對(duì)協(xié)變量缺失的回歸模型進(jìn)行參數(shù)估計(jì)[5]；WANG等提出對(duì)協(xié)變量隨機(jī)缺失的廣義線性模型使用局部逆概率加權(quán)方法[6]；LIANG等考慮對(duì)協(xié)變量缺失的部分線性模型使用逆概率加權(quán)方法進(jìn)行參數(shù)估計(jì)[7]；SHEN等基于響應(yīng)數(shù)據(jù)缺失下的線性回歸模型，使用逆概率加權(quán)方法進(jìn)行參數(shù)估計(jì)[8]。

許多加權(quán)估計(jì)方法是基于最小二乘法展開(kāi)研究的。由于最小二乘法的模型誤差具有重尾或偏斜分布時(shí)可能會(huì)產(chǎn)生不可靠的估計(jì)，所以對(duì)于數(shù)據(jù)隨機(jī)缺失的回歸模型，最小二乘法估計(jì)的有效性和穩(wěn)健性仍面臨巨大挑戰(zhàn)。與僅依賴數(shù)據(jù)中心趨勢(shì)的均值回歸方法相比，KOENKER和BASSETT提出的分位數(shù)回歸對(duì)異常值不太敏感，因而更穩(wěn)健。于是，SHERWOOD等提出了缺失協(xié)變量的逆概率加權(quán)分位數(shù)回歸模型[9]；TANG等針對(duì)數(shù)據(jù)隨機(jī)缺失的線性回歸模型，考慮將分位數(shù)信息與最小二乘相結(jié)合以提高估計(jì)效率[10]；CHEN等研究了在獨(dú)立非同分布誤差下觀測(cè)值隨機(jī)缺失的分位數(shù)回歸模型的參數(shù)估計(jì)問(wèn)題[11]；YANG等基于分位數(shù)回歸方法研究了變系數(shù)部分非線性模型的統(tǒng)計(jì)推斷問(wèn)題[12]。

盡管分位數(shù)回歸有諸多的優(yōu)良性能，但是利用分位數(shù)回歸對(duì)實(shí)際問(wèn)題進(jìn)行預(yù)測(cè)時(shí)，因部分預(yù)測(cè)值可能存在尾部過(guò)于左偏或右偏的情況，而導(dǎo)致分位點(diǎn)的選取難以抉擇，影響模型估計(jì)效率。因此，學(xué)者們認(rèn)為它不是最小二乘的可靠替代。為了克服這個(gè)缺點(diǎn)，ZOU等提出了針對(duì)線性模型的復(fù)合分位數(shù)回歸估計(jì)[13]；隨后，文獻(xiàn)[14-15]指出不同的分位數(shù)可能承載實(shí)質(zhì)上不同的信息量，適當(dāng)?shù)亟M合不同的分位數(shù)信息對(duì)增加估計(jì)效率至關(guān)重要，且復(fù)合分位數(shù)回歸相對(duì)于經(jīng)典最小二乘回歸，具有抗重尾誤差和高效率的優(yōu)點(diǎn)；ZHAO等通過(guò)最佳組合分位數(shù)信息對(duì)回歸模型進(jìn)行參數(shù)估計(jì)，所提出的方法可應(yīng)用于廣泛的參數(shù)和非參數(shù)估計(jì)[14]；SUN等研究了一般誤差分布情況下的加權(quán)局部線性復(fù)合分位數(shù)回歸估計(jì)[15]；NING等運(yùn)用復(fù)合分位數(shù)回歸研究了協(xié)變量隨機(jī)缺失的一般化線性模型[16]；YANG等針對(duì)異方差變系數(shù)模型，運(yùn)用加權(quán)復(fù)合分位數(shù)回歸估計(jì)和變量選擇進(jìn)行統(tǒng)計(jì)研究[17]；JIANG等研究了隨機(jī)截尾數(shù)據(jù)下的復(fù)合分位數(shù)回歸[18]；KAI等基于復(fù)合分位數(shù)回歸提出了半?yún)?shù)變系數(shù)部分線性模型的系數(shù)的有效估計(jì)量[19]；TANG等研究了隨機(jī)刪失數(shù)據(jù)的線性模型的加權(quán)復(fù)合分位數(shù)回歸估計(jì)[20]；TANG等考慮了具有缺失協(xié)變量的變系數(shù)模型的復(fù)合分位數(shù)回歸估計(jì)和推斷，即當(dāng)選擇概率已知，非參數(shù)估計(jì)或參數(shù)估計(jì)時(shí)，提出未知系數(shù)函數(shù)的加權(quán)局部線性估計(jì)[21]；YANG等提出了協(xié)變量隨機(jī)缺失的線性模型的懲罰加權(quán)復(fù)合分位數(shù)回歸估計(jì)[22]；JIN等提出了缺失協(xié)變量的部分線性變系數(shù)模型的懲罰加權(quán)復(fù)合分位數(shù)回歸[23]。上述研究表明，復(fù)合分位數(shù)回歸方法可以顯著提高估計(jì)的相對(duì)效率。

基于以上研究且受到復(fù)合分位數(shù)回歸方法良好性能的啟發(fā)，本文擬考慮使用逆概率加權(quán)復(fù)合分位數(shù)回歸方法研究響應(yīng)數(shù)據(jù)缺失的模型，主要考慮如下一般線性模型：

Y=φT(X)β+ε

(1)

式中：Y∈R是響應(yīng)變量;φ(·)為已知的p×1向量函數(shù)；β=(β1,β2,…,βp)T為p×1維未知參數(shù)向量；ε為隨機(jī)誤差且滿足P(εi

假設(shè){(Yi,Xi,δi),i=1,2,…,n}是模型的一組獨(dú)立同分布的不完全隨機(jī)樣本。當(dāng)δi=1時(shí)，Yi有觀測(cè)值；當(dāng)δi=0時(shí)，Yi缺失，隨機(jī)缺失機(jī)制如下：

(2)

其中，稱π(x)=P(δ=1|X=x)為選擇概率函數(shù)。

1 主要結(jié)果

1.1 主要方法

ρτk(Yi-ak-φT(Xi)β)

式中：ρτ(u)=u(τ-I(u<0))為分位數(shù)回歸的損失函數(shù)，其中I(·)為示性函數(shù)；π(·)為選擇概率函數(shù)，見(jiàn)式(2)。

(3)

ρτk(Yi-ak-φT(Xi)β)

然而，當(dāng)式(3)中X的維數(shù)太高時(shí)，非參數(shù)光滑估計(jì)π(·)將面臨維數(shù)災(zāi)難, 此時(shí)使用參數(shù)模型估計(jì)π(·)更適用。令π(x)=π(x,γ)，隨機(jī)缺失機(jī)制被定義為

假設(shè)

π(x,γ)=(1+exp(γ0+xTγ*))-1

1.2 主要定理

首先給出定理所需要的一些正則化條件：

C2)矩陣D,Ω,Λ,Σ都是正定且有限的；

C4)核函數(shù)K(·)是一個(gè)具有緊支撐的有界對(duì)稱密度函數(shù)；

定理1假設(shè)選擇概率π(x)是已知的，當(dāng)條件C1)～C5)成立時(shí)，有

定理2假設(shè)選擇概率π(x)≥c>0是關(guān)于x的光滑函數(shù)，當(dāng)條件C1)～C5)成立時(shí)，有

式中：

定理3假設(shè)選擇概率π(x,γ)含有一個(gè)未知參數(shù)γ，當(dāng)條件C1)～C3)、C6)成立時(shí)，有

式中：

2 定理證明

2.1 定理1的證明

其中

于是

[ρτk(εi-ak-n-1/2(vk+φT(Xi)u))-

ρτk(εi-ak)]

根據(jù)文獻(xiàn)[24]中定理1的公式，?s≠0，有

ρτ(s-y)-ρτ(s)=y(I(s<0)-τ)+

其中

定義

?ε>0，有

類似文獻(xiàn)[20]，容易證明

由于

于是

其中

E[f(ak|Xi)φ(Xi)φT(Xi)]

于是

其中D=D1+D2+…+Dq。

又因?yàn)?/p>

var(Zn,k)=E[(Zn,k)2]-[E(Zn,k)]2=

var(Wn)=E[(Wn)2]-[E(Wn)]2=

根據(jù)中心極限定理，于是有

根據(jù)文獻(xiàn)[24]中引理2和文獻(xiàn)[25]，于是

2.2 定理2的證明

其中

I(εi≤ak)]dt

注意到

其中

類似文獻(xiàn)[26]中定理3的證明，且在條件C3)～C5)下，有

由于

因此

于是

類似定理1的證明，于是有

2.3 定理3的證明

其中

又根據(jù)條件C6)并令Γi=(1,Xi),可得

其中π′(Xi,γ)=gradγπ(Xi,γ)。于是

其中π′(Xi,γ)=π(Xi,γ)(1-π(Xi,γ))Γi,

(δi-π(Xi,γ))Λ-2+οp(1)

其中

因此

(δi-π(Xi,γ))Λ-2+οp(1)

類似于文獻(xiàn)[9]中引理1的第二步，容易得到

類似定理1的證明，于是有

3 數(shù)值模擬

通過(guò)數(shù)值模擬驗(yàn)證所提出方法的有限樣本性。在模擬實(shí)驗(yàn)中，核函數(shù)為

K(t)=0.75(1-t2)I(|t|≤1)

復(fù)合水平q=9，樣本容量n=100，重復(fù)實(shí)驗(yàn)200次,利用交叉確認(rèn)法選擇最優(yōu)窗寬hopt。

例1為比較WCQR(加權(quán)復(fù)合分位數(shù)回歸估計(jì)), WLS(加權(quán)最小二乘回歸估計(jì))和WLAD(加權(quán)中位數(shù)回歸估計(jì))的估計(jì)效果, 現(xiàn)考慮如下模型:

y=β1x1+β2x2+0.5ε

π(x)=(1+exp(γ0+γ1x1+γ2x2))-1

式中:β1=2，β2=3;(x1,x2)是均值為0，方差為1，相關(guān)系數(shù)為0.5的二維變量。選擇不同的γ=(γ0,γ1,γ2)分別為

(2,-1,0),(2,0,-2),(1,-2,-2)

實(shí)現(xiàn)3種缺失比分別為15%、30%、45%；且考慮4種隨機(jī)誤差ε分布分別為N(0,1),t(3),F(4,6),Ca[-2,2]，其中Ca[·,·]為柯西分布。

表1為3種加權(quán)回歸估計(jì)方法計(jì)算出參數(shù)β的均值和均方誤差結(jié)果。

表 1 3種加權(quán)回歸估計(jì)方法下參數(shù)β的均值和均方誤差

由表1可以看出：

1)當(dāng)模型誤差是正態(tài)分布時(shí)，WCQR和WLS的估計(jì)效果相似，并且略好于WLAD；

2)WCQR在各種誤差分布之下都表現(xiàn)良好，且在同一誤差分布下，均方誤差隨缺失概率的增加而增加，而且較之WLS和WLAD，WCQR有更小的均方誤差。

例2在相同缺失概率下，比較3種加權(quán)復(fù)合分位數(shù)回歸估計(jì)的優(yōu)越性，考慮如下模型：

y=β1x1+β2x2+0.5ε

π(x)=(1+exp(γ0+γ1x1+γ2x2))-1

式中：β1=2，β2=3；(x1,x2)是均值為0，方差為1，相關(guān)系數(shù)為0.5的二維變量。當(dāng)γ=(γ0,γ1,γ2)=(2,0,-2)，缺失比大約為30%；且考慮4種隨機(jī)誤差ε的分布分別為N(0,1),t(3),F(4,6),Ca[-2,2]。

表2為相同缺失概率下的3種加權(quán)復(fù)合分位數(shù)回歸估計(jì)在4種誤差分布下的參數(shù)估計(jì)結(jié)果。

表 2 相同缺失概率下的3種加權(quán)復(fù)合分位數(shù)回歸估計(jì)

由表2可以看出：

1)在缺失概率相同的條件下，加權(quán)復(fù)合分位數(shù)回歸估計(jì)方法在各種誤差分布情況下的估計(jì)效果都較好;

因此，在小樣本中，使用估計(jì)的權(quán)重進(jìn)行加權(quán)復(fù)合分位數(shù)回歸估計(jì)優(yōu)于使用真實(shí)的權(quán)重進(jìn)行加權(quán)復(fù)合分位數(shù)回歸估計(jì)，且非參數(shù)估計(jì)略優(yōu)于參數(shù)估計(jì)。

4 結(jié) 語(yǔ)

本文利用逆概率加權(quán)法給出了響應(yīng)數(shù)據(jù)缺失下一般線性復(fù)合分位數(shù)回歸模型的3種參數(shù)估計(jì)，即選擇概率已知、選擇概率未知時(shí)的非參數(shù)估計(jì)和參數(shù)估計(jì)；使用復(fù)合分位數(shù)回歸方法減小了參數(shù)估計(jì)的方差，提高了估計(jì)效率，并且在一定條件下證明了所給估計(jì)量的漸近正態(tài)性。通過(guò)數(shù)值實(shí)驗(yàn)說(shuō)明了所得估計(jì)的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡