何曉霞,劉 熙,王志明
(武漢科技大學(xué)理學(xué)院,湖北 武漢,430065)
?
右刪失數(shù)據(jù)下回歸函數(shù)的局部組合分位數(shù)回歸估計
何曉霞,劉熙,王志明
(武漢科技大學(xué)理學(xué)院,湖北 武漢,430065)
本文研究右刪失數(shù)據(jù)情形下的組合分位數(shù)回歸模型,采用局部多項式逼近來估計回歸函數(shù),得到回歸函數(shù)在某一點的估計量的漸近正態(tài)性和區(qū)間估計,并通過蒙特卡洛模擬驗證了所提方法的有限樣本性質(zhì)。
刪失數(shù)據(jù);回歸函數(shù);分位數(shù)回歸;漸近正態(tài)性;局部多項式;非參數(shù)回歸
在非參數(shù)統(tǒng)計中,通常用一個光滑函數(shù)來描述協(xié)變量X和響應(yīng)變量Y之間的關(guān)系,而分位數(shù)回歸(quantileregression)被廣泛應(yīng)用于探索二者之間的潛在關(guān)系。分位數(shù)回歸的基本思想是根據(jù)因變量的條件分位數(shù)對自變量進行回歸,從而得到分位數(shù)的回歸模型。由于分位數(shù)回歸可以刻畫響應(yīng)變量更多的分布特征,因此引起了研究人員的大量關(guān)注。Zou等[1]針對分位數(shù)回歸估計效率容易受到分位數(shù)特定取值影響的問題而提出了組合分位數(shù)回歸,該方法的優(yōu)勢在于能綜合多處分位數(shù)回歸的信息。局部多項式方法是一類性能良好的非參數(shù)回歸估計方法,Kai等[2]提出了局部多項式組合分位數(shù)回歸,并證明了當(dāng)誤差服從非正態(tài)分布時,該方法比普通的局部最小二乘估計方法具有更高的估計效率。Jiang等[3]提出了單指標(biāo)模型局部線性組合分位數(shù)回歸估計。呂亞召等[4]通過回歸函數(shù)的多項式逼近,研究了部分線性單指標(biāo)模型的組合分位數(shù)回歸和變量選擇。
上述研究都是基于完全數(shù)據(jù),但在實際應(yīng)用中,尤其是在生存分析以及可靠性理論分析中,往往得不到完整的數(shù)據(jù),即數(shù)據(jù)存在刪失。Koul等[5]提出了在誤差分布未知的情況下刪失數(shù)據(jù)的分位數(shù)回歸模型。Wang等[6]基于左截斷數(shù)據(jù)得到回歸函數(shù)的局部組合分位數(shù)回歸估計的漸近正態(tài)性質(zhì)。關(guān)于刪失數(shù)據(jù)的中位數(shù)回歸分析也有不少研究成果[7-9]。
本文將考慮右刪失數(shù)據(jù)情形下回歸函數(shù)的估計,采用局部多項式逼近方法構(gòu)造相應(yīng)的損失函數(shù)。由于數(shù)據(jù)類型不同導(dǎo)致?lián)p失函數(shù)存在差異,文獻[6]中的方法不能直接應(yīng)用,因此本文充分利用右刪失數(shù)據(jù)的K-M(Kaplan-Meier)估計的性質(zhì),運用泰勒展開得到相應(yīng)估計量的漸近正態(tài)性。
本文考慮的分位數(shù)回歸模型為
(1)
式中:X=(X1,…,Xp)T為協(xié)變量;對于給定的非負整數(shù)q,τk=k/(q+1),k=1,2,…,q;ck=F-1(τk),其中,F(xiàn)為模型誤差εi的分布函數(shù);g(·)是未知的可微函數(shù)。
理論上,損失函數(shù)為
(2)
式中:ρτk(u)=u[τk-I(u<0)]為τk∈(0,1)時的分位數(shù)損失函數(shù),其中I(·)為示性函數(shù)。對于給定的樣本,當(dāng)Xi在x0的鄰域中時,g(Xi)可以線性近似表示為g(Xi)?g(x0)+g′(x0)(Xi-x0),這樣,上述目標(biāo)函數(shù)可以局部線性表示為
其中ωi是以x0為中心的非負權(quán)重。為進一步簡化上述損失函數(shù),令ak=ck+g(x0),b=g′(x0),在右刪失數(shù)據(jù)條件下觀測到數(shù)組(Yi,Xi,δi),其中Yi=min(Ti,Ci),δi=I(Ti≤Ci),這里Ti為刪失時間變量;Ci是刪失變量,其分布函數(shù)為G。則損失函數(shù)為
(3)
為了估計模型中參數(shù)與未知函數(shù)的漸近性質(zhì),需要如下正則性條件:
(A1)K(·)為非負有界的連續(xù)對稱密度函數(shù),具有有界支撐[-M,M];
(A3)函數(shù)g(·)為二階Lipschitz連續(xù),且其二階導(dǎo)數(shù)有界;
(A4)X的密度函數(shù)fX(x)在x0連續(xù),fX(x0)>0,0≤f(s|X=x)≤B0,B0為正常數(shù);
(A5)模型誤差ε的密度函數(shù)f(·)為正且對稱,其二階導(dǎo)數(shù)有界;
(A6)窗寬hn滿足hn→0,nhn→∞;
(A7)對于?t∈[0,c],Ρr(t≤T≤c)≥ζ0≥0,這里ζ0是常數(shù)。
定理2假定條件(A1~A7)成立,則有
3.1定理1的證明
其中,
因此
[Bni,k]2=[Bni,k]2I(Δi,k≥ε)+[Bni,k]2I(Δi,k<ε)。
一方面,
另一方面,
因此,
(4)
運用泰勒展開式,得到
因此
且
因此有
(5)
根據(jù)鞅中心極限定理,有
(6)
應(yīng)用凸引理[11]及二次漸近引理[12],得到
(7)
因為
類似地,Cov(w1k,w21)→ν1λkk′(x0),Var(w21)→ν2λkk′(x0),則應(yīng)用Cramér-Wald定理,有
(8)
式中:W2是均值為0的正態(tài)隨機變量。
因此可以得到
且
3.2定理2的證明
則可得
因此
進一步,由于
因此,有
定理2得證。
4.1相容性質(zhì)
運用蒙特卡洛模擬法檢驗局部組合分位數(shù)回歸(CQR)估計的有限樣本性質(zhì),在分析中使用局部最小二乘(LS)估計作為比較對象。這里考慮模型誤差分別服從正態(tài)分布與非正態(tài)分布的隨機數(shù)據(jù),模擬模型如下:
應(yīng)用定理2,漸近均方差(AMSE)定義為
使AMSE達到最小值的最優(yōu)窗寬為
針對每一種誤差分布,均分別運用局部LS和CQR(q分別取5、9、19)估計,記錄x0=0.75時估計量的偏差Bias、標(biāo)準(zhǔn)差Sd以及平均平方誤差比率(RASE)。RASE定義為
從表1~表3中可以看出:
(1)當(dāng)誤差服從標(biāo)準(zhǔn)正態(tài)分布時,RASE值略低于1,表明局部組合分位數(shù)回歸估計與局部最小二乘估計的效率很接近;當(dāng)誤差服從非正態(tài)分布時,RASE值大于1,表明前者較后者的估計效率更高。
表1 εi~N(0,1)的模擬結(jié)果
表2 εi~t(3)的模擬結(jié)果
表3 εi~Cauchy(0,1)的模擬結(jié)果
(2)誤差分布、樣本容量和刪失率相同時,由Bias和Sd的數(shù)值可知CQR19的估計效率優(yōu)于CQR5和CQR9的估計效率,即分位數(shù)的組合數(shù)量越多,估計效率越高。
(3)誤差分布及樣本容量相同時,隨著刪失率的增加,估計量偏差與標(biāo)準(zhǔn)差也隨之增加,即刪失率越小,估計效率越高;
(4)誤差分布及刪失率相同時,樣本容量的增多能提高模型估計的精確性。
4.2置信區(qū)間估計
考慮模型誤差εi服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)的情況,模擬數(shù)據(jù)樣本容量n分別為200、800,模擬次數(shù)為400,數(shù)據(jù)刪失率為15%、30%、45%。分別運用局部LS和CQR(q=9)估計,記錄x0=0.75時的平均置信區(qū)間長度(AL)與區(qū)間覆蓋概率(CP),見表4。
從表4中可以看出:
(1)對于給定的樣本容量與刪失率,CQR9比LS的平均置信區(qū)間長度小,同時CQR9的覆蓋概率更接近于95%,說明CQR9的估計性能更好;
(2)樣本容量越大、數(shù)據(jù)刪失率越小,則平均置信區(qū)間長度越小,覆蓋概率越接近于95%。
表4 置信水平為95%時的平均置信區(qū)間長度與覆蓋概率
[1]ZouH,YuanM.Compositequantileregressionandtheoraclemodelselectiontheory[J].TheAnnalsofStatistics,2008, 36(3):1108-1126.
[2]KaiB,LiR,ZouH.Localcompositequantileregressionsmoothing:anefficientandsafealternativetolocalpolynomialregression[J].JournaloftheRoyalStatisticalSociety:SeriesB(StatisticalMethodology),2010, 72(1):49-69.
[3]JiangR,ZhouZG,QianWM,etal.Single-indexcompositequantileregression[J].JournaloftheKoreanStatisticalSociety, 2012, 41(3):323-332.
[4]呂亞召,張日權(quán),趙為華,等.部分線性單指標(biāo)模型的復(fù)合分位數(shù)回歸及變量選擇[J].中國科學(xué):數(shù)學(xué),2014, 44(12): 1299-1322.
[5]KoulH,SusarlaV,VanRyzinJ.Regressionanalysiswithrandomlyright-censoreddata[J].TheAnnalsofStatistics,1981, 9(6):1276-1288.
[6]WangJF,MaWM,ZhangHZ,etal.Asymptoticnormalityforalocalcompositequantileregressionestimatorofregressionfunctionwithtruncateddata[J].StatisticsandProbabilityLetters, 2013, 83:1571-1579.
[7]PortnoyS.Censoredquantileregression[J].JournaloftheAmericanStatisticalAssociation, 2003, 98:1001-1012.
[8]WangHJ,WangL.Locallyweightedcensoredquantileregression[J].JournaloftheAmericanStatisticalAssociation, 2009, 104:1117-1128.
[9]ShowsJH,LuWB,ZhangHH.Sparseestimationandinferenceforcensoredmedianregression[J].JournalofStatisticalPlanningandInference, 2010,140:1903-1917.
[10]KnightK.LimitingdistributionsforL1regressionestimatorsundergeneralconditions[J].TheAnnalsofStatistics, 1998, 26(2):755-770.
[11]PollardD.Asymptoticsforleastabsolutedeviationregressionestimators[J].EconometricTheory, 1991, 7(2):186-199.
[12]FanJ,GijbelsI.Localpolynomialmodellinganditsapplications[M].London:Chapman&Hall,1996.
[責(zé)任編輯尚晶]
Localcompositequantileregressionestimatorofregressionfunctionwithrightcensoreddata
He Xiaoxia, Liu Xi, Wang Zhiming
(CollegeofScience,WuhanUniversityofScienceandTechnology,Wuhan430065,China)
Thispaperstudiesthecompositequantileregressionmodelfortherightcensoreddata.Byapproximatingtheregressionfunctionwithlocalpolynomial,theasymptoticnormalityandintervalestimationoftheestimatorforthefunctionvalueatapointareobtained.ThefinitesampleperformanceoftheproposedmethodisverifiedbyMonteCarlosimulations.
censoreddata;regressionfunction;quantileregression;asymptoticnormality;localpolynomial;non-parametricregression
2015-12-14
國家自然科學(xué)基金資助項目(11201356).
何曉霞(1979-),女,武漢科技大學(xué)副教授,博士.E-mail:hexiaoxia@wust.edu.cn
O212.7
A
1674-3644(2016)04-0309-08