趙文星,程國勝,來 鵬
(南京信息工程大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,南京 210044)
在現(xiàn)今統(tǒng)計分析中,往往希望建立的模型既準(zhǔn)確又易于解釋。事實上,研究的大多數(shù)模型既含有參數(shù)分量又包含非參數(shù)分量,尤其在計量經(jīng)濟學(xué)和生物醫(yī)學(xué)等領(lǐng)域,變系數(shù)部分線性模型被廣泛應(yīng)用。它的優(yōu)勢在于既結(jié)合了線性模型的易于解釋,又可以描述協(xié)變量的交互影響,此外,該模型允許更靈活的函數(shù)形式,同時還能降低數(shù)據(jù)的維數(shù)。為此,有必要對其進行研究。變系數(shù)部分線性回歸模型可以定義如下,
其中,Y是響應(yīng)變量,X和Z分別為 p維和q維向量,t是一維變量,g(·)是一個未知的可測函數(shù),隨機統(tǒng)計誤差 ε滿足 E(ε|X,Z,t)=0 和 var(ε|X,Z,t)=σ2(X,Z,t)。在模型(1)中,參數(shù)部分βTZ提供了協(xié)變量的線性組合,回歸系數(shù)gj(t)依賴于t,j=1,…,p,具有靈活的模型形式且避免了“維數(shù)禍根”。模型(1)包含了常用的線性模型、變系數(shù)模型和部分線性模型等半?yún)?shù)和參數(shù)模型,使得其具有廣泛的應(yīng)用領(lǐng)域。自從該模型被提出以來,變系數(shù)部分線性模型被廣泛研究并應(yīng)用在各種領(lǐng)域。
模型參數(shù)的優(yōu)良估計應(yīng)該滿足無偏性與相合性外,還應(yīng)考慮所得估計是否能有效地幫助實際工作者得到更準(zhǔn)確的估計。半?yún)?shù)模型估計的有效性是評價估計優(yōu)劣的一個重要性質(zhì),例如Tsiatis(2006)等[1]從模型參數(shù)的有效得分函數(shù)出發(fā)研究了參數(shù)模型估計的有效性。在Liang等[2]提出估計的基礎(chǔ)上,H?rdle[3]提出了一種加權(quán)擴展估計,利用方差的倒數(shù)作為逆概率的權(quán)重,提高了部分線性模型參數(shù)的估計效率。但是,Ma等[4]中指出他們所提出的估計仍然不是最有效的估計,為此,Ma等通過計算部分線性模型的有效得分函數(shù),利用它構(gòu)造有效估計方程,從而求出帶有異方差的部分線性模型的半?yún)?shù)有效估計。從這些文章中,可以發(fā)現(xiàn)有效得分函數(shù)對于得到有效估計有著非常重要的作用。為此,本文通過推導(dǎo)帶有異方差的變系數(shù)部分線性模型的有效得分函數(shù)來構(gòu)造有效估計方程,給出帶異方差的變系數(shù)部分線性模型的半?yún)?shù)有效界,證明所得估計為有效估計,并證明其大樣本性質(zhì)。
從模型(1)中可以看出,參數(shù)β是感興趣的參數(shù),而系數(shù)函數(shù) gj(·),(j=1,…,p),未知的異方差函數(shù) σ2(X,Z,t),(ε|X,Z,t)的條件分布和 (X,Z,t)的邊際聯(lián)合分布均為冗余參數(shù)。由Tsiatis等(2006)[4]可知,若可以得到有效得分函數(shù),則可以利用其構(gòu)造有效估計方程,計算得出有效估計。為此,需要先求解有效得分函數(shù),通過計算和推導(dǎo)證明,可以得到如下定理,(定理證明略)。
定理1設(shè)在給定(X,Z,t)下,ε的條件概率密度函數(shù)為 pε(ε|X,Z,t),并且 pε(ε|X,Z,t)關(guān)于 ε可導(dǎo),幾乎處處有0<E(ε2|X,Z,t)<∞ 。那么模型(1)的半?yún)?shù)有效得分函數(shù)是
其中,w=w(X,Z,t)={E(ε2|X,Z,t)}-1,ε=Y-gT(t)X-βTZ 。
從中可以知道,正則的漸近線性估計與它所對應(yīng)的影響函數(shù)是一一對應(yīng)的,也就是說利用有效影響函數(shù)可以找到有效估計。而在上述定理中已經(jīng)得出了變系數(shù)部分線性模型的有效得分函數(shù),根據(jù)有效影響函數(shù)與有效得分函數(shù)之間成正比例的關(guān)系,自然的可以利用有效得分函數(shù)來構(gòu)造估計方程。根據(jù)(2)式可以建立如下估計方程:
由有效得分函數(shù)與有效估計的一一對應(yīng)性,通過對(3)式估計方程的求解可以得到β的半?yún)?shù)有效估計。但是,從方程(3)中可以發(fā)現(xiàn),其中包含了未知的函數(shù) g(·),w(·),E[w(X,Z,t)ZXT|t]和 E(w(X,Z,t)XXT|t),這些未知函數(shù)會影響方程的求解。因此,首先需要對這些未知函數(shù)進行相應(yīng)的估計,以便將方程中的未知量用其估計值進行插值替換,從而便于對感興趣的參數(shù)進行求解。注意到可以將模型(1)寫成
根據(jù)所得估計的漸近方差V,可以發(fā)現(xiàn)β^的漸近方差陣等于半?yún)?shù)有效得分函數(shù)Seff(·)的協(xié)方差矩陣的逆,由此依據(jù)Tsiatis[6]中的定理4.1可知,所得估計的漸近方差達到半?yún)?shù)有效界,所以通過求解估計方程(9)得到的估計為帶異方差的變系數(shù)部分線性模型的半?yún)?shù)有效估計。
為了研究所提出估計的有限樣本性質(zhì),判斷其是否為有效估計,本文用數(shù)值模擬來說明所提出估計的優(yōu)劣,并與其他幾種估計方法所得的估計進行比較。
考慮對以下幾種估計方程所得β的估計進行比較:
為了比較不同估計方程所得估計的優(yōu)劣,本文通過所得估計的偏差(Bias)、標(biāo)準(zhǔn)差(SE)和均方誤差(MSE)來進行比較。例1和例2所得模擬結(jié)果見表1和表2所示。
表1 例1所得模擬結(jié)果
從表1和表2可以看出,當(dāng)采用估計方程的方式求解估計時,隨著樣本量的增加,總的來說各個加權(quán)估計方程解出的估計值β^的偏差、標(biāo)準(zhǔn)差和均方誤差均是越來越小,并且由表1和表2中估計的標(biāo)準(zhǔn)差和均方誤差可以發(fā)現(xiàn),本文所提出的估計方法(b)比其它估計方法更優(yōu)越,所得的標(biāo)準(zhǔn)差(SE)和均方誤差(MSE)都是最小的。因此,本文提出的利用有效得分函數(shù)構(gòu)造加權(quán)有效估計方程的方法能夠提高估計的效率,并且具有較小的偏差,可以得到最有效的的估計。
表2 例2所得模擬結(jié)果
本文推導(dǎo)得到帶有異方差的變系數(shù)部分線性模型的半?yún)?shù)有效界,通過導(dǎo)出的感興趣參數(shù)的有效得分函數(shù),構(gòu)造有效估計方程,并由此來進行參數(shù)估計。通過大樣本下的理論性質(zhì)的證明,以及通過小樣本下的數(shù)值模擬,可以得到所提出的估計求解方法能夠得到一致較優(yōu)的有效估計。同時,注意到在對感興趣的參數(shù)進行估計之前,先是要對模型中其它未知函數(shù)進行估計,在仿真模擬中可以發(fā)現(xiàn),這些未知參數(shù)估計所采用的不同非參數(shù)估計方法不會影響到感興趣參數(shù)的估計效率。從數(shù)值模擬中還可以看出,本文所提出的估計方程得到的估計的偏差、標(biāo)準(zhǔn)差和均方誤差隨著樣本量的增加,逐漸減小且小于其它方法所得估計值。由此可知,本文所提出的方法是有效的且有較強的穩(wěn)健性。
[1]Wahed A S,Tsiatis A A.Semiparametric Efficient Estimation of Survival Distributions in Two-Stage Randomisation Designs in Clinical Trials With Censored Data[J].Biometrika,2006,93(1).
[2]Liang H,H?rdle W,Carroll R J.Estimation in A Semiparametric Partially Linear Errors-In-Variables Model[J].The Annals of Statistics,1999,27(5).
[3]H?rdle W,Liang H.Partially Linear Models[M].Springer Berlin Heidelberg,2007.
[4]Ma Y,Chiou J M,Wang N.Efficient Semiparametric Estimator For Heteroscedastic Partially Linear Models[J].Biometrika,2006,93(1).
[5]Fan J.Local Polinomial Modelling and Its Applications[M].CRC Press,1996.
[6]Tsiatis A A.Semiparametric Theory and Missing Data[M].Springer,2006.