尹長明,靳永濤,王亞東
(廣西大學 數(shù)學與信息科學學院, 廣西 南寧 530004)
二值數(shù)據(jù)是指響應變量的觀測結果有兩種情形,例如觀測某人是否有心血管疾病,銀行對某個客戶是否貸款,學生考試是否及格等??v向數(shù)據(jù)是對一個個體進行多次觀測的數(shù)據(jù),其中對一個個體多次觀測的數(shù)據(jù)之間是相關的(相關系數(shù)不知道),而不同個體觀測的數(shù)據(jù)之間是獨立的。LIANG等[1]提出的廣義估計方程(generalized estimated equation, GEE)方法是對縱向數(shù)據(jù)進行分析的重要工具,研究文獻很多[2-5]。廣義估計方程的一個重要性質(zhì)是即使工作相關系數(shù)假設錯誤,得到的估計仍然是相合的和漸近正態(tài)的。若工作相關系數(shù)等于真實相關系數(shù),得到的估計漸近方差最小。經(jīng)驗似然也是一種重要的數(shù)據(jù)分析方法,有很多突出的優(yōu)點,如用經(jīng)驗似然構造置信區(qū)間除有域保持性,變換不變性及置信域的性質(zhì)由數(shù)據(jù)自行決定等諸多優(yōu)點外,還有Bartlett糾偏性及無須構造軸統(tǒng)計量等優(yōu)點[6-9]。QIN等[6]用經(jīng)驗似然方法研究了獨立同分布的廣義估計方程,LI等[7]用經(jīng)驗似然方法研究了廣義線性模型下的廣義估計方程,但條件不易驗證,其結果也不理想。
下面將在易驗證和比較弱的條件下證明二值縱向數(shù)據(jù)下經(jīng)驗似然估計的漸近性質(zhì)。
設對第i個個體的第j次觀測后同時得到一個二值響應變量Yij和一個p×1維協(xié)變量Xij(i=1,…,n,j=1,…mi)。設不同個體之間觀測的數(shù)據(jù)是獨立的,同一個個體mi次觀測的數(shù)據(jù)是相關的。XT表示X的轉置,記Yi=(Yi1,…,Yimi)T,Xi=(Xi1,…,Ximi)T。假設Yij期望為:
(1)
達到最小的β,其中t(β)滿足約束條件:
本文約定C,C1,C2,…表示與n無關的正常數(shù),在不同的地方表達的值可以不一樣。
對于二值縱向數(shù)據(jù)的經(jīng)驗似然估計簡介可參考文獻[9]。為了得到其漸近性質(zhì),先作如下假定:
① 存在正常數(shù)C, 使‖Xij‖≤C,1≤i≤n,1≤j≤mi,即Xij一致有界。
③ 存在C>0使得λminRi≥C,λminRo≥C, 其中Ro表示真實相關陣。
定理2若條件①~③及假設H0:β=β0成立,則經(jīng)驗似然比統(tǒng)計量為:
在給出上面主要結果的證明之前,需要如下引理:
(2)
C1I≤Ai(β0)≤C2I;C1I≤Ri≤C2I;
C1I≤Ri0≤C2I;C1Fn≤Ri≤C2Fn。
由上面結果易知:
再由Lindeberg中心極限定理即得式(2)成立,命題得證。
引理2在滿足條件①~③下,有[7]:
(3)
則有:
t(β)=Op(n-1/2)。
證明由式(3)知:
上式令t=t(β),變形得:
(4)
用文獻[4]給出的方法可以證明,以概率有:
再由微分中值定理、引理1和引理2可得:
通過矩陣運算得:
再由約束條件(2)及引理2和引理3有:
對式(1)運用泰勒展式,得:
由引理2和引理3可知:
另一方面運用Cauchy-Schwarz不等式,則有:
因而:
由微分中值定理對上式在β0點展開有:
和存在正常數(shù)C1,C2使得:
所以,當β∈?Nn(δ)時,有:
再由Cauchy-Schwarz不等式:
所以當δ充分大時,在β∈?Nn(δ)有:
ln(β)≥ln(β0),
即:
其中:
定理2的證明類似文獻[6]中定理2的證明,在此省略。
模型P(Yij=1|Xij)=e0.3Xij/[1+e0.3Xij],Xij服從獨立的標準正態(tài)分布,詳細二值數(shù)據(jù)模擬生成可參考文獻[10],工作相關陣Ri定義如下:
運用R語言運行廣義估計方程GEE和經(jīng)驗似然EL方法的結果見表1和表2。
表1 100樣本下GEE和EL方法的比較
表2 10 000樣本下GEE和EL方法的比較
從數(shù)值模擬結果可看出,EL估計參數(shù)擬合度在大樣本情況下比GEE估計結果更為理想。