張 秋 瑾
(廣州航海學(xué)院 基礎(chǔ)部, 廣州 510725)
?
廣義線性模型中變量選擇的相合性
張 秋 瑾*
(廣州航海學(xué)院 基礎(chǔ)部, 廣州 510725)
在自然聯(lián)系函數(shù)下廣義線性模型中,當(dāng)因變量是一維時(shí),在一定條件下基于Wald檢驗(yàn)統(tǒng)計(jì)量的變量選擇的相合性成立.證明了當(dāng)因變量為多維時(shí)、去掉原有條件中的兩個(gè)條件,剩下其他條件不變或減弱,該變量選擇的相合性仍然成立.該結(jié)論推廣和改進(jìn)了原有結(jié)果.
廣義線性模型; 似然估計(jì); 變量選擇; 相合性
1.1 引言
廣義線性模型的理論是對(duì)線性模型的經(jīng)典理論的重要推廣, 1972年Nelder 和Wedderburn在文獻(xiàn)[1]中引進(jìn)廣義線性模型一詞, 自那以后有關(guān)研究工作逐漸增加,該模型已應(yīng)用到許多領(lǐng)域.
考慮一般的廣義線性模型
(1)
其中,y1,…,yn是相互獨(dú)立的q維觀察向量, Zi為已知的p×q維設(shè)計(jì)矩陣,β∈Rp為未知的p維回歸參數(shù)向量,h是Rq→Rq的一嚴(yán)格單調(diào)、充分光滑映射,g=h-1稱(chēng)為聯(lián)系函數(shù),ei為q維隨機(jī)誤差向量、其均值為零,方差有限.
設(shè)q維隨機(jī)變量yi服從指數(shù)型分布,其密度函數(shù)為:
(2)
其中,Θ是自然參數(shù)空間,Θ0(Θ的內(nèi)部組成的集合)非空,b(θ)的各階導(dǎo)數(shù)在Θ0內(nèi)存在.
易知Θ0為凸區(qū)域;yi的均值和方差分別記為μ(θi)、Σ(θi),則有
進(jìn)一步假定Σ(θ)在Θ0是正定的.
對(duì)數(shù)似然函數(shù)為:
因?yàn)閏(yi)不依賴(lài)于β,對(duì)估計(jì)β無(wú)影響,故相應(yīng)項(xiàng)可以略去.
似然方程為:
為了后面的敘述先引入以下條件:
(i) B是Rp中開(kāi)集,序列{Zn}被包含在某一緊集G內(nèi),且
顯然條件(i)與條件(i**)等價(jià).
(iii) ?c0>0,使得Σ(θ)≥c0I,?θ∈Θ0;
(iii*) ?c0>0, 使得Σ(θ)≥c0I,?θ∈Θ.
顯然條件(iii)弱于條件(iii*).
定義β0的鄰域Nn(δ)(δ>0)如下:
引入以下條件:
(D) λminFn→∞,n→∞;
(Sδ) 存在β0的鄰域N? B,存在常數(shù)δ>0,c2>0,及自然數(shù)n1,使得
λminFn(β)≥c2(λmaxFn)1/2+δ,β∈N,n≥n1.
在廣義線性模型中最常見(jiàn)的檢驗(yàn)問(wèn)題為:
H0:Cβ0=α,備擇假設(shè) H1:Cβ0≠α,
(3)
其中,C是滿秩的r×p(r≤p)矩陣.
選取Wald檢驗(yàn)統(tǒng)計(jì)量
(4)
根據(jù)文獻(xiàn)[3]可知,(3)式可以化簡(jiǎn)為:
H0:β02=α02,備擇假設(shè) H1:β02≠α02.
不失一般性只需考慮
H0:β02=α02,備擇假設(shè) H1:β02≠α02.
文獻(xiàn)[4]提出了利用Wald檢驗(yàn)統(tǒng)計(jì)量進(jìn)行變量選擇的方法,具體方法如下:
設(shè)D0={k:1≤k≤p,β0(k)≠0},
(5)
其中,β0(k)表示向量β0的第k個(gè)分量.
對(duì)D0的估計(jì),稱(chēng)為變量選擇問(wèn)題.考慮以下假設(shè)檢驗(yàn):
H0:β0(k)=0,備擇假設(shè) H1:β0(k)≠0,
該檢驗(yàn)問(wèn)題可寫(xiě)為:
H0:c′β0=0,備擇假設(shè) H1:c′β0≠0,
(6)
其中,c為p維列向量,第k 個(gè)元素為1,其余元素為0.設(shè)
(7)
其中,
(8)
設(shè){un}表示滿足下列條件的數(shù)列,
(9)
本文主要的研究工作是在文獻(xiàn)[2-3]研究理論基礎(chǔ)上,研究了廣義線性模型中基于Wald檢驗(yàn)統(tǒng)計(jì)量的變量選擇的相合性問(wèn)題,證明了因變量y為多維時(shí),若滿足條件(i)、(ii)、(iii)、(D*),則Dn是D0的相合估計(jì).由于條件(iii)弱于(iii*),且本文研究條件比文獻(xiàn)[4]研究條件要少(N)、(Sδ)這兩個(gè)條件,而結(jié)論卻由因變量y一維推廣至多維.所以本文基于Wald檢驗(yàn)統(tǒng)計(jì)量的變量選擇的相合性研究結(jié)果相比于文獻(xiàn)[4],本文研究條件要弱很多,而結(jié)論適用范圍卻更廣.
1.2 主要結(jié)論
證明 參見(jiàn)文獻(xiàn)[2] 的推論1.
引理2 若條件(i)、(ii)成立,假設(shè)檢驗(yàn)H0:Cβ0=α,備擇假設(shè) H1:Cβ0≠α,
證明 已知條件(i)、(ii)成立,由引理1得 條件(D)、 (N)成立,根據(jù)文獻(xiàn)[3]定理2得
證明 檢驗(yàn)問(wèn)題H0:β0(k)=0
可寫(xiě)為
H0:c′β0=0,備擇假設(shè) H1:c′β0≠0.
根據(jù)引理2可得
根據(jù)(4)知C=c′,α=0代入(4)式得
故
定理1 若條件(i)、(ii)、(iii)、(D*)成立,{un}是滿足(9)式的數(shù)列,則由(7)式定義的Dn是由(5)式定義的D0的相合估計(jì).
證明 1) 當(dāng)β0(k)=0時(shí),即kD0時(shí),根據(jù)引理3,得當(dāng)β0(k)=0時(shí),
2) 當(dāng)β0(k)≠0時(shí),即k∈D0時(shí),考慮統(tǒng)計(jì)量
根據(jù)條件(iii)有
?c0>0, 使得Σ(θ)≥c0I,?θ∈Θ0.
(10)
從而有
根據(jù)(10)式有
c0c1(β0(k))2>0, p·.
由1)、2)可得Dn是D0的相合估計(jì).
[1] NELDER J A, WEDDERBURNR R W M. Generalized linear models[J].Journal of Roy Statististical Society Series A(General), 1972, 135(3):370-384.
[2] FAHRMEIR L,KAUFMANN H.Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear models[J].The Annals of Statistics, 1985, 13(1):342-368.
[3] FAHRMER L. Asymptotic testing theory for generalized linear models[J]. Statistics, 1987, 18(1):65-76.
[4] 蔡 鵬, 高啟兵. 廣義線性模型中的變量選擇[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2006, 36(9):927-931.
The consistency of variable selection for generalized linear models
ZHANG Qiujin
(Division of Basic Science, Guangzhou Maritime College, Guangzhou 510725)
In generalized linear models under natural link function, when the dependent variable is one-dimensional, the variable selection is consistent under indicated conditions upon the Wald test statistics. In the present study, it is demonstrated that the consistency of variable selection remains when applied in multi-dimensional situation with two original conditions removed and others unchanged or weakened. This result expands and improves the original one.
generalized linear models; maximum likelihood estimator; consistency; variable selection
2015-05-15.
廣東省教學(xué)科學(xué)十二五規(guī)劃課題項(xiàng)目(2011TJK182);廣州航海學(xué)院自然科學(xué)基金項(xiàng)目(201212B08).
1000-1190(2016)01-0028-04
O212
A
*E-mail: zhangqiujin@126.com.