錢 峰,張一枝
(1.常州工學(xué)院 數(shù)理與化工學(xué)院,江蘇 常州 213002;2.南通大學(xué) 理學(xué)院,江蘇 南通 226007)
出現(xiàn)多重共線性問題時(shí),統(tǒng)計(jì)人員會利用有偏估計(jì)克服最小二乘(LS)估計(jì)缺陷[1,2]。有偏估計(jì)的構(gòu)造一般基于兩點(diǎn)考慮:其一,通過在樣本相關(guān)陣的主對角線上引進(jìn)嶺參數(shù)以解決設(shè)計(jì)陣的病態(tài)問題,如嶺估計(jì)、廣義嶺估計(jì)[3,4];其二,引進(jìn)隨機(jī)壓縮系數(shù)將估計(jì)向原點(diǎn)壓縮以獲得較小的均方誤差(MSE),如Stein估計(jì)[5]。
本文將在PC準(zhǔn)則下討論一種新的有偏估計(jì)壓縮廣義嶺估計(jì)相對于LS估計(jì)的優(yōu)良性問題;給出各待定系數(shù)的確定方法,并通過實(shí)例驗(yàn)證了該估計(jì)的可行性和優(yōu)良性。
考慮Gauss-Markov模型:
此處y是n×1維觀察向量,X是n×p維列滿秩矩陣(rank(X)=p),ε是n×1維隨機(jī)誤差向量,β=(β1,β2,…,βp)′是p×1維未知參數(shù)向量。
對于p×p的正定矩陣X'X,必存在正交矩陣Q,使得:
其中,λ1≥λ2≥...≥λp>0為矩陣X'X的特征值。
對于模型(1),=(X′X)-1X'Y可作為未知參數(shù)β的LS估計(jì)。且有
設(shè)計(jì)矩陣矩陣X'X幾乎奇異或病態(tài)時(shí),
定義1[2]:模型(1),β的嶺估計(jì)(ridge estimator)為:
其中k≥0為嶺參數(shù)。
定義2[3]:模型(1),β的廣義嶺估計(jì)(general ridge estimator)為:
其中K=diag(k1,k2,...,kp) (k1,k2,...,kp≥0) 稱為廣義嶺參數(shù)。
定義3[5]:模型(1),β的Stein估計(jì)(stein estimator)為:
其中,0≤c≤1為Stein壓縮系數(shù)。
近期,統(tǒng)計(jì)工作者提出了用一種新的有偏估計(jì)類廣義c-K估計(jì),在考慮壓縮估計(jì)的同時(shí)通過解決設(shè)計(jì)陣存在共線性或近似共線性時(shí)的問題。
定義4[6,7]:模型(1),β的廣義c-K估計(jì)為:
其中K=diag(k1,k2,...,kp)(k1,k2,...,kp≥0) 稱為廣義嶺參數(shù),參數(shù)c≥1為壓縮因子。
易見,(c,K)是一個(gè)很大的估計(jì)類。特別地,c=1且K=kI(k≥0)時(shí),得到β的嶺估計(jì)(k);K=O(零矩陣)時(shí),得到β的Stein估計(jì)c-1);當(dāng)c=1且有KQ=QK成立時(shí),就得到β的廣義嶺估計(jì)
PC準(zhǔn)則[8,9]作為比較不同估計(jì)量優(yōu)劣的一個(gè)準(zhǔn)則,原理為:設(shè)和為參數(shù)θ的兩個(gè)不同估計(jì)量為損失函數(shù),若:
對一切θ∈Θ嚴(yán)格不等式“>”至少對某θ∈Θ成立(Θ為參數(shù)空間),稱在PC準(zhǔn)則下優(yōu)于。
本文將討論對于損失函數(shù):
在PC準(zhǔn)則下,廣義c-K估計(jì)相對于LS估計(jì)的優(yōu)良性問題。
為方便起見,記A=cX′X,G=QKQ′,Γ=A-1+G-1,則易知AG=GA,則A和G可同時(shí)對角化,事實(shí)上由上文和G=QKQ′知:
其中λ1≥λ2≥...≥λp≥0 是X'X的特征值,k1,k2,...,kp≥0是廣義嶺參數(shù)。
引理1:當(dāng)c≥1時(shí),cA1-A21是半正定矩陣,即
其中A1=(c-1)I+Γ-1A-1。
證明:設(shè)A1的特征值為μi(i=1,2,...,p),下證c≥1時(shí),對?i有μi2≤cμi成立。
事實(shí)上,利用公式(8)和公式(9),容易計(jì)算得:
則:
即:
故A1的特征值分別為:
注意到:
又由于c≥1,故顯然成立,則(i=1,2,...,p),故引理成立。
另外,記:
證明:
從而:
亦即等價(jià)于以下不等式成立:
而式(12)等價(jià)于下式:
由引理知,A2
1≤cA1,故不等式(13)成立的充分條件為:
利用最小二乘估計(jì)的性質(zhì),易知-β的均值向量和協(xié)方差矩陣分別為:
同時(shí)本文對于模型(1)作進(jìn)一步假設(shè):ε~N(0,σ2Ι),故有:
若記Z,則易知Z~N(0,Ip)。
利用式(10)可求得H=Qdiag(τ1,τ2,…,τp)Q′,其中:
令B=Q′Z,則易知B~N(0,Ip),故式(15)成立的充分必要條件為:
另由式(11)易知:
其中‖B‖2服從自由度為p的中心卡方分布。
故:
故上述推論得證。
根據(jù)式(7)已經(jīng)推導(dǎo)出有:
從中求的的駐點(diǎn)表達(dá)式為:
在實(shí)際問題中,由于上述表達(dá)式中σ的未知性,用數(shù)據(jù)的樣本方差來代替:
而真實(shí)值β也不易取得,故不妨用系數(shù)的最小二乘估計(jì)來代替。另外,在實(shí)際應(yīng)用中未必一定要找出最優(yōu)的k值,而是在均方誤差準(zhǔn)則下找到優(yōu)于約束最小二乘估計(jì)的盡可能小的k值即可。
表1(見下頁)為1994—2003年共10年份的統(tǒng)計(jì)數(shù)據(jù)。其中Y表示民航客運(yùn)量(萬人),X1表示國民收入(億元),X2表示消費(fèi)額(億元),X3表示鐵路客運(yùn)量,X4表示民航航線里程(萬公里),X5表示來華旅游入境人數(shù)(萬人)。(數(shù)據(jù)來源:《中國統(tǒng)計(jì)年鑒》)。
表1 中國民航客運(yùn)量及相關(guān)數(shù)據(jù)
將數(shù)據(jù)中心化消除截距項(xiàng)后,利用最小二乘法,可得回歸模型:
表2 回歸系數(shù)表
表2表明,X1,X3,X4這三個(gè)因素對民航客運(yùn)量的影響是不顯著的,同時(shí)由表中的方差擴(kuò)大因子都大于10,說明自變量之間存在著嚴(yán)重的多重共線性情況。因此,最小二乘估計(jì)不再是理想的估計(jì)。可以計(jì)算得到:
根據(jù)式(19)可以求得未知參數(shù)的表達(dá)式如下:
表3 兩種估計(jì)的MSE值比較
另外利用式(20),確定k1=1.3644,k2=47.826,k3=3.826,k4=1.6759,k5=12.345。
作為廣義嶺估計(jì)的推廣估計(jì),廣義c-K估計(jì)綜合體現(xiàn)了嶺估計(jì)、Stein估計(jì)的壓縮思想。通過理論證明和實(shí)例檢驗(yàn),均可看出其在Pitman Closeness準(zhǔn)則、均方誤差準(zhǔn)則下均有優(yōu)于最小二乘估計(jì)的良好性質(zhì)。這表明:在共線性場合出現(xiàn)時(shí),該估計(jì)能較好地替代最小二乘估計(jì)。