張宇靖, 史建紅
山西師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 山西 臨汾 041000
眾數(shù)回歸在近幾年里受到了廣泛的關(guān)注,它是一個(gè)穩(wěn)健的估計(jì)方法.該方法不僅能較“真實(shí)”地反映數(shù)據(jù)取值的中心,還能獲得更好地預(yù)測(cè)效果.Parzen[1]最早提出了眾數(shù)估計(jì),他指出當(dāng)Y在給定條件X下的分布是非對(duì)稱時(shí),分布的眾數(shù)比均值和分位數(shù)更能提供有意義的信息.近些年來, Yao和Li[2]、Khardani[3]、Chen[4]、Yao 和Xiang[5]分別研究了線性眾數(shù)回歸模型、非線性眾數(shù)回歸模型、非參數(shù)眾數(shù)回歸模型和變系數(shù)眾數(shù)回歸模型.非參數(shù)回歸模型是參數(shù)回歸模型(如:線性模型、非線性模型及廣義線性模型等)的一種自然推廣.對(duì)于非參數(shù)回歸函數(shù)的估計(jì)問題, 在很多文獻(xiàn)中已經(jīng)給出了估計(jì)方法,具體可見文獻(xiàn)Nadaraya[6],F(xiàn)an等[7].在許多實(shí)踐中,由于實(shí)驗(yàn)條件或成本等因素的影響常常導(dǎo)致樣本中的真實(shí)數(shù)據(jù)帶有測(cè)量誤差. 自20世紀(jì)80年代以來,文獻(xiàn)中對(duì)非參數(shù)測(cè)量誤差模型的研究取得了許多重要的進(jìn)展,可參考文獻(xiàn)Carroll[8]、Fan等[9]. 其中Carroll[8]利用模擬外推方法構(gòu)造了非參數(shù)均值回歸模型中非參數(shù)函數(shù)的估計(jì).本文受模擬外推方法的啟發(fā), 將該方法推廣到帶測(cè)量誤差的非參數(shù)眾數(shù)回歸模型中.
考慮如下帶測(cè)量誤差的非參數(shù)眾數(shù)回歸模型:
Yi=m(Xi)+εiWi=Xi+ui
(1)
我們假設(shè)εi的密度函數(shù)為g(ε), 那么g(ε)有唯一的眾數(shù)是0. 如果Xi能被直接觀測(cè)到, Yao和Xiang[5]基于核密度估計(jì)的方法給出下面的目標(biāo)函數(shù)
(2)
(3)
Cook和Stefanski[10]針對(duì)參數(shù)測(cè)量誤差模型,假設(shè)測(cè)量誤差的分布是正態(tài)分布時(shí),首次提出了模擬外推方法.模擬外推方法包括模擬步、估計(jì)步和外推步. 模擬步是用再抽樣的方法,用原始數(shù)據(jù)加上模擬誤差數(shù)據(jù)產(chǎn)生新數(shù)據(jù);估計(jì)步是將模擬步產(chǎn)生的新的數(shù)據(jù)看作是真實(shí)觀測(cè)值來得到估計(jì); 外推步是利用上一步得到的估計(jì),找出估計(jì)的變化規(guī)律, 進(jìn)而擬合出變化曲線,再外推到λ=-1時(shí)估計(jì)的值, 即得到所求的估計(jì).在本節(jié)中我們利用了局部線性光滑的思想來估計(jì)非參數(shù)函數(shù),具體過程如下:
(ii)估計(jì)步.假設(shè)函數(shù)m(·)在x0的領(lǐng)域內(nèi)有連續(xù)二階導(dǎo), 那么m(Xi)可以被線性函數(shù)逼近, 即
其中x為x0領(lǐng)域內(nèi)的點(diǎn),mj(x0)是m(x0)在x0處的j階導(dǎo), 由此來構(gòu)造m(λ;x0)的估計(jì)量:
第一步:對(duì)于每個(gè)固定的點(diǎn)x0,記θb(λ,h)=mb(λ;x0))=(θ0,b(λ),θ1,b(λ))=(m0,b(λ;x0),m1,b(λ;x0)),那么求θb(λ,h)的估計(jì)量可以歸結(jié)為極大化問題
(4)
(C1)m(x)在x0處有連續(xù)一階導(dǎo).
(C2)對(duì)于任意的x,g′(0|X=x)=0,g″(0|X=x)<0.g(v)(ε|X=x),v=0,1,2,3.在x0的領(lǐng)域內(nèi)連續(xù)有界,對(duì)所有的λ>0,有
(C3)f(x)有界,在x0處有連續(xù)一階導(dǎo)且f(x0)>0.
(C4)對(duì)任意的λ>0,當(dāng)n充分大時(shí),極大值θ(λ,h)是唯一的, 并且是下式方程的解
(C5)K(·)是緊支撐集[-1,1]上的關(guān)于0對(duì)稱的概率密度函數(shù).
(C6)假定推斷函數(shù)理論上是精確的.
(5)
證明 為了證明簡(jiǎn)便,下文以局部常數(shù)估計(jì)為例來進(jìn)行證明. 由R(W(λ))的定義可以證明:R(W(λ))=op(h1).
=∶Mn1+Mn2+Mn3
(6)
這里‖μ‖=c和‖θ*(λ,h)-θ(λ,h)‖≤can.
同樣的,我們還需要得到(6)式中Mn2的期望和方差, 經(jīng)過計(jì)算可得
其中
綜上可知
定理2 在定理1成立的條件下, 則有
證明 根據(jù)泰勒公式展開有
另外,我們有
注意到
(7)
對(duì)于j≠k的情形, 經(jīng)過計(jì)算有
(8)
由Cramer-Wald技術(shù)知
E[l(θ,λ)]=E[E(Kh1(W(λ)-x0)φh2(Y-θ)|X,Y)]
經(jīng)過計(jì)算可得
因此, 我們有
(9)
記Σ(Λ)J-1(Λ)Π(Λ)J-1(Λ).若且B充分大時(shí),方差變化不大,所以我們可以取λ=0, 記Σ(Λ)J-1ΠJ-1為λ=0時(shí)的方差矩陣.
(10)
結(jié)合(9)式、(10)式可得
證畢.
本節(jié)通過數(shù)值模擬驗(yàn)證文中所給估計(jì)在有限樣本下的優(yōu)越性. 我們考慮如下非參數(shù)眾數(shù)回歸模型:
圖1σu=0.3g(u)的估計(jì)曲線
Fig.1 Estimation of the functiong(u)(σu=0.3)
圖2 σu=0.4 g(u)的估計(jì)曲線Fig.2 Estimation of the function g(u)(σu=0.4)圖3 σu=0.5 g(u)的估計(jì)曲線Fig.3 Estimation of the function g(u)(σu=0.5)