国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自適應(yīng)N-W核回歸估計(jì)量的改進(jìn)

2018-04-08 11:23:09張穎
統(tǒng)計(jì)與決策 2018年5期
關(guān)鍵詞:密度估計(jì)估計(jì)量密度

張穎

(濟(jì)南大學(xué)數(shù)學(xué)科學(xué)學(xué)院,濟(jì)南250022)

0 引言

在傳統(tǒng)的回歸分析中,往往假定回歸函數(shù)有某種特定的數(shù)學(xué)形式,一般是線性的或可轉(zhuǎn)化為線性的形式?;貧w函數(shù)中包含若干個(gè)未知參數(shù),并假定“隨機(jī)誤差項(xiàng)”服從正態(tài)分布。然而在實(shí)際問題中,不一定可以假定上述條件(回歸為線性、誤差為正態(tài))成立,導(dǎo)致在實(shí)際應(yīng)用中往往存在模型設(shè)計(jì)的誤差。由于現(xiàn)在越來越多的數(shù)據(jù)不適合用參數(shù)回歸來進(jìn)行數(shù)據(jù)擬合,而非參數(shù)回歸是基于數(shù)據(jù)本身,所以非參數(shù)回歸越來越受到歡迎。自Stone(1977)[1]提出非參數(shù)回歸估計(jì)的權(quán)函數(shù)估計(jì)方法后,其方法引起了廣泛的重視。近幾十年來,權(quán)函數(shù)方法如核估計(jì)、局部多項(xiàng)式估計(jì)、近鄰估計(jì)等方法不斷發(fā)展完善,非參數(shù)回歸的理論和應(yīng)用取得了較大的進(jìn)展。在眾多非參數(shù)回歸方法中,核回歸估計(jì)是一種重要的、常用的估計(jì)方法,被廣泛應(yīng)用于各種統(tǒng)計(jì)問題的研究中。核回歸估計(jì)具有分析簡(jiǎn)單、便于實(shí)現(xiàn)等諸多優(yōu)點(diǎn),本文主要在N-W核回歸估計(jì)的基礎(chǔ)上研究了可變窗寬的自適應(yīng)N-W核回歸估計(jì),并提出了一種改進(jìn)的自適應(yīng)N-W核回歸估計(jì)。

1 N-W核回歸估計(jì)

顯然有

,g(x)=E(Y|X)=∫yf(x,y)dy,其中f(x,y)是fX(x)

(X,Y)的聯(lián)合密度函數(shù),f(x)是的X邊緣密度函數(shù)。

回歸函數(shù)g(x)的估計(jì)量,記為:

核估計(jì)既與樣本有關(guān),又與核函數(shù)k(?)及窗寬h有關(guān)。在給定樣本之后,一個(gè)核估計(jì)的性能就取決于核函數(shù)k(?)及窗寬h的選取。核函數(shù)k(?)的選擇并不是太重要,用不同的核所得到的估計(jì)在數(shù)值上非常類似。這個(gè)現(xiàn)象已經(jīng)被理論上的計(jì)算所證實(shí)。這表明風(fēng)險(xiǎn)對(duì)于核的選擇是很不敏感的[2]。在實(shí)際應(yīng)用中,經(jīng)常使用的核函數(shù)有Epanechnikov核函數(shù)k(u)=(1-u2)(|u|≤1)和高斯核函數(shù)k(u)=核估計(jì)量的窗寬h影響著估計(jì)的光滑程度。若h選的過大,則估計(jì)過于平滑,會(huì)使某些特征(如多峰性)被淹沒,若h選的過小,整個(gè)估計(jì)特別是尾部就出現(xiàn)較大的干擾,從而又有增大方差的趨勢(shì)。因此窗寬h的選擇非常重要。最常使用的窗寬選擇方法主要有缺一交叉驗(yàn)證法和插入法。其中,插入法主要基于核密度估計(jì)精度的測(cè)量——均方誤差分析中得來;缺一交叉驗(yàn)證法(leave-one-out cross validation,簡(jiǎn)稱CV)由Rudemo(1982)[3]和Bowman(1984)[4]從實(shí)際計(jì)算的角度提出。在缺一交叉驗(yàn)證法中,通過最小化缺一交叉驗(yàn)證函數(shù)CV(h)即可得到窗一交叉驗(yàn)證函數(shù)一個(gè)leave-one-out核估計(jì)量。其定義由樣本容量為n-1的樣本{(X1,Y1),…,(Xi-1,Yi-1),(Xi+1,Yi+1),…,(Xn,Yn)}來估計(jì)g(Xi)。該方法直接由數(shù)據(jù)“自動(dòng)”選擇窗寬。

2 自適應(yīng)核密度函數(shù)估計(jì)

當(dāng)n取定值時(shí),缺一交叉驗(yàn)證法得到的窗寬h是一個(gè)常數(shù),即它既不依賴于位置x也不依賴于數(shù)據(jù)點(diǎn)Xi。選出的固定窗寬無法隨樣本觀測(cè)值的稀疏程度進(jìn)行調(diào)整,這使得所得到的估計(jì)不能充分利用變量X的密度函數(shù)所提供的信息,估計(jì)結(jié)果會(huì)出現(xiàn)較大的誤差。另外,常數(shù)窗寬在待估回歸曲線具有復(fù)雜形狀時(shí),缺乏靈活性。因此,理想中的窗寬選擇應(yīng)該與樣本數(shù)據(jù)點(diǎn)的分散集中程度聯(lián)系起來。Breiman等(1977)[5]在密度函數(shù)估計(jì)的背景下提出了可變窗寬的概念。Abramson(1982)[6]和Silverman(1986)[7]分別對(duì)可變窗寬做了進(jìn)一步的研究。

Silverman(1986)[7]通過使用右厚尾數(shù)據(jù)表明固定窗寬的核估計(jì)量X(x)和(x,y)并不適合厚尾分布,Silverman提出了密度函數(shù)的可變窗寬的核估計(jì)量,即密度函數(shù)的自適應(yīng)核估計(jì)量。它允許窗寬變化,既可以對(duì)每個(gè)點(diǎn)x使用不同的窗寬,也可以對(duì)每個(gè)樣本數(shù)據(jù)點(diǎn)Xi使用不同的窗寬,這使得核密度估計(jì)更加靈活,更加適用于長(zhǎng)尾密度函數(shù)的估計(jì)。因此,它是N-W核估計(jì)的改良和推廣。

在一元情形,在樣本點(diǎn)Xi處的具有可變窗寬的自適應(yīng)核估計(jì)量定義為:

式(2)中的可變窗寬h(Xi)是一個(gè)依賴于Xi的可變窗寬,可變窗寬h(Xi)隨數(shù)據(jù)點(diǎn)Xi的變化而變化??勺兇皩挼囊肟梢苑从巢煌c(diǎn)的光滑程度,降低擬合曲線在峰頂區(qū)域的偏差以及尾部區(qū)域的方差,提高了擬合曲線的靈活性,適用于對(duì)復(fù)雜曲線的擬合。Abramson(1982)[6]在研究中提出h(Xi)與f(Xi成比例。在Abramson研究的基礎(chǔ)上,Silverman給出了自適應(yīng)核密度估計(jì)的算法。

步驟2:定義局部窗寬因子λi={(Xi)g}-α,其中g(shù)(g≠0)為(Xi)的幾何平靈敏度參數(shù),滿足0≤α≤1。

從式(3)可以看出,自適應(yīng)窗寬h(Xi)=hλi。當(dāng)靈敏度參數(shù)α=0時(shí),自適應(yīng)核密度估計(jì)與固定窗寬的核密度估計(jì)相等;當(dāng)α=1時(shí),自適應(yīng)核密度估計(jì)與近鄰核估計(jì)相等。Abramson和Silverman的研究表明,在實(shí)際應(yīng)用中,當(dāng)α=0.5時(shí),自適應(yīng)核密度估計(jì)效果最好。

利用乘積核函數(shù),同時(shí)使用可變窗寬代替固定窗寬,Sain(1994)[8]給出r元密度函數(shù)的自適應(yīng)核密度估計(jì)的二元聯(lián)合密度函數(shù)的核密度估計(jì)定義為(x,y)=

3 自適應(yīng)N-W核回歸估計(jì)

證明:

利用核函數(shù)的性質(zhì)1和性質(zhì)2,就可以得到自適應(yīng)NW核回歸估計(jì)量:

取可變窗寬h(Xi)=λih,則自適應(yīng)N-W核回歸估計(jì)量

公式(4)中的局部窗寬因子λi可由Silverman關(guān)于自適應(yīng)密度函數(shù)估計(jì)的算法得到。在計(jì)算局部窗寬因子λi可得到一個(gè)改進(jìn)的自適應(yīng)N-W核回歸估計(jì)量

本文將通過模擬研究來比較N-W核估計(jì)量(NW)、自適應(yīng)N-W核估計(jì)量(ANW)、改進(jìn)的自適應(yīng)N-W核估計(jì)量(A*NW)三者的估計(jì)效果。

4 模擬

為了比較文中所提到的三種核回歸估計(jì)量的估計(jì)效果,本文利用以下兩個(gè)模型分別模擬容量為200的兩個(gè)樣本來做模擬研究。

模型1:Y=Xsin2πX+ε,其中ε~N(0,0.1),X~U[0,1]。

模型2:Y=cos2πX+ε,其中ε~N(0,0.1),X~U[0,1]。

采用Epanechnikov核函數(shù),真實(shí)回歸函數(shù)曲線g(x)和由三種核估計(jì)量得到的擬合曲線如圖1和圖2所示。

圖1模型1的核估計(jì)回歸曲線

圖2模型2的核估計(jì)回歸曲線

使用擬合優(yōu)度和均方誤差(MSE)來評(píng)價(jià)三種估計(jì)量的估計(jì)效果在兩種模型下,分別計(jì)算出三種核回歸估計(jì)量的MSE值,計(jì)算結(jié)果見表1。

表1 利用Epanechnikov核函數(shù)得到的核估計(jì)量的擬合優(yōu)度和均方誤差

從表1可以看出,在兩種模型下,采用Epanechnikov核函數(shù),可變窗寬的自適應(yīng)N-W核回歸估計(jì)量的MSE值都比固定窗寬的N-W核回歸估計(jì)量的MSE值小,特別是改進(jìn)的自適應(yīng)N-W核回歸估計(jì)量的MSE值都是最小的,這說明文中所提出的方法同N-W核估計(jì)、自適應(yīng)N-W核估計(jì)相比,優(yōu)越性更加明顯。

5 實(shí)例

研究加拿大工人收入(income)和年齡(age)的關(guān)系,該數(shù)據(jù)來源于R程序包“SemiPar”,樣本觀測(cè)值為205,解釋變量為age,被解釋變量為log.income(log.income=log(income))。本文分別應(yīng)用N-W核回歸估計(jì)量和兩種自適應(yīng)N-W核回歸估計(jì)量來擬合age與log.income之間的函數(shù)關(guān)系。圖3是采用Epanechnikov核函數(shù)計(jì)算出的三種N-W核回歸估計(jì)量得到的回歸擬合曲線。

圖3利用Epanechnikov核函數(shù)得到的核估計(jì)回歸曲線

由圖3可以看出,從整體擬合效果上觀察,文中提出的改進(jìn)的自適應(yīng)N-W核估計(jì)方法優(yōu)于其他兩種估計(jì)方法,而自適應(yīng)N-W核回歸方法優(yōu)于N-W核回歸估計(jì)方法,同時(shí)發(fā)現(xiàn)可變窗寬的自適應(yīng)N-W核回歸估計(jì)明顯優(yōu)于固定窗寬的N-W核回歸估計(jì),特別是在稀疏樣本點(diǎn)和邊界點(diǎn)處,表現(xiàn)得更為明顯。使用固定窗寬的N-W核回歸分析方法擬合時(shí),邊界點(diǎn)的估計(jì)偏差較大,即存在邊界效應(yīng),而用可變窗寬的自適應(yīng)N-W核回歸分析方法卻能很好地減少邊界效應(yīng)。通過實(shí)例,進(jìn)一步驗(yàn)證了模擬研究中的結(jié)論。

6 結(jié)論

為了更好地估計(jì)回歸函數(shù),本文對(duì)自適應(yīng)N-W核回歸估計(jì)進(jìn)行了研究。模擬研究結(jié)果表明,具有可變窗寬的自適應(yīng)N-W核回歸估計(jì)比固定窗寬的N-W核回歸估計(jì)的估計(jì)效果更好,對(duì)于一個(gè)自適應(yīng)N-W核回歸估計(jì)量來說,使用算術(shù)均值得到的窗寬比使用幾何均值得到的窗寬在估計(jì)效果上有更大的優(yōu)勢(shì)??傊?,本文所用的可變窗寬核回歸方法,繼承了核回歸的優(yōu)點(diǎn),并且使用可變窗寬提高了估計(jì)的效果,并使之能成功地處理復(fù)雜形狀的曲線的擬合問題。

參考文獻(xiàn):

[1]Stone C J.Consistent Nonparametric Regression[J].Annals of Statistics,1977,5(4).

[2]Brown L D,Zhang C H.Asymptotic Equivalence Theory for Nonparametric Regression With Random Design[J].Annals of Statistics,2003,30(3).

[3]Rudemo M.Empirical Choice of Histograms and Kernel Density Estimation[J].Scandinavian Journal of Statistcs,1982,(9).

[4]Bowman A W.An Alternative Method of Cross-validation for the Smoothing of Density Estimates[J].Biometrika,1984,71(2).

[5]Breiman L,Meisel W,Purcell E.Variable Kernel Estimates of Multivate Densities[J].Technometrics,1977,(19).

[6]Abramson I S.On Bandwidth Variation in Kernel Estimates-A Square Root Law[J].Annals of Statistics,1982,10(4).

[7]Silverman B W.Density Estimation for Statistics and Data Analysis[M].London:Chapman&Hall,1986.

[8]Sain S R.Adaptive Kernel Density Estimation[D].Texas:Rice University,1994.

猜你喜歡
密度估計(jì)估計(jì)量密度
m-NOD樣本最近鄰密度估計(jì)的相合性
面向魚眼圖像的人群密度估計(jì)
『密度』知識(shí)鞏固
密度在身邊 應(yīng)用隨處見
基于MATLAB 的核密度估計(jì)研究
科技視界(2021年4期)2021-04-13 06:03:56
“玩轉(zhuǎn)”密度
密度應(yīng)用知多少
淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測(cè)點(diǎn)最優(yōu)配置
負(fù)極值指標(biāo)估計(jì)量的漸近性質(zhì)
金门县| 大城县| 凯里市| 昂仁县| 威远县| 罗源县| 丹寨县| 安义县| 尼勒克县| 祁东县| 榆社县| 淅川县| 波密县| 桐庐县| 芦山县| 巴楚县| 中卫市| 绥滨县| 孙吴县| 霍山县| 开化县| 池州市| 牡丹江市| 锡林郭勒盟| 木兰县| 西畴县| 马关县| 南靖县| 喀什市| 安陆市| 镇赉县| 鹤峰县| 无极县| 利川市| 怀来县| 恩平市| 昌江| 司法| 石林| 工布江达县| 泊头市|