国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于局部權(quán)重調(diào)節(jié)的自適應(yīng)LOESS方法

2019-02-28 03:32何云飛楊聯(lián)強(qiáng)
統(tǒng)計(jì)與決策 2019年1期
關(guān)鍵詞:權(quán)重局部函數(shù)

何云飛,楊聯(lián)強(qiáng)

(安徽大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,合肥 230601)

0 引言

假定觀測數(shù)據(jù) (X1,Y1),…(Xn,Yn),i=1,2, ...,n是來自二元總體(X,Y)的一組簡單隨機(jī)樣本,則X和Y之間的回歸模型通常建立為Yi=m(Xi)+εi,i=1,2,…n。其中X是預(yù)測變量,Y是響應(yīng)變量,m(x)稱作回歸函數(shù)。εi是隨機(jī)誤差,簡單情況下,通常假定εi,i=1,...,n。獨(dú)立同分布且E(εi|x=Xi)=0,則回歸分析的任務(wù)是求出回歸函數(shù)E(Y|X=x)=m(x)。

回歸模型的求解通常可分為參數(shù)方法和非參數(shù)方法[1]。如果m(x)為特定形式的函數(shù)形式,只是其中參數(shù)未知,通常稱為參數(shù)模型。經(jīng)典的參數(shù)模型代表是線性模型,該方法有完善的理論和應(yīng)用體系,被經(jīng)濟(jì)、社會(huì)等領(lǐng)域廣泛使用。但參數(shù)模型的缺點(diǎn)是先驗(yàn)的設(shè)定了回歸函數(shù)的形式,容易發(fā)生模型設(shè)定錯(cuò)誤[2]。非參數(shù)模型是對參數(shù)模型必要的補(bǔ)充,其并不用假定回歸函數(shù)的具體函數(shù)形式,而是用特定的方法將回歸函數(shù)構(gòu)造性的擬合出來[3]。經(jīng)典的非參數(shù)回歸的方法有很多,局部多項(xiàng)式回歸[4]是其中一種具有代表性的方法,Cleveland(1979)[5]將該方法擴(kuò)大到更一般的情況,Hastie和Tibshirani(1986)[6]對其更進(jìn)一步擴(kuò)展到多元模型。局部多項(xiàng)式回歸在很多場合有著非常好的表現(xiàn)[7],但局部多項(xiàng)式方法對于密集程度不均勻的數(shù)據(jù)(即非等間隔的數(shù)據(jù))擬合效果卻并不理想[8]。因此,改進(jìn)局部多項(xiàng)式回歸核函數(shù)中的帶寬成為一個(gè)有價(jià)值的研究問題[8.9]。其中,LOESS方法最初由Cleveland(1979)提出,后由Cleveland和Devlin(1988)[10]加以完善,該方法通過數(shù)據(jù)在預(yù)測變量上分布的稠密性來自動(dòng)調(diào)整局部權(quán)重,從而使得模型對非等間隔數(shù)據(jù)有更好的自適應(yīng)性。

然而,LOESS方法只是考慮數(shù)據(jù)在預(yù)測變量方向上分布的不均勻性,卻沒有考慮數(shù)據(jù)在響應(yīng)變量方向上波動(dòng)特征的非齊性。本文通過基于觀測數(shù)據(jù)局部波動(dòng)特征的調(diào)節(jié),構(gòu)造了一種新的自適應(yīng)LOESS方法,既保留了傳統(tǒng)的LOESS方法相對于局部多項(xiàng)式方法在非均勻分布數(shù)據(jù)擬合時(shí)的優(yōu)越性,又使得模型在擬合具有非齊性波動(dòng)特征的數(shù)據(jù)時(shí),有更良好的自適應(yīng)性。模擬和實(shí)際應(yīng)用的例子顯示該方法將優(yōu)于LOESS方法。

1 局部多項(xiàng)式回歸與LOESS回歸

首先對局部多項(xiàng)式回歸以及在此基礎(chǔ)上的LOESS方法作簡介。

設(shè) (X1,Y1),(X2,Y2),…(Xn,Yn)為來自 (X,Y)一組樣本值,其回歸函數(shù)形式為:

在局部多項(xiàng)等式m(Xi,x)中,當(dāng)預(yù)測點(diǎn)Xi接近x時(shí),在該點(diǎn)處的多項(xiàng)式則為:

式(1)是在x用Taylor公式展成p次多項(xiàng)式。其中局部多項(xiàng)式(1)中的系數(shù){a0(x),a1(x),a2(x),…,ap(x)}是使下式最小化所得到的:

其中使用高斯核函數(shù):

其中h是用來決定估計(jì)光滑度的正的常量,稱為帶寬。

為通過矩陣簡化計(jì)算,設(shè):

對角矩陣定義如下:

通過以上矩陣和向量可以將式(2)寫成矩陣形式如下所示:

并最小化即可得到其系數(shù)估計(jì)值為:

以上是局部多項(xiàng)式回歸,但是其缺點(diǎn)是對于處理非等間隔的數(shù)據(jù)時(shí)并不能達(dá)到一個(gè)很好的擬合效果。LOESS方法與局部多項(xiàng)式的區(qū)別在于通過帶寬的局部化,從而使得擬合目標(biāo)函數(shù)中權(quán)重局部化,即將式(2)改寫為:

其中w是核函數(shù),h是x和k的函數(shù),hk(x)定義為離x第k個(gè)近的點(diǎn)Xi到其的距離。若取s∈(0,1),令k=[ns],即取k是比ns大的最小整數(shù),s被稱為帶寬調(diào)節(jié)因子。相應(yīng)的,擬合的目標(biāo)函數(shù)變?yōu)椋?/p>

其中:

并最小化即可得到其系數(shù)估計(jì)值為:

從局部權(quán)重的對角矩陣中可以看出LOESS對密集程度不一致的數(shù)據(jù)有更好的自適應(yīng)性。

2 基于局部權(quán)重調(diào)節(jié)的自適應(yīng)LOESS方法

由上文可見,相比較局部多項(xiàng)式回歸中對角矩陣(3)中核函數(shù)的h固定不變,LOESS對角矩陣中的k近鄰距離

hk(x)能夠隨著數(shù)據(jù)關(guān)于Xi的密集程度而改變,在Xi密集的位置,hk(x)取值較小,而在Xi稀疏的位置,hk(x)取值較大。但是,這種方法沒有考慮觀測數(shù)據(jù)在Yi維度上的波動(dòng)特征。假設(shè)在所展開的x附近有離群點(diǎn)或者在縱向上有偏差較大的點(diǎn)時(shí)如果也按LOESS方法中距離越近其權(quán)重越大則容易導(dǎo)致較差的擬合效果?;谶@點(diǎn),在LOESS方法的基礎(chǔ)上,本文考慮構(gòu)造一個(gè)包含觀測數(shù)據(jù)在因變量方向上變化特征的權(quán)重,使得在所展開的(xi,Y(i))附近的點(diǎn)無論是從解釋變量方向上還是響應(yīng)變量方向上,距離(xi,Y(i))越遠(yuǎn)其權(quán)重越小,越近則權(quán)重越大。其中Y(i)為距xi最近的響應(yīng)變量,即當(dāng)xi為實(shí)際觀測值時(shí),Y(i)為xi對應(yīng)的因變量;當(dāng)xi為其取值范圍內(nèi)的非觀測點(diǎn)時(shí),Y(i)

則為距xi最近的因變量觀察值對應(yīng)的響應(yīng)變量觀測值。權(quán)重的構(gòu)造形式是在LOESS方法上作如下改進(jìn):

要估計(jì)系數(shù),最小化上式,其方法與步驟與LOESS方法一樣??山獾脼椋?/p>

其中:

在實(shí)際情況中,對于一固定點(diǎn)(x,Y(i)),其附近的點(diǎn)到其距離越近受其影響則越大(相關(guān)性越強(qiáng)),即無論在自變量方向上還是因變量方向上,到該點(diǎn)距離遠(yuǎn)的受到該點(diǎn)的影響較小,對應(yīng)的權(quán)重就小,反之,距離近的權(quán)重就大。

3 模擬

下面將通過三個(gè)實(shí)例來顯示改進(jìn)后的自適應(yīng)LOESS的擬合效果。并比較兩種方法在相同的帶寬下留一交叉驗(yàn)證得分(CV)值和估計(jì)的均方誤差(MSE)的大小。

例 1:(Doppler)函數(shù)表達(dá)式f(x)=5(x(1-x))0.5sin(2π(1+c)/(x+c)),c=0.05,yi=f(xi)+εi,xi∈[0,1],等間隔取值,εi~N(0,0.22)。取樣本容量為n=200的數(shù)據(jù)集并分別應(yīng)用傳統(tǒng)的和改進(jìn)后的LOESS方法進(jìn)行估計(jì),結(jié)果如圖1至圖3所示。其中,圖1分別是真實(shí)函數(shù)圖像和兩種方法所估計(jì)的函數(shù)圖像,其中兩種方法估計(jì)的函數(shù)圖像都是在最小的CV值下的圖像,此時(shí)兩者的差異并不明顯,但計(jì)算可得此時(shí)兩種方法的CV分別為0.43368和0.19837,MSE分別為6.7317和4.8673。圖2是在s=0.2時(shí)兩者的估計(jì)圖像,此時(shí)可明顯地看出改進(jìn)后的方法較傳統(tǒng)的LOESS方法有更好的擬合效果。圖3是CV值和MSE關(guān)于s的函數(shù)圖形,可以看出在相同帶寬下改進(jìn)后的自適應(yīng)LOESS的CV值和MSE均小于傳統(tǒng)的LOESS方法。

圖1 Doppler函數(shù)及其估計(jì)值圖像

圖2相同帶寬下的估計(jì)圖像

圖3MSE和CV關(guān)于帶寬參數(shù)s的變化圖像

例2:(Mexican Hat)該函數(shù)表達(dá)式為f(x)=-1+1.5x+0.2φ(x-0.6),其中φ表示標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù),,其中樣本容量為n=200。分別應(yīng)用傳統(tǒng)和改進(jìn)之后的LOESS進(jìn)行估計(jì),結(jié)果如圖4至圖6所示。圖4分別是真實(shí)函數(shù)圖像和兩種方法所估計(jì)的函數(shù)圖像,其中估計(jì)的函數(shù)圖像都是在兩種方法最小的CV值下的圖像,可看出改進(jìn)后的LOESS方法的估計(jì)效果更好。計(jì)算出此時(shí)兩種方法所對應(yīng)的是CV值分別是0.41076和0.193745,MSE分別為26.1369和0.8363。圖5是在s=0.15時(shí)兩者的估計(jì)圖像,此時(shí)兩者的估計(jì)效果均差于在各自最小的CV值下的圖像,但改進(jìn)后LOESS方法依舊優(yōu)于傳統(tǒng)LOESS方法。圖6可看出,在相同帶寬下改進(jìn)后的自適應(yīng)LOESS所求出的CV值和MSE均小于傳統(tǒng)的LOESS方法。

圖4 Mexican Hat函數(shù)及其估計(jì)圖像

圖5相同帶寬下的估計(jì)圖像

圖6MSE和CV關(guān)于帶寬參數(shù)s的變化圖像

例3:設(shè)f(x)=sin(0.1πx)+0.7sin(1.23πx)+0.5cos(2.7πx)+0.2sin(0.6πx),其中樣本形式為yi=f(xi)+εi,xi∈(0.2,0.3,…,19.9,20,20.5,…39.5,40),εi~N(0,0.22),樣本容量為238。分別應(yīng)用傳統(tǒng)和改進(jìn)后的LOESS方法進(jìn)行估計(jì),結(jié)果如圖7至圖9所示。圖7分別是真實(shí)函數(shù)圖像和兩種方法所估計(jì)的函數(shù)圖像,其中兩種方法估計(jì)的函數(shù)圖像都是在最小的CV值下的圖像,此時(shí)改進(jìn)后的方法在處理這樣波動(dòng)性較大且密集程度不一的數(shù)據(jù)時(shí)的能力明顯好于傳統(tǒng)LOESS,計(jì)算此時(shí)兩者的CV值分別為0.50736和0.21673,MSE分別為0.1982和0.1932。圖8是在各自最小的CV值下的圖像,改進(jìn)后的自適應(yīng)LOESS方法依舊優(yōu)于傳統(tǒng)LOESS方法。圖9可看出,在相同帶寬下改進(jìn)后的自適應(yīng)LOESS所求出的CV值和MSE均小于傳統(tǒng)的LOESS方法。

圖7模擬函數(shù)及其估計(jì)圖像

圖8相同帶寬下的估計(jì)圖像

圖9MSE和CV關(guān)于帶寬參數(shù)s的變化圖像

4 應(yīng)用

本文將用傳統(tǒng)LOESS和改進(jìn)后的自適應(yīng)LOESS方法對2015年我國的A股收盤指數(shù)進(jìn)行估計(jì),數(shù)據(jù)來源于Wind(萬得數(shù)據(jù)庫)。

圖10在s所能取到的最小值時(shí)的擬合圖像

圖11殘差圖

圖10并不能明顯觀測出兩種方法的估計(jì)的差異,然而從圖11可以看出傳統(tǒng)LOESS方法的殘差的波動(dòng)性方面差于改進(jìn)后的LOESS。傳統(tǒng)LOESSS方法的殘差不僅總體上比自適應(yīng)LOESS方法大,而且出現(xiàn)了顯著的異方差性,而自適應(yīng)LOESS方法的殘差則平穩(wěn)很多。說明自適應(yīng)LOESS方法在處理觀測數(shù)據(jù)局部波動(dòng)特征非齊性時(shí)較傳統(tǒng)LOESS方法具有更強(qiáng)的自適應(yīng)性。

5 總結(jié)

本文針對局部多項(xiàng)式擬合的思想,通過構(gòu)造包含因變量方向上變化特征的權(quán)重并加入LOESS模型,使得模型在估計(jì)因變量波動(dòng)特征具有局部非齊性時(shí)具有更強(qiáng)的自適應(yīng)性。相比于傳統(tǒng)LOESS方法,新方法并沒有顯著提升模型復(fù)雜度,卻提高了對這些復(fù)雜數(shù)據(jù)的擬合精確性。模擬和實(shí)際應(yīng)用顯示新方法明顯提升了對復(fù)雜數(shù)據(jù)的擬合和趨勢濾波能力。當(dāng)然,對該方法估計(jì)結(jié)果的漸進(jìn)性質(zhì)分析是待完成的重要理論研究工作。

猜你喜歡
權(quán)重局部函數(shù)
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補(bǔ)償性辱虐管理行為?*
爨體蘭亭集序(局部)
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
二次函數(shù)
函數(shù)備考精講
權(quán)重常思“浮名輕”
凡·高《夜晚露天咖啡座》局部[荷蘭]
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
權(quán)重漲個(gè)股跌 持有白馬藍(lán)籌
车险| 恩施市| 民丰县| 佛教| 德江县| 巴东县| 广平县| 凭祥市| 肃南| 武义县| 来宾市| 灵石县| 黄冈市| 罗平县| 彭阳县| 府谷县| 彰化县| 霍城县| 修文县| 砚山县| 钦州市| 平度市| 张家口市| 华坪县| 青冈县| 白水县| 高密市| 安西县| 上饶市| 琼结县| 新巴尔虎左旗| 包头市| 仙居县| 宜城市| 福泉市| 威宁| 娄烦县| 吉木萨尔县| 鸡泽县| 白玉县| 临澧县|