吉 文 超
(重慶大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 401331)
(1)
考慮到使用混合效應(yīng)模型去估計(jì)光滑參數(shù)λ,下面將主要采用基于截?cái)喽囗?xiàng)式樣條基(TPFbases)的懲罰樣條方法(penalizedspline)去估計(jì)光滑回歸函數(shù)m(x)。從形式來(lái)講,二者更容易建立聯(lián)系。首先介紹p階截?cái)喽囗?xiàng)式樣條基(truncatedpolynomialbasis)
(2)
式(2)中,參數(shù)p,K分別表示樣條基的階數(shù)和節(jié)點(diǎn)個(gè)數(shù),從其形式上可以直接觀(guān)察到,系數(shù)參數(shù)βi,(i=0,1,…,p)和ui,(i=1,2,…,K)的估計(jì)值的優(yōu)劣將直接影響樣條模型對(duì)回歸函數(shù)曲線(xiàn)的擬合。Wand(2003)和Ruppert,etal.(2003)建立了基于截?cái)喽囗?xiàng)式基的懲罰樣條模型與混合效應(yīng)模型之間的聯(lián)系,并且通過(guò)混合效應(yīng)模型得到了樣條基系數(shù)的最優(yōu)線(xiàn)性無(wú)偏估計(jì)值(bestlinearunbiasedestimator)。
m(x)=Xβ+ZKu
Vλ
(3)
(4)
式(4)經(jīng)過(guò)分解化簡(jiǎn)后可變形為
在得到光滑參數(shù)λ的估計(jì)值后,由此得到參數(shù)系數(shù)β,u的最優(yōu)估計(jì)值,具體做法如下。
考察3種光滑參數(shù)的選擇方法,分別是GCV準(zhǔn)則,REML準(zhǔn)則和EM算法。將通過(guò)實(shí)驗(yàn)?zāi)M更直觀(guān)的展示不同選擇方法的差異性,下面以模型殘差作為主要分析對(duì)象去考察曲線(xiàn)擬合的優(yōu)劣,采用RASE(rootaveragesquarederror)作為評(píng)價(jià)準(zhǔn)則,即:
Cao(2010)曾用此準(zhǔn)則評(píng)價(jià)基于樣條方法的變系數(shù)模型函數(shù)系數(shù)擬合的優(yōu)劣,為了消除隨機(jī)性帶來(lái)的影響,分別進(jìn)行100次試驗(yàn),并取其均值作為最終RASE值。
表1 3種不同光滑參數(shù)選擇的對(duì)比
關(guān)于m1(x)的模擬分析,表中第一列和第一行分別對(duì)應(yīng)的是噪音水平和樣本容量。
首先選擇目標(biāo)函數(shù),即:
m1=4.26(e-3.25x-4e-6.5x+3e-9.75x)
其對(duì)應(yīng)的響應(yīng)變量是y1=m1+ε1,ε1服從正態(tài)分布,x定義在區(qū)間[0,1]上。在函數(shù)模擬過(guò)程中,為了更客觀(guān)地展示不同光滑參數(shù)選擇準(zhǔn)則的特點(diǎn),采用3種不同大小的樣本容量,分別為n=100,200,400和3種不同的方差大小σ=0.1,0.2,0.3,共計(jì)9組試驗(yàn)。在每一組試驗(yàn)中,分別求出基于3種不同光滑參數(shù)選擇方法下的RASE值,并作對(duì)比(表1),從表1中可以看出,基于GCV準(zhǔn)則和REML準(zhǔn)則的光滑參數(shù)選擇差異不大,并且隨著樣本量的增加差異會(huì)逐漸減小,但是整體而言,基于REML準(zhǔn)則的光滑參數(shù)選擇下的模型誤差要略大于前者,并且在相同樣本容量下,這種差異并不會(huì)因?yàn)闃颖痉讲畹娜趸鴾p小,而EM算法能在一定程度上減小因REML準(zhǔn)則欠光滑(undersmoothing)現(xiàn)象帶來(lái)的模型誤差。圖1表示的是在方差σ=0.3的情況下,基于EM算法的模型擬合情況,黑色曲線(xiàn)表示測(cè)試函數(shù)m1(x),另外3條擬合曲線(xiàn)分別表示在3種不同樣本容量大小下的模型擬合情況。如圖1所示,模型的擬合效果會(huì)隨著樣本量的增加而增加,特別當(dāng)n=400時(shí),藍(lán)色曲線(xiàn)與黑色曲線(xiàn)高度重合。
圖1 目標(biāo)函數(shù)m1(x)的散點(diǎn)圖光滑
圖2 關(guān)于motorcycle data的散點(diǎn)圖光滑
結(jié)合EM算法與REML方法來(lái)優(yōu)化光滑參數(shù),并與GCV方法和REML方法做了對(duì)比,結(jié)果顯示在大樣本情況下,EM算法能夠提高模型的擬合精度,并在實(shí)例分析中取得了較好的擬合效果。但是對(duì)于非正態(tài)樣本或者非獨(dú)立方差情形下該算法的適應(yīng)性和穩(wěn)定性問(wèn)題,仍需做更深入的研究。
參考文獻(xiàn):
[1] RUPPERT D,WAND M P,CARROLL R J. Semiparameteric Regression[M].Cambridge University: Cambridge university press, 2003
[2] SILVERMAN B W. Some Aspects of the Spline Smoothing Approach to Nonparametric Regression Curve Fitting[J].Journal of the Royal Statistical Society,1986,47:1-52
[3] KAUERMANN G. A Note on Smoothing Parameter Selection for Penalized Spline Smoothing[J]. Journal of statistical planning and inference ,2005,127:53-69
[4] WELHAM S J,CULLIS B R. A Comparison of Mixed Model Splines for Curve Fitting[J].Australian & New Zealand Journal of Statistics ,2007,49:1-23
[5] CAO Y,LIN H,WU T Z, et al. Penalized Spline Estimation for Functional Coefficient Regression Models[J].Computational statistics & data analysis,2010,54:891-905
[6] EILERS P H C,MARX B D. Flexible Smoothing with B-splines and Penalities[J]. Statistical science,1986(11):89-121
[7] LEE T C M. Smoothing Parameter Selection for Smoothing Splines:a Simulation Study[J]. Computational Statistics & Data Analysis,2003,42:139-148
[8] GIJBEL S ,VERHASSELT A. P-splines Regression Smoothing and Difference Type of Penalty[J]. Stat Comput,2010,20:499-511