国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

時(shí)間序列中隨機(jī)型缺失數(shù)據(jù)的填補(bǔ)及預(yù)測(cè)效果比較*

2012-09-07 09:01李濟(jì)賓張晉昕
關(guān)鍵詞:插值法樣條周期性

李濟(jì)賓 張 熙 張晉昕

時(shí)間序列中隨機(jī)型缺失數(shù)據(jù)的填補(bǔ)及預(yù)測(cè)效果比較*

李濟(jì)賓1,2張 熙3張晉昕1△

目的 本文旨在通過(guò)填補(bǔ)時(shí)間序列資料中的隨機(jī)型缺失數(shù)據(jù)并擬合ARIMA模型,比較三種填補(bǔ)方法的填補(bǔ)和預(yù)測(cè)效果。方法 利用SAS產(chǎn)生平穩(wěn)、有周期性的時(shí)間序列并構(gòu)造不同比例的隨機(jī)型缺失,分別采用周期性填補(bǔ)法、均值填補(bǔ)法和三次樣條函數(shù)插值法進(jìn)行缺失數(shù)據(jù)的填補(bǔ),并對(duì)填補(bǔ)后序列擬合ARIMA模型進(jìn)行序列預(yù)測(cè)。采用配對(duì)t檢驗(yàn)對(duì)三種填補(bǔ)方法的填補(bǔ)誤差和序列預(yù)測(cè)誤差進(jìn)行比較。結(jié)果 三種填補(bǔ)方法的填補(bǔ)值與真值的差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05);隨著缺失比例的增大,周期性填補(bǔ)法的填補(bǔ)誤差和序列預(yù)測(cè)誤差均小于三次樣條函數(shù)插值法和均值填補(bǔ)法。結(jié)論 周期性填補(bǔ)法對(duì)于含有確切周期信息的時(shí)間序列缺失數(shù)據(jù),填補(bǔ)效果較優(yōu)。

缺失數(shù)據(jù) 時(shí)間序列 填補(bǔ) 周期性 三次樣條

1.中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080)

2.香港中文大學(xué)公共衛(wèi)生與基層醫(yī)療學(xué)院

3.復(fù)旦大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)與社會(huì)醫(yī)學(xué)教研室(200032)△通訊作者:張晉昕,E-mail:zhjinx@mail.sysu.edu.cn

缺失數(shù)據(jù)是醫(yī)學(xué)應(yīng)用研究中普遍存在的實(shí)際問(wèn)題。在對(duì)醫(yī)學(xué)時(shí)間序列數(shù)據(jù)進(jìn)行建模預(yù)測(cè)時(shí),序列的長(zhǎng)度和完整性對(duì)擬合模型的可靠性有影響。醫(yī)學(xué)時(shí)間序列的觀測(cè)值具有不可重復(fù)的特點(diǎn),缺失數(shù)據(jù)的隨意插補(bǔ)或跳過(guò),使擬合的模型難以很好地反映縱向數(shù)據(jù)的規(guī)律,制約了時(shí)間序列在醫(yī)學(xué)領(lǐng)域的應(yīng)用。因此,如何合理填補(bǔ)時(shí)間序列資料中的缺失數(shù)據(jù),進(jìn)而擬合合適的數(shù)學(xué)模型是醫(yī)學(xué)時(shí)間序列應(yīng)用中需要解決的一個(gè)重要問(wèn)題。

目前,針對(duì)時(shí)間序列缺失數(shù)據(jù)處理的技術(shù)主要基于時(shí)域信息,如刪除法、均數(shù)填補(bǔ)法、極大似然估計(jì)法、三次樣條函數(shù)插值法等〔1,2〕。實(shí)踐表明,三次樣條函數(shù)插值法是一種思路簡(jiǎn)明、效果較優(yōu)的補(bǔ)缺方法。這些方法共有的一個(gè)缺陷是,未能利用時(shí)間序列中蘊(yùn)含的周期信息。為此,本文探討一種基于序列周期信息,以不同周期的譜峰值作為權(quán)重的缺失數(shù)據(jù)填補(bǔ)方法,并利用模擬時(shí)間序列數(shù)據(jù)考核其填補(bǔ)效果。

資料與方法

1.模擬序列

在SAS9.1的軟件環(huán)境下,利用正弦函數(shù)Y=abs(sin(ωx))和正態(tài)分布函數(shù) ε=μ+sqrt(σ2)×rannor(seed),模擬產(chǎn)生μ=0,σ2=1,隨機(jī)波動(dòng)水平的月度時(shí)間序列,序列的周期設(shè)置為3、6和12個(gè)月。序列的起始時(shí)間設(shè)為1962年1月1日。模擬序列長(zhǎng)度設(shè)置為N=300。

隨機(jī)型缺失數(shù)據(jù)的構(gòu)造:利用SAS為模擬時(shí)間序列數(shù)據(jù)產(chǎn)生正態(tài)分布的隨機(jī)數(shù),根據(jù)隨機(jī)數(shù)的秩次依次將缺失數(shù)據(jù)的比例設(shè)置為5%,10%,15%,20%,25%,30%,35%,40%共8個(gè)檔次。

2.缺失數(shù)據(jù)填補(bǔ)方法

(1)均值填補(bǔ)法:以序列均數(shù)作為缺失數(shù)據(jù)的填補(bǔ)值。

(2)三次樣條函數(shù)插值法〔2〕

三次樣條函數(shù)插值法是時(shí)間序列中缺失數(shù)據(jù)填補(bǔ)的常用方法之一。設(shè)函數(shù)f(x)在給定區(qū)間[a,b]上有定義,其中a=x0<x1<…<xn=b是給定的n+1個(gè)插值節(jié)點(diǎn),若S(x)滿(mǎn)足條件:①S(x)在每個(gè)小區(qū)間[xj,xj+1]上是三次多項(xiàng)式;②S(x)在每一個(gè)內(nèi)節(jié)點(diǎn)上,S(x)∈C2[a,b];③S(x)在所有節(jié)點(diǎn)內(nèi)滿(mǎn)足S(xj)=f(xj)。則稱(chēng)S(x)是節(jié)點(diǎn)x0,x1,…,xn上的三次樣條函數(shù)。為了構(gòu)造特定的樣條插值函數(shù),還需增加邊界條件的限制。邊界條件可根據(jù)實(shí)際情況來(lái)確定,不同邊界條件下S(x)的表達(dá)式可以有多種表現(xiàn)形式。本文針對(duì)時(shí)間序列的三次樣條函數(shù)插值法,由SAS9.1軟件環(huán)境下的PROC EXPAND過(guò)程實(shí)現(xiàn)〔3〕。

(3)基于序列周期信息的填補(bǔ)法(下文簡(jiǎn)稱(chēng)作周期性填補(bǔ)法)

①以序列均值作為缺失數(shù)據(jù)的初始填補(bǔ)值;②利用周期圖峰值檢驗(yàn)的方法搜索序列中有統(tǒng)計(jì)學(xué)意義的m個(gè)隱周期,用I1,I2,…,Im表示對(duì)應(yīng)周期的譜峰值;③基于m個(gè)周期,分別計(jì)算不同周期位置上序列的均數(shù),將第i個(gè)缺失位置上的m個(gè)均數(shù)記為Xi(1),…,Xi(m);④ 以周期峰值I1,I2,…,Im作為權(quán)重,獲得第i個(gè)缺失位置的加權(quán)填補(bǔ)值Xi:

式中i表示缺失數(shù)據(jù)序號(hào)i=1,2,…,n,j表示隱周期序號(hào)j=1,2,…,m;

⑤用步驟④中填補(bǔ)后的完整序列,重復(fù)步驟②、③和④,直到前后兩次填補(bǔ)值的相對(duì)改變量δ≤0.01或迭代次數(shù)大于100次時(shí),停止迭代,獲得缺失數(shù)據(jù)的最終填補(bǔ)值。本文通過(guò)搜索周期圖的峰值個(gè)數(shù)來(lái)確定隱周期的初始個(gè)數(shù)r,周期性檢驗(yàn)的方法采用Priestley(1981)和Chiu(1989)提出的檢驗(yàn)統(tǒng)計(jì)量〔4〕。

3.填補(bǔ)效果比較

(1)填補(bǔ)誤差

采用均方根誤差(RMSE)和平均絕對(duì)誤差〔5〕(MAE)量化填補(bǔ)值與真實(shí)值之間的填補(bǔ)誤差。

其中,n為缺失數(shù)據(jù)序號(hào)i=1,2,…,n,Pi表示填補(bǔ)值,Qi表示真實(shí)值。

以缺失個(gè)數(shù)n為樣本量,用配對(duì)t檢驗(yàn)比較各填補(bǔ)方法的填補(bǔ)值與真值的差異;同時(shí)調(diào)整檢驗(yàn)水準(zhǔn)為α'=α/2=0.05/2=0.025,比較均值填補(bǔ)法、三次樣條函數(shù)插值法與周期性填補(bǔ)法的絕對(duì)填補(bǔ)誤差(|真實(shí)值-填補(bǔ)值|)的差異。

(2)絕對(duì)預(yù)測(cè)誤差

采用自回歸移動(dòng)平均求和模型進(jìn)行時(shí)間序列的模型擬合及序列預(yù)測(cè),簡(jiǎn)記為 ARIMA(p,d,q),其表達(dá)式為〔6〕:

式中,p和q分別表示自回歸和移動(dòng)平均的階數(shù),d為差分的階數(shù),Φ(B)=1-φ1B-…-φpBp,為p階自回歸系數(shù)多項(xiàng)式。Θ(B)=1-θ1B-…-θqBq,為q階移動(dòng)平均系數(shù)多項(xiàng)式。

按照時(shí)間順序逐段選擇觀測(cè)長(zhǎng)度為120的序列片段,進(jìn)行提前期l=1~12的預(yù)測(cè)(即t1=1~120,t2=2~121,…),直至預(yù)測(cè)末期觀測(cè)值為時(shí)間序列的末值,確保能夠從實(shí)測(cè)值得到預(yù)測(cè)誤差。以推移次數(shù)(n')作為樣本量,以三種方法的絕對(duì)預(yù)測(cè)誤差(絕對(duì)預(yù)測(cè)誤差=|真實(shí)值-預(yù)測(cè)值|)作為變量,進(jìn)行配對(duì)t檢驗(yàn),比較均值填補(bǔ)法、三次樣條函數(shù)插值法與周期性填補(bǔ)法絕對(duì)預(yù)測(cè)誤差的差異(其中檢驗(yàn)水準(zhǔn)調(diào)整為α'=α/2=0.05/2=0.025)。絕對(duì)預(yù)測(cè)誤差小的填補(bǔ)方法,其填補(bǔ)效果較優(yōu)。

結(jié) 果

1.不同缺失比例下三種方法的填補(bǔ)值與真值的差異

表1結(jié)果顯示,三種方法的填補(bǔ)值與真值之間的差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。進(jìn)一步繪制不同缺失比例下,三種方法填補(bǔ)值的平均誤差線圖。圖1顯示,周期性填補(bǔ)方法的曲線與參考線間的距離最小,而三次樣條函數(shù)插值法的曲線與參考線間的距離最大。

表1 不同缺失比例下三種方法的填補(bǔ)值與真值的比較

2.不同缺失比例下三種方法填補(bǔ)誤差的比較

表2為均值填補(bǔ)法、三次樣條函數(shù)插值法與周期性填補(bǔ)法的絕對(duì)填補(bǔ)誤差的比較結(jié)果。當(dāng)缺失比例大于15%時(shí),周期性填補(bǔ)法的絕對(duì)誤差小于均值填補(bǔ)法(P<0.025);此外,在各缺失比例下,周期性填補(bǔ)法的絕對(duì)誤差均小于三次樣條函數(shù)插值法對(duì)應(yīng)的絕對(duì)誤差(P<0.025)。

圖2為不同缺失比例下,三種填補(bǔ)方法填補(bǔ)值的平均絕對(duì)誤差(a)和均方根誤差(b)的曲線圖,周期性填補(bǔ)方法的平均絕對(duì)誤差和均方根誤差的曲線均始終位于均值填補(bǔ)法和三次樣條函數(shù)插值法所對(duì)應(yīng)曲線的下方。

3.缺失數(shù)據(jù)填補(bǔ)后序列擬合模型的預(yù)測(cè)誤差比較

為了進(jìn)一步比較三種方法的填補(bǔ)效果,由序列自相關(guān)函數(shù)和偏自相關(guān)函數(shù),對(duì)模擬時(shí)間序列進(jìn)行模型識(shí)別,最終確定原始序列的模型形式為:

圖1 不同缺失比例下三種填補(bǔ)方法填補(bǔ)值的平均誤差

利用此模型對(duì)三種方法填補(bǔ)后的完整序列建模并進(jìn)行提前期l=1~12的預(yù)測(cè)。在中期(l=6)和遠(yuǎn)期(l=12)的預(yù)測(cè)中,除缺失比例等于10%的情況,周期性填補(bǔ)法填補(bǔ)序列對(duì)應(yīng)的預(yù)測(cè)誤差均小于均值填補(bǔ)法和三次樣條函數(shù)插值法。此外,在近期(提前期l=1)的預(yù)測(cè)中,當(dāng)缺失比例大于10%時(shí),周期性填補(bǔ)法填補(bǔ)序列對(duì)應(yīng)的預(yù)測(cè)誤差小于均值填補(bǔ)法。

*:1:三次樣條函數(shù)與周期性填補(bǔ);2:均值填補(bǔ)與周期性填補(bǔ)。

圖2 三種填補(bǔ)方法的平均絕對(duì)誤差、均方根誤差隨缺失比例變化的線圖

表3 提前1、6、12期時(shí)三種填補(bǔ)方法在各缺失比例下的預(yù)測(cè)絕對(duì)誤差 (n'=169)

圖3顯示,在缺失比例小于10%的情況下,三種方法的絕對(duì)預(yù)測(cè)誤差的差別不大;隨著缺失比例的增大,三次樣條函數(shù)插值法的絕對(duì)預(yù)測(cè)誤差呈上升趨勢(shì);均值填補(bǔ)法和周期性填補(bǔ)法的絕對(duì)預(yù)測(cè)誤差均減小。同時(shí),趨勢(shì)圖顯示周期性填補(bǔ)法所對(duì)應(yīng)預(yù)測(cè)誤差的曲線始終位于均值填補(bǔ)法和三次樣條函數(shù)插值法所對(duì)應(yīng)曲線的下方。

圖3 不同缺失比例下,三種填補(bǔ)方法提前期l=1、6、12的平均絕對(duì)預(yù)測(cè)誤差變化趨勢(shì)

討 論

時(shí)間序列數(shù)據(jù)是按照時(shí)間順序取得的一系列觀測(cè)值,其典型的特征是相鄰觀測(cè)值之間存在相關(guān)性,使得時(shí)間序列觀測(cè)值相互間不獨(dú)立,從而致使通常的針對(duì)獨(dú)立數(shù)據(jù)的缺失數(shù)據(jù)填補(bǔ)方法在時(shí)間序列中不再適用。

本文針對(duì)基于時(shí)間序列周期信息的缺失數(shù)據(jù)加權(quán)填補(bǔ)方法〔7〕,利用模擬數(shù)據(jù)從填補(bǔ)誤差和預(yù)測(cè)誤差兩個(gè)方面對(duì)填補(bǔ)方法的填補(bǔ)效果進(jìn)行考核。結(jié)果顯示,三種方法的填補(bǔ)值均可以較好地估計(jì)出真實(shí)值,同時(shí)缺失比例大于15%時(shí),周期性填補(bǔ)法的填補(bǔ)誤差是三種方法中最小的。在提前期l=1、6、12的預(yù)測(cè)中,缺失比例大于10%以后,周期性填補(bǔ)法填補(bǔ)序列的預(yù)測(cè)誤差小于均值填補(bǔ)法和三次樣條函數(shù)插值法。此外,對(duì)于均值填補(bǔ)法,由于樣本均數(shù)在不同位置的多次出現(xiàn),容易導(dǎo)致低估變量的變異程度,進(jìn)而扭曲原始樣本的分布狀態(tài)〔8-9〕。

綜上所述,結(jié)合時(shí)間序列的周期信息,進(jìn)行加權(quán)填補(bǔ)的效果優(yōu)于普通的只利用時(shí)域信息的缺失數(shù)據(jù)填補(bǔ)方法,尤其是對(duì)于缺失比例較大的情況。另外,需要說(shuō)明的是,周期性檢驗(yàn)是“周期性填補(bǔ)法”的關(guān)鍵步驟之一,對(duì)于未蘊(yùn)涵確切周期信息的時(shí)間序列,周期性填補(bǔ)法將不再適用。

1.Wayne FV,Suzanne MC.A comparison of missing-data procedures for ARIMA time-series analysis.Educational and Psychological Measurement,2005,65(4):596-615.

2.郭昌言,高尚.三次樣條函數(shù)插值的推廣.科學(xué)技術(shù)與工程,2011,11(7):1507-1509.

3.高惠璇等編譯.SAS系統(tǒng)SAS/ETS軟件使用手冊(cè).北京:中國(guó)統(tǒng)計(jì)出版社,1998,232-252.

4.Michael Arits,Mathias Hoffmann.The detection of hidden periodicities:a comparison of alternative methods.Paper provided by European University Institute in its series Economics WorkingPapers with number ECO2004/10.

5.Heikki Junninena,Harri Niskaa,Kari Tuppurainenc,et al.Methodsfor imputation of missing values in air quality data sets.Atmospheric Environment.2004(38):2895-2907.

6.肖枝洪,郭明月.時(shí)間序列分析與SAS應(yīng)用.武漢:武漢大學(xué)出版社,2009,44-109.

7.張熙.基于周期信息的時(shí)間序列缺失值填補(bǔ)方法研究.廣州:中山大學(xué),碩士學(xué)位論文,2009.

8.RK Kunar,RM Chadraseker.Missing data imputation in cardiac dataset(survival prognosis).IJCSE,2010,2(5):1836-1840.

9.王睿.胃食管反流病流行病學(xué)調(diào)查及其缺失數(shù)據(jù)的處理方法研究.上海:第二軍醫(yī)大學(xué),博士學(xué)位論文,2009.

Prediction and Imputation for Missing Data at Random in Time Series

Li Jibin,Zhang Xi,Zhang Jinxin.School of Public Health,Sun Yat-sen University(510080),Guangzhou

ObjectiveIt is aimed to compare the effects of interpolation and prediction by imputing the missing data at random and fitting proper ARIMA models in time series.MethodsMissing data at random are generated with different missing proportions in simulated stationary time-series with periodicity.And then the missing data are interpolated using mean imputation,the cubic spline imputation and imputation based on periodicity.Prediction for imputed time-series is carried out by fitting a proper ARIMA model.The differences of interpolation and prediction from truth-data were analyzed using paired t test.ResultsThe differences between interpolation and truth-data were of no statistical significance.Both absolute interpolation errors and prediction errors in imputation based on periodicity were less than those of the cubic spline imputation and the mean imputation.ConclusionThe imputation based on periodicity showed better efficiency for missing data at random in time series with significant periodicity.

Missing data;Time series;Imputation;Periodicity;Cubic spline

2008年國(guó)家自然科學(xué)基金資助(30872182)

猜你喜歡
插值法樣條周期性
慢速抗阻訓(xùn)練:周期性增肌的新刺激模式
對(duì)流-擴(kuò)散方程數(shù)值解的四次B樣條方法
數(shù)列中的周期性和模周期性
《計(jì)算方法》關(guān)于插值法的教學(xué)方法研討
《計(jì)算方法》關(guān)于插值法的教學(xué)方法研討
一類(lèi)整數(shù)遞推數(shù)列的周期性
三次參數(shù)樣條在機(jī)床高速高精加工中的應(yīng)用
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測(cè)
如何快速解答抽象函數(shù)對(duì)稱(chēng)性與周期性的問(wèn)題
克里金插值法內(nèi)插IGS電離層圖精度分析
宣武区| 同德县| 巨鹿县| 峨边| 翁源县| 涟水县| 博客| 双鸭山市| 望谟县| 盐边县| 顺平县| 遂平县| 奉节县| 天水市| 萝北县| 林口县| 通州市| 光泽县| 英山县| 景德镇市| 安化县| 宝应县| 海盐县| 宁安市| 乡宁县| 南投市| 仁怀市| 郁南县| 江都市| 斗六市| 平果县| 金塔县| 兴业县| 克什克腾旗| 台中县| 邵阳市| 平安县| 额济纳旗| 金乡县| 邻水| 炉霍县|