沈冰+沈磊+倪曉芬
摘要: 目的 探討構(gòu)建并應(yīng)用自回歸求和移動(dòng)平均(autoregressive integrated moving average, ARIMA)模型預(yù)測(cè)原靜安區(qū)成人流感樣病例(influenza-like illness, ILI)就診百分比的可行性。
方法 基于2011—2014年上海市原靜安區(qū)的逐月成人ILI就診百分比,模型參數(shù)確定采用非條件最小二乘法,模型結(jié)構(gòu)依據(jù)簡(jiǎn)潔與殘差不相關(guān)原則確定,擬合優(yōu)度以許瓦茲貝葉斯準(zhǔn)則與赤池信息準(zhǔn)則評(píng)估,構(gòu)建成人ILI就診百分比預(yù)測(cè)的最優(yōu)ARIMA模型。以模型預(yù)測(cè)原靜安區(qū)2015年1—10月成人ILI就診百分比,計(jì)算實(shí)際值與預(yù)測(cè)值的相對(duì)誤差;并預(yù)測(cè)原靜安區(qū)2016年的成人ILI就診百分比。
結(jié)果
模型ARIMA(0,2,1)(1,1,0)12(無(wú)常數(shù)項(xiàng))對(duì)成人ILI就診百分比時(shí)間序列擬合良好,移動(dòng)平均參數(shù)(MA1=0.944)與季節(jié)自回歸參數(shù)(SAR1=-0.542)有統(tǒng)計(jì)學(xué)意義(P<0.001),殘差達(dá)到白噪聲(P>0.05),模型表達(dá)式為(1+0.542B)(1-B)2 (1-B12)Zt=(1-0.944B)μt。2015年1—10月的成人ILI就診百分比的預(yù)測(cè)值符合實(shí)際值的變動(dòng)趨勢(shì),相對(duì)誤差最小僅為4.45%。
結(jié)論 ARIMA模型可以較好地?cái)M合原靜安區(qū)成人ILI就診百分比的時(shí)間變動(dòng)趨勢(shì),能對(duì)成人ILI就診百分比進(jìn)行預(yù)測(cè),短期預(yù)測(cè)有較高的精度。
關(guān)鍵詞: ARIMA模型; 成人流感樣病例; 就診百分比; 預(yù)測(cè)中圖分類號(hào): R 183.3 文獻(xiàn)標(biāo)志碼: A
Abstract: Objective To explore the feasibility of constructing and applying the autoregressive integrated moving average(ARIMA)model for predicting the hospital-visiting percentage of adult influenza-like illness (ILI) in Jing-an District, Shanghai.
Methods An optimal ARIMA model for predicting the hospital-visiting percentage of adult ILI was established based on the monthly hospital-visiting percentage of adult ILI in Jing-an District of Shanghai from 2011 to 2014. The parameters of the model were determined through non-conditional least square method, the structure thereof was determined according to the concision principle and residual non-relevance principle, and the goodness of fit thereof was determined in accordance with Schwarz Bayesian Criterion(BSC) and Akaike Information Criterion (AIC). This model was applied to predict the monthly hospital-visiting percentage of adult ILI in Jing-an District from
January to October of 2015 and to calculate the relative error between the actual value and the predicted one; it was also used to predict the monthly hospital-visiting percentage of adult ILI in Jing-an District in 2016.
Results
The ARIMA model (0,2,1)(1,1,0)12 (without constants) could well fit the time series of the hospital-visiting percentage of adult ILI while both the moving average coefficient (MA1=0.944) and the seasonal autoregressive coefficient (SAR1=-0.542) had statistical significance(P<0.001) and the residual error reached white noise(P>0.05). The mathematic expression of the model was (1+0.542B) (1-B)2 (1-B12)Zt=(1-0.944B)μt. The predicted value for the hospital-visiting percentage of adult ILI from Jan., 2015 to Oct., 2015 was in conformity with the change trend of the actual value and the minimal relative error was only 4.45%.
Conclusion The ARIMA model can well fit the time-change trend of the hospital-visiting percentage of adult ILI of Jing-an District and can be used to forecast the hospital-visiting percentage of adult ILI while ensuring relatively high accuracy of short-term forecasts.
Keywords: ARIMA model; adult influenza-like illness; hospital-visiting percentage; forecast
流感樣病例(influenza-like illness, ILI)是指體溫高于38℃,同時(shí)伴有咽痛或咳嗽,而其他實(shí)驗(yàn)室診斷結(jié)果缺乏者。原靜安區(qū)是上海市的中心城區(qū),人口密度大,ILI是轄區(qū)內(nèi)常見(jiàn)的一種急性呼吸道傳染病。自回歸求和移動(dòng)平均(autoregressive integrated moving average, ARIMA)模型屬于時(shí)間序列分析的一種,隨著傳染病防治研究的深入,越來(lái)越多的研究將其應(yīng)用到傳染病預(yù)測(cè)[1-3]。本文采用ARIMA模型對(duì)上海市原靜安區(qū)哨點(diǎn)醫(yī)院門(mén)診每月成人ILI就診百分比數(shù)據(jù)構(gòu)建預(yù)測(cè)模型,并對(duì)2016年原靜安區(qū)成人ILI就診百分比開(kāi)展外部預(yù)測(cè),以評(píng)價(jià)該模型應(yīng)用于成人ILI就診百分比的短期預(yù)測(cè)價(jià)值,為科學(xué)開(kāi)展流行性感冒的預(yù)防控制提供可借鑒的依據(jù)。
1 資料與方法
1.1 資料來(lái)源
開(kāi)展預(yù)測(cè)成人ILI就診百分比的監(jiān)測(cè)資料,來(lái)自2011年1月—2014年12月上海市原靜安區(qū)哨點(diǎn)醫(yī)院發(fā)熱門(mén)診的每周ILI就診數(shù)和門(mén)急診就診病例總數(shù),將每周的數(shù)據(jù)進(jìn)行整理,以每月的ILI就診百分比為單位進(jìn)行模型擬合與預(yù)測(cè)。
1.2 研究方法
本研究對(duì)ILI就診百分比數(shù)據(jù)使用時(shí)間序列分析中的ARIMA模型進(jìn)行擬合與預(yù)測(cè)。通過(guò)平穩(wěn)序列、模型識(shí)別、參數(shù)確定和模型診斷、預(yù)測(cè)4個(gè)步驟進(jìn)行建模。模型結(jié)構(gòu)為ARIMA(p,d,q)×(P,D,Q)S,其中自回歸及移動(dòng)平均的階數(shù)分別設(shè)為p、q,差分次數(shù)為d,季節(jié)性自回歸及移動(dòng)平均的階數(shù)分別設(shè)為P、Q,季節(jié)性差分次數(shù)為D,季節(jié)周期設(shè)為s。模型擬合的數(shù)據(jù)來(lái)自2011年1月—2014年12月的監(jiān)測(cè)點(diǎn)ILI就診百分比,模型的預(yù)測(cè)效果以2015年1—10月的逐月ILI就診百分比進(jìn)行回代評(píng)價(jià),預(yù)測(cè)精度以ILI就診百分比實(shí)際值與預(yù)測(cè)值的相對(duì)誤差評(píng)價(jià),最后以2011年1月—2015年10月的每月ILI就診百分比建模預(yù)測(cè)2016年1—12月的ILI就診百分比。
1.3 統(tǒng)計(jì)學(xué)分析
采用SPSS 22.0軟件構(gòu)建逐月ILI就診百分比原始數(shù)據(jù)庫(kù),采用Time Series預(yù)測(cè)模塊開(kāi)展模型擬合與數(shù)據(jù)處理。
2 結(jié)果
2.1 平穩(wěn)序列
將2011年1月—2015年10月的每月ILI就診百分比制成時(shí)間序列圖(圖1),從序列圖中發(fā)現(xiàn)ILI就診百分比序列在2013年以前數(shù)據(jù)變異較大,序列的前后差別較明顯,季節(jié)周期性變化也較明顯,每年有冬季和夏季2個(gè)高峰。采用自然對(duì)數(shù)變換將原始數(shù)據(jù)轉(zhuǎn)變?yōu)榉讲钇椒€(wěn)的序列,為避免趨勢(shì)及季節(jié)的影響,再進(jìn)行2次一般差分及1次季節(jié)差分,最終原始數(shù)據(jù)轉(zhuǎn)換為1個(gè)較平穩(wěn)的隨機(jī)序列(圖2),滿足了ARIMA模型平穩(wěn)性的前提。
2.2 模型識(shí)別
根據(jù)上述處理步驟,明確了本模型應(yīng)為復(fù)合季節(jié)模型ARIMA(p,2,q)(P,1,Q)12,結(jié)合了季節(jié)性模型與連續(xù)性模型的特征,且模型周期為12個(gè)月。p、q值依據(jù)自相關(guān)及偏自相關(guān)函數(shù)分別定為0、1,即ARIMA(0,2,1)(P,1,Q)12。P、Q值則應(yīng)分別取0、1、2進(jìn)行擬合以獲得最佳結(jié)構(gòu)模型。
2.3 模型參數(shù)確定和模型診斷
參數(shù)確定依據(jù)非條件最小二乘法,以10為模型計(jì)算時(shí)的最大迭代次數(shù)。表1顯示了相關(guān)備選模型的擬合優(yōu)度統(tǒng)計(jì)量。對(duì)模型進(jìn)行診斷時(shí)包括檢驗(yàn)擬合優(yōu)度、參數(shù)有無(wú)統(tǒng)計(jì)學(xué)意義、檢驗(yàn)參數(shù)獨(dú)立性和殘差檢驗(yàn)4方面。較優(yōu)模型評(píng)價(jià)的準(zhǔn)則為貝葉斯SBC值及赤池AIC值都較小,以此為判斷標(biāo)準(zhǔn),同時(shí)考慮模型參數(shù)的統(tǒng)計(jì)學(xué)意義,獲得較優(yōu)模型ARIMA(0,2,1)(1,1,0)12。由于該模型常數(shù)項(xiàng)沒(méi)有統(tǒng)計(jì)學(xué)意義(P=0.362),不符合模型對(duì)簡(jiǎn)潔性的要求。因此,將常數(shù)項(xiàng)去除,再次擬合模型ARIMA(0,2,1)(1,1,0)12,所得模型的MA1與SAR1參數(shù)值分別為0.944和-0.542,均有統(tǒng)計(jì)學(xué)意義(P<0.001),模型擬合優(yōu)度高于早先的較優(yōu)模型ARIMA(0,2,1)(1,1,0)12,標(biāo)準(zhǔn)誤為0.362,SBC與AIC值分別為44.598和48.167。經(jīng)檢驗(yàn)參數(shù)獨(dú)立性,ARIMA(0,2,1)(1,1,0)12(非常數(shù)項(xiàng))的各項(xiàng)參數(shù)間無(wú)顯著相關(guān)性,相關(guān)系數(shù)rMA1,SAR1低至0.07。同時(shí),模型殘差序列的自相關(guān)與偏自相關(guān)函數(shù)均未超越可信限(圖3、圖4),提示模型為隨機(jī)殘差。經(jīng)檢驗(yàn),Box-Ljung統(tǒng)計(jì)量均無(wú)統(tǒng)計(jì)學(xué)意義(最小Box-Ljung為0.006,P=0.939),提示殘差為白噪聲,殘差的獨(dú)立性好。
通過(guò)對(duì)模型的診斷,得到最優(yōu)模型為ARIMA(0,2,1)(1,1,0)12(非常數(shù)項(xiàng)),以后移算子表示為:(1-Φ1B)212Zt=(1-θ1B)μt,將參數(shù)代入方程,得模型方程為:(1+0.542B) (1-B)2 (1-B12)Zt=(1-0.944B)μt , Zt為每月ILI就診百分比的自然對(duì)數(shù)。
2.4 回代模型及外推預(yù)測(cè)
以最優(yōu)模型ARIMA(0,2,1)(1,1,0)12(非常數(shù)項(xiàng))對(duì)2011年1月—2014年12月的逐月成人ILI就診百分比進(jìn)行擬合,并預(yù)測(cè)2015年1—10月的ILI就診百分比(圖5)。圖5展現(xiàn)了模型擬合2011年1月—2014年12月的結(jié)果,以及預(yù)測(cè)2015年1—10月的結(jié)果,可見(jiàn)模型對(duì)實(shí)際ILI就診百分比的擬合及預(yù)測(cè)結(jié)果良好,擬合值與預(yù)測(cè)值的動(dòng)態(tài)趨勢(shì)大致符合實(shí)際值。各月預(yù)測(cè)值與實(shí)際就診百分比的差距很小,2015年1—10月期間,ILI就診百分比的預(yù)測(cè)值與實(shí)際值的相對(duì)誤差最小,僅為4.45%,最大為43.11%。之后以2011年1月—2015年10月的數(shù)據(jù)重新擬合模型ARIMA(0,2,1)(1,1,0)12(非常數(shù)項(xiàng)),并外推預(yù)測(cè)2016年1—12月的ILI就診百分比。預(yù)測(cè)結(jié)果見(jiàn)表2,每月的ILI就診百分比波動(dòng)在0.92%~3.35%之間,冬季和夏季各有1個(gè)高峰,分別為1月的3.23%和7月的3.35%,與目前的實(shí)際情況相符。
3 討論
ARIMA模型是時(shí)間序列分析中的一種常用模型,近年來(lái),該模型在傳染病預(yù)測(cè)、預(yù)警領(lǐng)域應(yīng)用較為廣泛,特別適合于預(yù)測(cè)具有不典型特征,且判別困難的時(shí)間序列資料[4]。模型有綜合評(píng)估時(shí)序數(shù)據(jù)的隨機(jī)干擾、趨勢(shì)性與周期性的優(yōu)點(diǎn),并以模型參數(shù)對(duì)其進(jìn)行定量。當(dāng)實(shí)際工作中,對(duì)監(jiān)測(cè)數(shù)據(jù)的變化趨勢(shì)的主要影響因素很難判斷,也無(wú)法找到有關(guān)的數(shù)據(jù)時(shí),ARIMA模型就特別具有其使用的優(yōu)越性[5]。該模型的短期預(yù)測(cè)精確度相當(dāng)高。ILI就診百分比是間接反映流感流行強(qiáng)度的一個(gè)癥狀監(jiān)測(cè)指標(biāo),該指標(biāo)具有一定的季節(jié)周期性,但時(shí)間序列的特征并不典型。對(duì)成人ILI就診百分比的預(yù)測(cè)具有前瞻性意義的研究,通過(guò)將常規(guī)監(jiān)測(cè)與模型預(yù)測(cè)有機(jī)結(jié)合,有利于及時(shí)發(fā)現(xiàn)異常的變化情況。不同模型的預(yù)測(cè)效果與其應(yīng)用條件相關(guān)聯(lián), ARIMA模型可以不考慮影響ILI就診相關(guān)因素各自的效應(yīng),而是將其統(tǒng)一納入時(shí)間變量中進(jìn)行綜合分析,相對(duì)于其他預(yù)測(cè)模型具有更高的短期外推預(yù)測(cè)精度。
原靜安區(qū)成人ILI就診百分比的時(shí)間序列圖顯示變異較大,且有較明顯的季節(jié)性周期變化,呈非平穩(wěn)的時(shí)間序列。因此,建模前應(yīng)先進(jìn)行序列平穩(wěn)化,以滿足模型擬合的前提。原始數(shù)據(jù)經(jīng)過(guò)自然對(duì)數(shù)變換以平穩(wěn)方差化后,再通過(guò)2次一般差分與1次季節(jié)差分,從而獲得了接近平穩(wěn)的1個(gè)隨機(jī)序列。然后,依次通過(guò)模型識(shí)別與診斷,確定了最優(yōu)模型ARIMA(0,2,1)(1,1,0)12(非常數(shù)項(xiàng))。模型較好地?cái)M合了成人ILI就診百分比的各項(xiàng)實(shí)際值,獲得的2015年1—10月ILI就診百分比回代預(yù)測(cè)值與實(shí)際值具有較好的一致性,說(shuō)明采用ARIMA模型預(yù)測(cè)成人ILI就診百分比重復(fù)性優(yōu)、可靠性好。最后將2011年1月—2015年10月的數(shù)據(jù)建模并外推預(yù)測(cè)2016年的ILI就診百分比,模型擬合效果的驗(yàn)證理論上嚴(yán)謹(jǐn),應(yīng)用上可行。影響成人ILI就診的因素比較多,并且互相之間影響,本研究獲得的預(yù)測(cè)值是以數(shù)學(xué)模型為基礎(chǔ)的理想值,有可能與實(shí)際值呈一定的差異,但不失為ILI預(yù)警的一項(xiàng)科學(xué)依據(jù),并能進(jìn)一步為流感的防控提供指導(dǎo)方向。
參考文獻(xiàn)
[1]LIU Q,LIU X,JIANG B,et al.Forecasting incidence of hemorrhagic fever with renal syndrome in China using ARIMA model[J].BMC Infect Dis,2011,11: 218.
[2]EARNEST A,CHEN MI,NG D,et al.Using autoregressive integrated moving average (ARIMA) models to predict and monitor the number of beds occupied during a SARS outbreak in a tertiary hospital in Singapore[J].BMC Health Serv Res,2005,5:36.
[3]QUENEL P,DAB W. Influenza A and B epidemic criteria based on time series analysis of health services surveillance data[J].Eur J Epidemiol,1998,14(3):275-285.
[4]ALLARD R. Use of time-series analysis in infectious disease surveillance[J].Bull World Health Organ,1998,76(4):327-333.
[5]譚莘,田考聰. 數(shù)學(xué)模型在人群疾病預(yù)測(cè)研究中的應(yīng)用[J].中國(guó)醫(yī)院統(tǒng)計(jì),2005,12(1):83-85.
(收稿日期:2016-12-19)