吳琳琳 孫曉冬 胡家瑜 李智 楊建萍
摘要:【目的】探討時間序列模型在流行性腮腺炎(流腮)預測中的應用,建立上海市流腮發(fā)病的預測模型,預測2017年上海市流腮發(fā)病趨勢。
【方法】收集中國疾病監(jiān)測信息報告系統(tǒng)中的上海市2005年1月—2016年12月流腮月報告發(fā)病資料,使用SPSS軟件進行建模,考慮季節(jié)因素建立ARIMA (Autoregressive Integrated Moving Average)乘積季節(jié)預測模型,并用所建模型預測上海市2017年流腮發(fā)病趨勢。
【結(jié)果】ARIMA(1,0,0)(1,1,0)12可較好地擬合流腮發(fā)病的時間序列趨勢,對2005—2016年流腮發(fā)病數(shù)預測值與實際值吻合程度高,平均相對誤差為879%,2017年流腮預測病例數(shù)為2656例。
【結(jié)論】ARIMA乘積季節(jié)模型可較好地擬合流腮發(fā)病的時間序列趨勢;與2016年相比,預測2017年流腮報告發(fā)病數(shù)相對平穩(wěn)。
關(guān)鍵詞:時間序列分析;流行性腮腺炎;預測
中圖分類號:R1818 文獻標志碼:ADOI:1019428/jcnkisjpm201818669
引用格式:吳琳琳,孫曉冬,胡家瑜,等.上海市流行性腮腺炎疫情時間序列模型建立的初探[J].上海預防醫(yī)學,2018,30(7):557561.
流行性腮腺炎(簡稱“流腮”)是一種在全球范圍內(nèi)廣泛流行的急性呼吸道傳染病,其疾病譜從隱性感染至無菌性腦膜炎、睪丸炎、耳聾等,且疾病嚴重程度隨年齡增長而增加[1]。多發(fā)于兒童和青少年,亦可見于成人, 且年長的青少年和成人的發(fā)病率有上升的趨勢[24]。
時間序列預測是根據(jù)現(xiàn)在與過去的隨機序列的樣本取值,對未來某一時間段的隨機變量記性估計[5]。ARIMA是時間序列分析方法中重要的預測模型之一,其綜合考慮了長期趨勢、周期變化和隨機干擾因素,借助模型參數(shù)的變化對數(shù)據(jù)進行量化表達,可以達到較好的預測效果[67]。本研究旨在通過對流腮歷史報告發(fā)病數(shù)的分析,采用時間序列分析中的ARIMA模型進行流腮報告發(fā)病數(shù)的擬合,建立流腮報告發(fā)病數(shù)的預測模型, 并對2017年上海市流腮發(fā)病趨勢進行預測。
1材料與方法
11資料來源
流腮發(fā)病資料來源于中國疾病監(jiān)測信息報告系統(tǒng)。[JP2]按發(fā)病日期收集2005年1月—2016年12月上海市流腮的分月報告發(fā)病數(shù)進行時間序列分析。[JP]
12方法
[JP2]采用SPSS 170統(tǒng)計軟件的ARIMA分析方法,通過數(shù)據(jù)處理及模型識別、[JP3]模型檢驗和產(chǎn)生預測等步驟對上海市2005—2016年流腮月發(fā)病數(shù)進行時間序列分析,并對2017年流腮月發(fā)病數(shù)進行預測。[JP]
ARIMA模型是傳統(tǒng)的時間序列模型,由Box和Jenkins于1970年提出,也稱為BoxJenkins模型。季節(jié)乘積性ARIMA模型是將隨機季節(jié)模型與ARIMA模型相結(jié)合,其結(jié)構(gòu)為ARIMA(p,d,q)(P,D,Q)s,其中(p,d,q)和(P,D,Q)分別為非季節(jié)性和季節(jié)性自回歸(AR)、差分(I)和移動平均(MA)的階數(shù),s代表季節(jié)周期。模型建立的主要步驟為[8]:① 序列平穩(wěn)化檢驗和處理:通過對已有時間序列數(shù)據(jù)進行差分,使該序列滿足零均值且方差不隨時間變化,根據(jù)差分次數(shù)確定d或(和)D。② 模型識別:序列平穩(wěn)后,通過觀察序列的自相關(guān)系數(shù)(autocorrelation function,ACF)、偏自相關(guān)系數(shù)(partial autocorrelation function, PACF)和SPSS 擬合結(jié)果,確定備選模型。③ 參數(shù)估計和模型檢驗:利用非線性最小二乘法估計模型參數(shù),ARIMA 模型篩選依據(jù)為貝葉斯信息準則(Bayesian information criterion BIC)、殘差和模型檢驗分析。對模型的參數(shù)進行統(tǒng)計學檢驗和殘差的白噪聲檢驗。④ 模型預測:用所篩選的最優(yōu)模型,對模型進行預測,得到原序列將來的趨勢。根據(jù)預測值與實際值的平均預測相對誤差來評價預測效果。
2結(jié)果
21流腮報告病例時間分布情況
2005年1月—2016年12月上海市流腮月報告發(fā)病數(shù)波動較大,每年均出現(xiàn)夏季的發(fā)病高峰月份,且發(fā)病高峰出現(xiàn)的時間比較一致,呈明顯的周期性、季節(jié)性變化(圖1)。
22建立模型
221序列的平穩(wěn)化處理通過原始時間序列圖發(fā)現(xiàn),原始時間序列不滿足平穩(wěn)性的要求,且存在以12個月為一個周期的季節(jié)性波動,[JP2]同時游程檢驗結(jié)果顯示,流腮游程數(shù)為28,檢驗統(tǒng)計量Z=-7229, P<001,表明其序列不滿足序列平穩(wěn)性要求,需進行平穩(wěn)化處理。對原始序列進行1次季節(jié)性差分,消除季節(jié)的影響。差分后序列的均值在0上下波動(圖2),認為此時序列已消除了季節(jié)影響,基本符合ARIMA模型的平穩(wěn)性的要求。[JP]
222模型的建立與檢驗對差分后的數(shù)據(jù)序列進行ACF和PACF分析,ACF,PACF函數(shù)既不截尾也不拖尾,也不呈線性衰減趨勢,判斷數(shù)據(jù)序列適合于乘積季節(jié)模型(圖3、圖4)。根據(jù)差分情況以及序列特征,可初步判斷該時間序列為符合季節(jié)模型ARIMA(p,0,q)(P,1,Q)指定“專家建模器”擬合ARIMA模型并自動檢測加法離群值,自動識別模型參數(shù)為ARIMA(1,0,0)(1,1,0)12。通過擬合優(yōu)度統(tǒng)計量比較多個模型間的擬合優(yōu)劣性,BIC值較小的模型較好。分析發(fā)現(xiàn)最優(yōu)模型為ARIMA(1,0,0)(1,1,0)12。BIC=-1913,殘差LjungBox Q=16028,P=0451,差異無統(tǒng)計學意義,可認為殘差序列為白噪聲。
223預測用ARIMA(1,0,0)(1,1,0)12模型對2005—2016年流腮分月病例數(shù)進行回代擬合,結(jié)果顯示,ARIMA擬合值與真實值之間基本吻合,均落入95%置信區(qū)間內(nèi),平均相對誤差為879%。應用該模型預測2017年1—12月上海市流腮月發(fā)病數(shù)(表1),并繪制實際值與預測值序列圖(圖5),發(fā)現(xiàn)實際值與預測值基本吻合,進一步計算可得2017年擬合流腮病例數(shù)為2656例。
3討論
時間序列分析是一種重要的現(xiàn)代統(tǒng)計分析方法,[JP2]其模型廣泛地應用于自然領(lǐng)域、社會領(lǐng)域和科學研究。ARIMA模型是最常用的時間序列模型,其建模預測精度較高,可較好地用于疾病發(fā)病或死亡的預測預報,特別是針對有季節(jié)性變動的時間序列[9]??紤]到季節(jié)性和周期性等因素對平穩(wěn)性的影響,本研究采用了ARIMA模型。此外,由于在總?cè)丝跀?shù)沒有太大波動時,發(fā)病人數(shù)本身也能反映疾病疫情的發(fā)展趨勢。因此,本文直接用發(fā)病人數(shù)的預測來了解未來流腮的發(fā)病情況。[JP]
本研究用上海市2005—2016年共計168個月的流腮發(fā)病數(shù)據(jù),建立了ARIMA預測模型,經(jīng)過模型檢驗,表明ARIMA模型能較好地用于流腮發(fā)病的預測,模型預測精度較高。對組內(nèi)資料的擬合結(jié)果顯示,發(fā)病數(shù)擬合值曲線與實際值曲線基本一致,流腮發(fā)病數(shù)實際值均落入擬合值的95%CI內(nèi)。2017年上海市流腮發(fā)病預測為2656例,較2016年的實際報告值2394例上升了1094%,較2016年預測值上升了107%,預測2017年流腮疫情應比2016年稍高,但變化不大。因此,要繼續(xù)落實麻腮或麻腮風疫苗的常規(guī)免疫接種工作,不斷監(jiān)督和落實腮腺炎疫情預防控制措施,以便及時有效地控制疫情。
本研究運用ARIMA模型建立了上海市流腮發(fā)病的時間預測模型,并對其預測效果進行了評價,達到了較好的擬合和預測效果,但本研究所用的數(shù)據(jù)僅包含時間和月發(fā)病例數(shù),并未包括其他造成發(fā)病變化的因素,如接種率情況、氣候變化情況及疫苗納入免疫規(guī)劃情況等等。因此,雖然模型統(tǒng)計量Q值顯示模型擬合較好,但模型解釋仍需謹慎。在實際應用中,由于所建模型是以歷史監(jiān)測數(shù)據(jù)序列為依據(jù)而建立的,時間序列分析是一種適合短期預測的技術(shù),隨著預測期的延長,會加大誤差,降低預測的精度。因此,在今后的工作中,可以繼續(xù)累積新數(shù)據(jù),加入流行的周期因素修正模型,進而提高預測精度,能更準確地指導防控工作。
參考文獻
[1]GALAZKA A M,ROBERTSON S E,KRAIGHER A.Mumps and mumps vaccine:a global review[J].Bull World Health Organ,1999,77(1):314.
[2]程玲,黃富禮,鐘利,等.流行性腮腺炎152例流行病學及臨床特點調(diào)查分析[J].現(xiàn)代醫(yī)藥衛(wèi)生,2014,30(6):839840,842.
[3]陸瑾,姜銘波,牟文,等.上海市黃浦區(qū)1990—2015年流行性腮腺炎流行趨勢分析[J].上海預防醫(yī)學,2017,29(5):358361.
[4]李未,常玥,靳妍.臺州市2004—2012年流行性腮腺炎流行病學分析[J].上海預防醫(yī)學,2013,25(8):437439.
[5]王春平,王志鋒,單杰,等.隨機時間序列分析法在傳染病預測中的應用[J].中國醫(yī)院統(tǒng)計,2006,13(3):229232.
[6]張愛紅,周培,申銅倩,等.乘積季節(jié)ARIMA模型在食源性疾病預測中的應用[J].中國衛(wèi)生統(tǒng)計,2014,31(1):6869,73.
[7]陳偉,陳正利,李少芬,等.ARIMA模型在河南省梅毒月發(fā)病率預測中的應用[J].中國衛(wèi)生統(tǒng)計,2013,30(4):604606.
[8]時照華,蘇虹,秦鳳云,等.ARIMA模型在常見呼吸道傳染病疫情預測中的應用[J].安徽醫(yī)科大學學報,2013,48(7):793786.
[9]梁景星.GM(1,1)灰色模型和ARIMA模型在我院季度入院人數(shù)預測中的比較分析[J].中國衛(wèi)生統(tǒng)計,2014,31(1):107109.
(收稿日期:20180205)