石福艷 禹長蘭 楊 光 王素珍△
ARIMA模型在安丘市腎綜合征出血熱月發(fā)病率預(yù)測研究中的應(yīng)用*
石福艷1禹長蘭2楊 光1王素珍1△
目的探討ARIMA模型在安丘市腎綜合癥出血熱月發(fā)病率預(yù)測中的應(yīng)用,驗(yàn)證模型的可行性及其適用性。方法基于2000-2014年安丘市腎綜合癥出血熱發(fā)病資料,擬合及驗(yàn)證腎綜合癥出血熱的ARIMA模型。結(jié)果本研究構(gòu)建的ARIMA(0,1,1)(0,1,1)12模型,其預(yù)測結(jié)果與安丘市腎綜合癥實(shí)際發(fā)病情況基本吻合。結(jié)論ARIMA模型可用于安丘市腎綜合癥出血熱發(fā)病率的短期預(yù)測研究。
時間序列分析 ARIMA模型 腎綜合癥出血熱 發(fā)病率
腎綜合征出血熱(hemorrhagic fever with renal syndrome,HFRS)是一種由漢坦病毒(HV)屬中不同病毒引起的、經(jīng)嚙齒類動物傳播的自然疫源性疾病。腎綜合癥出血熱具有疫區(qū)范圍廣、疫區(qū)類型復(fù)雜、發(fā)病人數(shù)多、病死率高等特點(diǎn),是我國重點(diǎn)監(jiān)測的乙類法定報告?zhèn)魅静 D壳?,HFRS已波及70多個國家,我國是腎綜合征出血熱的高發(fā)國家,嚴(yán)重危害我國人民的健康。求和自回歸滑動平均模型法(autoregressive integrated moving average,ARIMA)作為一種有效時間序列預(yù)測方法,近年來在人口健康、環(huán)境衛(wèi)生及一些傳染病發(fā)病率預(yù)測等研究領(lǐng)域中廣為應(yīng)用[1-4],目前有關(guān)ARIMA模型在腎綜合征出血熱發(fā)病預(yù)測中的研究較少。簽于此,本研究采用ARIMA方法,基于安丘市腎綜合征出血熱發(fā)病資料,探討ARIMA模型在HFRS發(fā)病率預(yù)測應(yīng)用中的可行性,從而為安丘市HFRS的有效防控提供科學(xué)依據(jù)。
1.研究資料
本研究中的腎綜合征出血熱資料來自安丘市2000-2014年法定傳染病疫情年報、腎綜合征出血熱病例個案調(diào)查表及相關(guān)調(diào)查報告。其中2000-2013年的腎綜合征出血熱發(fā)病數(shù)據(jù)用于構(gòu)建ARIMA模型;2014年的發(fā)病數(shù)據(jù)用于模型的數(shù)據(jù)外驗(yàn)證。
2.研究方法
20世紀(jì)60年代美國學(xué)者Box和英國統(tǒng)計學(xué)者Jenkins提出了一套關(guān)于時間序列分析、預(yù)測和控制的方法,即Box-Jenkins建模方法。其中ARIMA模型是將時間序列視為一組依賴于時間的隨機(jī)變量,由自回歸模型AR(p)與移動平均模型MA(q)有效組合而成。ARIMA模型的建模步驟主要包括以下四個步驟[5]:(1)序列的平穩(wěn)化處理:對時間序列數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換或差分處理,使其滿足零均值且方差不隨時間變化;(2)模型的識別:根據(jù)現(xiàn)有數(shù)據(jù)擬合一個或多個ARIMA預(yù)測模型;(3)模型的參數(shù)估計及假設(shè)檢驗(yàn):對構(gòu)建的ARIMA模型的適用性進(jìn)行檢驗(yàn);(4)模型的應(yīng)用:基于前述步驟構(gòu)建、驗(yàn)證的ARIMA模型對未來某段時間的數(shù)值作出預(yù)測。通過以上三個步驟反復(fù)模擬,最終確定一個用于疾病預(yù)測的“局部最優(yōu)”的ARIMA模型。
本研究采用SPSS18.0軟件進(jìn)行ARIMA模型構(gòu)建及驗(yàn)證等相關(guān)研究。
1.2000-2013年安丘市HFRS發(fā)病情況
采用2000-2013年安丘市腎綜合征月發(fā)病資料繪制HFRS發(fā)病時間序列圖(見圖1)。由圖1可知,安丘市腎綜合征出血熱月發(fā)病數(shù)呈現(xiàn)明顯波動,每年均出現(xiàn)發(fā)病高峰月,其發(fā)病高峰呈明顯的、固定的季節(jié)性或周期性波動特點(diǎn),即每年11月份前后出現(xiàn)腎綜合征出血熱發(fā)病高峰。
圖1 2000-2013年安丘市腎綜合征出血熱月發(fā)病時序圖
2.HFRS預(yù)測模型構(gòu)建
(1)時間序列的平穩(wěn)化處理結(jié)果
根據(jù)2000-2013年腎綜合癥出血熱原始時間序列圖發(fā)現(xiàn)其月發(fā)病人數(shù)為非平穩(wěn)時間序列,需進(jìn)行平穩(wěn)化處理。前期嘗試采用不同的數(shù)據(jù)轉(zhuǎn)換及差分處理方法,以獲得平穩(wěn)的時間序列。研究結(jié)果顯示,將逐月發(fā)病人數(shù)進(jìn)行1次非季節(jié)差分和1次季節(jié)差分處理后,其時序圖、ACF圖和PACF圖的平穩(wěn)效果均較好。故初步確定腎綜合癥出血熱的ARIMA模型為ARIMA(p,1,q)(P,1,Q)12。
(2)模型的識別
ARIMA模型中的p,q和P,Q是待定的參數(shù),分別為連續(xù)模型和季節(jié)模型的自回歸階數(shù)和移動平均階數(shù)。根據(jù)平穩(wěn)化處理后的腎綜合癥發(fā)病人數(shù)的殘差A(yù)CF和PACF圖可知,殘差序列偏自相關(guān)函數(shù)和自相關(guān)函數(shù)基本在其可信區(qū)間內(nèi)。根據(jù)平穩(wěn)后的數(shù)據(jù)對ARIMA模型的自回歸階數(shù)和移動平均階數(shù)分別取0、1和2進(jìn)行模型擬合,并根據(jù)標(biāo)準(zhǔn)化BIC值的大小確定“最優(yōu)”擬合模型。擬合結(jié)果見表1。由表1可知,當(dāng)ARIMA模型中的p,q取值為0,且P,Q取值為1時,ARIMA模型的標(biāo)準(zhǔn)化BIC值最?。∟ormalized BIC=2.385),其殘差Ljung-Box Q=18.173,P=0.314,無統(tǒng)計學(xué)意義,可認(rèn)為該殘差序列為白噪聲序列。故該研究中的腎綜合癥月發(fā)病人數(shù)的最優(yōu)模型為ARIMA(0,1,1)(0,1,1)12,模型的表達(dá)式為:(1-B)(1-B12)Zt=(1-0.743B)(1-0.630B12)εt,t代表時間,Zt為月均發(fā)病人數(shù),B為后移算子,εt為隨機(jī)誤差。
表1 不同自回歸階數(shù)和移動平均階數(shù)ARIMA模型的擬合參數(shù)
(3)模型的參數(shù)估計及假設(shè)檢驗(yàn)
腎綜合癥出血熱發(fā)病預(yù)測模型ARIMA(0,1,1)×(0,1,1)12的參數(shù)估計結(jié)果顯示,模型誤差在任何時滯上其P值均大于0.05,表明該模型用于腎綜合癥發(fā)病預(yù)測是合適的。
(4)模型的預(yù)測應(yīng)用
運(yùn)用模型ARIMA(0,1,1)×(0,1,1)12對2001年1月至2013年12月的腎綜合癥發(fā)病人數(shù)進(jìn)行回代預(yù)測。結(jié)果顯示,ARIMA模型的擬合值與真實(shí)值之間基本吻合,均落入95%置信區(qū)內(nèi)。同時,應(yīng)用該預(yù)測模型對2014年1月至2014年12月的腎綜合癥出血熱逐月發(fā)病人數(shù)進(jìn)行預(yù)測。預(yù)測結(jié)果顯示,安丘市2014年腎綜合征出血熱實(shí)際發(fā)病人數(shù)與ARIMA模型預(yù)測的人數(shù)基本吻合,模型預(yù)測值與實(shí)際值的吻合情況見表2和圖2。
表2 安丘市2014年1月至12月腎綜合癥出血熱月發(fā)病人數(shù)實(shí)際值與預(yù)測值結(jié)果比較
圖2 安丘市2000-2014年腎綜合征出血熱月發(fā)病人數(shù)實(shí)際值與預(yù)測值時序圖
ARIMA模型是時間序列建模中的一種重要研究方法,由于其預(yù)測精度較高,目前被廣泛用于急性傳染病發(fā)病率的預(yù)測研究中。本研究利用2000-2013年安丘市腎綜合癥出血熱逐月發(fā)病數(shù)據(jù),擬合了ARIMA(0,1,1)×(0,1,1)12模型,并采用該擬合模型分析預(yù)測了2014年安丘市腎綜合癥出血熱的發(fā)病情況。研究結(jié)果顯示模型的預(yù)測值與實(shí)際值基本吻合,該結(jié)果提示ARIMA(0,1,1)×(0,1,1)12模型可以對安丘市腎綜合癥出血熱逐月發(fā)病情況進(jìn)行預(yù)測。然而,ARIMA模型在預(yù)測研究中只考慮了時間序列本身的特性,而未考慮其他的影響因素;另外,隨著預(yù)測時間的延長,預(yù)測的誤差將會增大,因而ARIMA模型更適用疾病的短期預(yù)測。因此,該模型在實(shí)際應(yīng)用時,為提高模型的預(yù)測精確度,需要不斷更新監(jiān)測數(shù)據(jù),對模型進(jìn)行動態(tài)修正。
相關(guān)研究顯示[6],只有基于足夠多的時間序列數(shù)據(jù),ARIMA預(yù)測模型才能得到較滿意的預(yù)測效果,通常認(rèn)為ARIMA型法至少需要50個以上的數(shù)據(jù)構(gòu)建模型。本研究在處理腎綜合征出血熱序列數(shù)據(jù)時也發(fā)現(xiàn),時間序列太短會導(dǎo)致模型構(gòu)建困難。另外,當(dāng)時間序列數(shù)據(jù)取較長時間序列時,可保證擬合模型的可靠性。本次研究采用了168個序列數(shù)據(jù)構(gòu)建模型,預(yù)測效果較好。但也有研究者提出,時間序列太長,也會影響模型預(yù)測的精確度,因而,時間序列長短的估計是一個值得深入研究的課題。
綜上所述,ARIMA模型可用于腎綜合癥出血熱的短期發(fā)病預(yù)測研究,本研究構(gòu)建的ARIMA模型可以為安丘市腎綜合癥出血熱的有效防控提供實(shí)踐依據(jù)。另外,該研究也可為安丘市其他傳染病的預(yù)防及控制研究工作提供理論參考。
[1]胡建利,梁祁,吳瑩,等.季節(jié)時間序列模型在菌痢發(fā)病預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2012,29(1):34-39.
[2]陳偉,陳正利,李少芳,等.ARIMA模型在河南省梅毒月發(fā)病率預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2013,30(4):604-606.
[3]孟蕾,王新華,白亞娜,等.甘肅省哨點(diǎn)醫(yī)院流感樣病例ARIMA模型預(yù)測.中國公共衛(wèi)生,2014,30(2):228-230.
[4]張越,王勝難,劉媛,等.應(yīng)用ARIMA模型對呼吸系統(tǒng)疾病月住院量及住院費(fèi)用的預(yù)測.中國衛(wèi)生統(tǒng)計,2015,32(2):197-200.
[5]孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計學(xué).北京:人民衛(wèi)生出版社,2002:358-371.
[6]陸波,閔思韜,閔紅星,等.應(yīng)用ARIMA模型預(yù)測麻疹發(fā)病率的可行性研究.中國衛(wèi)生統(tǒng)計,2015,32(1):106-107.
(責(zé)任編輯:郭海強(qiáng))
國家自然科學(xué)資金項(xiàng)目(81473071);山東省自然基金資助項(xiàng)目(ZR2013HM 045);山東省醫(yī)藥衛(wèi)生科技發(fā)展計劃項(xiàng)目(2015WS0067)
1.山東濰坊醫(yī)學(xué)院公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室(261053)
2.山東省安丘市疾病預(yù)防控制中心
△通信作者:王素珍,E-mail:wangsz@w fmc.edu.cn