楊其松 朱蒙曼 張?zhí)扈?謝 昀 胡國(guó)良 劉曉青
【提 要】 目的 對(duì)宜春市腎綜合征出血熱(HFRS)的發(fā)病趨勢(shì)進(jìn)行時(shí)間序列分析和預(yù)測(cè),為制定HFRS防治策略提供科學(xué)依據(jù)。方法 收集宜春市2005-2016年HFRS月發(fā)病率資料,通過(guò)統(tǒng)計(jì)軟件擬合ARIMA模型。結(jié)果 最終擬合為ARIMA(0,1,2)(0,1,1)12模型,殘差為白噪聲序列,預(yù)測(cè)值與實(shí)際值的平均相對(duì)誤差為15.64%,實(shí)際值均落在95%可信區(qū)間內(nèi),模型回歸系數(shù)有統(tǒng)計(jì)學(xué)意義,預(yù)測(cè)2017年7~12月累計(jì)發(fā)病率為1.794/10萬(wàn)。結(jié)論 ARIMA模型可用于宜春市腎綜合癥出血熱發(fā)病率的短期預(yù)測(cè)研究。
腎綜合癥出血熱(hemorrhagic fever with renal syndrome,簡(jiǎn)稱(chēng)為HFRS)是由漢坦病毒(hantaviruses,HV)引起的一種自然疫源性疾病,鼠類(lèi)為自然宿主和主要傳染源,臨床表現(xiàn)以高熱、腰痛、眼眶痛及腎功能損害為特征[1-3]。江西省自1961年在彭澤縣發(fā)現(xiàn)首例HFRS病例以來(lái)[4],迄今為止,疫區(qū)不斷擴(kuò)大,給人民群眾的生命財(cái)產(chǎn)帶來(lái)了巨大的損失。宜春市作為江西省的疫情重災(zāi)區(qū),報(bào)告發(fā)病數(shù)和年發(fā)病率始終位于全省前列[5]。近5年來(lái),宜春市腎綜合征出血熱發(fā)病數(shù)占全省病例數(shù)的49.71%(1607/3233)。為了解宜春市HFRS流行特點(diǎn)及未來(lái)的流行趨勢(shì),本研究通過(guò)自回歸移動(dòng)平均(ARIMA)模型對(duì)宜春市HFRS流行趨勢(shì)進(jìn)行預(yù)測(cè),探討ARIMA模型在HFRS中的預(yù)測(cè)效果,為宜春市HFRS防控提供科學(xué)依據(jù)。
1.資料
宜春市2005-2016年月發(fā)病率資料源自“中國(guó)疾病預(yù)防控制信息系統(tǒng)”,2005年1月至2016年12月HFRS月發(fā)病率作為擬合集建立模型,2017年1~6月HFRS月發(fā)病率為預(yù)測(cè)集檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果,最后對(duì)2017年7~12月的月發(fā)病率進(jìn)行預(yù)測(cè)。
2.方法
采用excel工作表錄入資料,應(yīng)用SPSS 19.0對(duì)資料進(jìn)行統(tǒng)計(jì)分析。由于HFRS月發(fā)病率存在明顯的季節(jié)性,故模型為ARIMA(p,d,q)(P,D,Q)s,其中p是自回歸的階,P是季節(jié)模型的自回歸階數(shù),d是差分次數(shù),D是季節(jié)模型的差分階數(shù),q是移動(dòng)平均的階,Q是季節(jié)模型的移動(dòng)平均的階,s為周期長(zhǎng)度。
1.宜春市2005-2016年HFRS流行趨勢(shì)分析
將宜春市2005-2016年HFRS月發(fā)病率繪制序列圖,見(jiàn)圖1。由圖1可見(jiàn),宜春市2005-2016年HFRS每月均有發(fā)病,每年均有兩個(gè)發(fā)病高峰,一個(gè)出現(xiàn)在每年的4-7月,另一個(gè)出現(xiàn)在每年的12月~次年1月,以冬春季發(fā)病為主,存在明顯的季節(jié)性。
圖1 2005-2016年宜春市HFRS逐月發(fā)病率時(shí)間序列圖
2.時(shí)間序列平穩(wěn)化處理
通過(guò)觀察月發(fā)病率序列圖,存在趨勢(shì)性、異方差性和季節(jié)性,為非平穩(wěn)序列。進(jìn)行自然對(duì)數(shù)轉(zhuǎn)換以去除異方差性,并在一階普通差分的基礎(chǔ)上進(jìn)行一階季節(jié)差分以去除趨勢(shì)性和季節(jié)性。原始序列經(jīng)以上處理,序列平穩(wěn),其時(shí)序圖、ACF圖和PACF圖的平穩(wěn)效果較好,故d和D的值為1,見(jiàn)圖2~4。
3.模型的識(shí)別
在ARIMA(p,1,q)(P,1,Q)12模型中,根據(jù)ACF圖和PACF圖的平穩(wěn)效果,備選模型中p、q、P、Q擬在0、1、2中取值組合,進(jìn)行模型構(gòu)造,其結(jié)果見(jiàn)表1。由表1可知,當(dāng)p、q、P、Q分別取0、2、0、1時(shí),ARIMA模型的標(biāo)準(zhǔn)化BIC值最小,其殘差Ljung-BoxQ=13.245,自由度為15,P>0.05,無(wú)統(tǒng)計(jì)學(xué)意義,可認(rèn)為該殘差為白噪聲序列。故本研究中宜春市腎綜合征出血熱月發(fā)病率的最優(yōu)模型為ARIMA(0,1,2)(0,1,1)12。
圖2 2005-2016年宜春市HFRS月發(fā)病率經(jīng)自然對(duì)數(shù)轉(zhuǎn)換、普通差分和季節(jié)性差分后時(shí)間序列圖
圖3 2005-2016年宜春市HFRS經(jīng)自然對(duì)數(shù)轉(zhuǎn)換、差分和季節(jié)性差分后的自相關(guān)函數(shù)
圖4 2005-2016年宜春市HFRS經(jīng)自然對(duì)數(shù)轉(zhuǎn)換、差分和季節(jié)性差分后的偏相關(guān)函數(shù)
4.參數(shù)估計(jì)和模型檢驗(yàn)
ARIMA(0,1,2)(0,1,1)12模型的參數(shù)估計(jì)結(jié)果顯示,MA(1),MA(2)及SMA(1)中估計(jì)值均有統(tǒng)計(jì)學(xué)意義(P<0.05)(表2);模型殘差A(yù)CF和PACF均落入零相關(guān)的置信限內(nèi),見(jiàn)圖5,表明用該模型擬合原始時(shí)間序列是成功的。
5.預(yù)測(cè)值與實(shí)際值間的比較
運(yùn)用ARIMA(0,1,2)(0,1,1)12模型對(duì)2017年1~6月宜春市腎綜合征出血熱月發(fā)病率進(jìn)行預(yù)測(cè),得到預(yù)測(cè)數(shù)據(jù),比較預(yù)測(cè)值與實(shí)際值,相對(duì)誤差為0.1564,實(shí)際值均在可信區(qū)間內(nèi),ARIMA(0,1,2)(0,1,1)12模型預(yù)測(cè)效果良好,見(jiàn)表3。
表1 不同自回歸階數(shù)和移動(dòng)平均階數(shù)ARIMA模型的擬合參數(shù)
*:R2(決定系數(shù)),RMSE(均方誤差平方根),MAE(平均絕對(duì)誤差),MaxAPE(最大絕對(duì)誤差),MAPE(平均絕對(duì)誤差百分比)
表2 HFRS發(fā)病率ARIMA模型參數(shù)估計(jì)
6.預(yù)測(cè)2017年7~12月發(fā)病率
根據(jù)建立的ARIMA(0,1,2)(0,1,1)12模型對(duì)2017年7~12月發(fā)病率進(jìn)行預(yù)測(cè),見(jiàn)圖6。預(yù)測(cè)結(jié)果月發(fā)病率范圍為0.055/10萬(wàn)~0.874/10萬(wàn),2017年7~12月累計(jì)發(fā)病率為1.794/10萬(wàn)。
圖5 ARIMA(0,1,2)(0,1,1)12模型殘差序列的自相關(guān)和偏相關(guān)圖
月份實(shí)際值(1/10萬(wàn))預(yù)測(cè)值(1/10萬(wàn))相對(duì)誤差95%可信區(qū)間10.74380.86500.1629(0.6060,1.2102)20.36280.34060.0612(0.3058,0.9100)30.14510.15500.0682(0.0002,0.6811)40.25400.28290.1138(-01966,0.5066)50.47170.52750.1183(-0.0796,0.6453)60.70750.41360.4154(0.1545,0.9005)
*:相對(duì)誤差=|預(yù)測(cè)值-實(shí)際值|/實(shí)際值
圖6 2005-2017年宜春市HFRS實(shí)際發(fā)病率、擬合發(fā)病率及預(yù)測(cè)發(fā)病率時(shí)間序列
宜春市作為江西省腎綜合征出血熱疫情最嚴(yán)重的地區(qū),其發(fā)病數(shù)和發(fā)病率在一定程度上影響著整個(gè)江西省,防控形勢(shì)嚴(yán)峻,因此有必要對(duì)宜春市HFRS流行趨勢(shì)進(jìn)行預(yù)測(cè),以便提出具有針對(duì)性的防控策略。ARIMA模型作為較為常用的時(shí)間序列預(yù)測(cè)模型,于1976年由美國(guó)學(xué)者Box和英國(guó)統(tǒng)計(jì)學(xué)者Jenkins提出,其優(yōu)點(diǎn)是只需發(fā)病率資料即可進(jìn)行預(yù)測(cè),可行性較高,是當(dāng)前傳染病預(yù)測(cè)研究的重要方法[6]。ARIMA模型對(duì)每一個(gè)季節(jié)周期中同時(shí)間點(diǎn)的序列值進(jìn)行分析,對(duì)季節(jié)趨勢(shì)進(jìn)行差分,并針對(duì)每個(gè)季節(jié)周期內(nèi)部序列值的變化提取非季節(jié)性成分,是一種精確度較高的預(yù)測(cè)模型,因此,該模型對(duì)于具有季節(jié)性趨勢(shì)的HFRS預(yù)測(cè)具有較好的適用性。目前,已有學(xué)者運(yùn)用ARIMA模型對(duì)HFRS的發(fā)病與流行趨勢(shì)進(jìn)行研究,且取得較為滿(mǎn)意的預(yù)測(cè)效果[7-8],這些預(yù)測(cè)均為HFRS的防控提供了依據(jù)。
相關(guān)研究顯示,只有基于足夠多的時(shí)間序列數(shù)據(jù),ARIMA預(yù)測(cè)模型才能得到較滿(mǎn)意的預(yù)測(cè)效果,一般認(rèn)為至少需要50個(gè)以上的序列數(shù)據(jù)來(lái)構(gòu)建ARIMA模型[9]。本次研究通過(guò)2005-2016年月發(fā)病率長(zhǎng)度為144的數(shù)據(jù),建立ARIMA(0,1,2)(0,1,1)12模型來(lái)擬合與預(yù)測(cè)宜春市HFRS流行趨勢(shì),模型預(yù)測(cè)效果良好。模型預(yù)測(cè)結(jié)果中顯示,每年的8~12月份宜春市HFRS發(fā)病率呈上升趨勢(shì),且幅度較大,提示相關(guān)部門(mén)需在秋冬季來(lái)臨前在HFRS高發(fā)地區(qū)開(kāi)展和加強(qiáng)防鼠滅鼠和鼠間疫情監(jiān)測(cè)工作,控制宿主動(dòng)物數(shù)量。江西省自2009年開(kāi)始實(shí)施擴(kuò)大免疫計(jì)劃以來(lái),疫苗接種很好地遏制了宜春市HFRS發(fā)病率在“16~60歲”年齡組上升[10],所以仍要加強(qiáng)對(duì)重點(diǎn)人群的免疫接種工作,有針對(duì)性地采取防控措施;同時(shí),相關(guān)醫(yī)療機(jī)構(gòu)應(yīng)提高對(duì)HFRS診斷及治療水平,切實(shí)降低宜春市HFRS的發(fā)病率和死亡率。本次預(yù)測(cè)結(jié)果顯示,實(shí)際值與預(yù)測(cè)值并不完全相同,其原因除了模型本身的原因外,還可能是大規(guī)模的滅鼠、疫苗的廣泛接種、診斷和檢測(cè)水平以及人居環(huán)境改善等原因?qū)е聦?shí)際值與預(yù)測(cè)值的差異[11]。
HFRS發(fā)生和流行受到氣候環(huán)境等自然因素及人居環(huán)境改善、城市建設(shè)等社會(huì)因素的多重影響,ARIMA模型在預(yù)測(cè)中往往只考慮了序列本身的特性,而未將這些錯(cuò)綜復(fù)雜的影響因素納入模型中,因此無(wú)法揭示這些因素對(duì)模型的影響,導(dǎo)致模型預(yù)測(cè)精度下降;此外,隨著預(yù)測(cè)時(shí)間的延長(zhǎng),預(yù)測(cè)誤差也會(huì)隨之增大,所以ARIMA模型更適用于疾病的短期預(yù)測(cè)[12]。在運(yùn)用ARIMA模型在進(jìn)行實(shí)際預(yù)測(cè)時(shí),為提高模型的預(yù)測(cè)精確度,需要不斷更新監(jiān)測(cè)數(shù)據(jù),對(duì)模型進(jìn)行不斷修正;同時(shí),在以后的研究中,可探討建立其他預(yù)測(cè)模型與ARIMA模型相結(jié)合的組合模型來(lái)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),以此提高模型的預(yù)測(cè)精準(zhǔn)度。
中國(guó)衛(wèi)生統(tǒng)計(jì)2018年5期