陳新邦 衛(wèi)平民
【提 要】 目的 評(píng)估ARIMA模型、指數(shù)平滑模型、GM(1,1)模型及指數(shù)曲線模型在肺結(jié)核發(fā)病預(yù)測中的運(yùn)用效果,為遴選適宜的預(yù)測措施提供參考。方法 使用駐蘇部隊(duì)人群2005-2016年肺結(jié)核報(bào)告發(fā)病數(shù)據(jù)構(gòu)建模型,評(píng)估擬合效果。結(jié)果 ARIMA模型、指數(shù)平滑模型能夠預(yù)測肺結(jié)核月發(fā)病趨勢(shì),擬合的平均誤差率(MER)分別為9.35%、10.28%,決定系數(shù)(R2)分別為0.81、0.80;ARIMA模型能夠預(yù)測肺結(jié)核季度發(fā)病趨勢(shì),擬合的MER、R2分別為5.48%、0.73,而指數(shù)平滑模型無效;GM(1,1)模型、指數(shù)曲線模型有效,能夠預(yù)測肺結(jié)核年度發(fā)病趨勢(shì),擬合的MER分別為1.47%、1.80%,R2分別為0.98、0.97。結(jié)論 ARIMA模型擬合效果和預(yù)測準(zhǔn)確性相對(duì)較好。GM(1,1)模型、指數(shù)曲線模型對(duì)年發(fā)病率呈線性下降趨勢(shì)的肺結(jié)核,擬合效果和預(yù)測準(zhǔn)確性均良好。2017年駐蘇部隊(duì)肺結(jié)核發(fā)病率呈穩(wěn)中有降趨勢(shì)。
我國是全球結(jié)核病高負(fù)擔(dān)第二大國度,報(bào)告發(fā)病人數(shù)一直居于法定報(bào)告甲、乙類傳染病前列[1]。2000年以后,肺結(jié)核始終位于全軍傳染病發(fā)病前3位,目前該病已升至第1位,成為部隊(duì)傳染病中的頭號(hào)殺手[2-3]。肺結(jié)核發(fā)病率高、治療費(fèi)高、易播散,對(duì)部隊(duì)人群危害非常嚴(yán)重,應(yīng)加大對(duì)肺結(jié)核的防控力度。本研究分別以月、季度發(fā)病率數(shù)據(jù)構(gòu)建指數(shù)平滑模型及ARIMA模型,用于預(yù)測月、季度發(fā)病趨勢(shì);以年發(fā)病率數(shù)據(jù)建立GM(1,1)模型和指數(shù)曲線模型,用于預(yù)測傳染病年發(fā)病趨勢(shì)。
1.資料來源
2005年1月-2016年12月駐蘇部隊(duì)人群肺結(jié)核發(fā)病數(shù)據(jù)來源于全軍突發(fā)公共衛(wèi)生事件與疫情直報(bào)系統(tǒng),相應(yīng)的人口學(xué)資料來源于東部戰(zhàn)區(qū)醫(yī)療保障實(shí)力數(shù)據(jù)。
2.質(zhì)量控制
以全軍突發(fā)公共衛(wèi)生事件與疫情直報(bào)系統(tǒng)報(bào)表數(shù)據(jù)為基礎(chǔ),與駐蘇中心以上醫(yī)院逐年逐月的肺結(jié)核報(bào)告卡逐一核對(duì)病例的確切發(fā)病時(shí)間;糾正錯(cuò)報(bào)、遲報(bào)、重報(bào)病例,補(bǔ)充漏報(bào)病例,以獲得準(zhǔn)確可靠的原始數(shù)據(jù)。
3.統(tǒng)計(jì)方法
采用Excel軟件構(gòu)建灰色系統(tǒng)GM(1,1)模型,進(jìn)行參數(shù)估計(jì)、模型擬合及其檢驗(yàn);采用統(tǒng)計(jì)分析包SPSS 19.0構(gòu)建ARIMA摸型、指數(shù)平滑模型及指數(shù)曲線模型,進(jìn)行參數(shù)估計(jì)、模型擬合及其檢驗(yàn)。為評(píng)估擬合效果,本研究采取決定系數(shù)(R2)及平均誤差率(mean error rate,MER)兩個(gè)指標(biāo)以評(píng)估及比較。
R2=(SS實(shí)-SS誤)/SS實(shí),其中SS實(shí)為實(shí)際值的方差,SS誤為殘差的方差。MER=平均誤差絕對(duì)值/實(shí)際值的均值×100%。對(duì)于點(diǎn)預(yù)測,應(yīng)用殘差比較預(yù)測準(zhǔn)確性。
1.ARIMA摸型
(1)月發(fā)病趨勢(shì)預(yù)測
繪制2005-2016年肺結(jié)核月發(fā)病率時(shí)間序列分布圖,見圖1??煽闯鲈撔蛄惺且唤M蘊(yùn)含季節(jié)和趨勢(shì)的非平穩(wěn)序列,可先予以1階差分和12階季節(jié)差分處理使之轉(zhuǎn)換為平穩(wěn)序列?;谧儞Q后的序列所作的自相關(guān)和偏相關(guān)圖(圖2),經(jīng)多次嘗試,最終由于ARIMA(0,1,1)×(0,1,1)12BIC值最小,且該參數(shù)有統(tǒng)計(jì)學(xué)意義(表1),確定模型具體形式為:(1-B)(1-B12)Xt=(1-0.991B)(1-0.765B12)εt。對(duì)殘差序列做自相關(guān)與偏相關(guān)圖(圖2),Ljung-Box統(tǒng)計(jì)結(jié)果顯示Q統(tǒng)計(jì)量差異無統(tǒng)計(jì)學(xué)意義(P>0.05),殘差為白噪音。擬合效果見圖4。
圖1 2005-2016年肺結(jié)核月發(fā)病率曲線圖
(2)季發(fā)病趨勢(shì)預(yù)測
建模步驟同肺結(jié)核月發(fā)病率數(shù)據(jù),可得ARIMA(0,1,0)×(0,1,1)4BIC最小,且各參數(shù)都有統(tǒng)計(jì)學(xué)意義,表達(dá)式為(1-B)(1-B4)Xt=(1-0.776B4)εt。
圖2 變換后的數(shù)據(jù)自相關(guān)、偏相關(guān)圖
圖3 肺結(jié)核ARIMA(0,1,1)×(0,1,1)12模型殘差自相關(guān)、偏相關(guān)圖
圖4 肺結(jié)核2005-2016年月發(fā)病率ARIMA模型擬合圖
估計(jì)SEtPCONSTANT0.000 0.001 0.376 0.708 MA10.991 0.190 5.212 0.000 SMA10.765 0.107 7.144 0.000
2.指數(shù)平滑模型
(1)月發(fā)病趨勢(shì)預(yù)測
模型的構(gòu)建是采取逐一對(duì)季節(jié)性模型進(jìn)行擬合。由模型擬合優(yōu)度統(tǒng)計(jì)量分析可得,簡單季節(jié)性指數(shù)平滑模型BIC值最小,為最佳模型,且該模型中Alpha(水平)參數(shù)有統(tǒng)計(jì)學(xué)意義(表2)。該模型表達(dá)式為:
表2 肺結(jié)核簡單季節(jié)性指數(shù)平滑模型各參數(shù)檢驗(yàn)結(jié)果
(2)季發(fā)病趨勢(shì)預(yù)測
預(yù)測步驟同月發(fā)病率數(shù)據(jù),結(jié)果顯示,Winters 加法指數(shù)平滑模型BIC值最小,但該模型參數(shù)無統(tǒng)計(jì)意義。
(3)GM(1,1)模型
表3 駐蘇部隊(duì)肺結(jié)核年發(fā)病率(/10萬)灰色預(yù)測模型計(jì)算表
(4)指數(shù)曲線模型
(5)模型擬合效果評(píng)價(jià)
分別運(yùn)用ARIMA模型、指數(shù)平滑模型對(duì)肺結(jié)核月發(fā)病率、季發(fā)病率,運(yùn)用GM(1,1)模型、指數(shù)曲線模型對(duì)肺結(jié)核年發(fā)病率數(shù)據(jù)進(jìn)行了擬合預(yù)測,預(yù)測模型回代擬合和點(diǎn)預(yù)測的效果評(píng)價(jià)見表4。
表4 四種模型對(duì)肺結(jié)核發(fā)病率的預(yù)測擬合效果評(píng)價(jià)
四種模型中,ARIMA模型、指數(shù)平滑模型有效,能夠預(yù)測肺結(jié)核月發(fā)病趨勢(shì);ARIMA模型有效,能夠預(yù)測肺結(jié)核季度發(fā)病趨勢(shì),而指數(shù)平滑模型無效;GM(1,1)模型、指數(shù)曲線模型有效,能夠預(yù)測病毒性肝炎年度發(fā)病趨勢(shì)。月發(fā)病趨勢(shì)預(yù)測方面,ARIMA模型、指數(shù)平滑模型對(duì)肺結(jié)核擬合的MER分別為9.35%、10.28%,R2分別為0.81、0.80,可見ARIMA模型擬合效果和預(yù)測準(zhǔn)確性相對(duì)較好。季發(fā)病趨勢(shì)預(yù)測方面,ARIMA模型對(duì)肺結(jié)核擬合的MER、R2分別為5.48%、0.73,擬合效果和預(yù)測準(zhǔn)確性明顯好于指數(shù)平滑模型。年發(fā)病趨勢(shì)預(yù)測方面,GM(1,1)模型、指數(shù)曲線模型對(duì)肺結(jié)核擬合的MER分別為1.47%、1.80%,R2分別為0.98、0.97;預(yù)測2016年肺結(jié)核發(fā)病率點(diǎn)預(yù)測殘差分別為0.39/10萬、0.47/10萬,可見GM(1,1)模型擬合效果和預(yù)測準(zhǔn)確性比較好。
(6)2017年肺結(jié)核發(fā)病趨勢(shì)預(yù)測
利用ARIMA模型分別預(yù)測2017年肺結(jié)核月發(fā)病率及季發(fā)病率,結(jié)果顯示,2017年1-12月肺結(jié)核發(fā)病率分別為1.72/10萬、1.46/10萬、2.01/10萬、2.26/10萬、2.31/10萬、2.50/10萬、2.62/10萬、2.65/10萬、2.20/10萬、1.82/10萬、1.88/10萬、1.59/10萬,相較2016年月發(fā)病率,呈穩(wěn)中有降趨勢(shì);2017年1-4季度肺結(jié)核發(fā)病率分別為5.88/10萬、7.75/10萬、8.10/10萬、5.90/10萬,相較2016年季發(fā)病率,基本保持平穩(wěn)。利用GM(1,1)模型預(yù)測2017年肺結(jié)核年發(fā)病率,結(jié)果顯示,2017年發(fā)病率為24.87/10萬,略有降低。
近些年來,傳染病的預(yù)測分析方法越來越完善,如ARIMA模型,不需要對(duì)時(shí)間序列的發(fā)展模式作先前的驗(yàn)證,可通過反復(fù)識(shí)別、修改獲取最佳模型[4];指數(shù)平滑模型運(yùn)用廣泛[5],對(duì)季節(jié)效應(yīng)的估計(jì)清晰易懂,線性趨勢(shì)的估計(jì)和預(yù)測穩(wěn)健,預(yù)測效果較好;灰色動(dòng)態(tài)模型(GM),對(duì)概率分布無特殊要求,僅需少量數(shù)據(jù)即可擬合[6-7];指數(shù)曲線模型,對(duì)發(fā)病率隨時(shí)間呈單調(diào)上升或下降,且影響發(fā)病的主要因素保持穩(wěn)定的傳染病,進(jìn)行發(fā)病趨勢(shì)的定量預(yù)測效果較好。
本研究分別用四種不同的模型預(yù)測肺結(jié)核年、季、月發(fā)病趨勢(shì),對(duì)肺結(jié)核月發(fā)病率數(shù)據(jù)進(jìn)行擬合比較的結(jié)果顯示,當(dāng)序列同時(shí)滿足指數(shù)平滑模型和ARIMA模型條件時(shí),兩種模型的MER分別為9.35%、10.28,R2分別為0.81、0.80,ARIMA模型擬合精度更高,預(yù)測準(zhǔn)確性也更好,提示當(dāng)序列同時(shí)滿足上述兩種模型時(shí),應(yīng)優(yōu)先使用ARIMA模型。對(duì)肺結(jié)核季發(fā)病率數(shù)據(jù)擬合比較的結(jié)果顯示,ARIMA模型擬合精度高于月發(fā)病率數(shù)據(jù)模型,但未能完全體現(xiàn)季節(jié)性變化影響,其R2為0.73,比月發(fā)病率數(shù)據(jù)擬合模型R2值(0.81)低,這可能也是指數(shù)平滑模型無法擬合的原因,提示當(dāng)月發(fā)病率數(shù)據(jù)擬合效果不好時(shí),可以嘗試對(duì)季發(fā)病率數(shù)據(jù)進(jìn)行擬合預(yù)測,但必須注意到,此種方式或?qū)⒀谏w部分季節(jié)趨勢(shì)變化。肺結(jié)核年發(fā)病率數(shù)據(jù)基本呈線性下降趨勢(shì),符合指數(shù)曲線模型和GM(1,1)模型擬合條件,兩種模型擬合精度和預(yù)測效果均比較好,提示當(dāng)序列呈單調(diào)下降趨勢(shì)時(shí),可任選上述兩種模型進(jìn)行擬合。
從上述模型的擬合結(jié)果結(jié)合實(shí)際發(fā)病數(shù)據(jù)來看,2017年駐蘇部隊(duì)人群肺結(jié)核發(fā)病率將保持平穩(wěn),提示衛(wèi)生管理部門要持續(xù)予以關(guān)注。然而,預(yù)測模型僅能從數(shù)據(jù)上反映傳染病發(fā)生發(fā)展特點(diǎn),影響發(fā)病的因素較多,為達(dá)到更好的預(yù)測效果,需要不斷地納入新數(shù)據(jù),多次構(gòu)建模型并比較評(píng)估才能取得預(yù)期目的。