田德紅于國偉丁國武△段春紅廖偉斌王熙蓓彭 崢
?
ARIMA-DES混合模型在中國布魯菌病分析和預測中的應用*
田德紅1于國偉2△丁國武1△段春紅3廖偉斌4王熙蓓1彭 崢1
【提 要】 目的 探討中國布魯菌病發(fā)病的趨勢和季節(jié)規(guī)律,并構建時間序列模型對發(fā)病數做短期預測。方法 用Matlab2014對中國布病的發(fā)病數建立ARIMA和DES模型。用Eviews8.0對發(fā)病數進行X-12季節(jié)調整后,對趨勢項用ARIMA-DES建模預測,其中ARIMA-DES混合模型采用PSO算法賦予不同的權重,最后比較三種模型的預測精度,選取最優(yōu)模型預測未來發(fā)病數。結果 全國布病的發(fā)病在每年5月份最高,12月最低。選取的最優(yōu)模型為ARIMA-DES,并預測了2015年6月至12月的發(fā)病數,分別為7286、6710、5723、4296、3463、3355.34、3777。結論 ARIMA-DES模型預測精度較單一的ARIMA模型和DES模型高,ARIMA-EDS模型適合我國布病發(fā)病數短期預測。季節(jié)調整后的成分序列反映出的季節(jié)性與全國各地報道的季節(jié)性不同。
【關鍵詞】布魯菌病 混合模型 X-12季節(jié)調整 粒子群優(yōu)化算法
1.蘭州大學醫(yī)學院公共衛(wèi)生學院(730000)
2.西北民族大學西部環(huán)境健康研究所
3.蘭州大學數學與統(tǒng)計學院
4.蘭州交通大學
布魯菌?。╞rucellosis,布?。卜Q波狀熱,是布魯菌引起的傳染病,屬人畜共患的自然疫源性疾病。布魯氏桿菌是一種革蘭氏陰性的不運動細菌,它作為細胞內寄生蟲,可以侵犯人和多種動物。人群因接觸患病動物或布魯氏菌污染物等途徑被感染,開始發(fā)病時會伴隨著中度發(fā)熱,急性發(fā)作時夜間發(fā)燒會加重,肝、脾、淋巴結腫大是這個時期的特征[1]。
時間序列分析法是依據預測對象過去的統(tǒng)計數據,找到其隨時間變化的規(guī)律,建立時序模型,以推測未來數值的預測方法?;镜脑O想是:過去的變化規(guī)律會持續(xù)到未來,即未來是過去的延伸。本文即時間序列分析在布病研究中的應用。
1.資料來源
2004年1月至2012年12月全國布病月發(fā)病數來自國家“公共衛(wèi)生科學數據中心”(http:/ / www.phsciencedata.cn);2013年1月至2015年5月全國布病發(fā)病數據來自國家衛(wèi)計委公布的疫情報告。從2004年1月至2015年5月共計137個月的發(fā)病數,呈現的原始時間序列見圖1。
2.數據處理
將原序列2004年1月至2013年12月的數據作為訓練樣本,將2014年1月至2015年5月的數據作為校驗樣本。利用Eview8對中國布病的原始數據進行X-12季節(jié)調整,分離季節(jié)項、趨勢循環(huán)項、季節(jié)因子和不規(guī)則項。用Matlab2014建立ARIMA、DES和ARIMA-DES模型,并運行PSO程序。
圖1 2004年1月-2015年5月我國布病發(fā)病人數時序圖
3.統(tǒng)計方法
(1)X-12時間序列季節(jié)調整方法,是以美國普查局開發(fā)的基于ARIMA模型的季節(jié)調整方法,對一些特殊因素具有較好的處理方法[2]。具體模型[l1]如下:
加法模型:Yt=Tt+ St+ It
乘法模型:Yt=Tt·St·It
其中,Yt為原始時間序列,分別表示趨勢項、季節(jié)因素以及不規(guī)則因素。通過嘗試,本文采用加法模型分解效果更好。
(2)自回歸移動平均模型(auto-regressive integrated moving average,ARIMA),是由美國學者博克思(Box)和英國學統(tǒng)計學家詹金斯(Jenkins),于20世紀70年代初提出的著名時間序列預測方法,所以又稱為B-J方法,是一種精確度較高的短期預測方法[3]。具體的模型為ARIMA(p,d,q[4]:
其中,B代表后移算子,p和q分別是自回歸階數和移動平均階數,d代表原序列差分次數,φ(B)=1-φ1B-φ2B-…-φpBp,θ(B)=1-θ1B-θ2B-…-θqBq。
(3)二次指數平滑法(double exponential smoot-hing,DES),也稱為雙重指數平滑,它是對一次指數平滑再進行一次平滑。一次指數平滑法是直接利用平滑值作為預測值的一種預測方法,二次指數平滑是用平滑值對時序的線性趨勢進行修正,建立線性平滑模型進行預測,其原理是任一期的指數平滑值都是本期實際觀察值與前一期指數平滑值的加權平均[5]。其平滑公式為[6]:
(4)粒子群優(yōu)化算法(particle swarm optimization,PSO),是Kennedy和Eberhart于1995年提出的一種新的優(yōu)化算法,它是模擬鳥群覓食行為而發(fā)展起來的隨機搜索算法[7]。PSO法首先初始化,然后通過迭代找到最優(yōu)解。本文應用PSO算法為兩種模型賦予權重,從而形成新的混合成模型(如需程序源代碼可以向本文作者發(fā)郵件索取)。
(5)ARIMA-DES模型,即季節(jié)調整權重混合模型。考慮到混合預測的效果通常要優(yōu)于單一預測[8],而且布病是一種傳染病,適用于時間序列季節(jié)調整和建模分析,因此我們對原序列季節(jié)調整后再建立兩種模型的混合模型進行預測,即ARIMA-DES模型。對訓練樣本做X-12季節(jié)調整,分離出趨勢循環(huán)項、季節(jié)項、季節(jié)因子和不規(guī)則項,本文選取后趨勢序列進行建模預測(也可選取其他項),采用DES和ARIMA模型分別建模。再運行PSO算法為兩個單一模型分別賦予權重,即找到最優(yōu)組合權重。最后用趨勢項的預測值加上季節(jié)因子就是原序列的預測值(圖2)。
圖2 混合模型建模流程圖
為了比較混合模型和單一模型,用DES和ARIMA模型,對原序列按照先用訓練樣本擬合,再對預測值用校驗樣本驗證的方法建模。
混合模型建模步驟:
(1)對原始序列進行X-12季節(jié)調整,得到趨勢序列、季節(jié)序列、季節(jié)因素項和不規(guī)則項。
(5)將趨勢序列預測值和季節(jié)因子相加得到原始序列的預測值即
4.精度指標
yi為原始數據,為預測值,n為數據個數。
(1)平均絕對誤差(MAE)
(2)均方根誤差(RMSE)
(3)平均絕對百分比誤差(MAPE)
(4)決定系數(R2)
1.對原始序列用X-12進行季節(jié)調整,分離出季節(jié)因子項、趨勢循環(huán)項、季節(jié)項和不規(guī)則項(圖3)。
在對原序列進行季節(jié)調整后,由分離出來的“圖c趨勢循環(huán)序列”可以看出布病的發(fā)病有明顯的上升趨勢。從“圖b季節(jié)因子”可以看出,布病序列成功提取了季節(jié)因子,提示布病有明顯的季節(jié)性。對圖b經過變換可得到圖4,可以更加清楚地發(fā)現:從全國發(fā)病數來看,我國布病每年在5月份最高,12月份最低,1月到5月是上升階段,6月至9月呈下降趨勢,9到12月處于相對平穩(wěn)期。
2.三種模型的預測值和預測精度對比
得到三種模型擬合值和真實值對比見表1,以及擬合精度指標對比見表2。通過比較三種模型的評價指標,確定最終的ARIMA-DES混合模型為最優(yōu)模型,并對2015年6月至12月全國布病發(fā)病數進行預測,預測值分別為:7286、6710、5723、4296、3463、3355、3777。
圖3 原始序列經X-12季節(jié)調整后的序列圖
圖4 季節(jié)因子分布圖
表1 2014年1月-2015年5月真實值與擬合值對比
表2 三種模型擬合精度指標對比
1.選擇模型
從圖3中的趨勢序列和季節(jié)因子序列可以看出,全國的布病發(fā)病數具有明顯的趨勢性和季節(jié)性,這樣可以選用線性模型DES和非線性模型ARIMA。但是,因為單一的模型無法同時兼顧季節(jié)性和趨勢性,所以本文首先通過X-12季節(jié)調整法剔除原始序列中的季節(jié)因素,然后對趨勢序列通過PSO為兩個單一模型分別賦予權重,最后加上季節(jié)因素建立ARIMA-DES混合模型。經過與單一的模型比較,發(fā)現混合模型具有較高的預測精度,適合于全國布病發(fā)病數的預測。
2.研究發(fā)現
全國布病的發(fā)病有明顯的季節(jié)性,但與目前各地報道的季節(jié)性并不相同。本文采用季節(jié)調整方法,從季節(jié)因子序列圖(圖4)可以確定,我國布病每年在5月份最高,12月份最低,1月到5月是上升階段,6月至9月呈下降趨勢,9到12月處于相對平穩(wěn)期。這與國內其他地方報道的季節(jié)性并不完全相同,發(fā)病情況的這種季節(jié)性,極有可能與每年的氣溫變化有很強的相關性[9]。張立芹等認為,北京市平谷區(qū)布病一年四季均有發(fā)病,發(fā)病以1~3和8~10月份為主[10];邢智鋒等認為,黑龍江布病季節(jié)分布60年來較為穩(wěn)定,以4~7月發(fā)病最多,6月最高[11]。米景川等認為,內蒙古布病5月份達頂峰,8月份以后逐漸降低,12月份降至最低,不同年份的流行高峰有所差異[12];徐立青等認為,青海省布病發(fā)病高峰為3~7月份[13]。以上文獻都反映了布病的發(fā)病呈現季節(jié)性,但不同地方的季節(jié)差異比較大。近年來,公開發(fā)表的文章主要探討了布病的診斷、治療和監(jiān)測等方面,對布病流行的季節(jié)影響因素缺乏探索,因此從文獻中尚不能找到布病各地的季節(jié)性與哪些影響因素有關,有待進一步研究。
布病的發(fā)病在過去的近九年間,呈明顯的上升趨勢。歷史資料顯示,布病于20世紀30~60年代在世界上流行較嚴重,70~80年代末疫情趨于穩(wěn)定,但自90年代,疫情又有回升勢頭。高光俊等人研究我國近10年布病文獻,發(fā)現布病發(fā)病數呈逐年增長趨勢[14]。以往的趨勢判斷只是簡單的從原始序列去觀察,而經過季節(jié)調整后再去看趨勢性更加科學和直觀,可以清晰地分辨趨勢變化的整個過程。
3.優(yōu)點和缺陷
優(yōu)點:布病作為人畜共患傳染病,它的發(fā)病自身存在著時間上的相關性,這一特性符合時間序列分析模型的屬性,因此應用時間序列模型的季節(jié)調整方法可以分離出內在的季節(jié)項和趨勢項,有利于深入分析布病的季節(jié)特點和趨勢走向。同時,建立時間序列模型,可以預測未來的發(fā)病情況,為預防布病的流行提供科學的信息,以便及時實施防控措施。本文在用數據建模過程中,用到了季節(jié)調整方法,這樣不僅有利于建模,而且增加了對數據分析的科學性,表現在季節(jié)調整后呈現的每個序列可以更直觀、更合理地判斷趨勢性和季節(jié)性,以及準確定位具體的時間。
缺點:該模型對短期預測精度較高,如需長期預測可能存在較大誤差,降低實際應用價值。分階段短期預測可以很好彌補這一缺陷,后續(xù)的數據可以驗證模型,再次引入實際數據可以不斷矯正模型,這樣可以有效地提高模型預測精度[5]。
4.應用前景
目前,布病的防治措施主要是查清疫情、菌苗的應用和臨床診治[15]。應用時間序列的方法分析和預測可從另一角度探索布病的發(fā)病規(guī)律。本文選取的混合模型可以預測我國今后布病發(fā)病數。
季節(jié)調整分析方法,可以更加客觀地評價傳染病的季節(jié)性和趨勢性。明確布病發(fā)病的季節(jié)性,就可以尋找布病的季節(jié)影響因素,采取有針對性的防控措施。同時,分離出趨勢項,可以更客觀地說明具體的趨勢性。
參考文獻
[1]Hannah R Holt,Mahmoud M Eltholth,Yamen M Hegazy,et al.Brucella spp.infection in large ruminants in anendemic area of Egypt:cross-sectional studyinvestigating seroprevalence,risk factors andlivestock owner′s knowledge,attitudes andpractices(KAPs).BMC Public Health,2011,11:341.
[2]郭志武,蒲繼紅,滕國召.基于ARIMA模型的春節(jié)因素調整方法研究.中國衛(wèi)生統(tǒng)計,2009,26(6):573.
[3]孫振球.醫(yī)學統(tǒng)計.北京:人民出版社出版,2010.
[4]王燕.應用時間序列分析.第2版.北京:中國人民大學出版社,2008:165-169.
[5]周穎,羅利,章怡,等.組合預測模型在醫(yī)用耗材庫存需求預測中的應用.中國衛(wèi)生統(tǒng)計,2013,30(6):897.
[6]朱奕奕,趙琦,馮瑋,等.應用指數平滑法預測上海市甲型病毒性肝炎發(fā)病趨勢.中國衛(wèi)生統(tǒng)計,2013,30(1).
[7]Krugman.Adjustment and Growth in the European Monetary Union.Cambridge University Press,1993,46(6):44-47.
[8]汪同三,張濤.組合預測——理論、方法及應用.社會科學文獻出版社,2008.
[9]霍愛梅,趙達生,方立群,等.華北地區(qū)自然疫源性疾病的分布及其與氣象條件的關系.中國病原生物學雜志,2011,6(1):5.
[10]張立芹,屈宏宇.北京市平谷區(qū)布魯菌病高危人群感染危險因素分析.職業(yè)與健康,2014,30(24):3544.
[11]邢智鋒,吳群紅,金福芝,等.1949-2009年黑龍江省人間布魯氏菌病疫情分析.疾病監(jiān)測,2011,26(11):862.
[12]米景川,張慶華,尉瑞平,等.內蒙古人間布魯氏菌病的流行特征.中國地方病防治雜志,2010,25(1):35.
[13]徐立青,李超,許紅星,等.2006-2008年青海省人間布魯氏菌病流行病學資料分析.中國媒介生物學及控制雜志,2010,21(4):389.
[14]高光俊,徐杰,柯躍華,等.我國近10年布魯氏菌病研究文獻分析.中國人獸共患病學報,2012,28(12):1179-1180.
[15]尚德秋.中國布魯氏菌病防治科研50年.中華流行病學雜志,2000,21(1):55-57.
(責任編輯:劉 壯)
*基金項目:國家科技惠民計劃資助(2012GS620101)
通信作者:△于國偉,丁國武