應用ARIMA-GRNN模型對腎綜合征出血熱發(fā)病率時間序列數(shù)據(jù)的預測研究*

2015-03-09 11:13偉郭軍巧安淑一關鵬周寶森

中國衛(wèi)生統(tǒng)計 2015年2期

吳偉郭軍巧安淑一關鵬周寶森△

吳偉1郭軍巧2安淑一2關鵬1周寶森1△

目的闡述ARIMA-GRNN模型預測腎綜合征出血熱發(fā)病率的方法和步驟，探討其在綜合征出血熱發(fā)病率預測中的應用。方法利用遼寧省1962－2008年的腎綜合征出血熱發(fā)病率時間序列數(shù)據(jù)作為訓練集，建立ARIMA模型和ARIMA-GRNN模型，選取2009－2011年的數(shù)據(jù)作為檢驗集，評價模型的擬合和預測效果。結果ARIMA（2，1，1）模型和ARIMA-GRNN模型擬合值的平均誤差絕對值分別為1.14和0.77；預測值的平均誤差絕對值分別為0.53和0.20。ARIMA-GRNN模型的擬合和預測效果均優(yōu)于ARIMA模型。結論ARIMA-GRNN模型能有效模擬、預測腎綜合征出血熱的發(fā)病疫情，具有較強的推廣應用價值。

腎綜合征出血熱時間序列發(fā)病率預測

腎綜合征出血熱（hemorrhagic fever with renal syndrome，HFRS）是由布尼亞病毒科的漢坦病毒屬引起，包括漢坦病毒、漢城病毒、obrava-Belgrade病毒和普馬拉病毒［1］。HFRS流行范圍廣、病死率高，已經(jīng)嚴重危害人民的生命健康，屬于我國重點防治傳染病之一?？刂艸FRS有效措施之一就是預測其發(fā)病情況，在此基礎上有針對性地采取滅鼠和疫苗接種措施，將會達到事半功倍的效果。對于HFRS發(fā)病率的預測，近年來普遍使用的有灰色預測模型［2－4］、時間序列模型［4－5］和神經(jīng)網(wǎng)絡模型［6－9］等。灰色模型對于單調遞增或遞減短期時間序列預測的精度尚可，對于波動大、時間長的數(shù)據(jù)預測效果較差。時間序列模型中的ARIMA模型屬于傳統(tǒng)的線性預測方法，但是當疾病的發(fā)病變化比較復雜時，其預測精度往往較低。廣義回歸神經(jīng)網(wǎng)絡（generalized regression neural network，GRNN）具有較強的逼近能力、較快的學習速度，并能夠收斂于樣本量聚集較多的優(yōu)化回歸面［9］。本研究擬建立ARIMA-GRNN模型對HFRS發(fā)病率進行預測，探討其在傳染病預測中的應用前景。

材料與方法

1.資料收集HFRS發(fā)病資料來源于遼寧省疾病預防控制中心，收集1962－2011年HFRS年發(fā)病率資料，其序列圖見圖1。

圖1 遼寧省1962－2011年HFRS年發(fā)病率序列圖

2.方法

（1）ARIMA（p，d，q）模型建立［10］ARIMA時間序列預測的建模過程按4個階段進行：序列平穩(wěn)性檢驗及平穩(wěn)化處理、模型的識別、模型參數(shù)估計和模型診斷、預測應用。使用1962-2008年的數(shù)據(jù)建立模型，使用2009－2011年的數(shù)據(jù)檢驗模型的預測效果。

（2）ARIMA-GRNN模型建立［11］

根據(jù)建立的最優(yōu)ARIMA預測模型，對HFRS發(fā)病率進行擬合分析，可以獲得每個實際觀察值的ARIMA模型擬合值；將ARIMA模型擬合值作為GRNN模型的輸入樣本A，將時間信息作為輸入樣本B，實際值作為輸出樣本，建立一個2維輸入、1維輸出的GRNN預測模型。使用1962－2008年的數(shù)據(jù)作為學習樣本，根據(jù)Donald F.Sprecht提出的光滑因子的確定方法［12］，在其中隨機選取2個樣本（待估點）用來確定光滑因子；把2009－2011年的數(shù)據(jù)作為測試樣本。所有數(shù)據(jù)按進行歸一化后分析。最后利用訓練好的網(wǎng)絡進行外推預測，得到的輸出值經(jīng)過反歸一化后即為最終預測值。

（3）數(shù)據(jù)處理使用Eviews8.0軟件進行序列平穩(wěn)性檢驗；SPSS13.0軟件建立ARIMA模型；利用Matlab7.0軟件中的神經(jīng)網(wǎng)絡工具箱編程構建ARIMAGRNN模型。

結果

1.ARIMA（p，d，q）模型的建立過程及結果

（1）序列平穩(wěn)性檢驗及平穩(wěn)化處理時間序列分析需要建立在序列平穩(wěn)化的條件之上。一個平穩(wěn)的隨機過程有以下要求：均數(shù)和方差不隨時間變化，自相關系數(shù)只與時間間隔有關，而與所處的時間無關［10］。觀察原始年發(fā)病率數(shù)據(jù)（圖1），可以發(fā)現(xiàn)該序列向右上方傾斜，并且波動幅度增加，說明原始序列存在異方差性和增長趨勢。使用Eviews 8.0軟件對原始序列進行ADF檢驗，結果顯示ADF＝－1.387，P＝0.152，原始發(fā)病率序列為非平穩(wěn)序列。為了使序列平穩(wěn)，我們對原始序列進行自然對數(shù)轉換，并進行一次差分。對處理后序列進行ADF檢驗，結果顯示ADF＝－3.182，P＝0.028，所以處理后序列可以認為是平穩(wěn)序列。

（2）ARIMA（p，d，q）模型的識別根據(jù)差分次數(shù)，可以選定模型的形式為ARIMA（p，1，q），其中p和q是待定的參數(shù)，表示模型中的自回歸階數(shù)和移動平均階數(shù)，其確定可以根據(jù)自相關圖和偏自相關圖進行估計。本研究中的自回歸系數(shù)和偏回歸系數(shù)均為2階拖尾，初步考慮ARIMA（1，1，1）、ARIMA（1，1，2）、ARIMA（2，1，1）和ARIMA（2，1，2）為備選模型。

（3）ARIMA（p，d，q）模型的參數(shù)估計及診斷根據(jù)擬合優(yōu)度、參數(shù)是否有統(tǒng)計學意義及殘差是否白噪聲決定優(yōu)模型的模型階數(shù)。備選模型參數(shù)估計及擬合優(yōu)度檢驗結果見表1、2。模型ARIMA（2，1，1）的AIC及BIC值均為最小，其擬合優(yōu)度最好，并且參數(shù)AR1、AR2和MA1均有統(tǒng)計學意義（P＜0.01）。對模型ARIMA（2，1，1）的殘差序列作自相關和偏自相關圖，結果顯示BOX-Ljung統(tǒng)計量均無統(tǒng)計學差異（P＞0.05）。認為殘差序列是白噪聲，所選模型恰當。

表1 備選模型參數(shù)估計

表2 備選模型擬合優(yōu)度統(tǒng)計量

2.ARIMA-GRNN模型的建立過程及結果

隨機選取了1980年和1999年HFRS發(fā)病率作為待估點，用來尋找最優(yōu)光滑因子。通過不斷嘗試，我們從0.05開始選擇光滑因子每次增加一個單位量（0.01），分別得到待估點的預測值，將待估點預測值與樣本實測值之間平均平方誤差最小時的光滑因子作為最優(yōu)值。取不同光滑因子時待估點的預測值與樣本實測值之間的平均平方誤差見圖2。根據(jù)圖示，最優(yōu)光滑因子定為0.09。

圖2 最優(yōu)光滑因子的確定

3.ARIMA模型和ARIMA-GRNN模型的比較

（1）兩種模型擬合效果的比較 ARIMA模型和ARIMA-GRNN模型對1962－2008年數(shù)據(jù)的擬合誤差曲線見圖3。計算擬合平均誤差絕對值，ARIMA模型為1.14，ARIMA-GRNN模型為0.77。顯然，和ARIMA模型相比，ARIMA-GRNN模型對原始數(shù)據(jù)的擬合逼近效果更好。

（2）兩種模型預測效果的比較 ARIMA模型和ARIMA-GRNN模型對2009－2011年數(shù)據(jù)的預測結果見表3。ARIMA模型和ARIMA-GRNN模型的預測平均誤差絕對值分別為0.53和0.20。和ARIMA模型相比，ARIMA-GRNN模型的預測效果更好。

圖3 ARIMA模型和ARIMA-GRNN模型的擬合誤差曲線

表3 兩種模型對遼寧省2009－2011年HFRS發(fā)病率預測結果比較

討論

時間序列分析作為傳統(tǒng)的線性模型分析手段，克服了影響預測對象的因素錯綜復雜、不易分析和數(shù)據(jù)資料不易得到的難題，以時間序列變量綜合替代各種影響因素，模型的建立過程簡單、經(jīng)濟、適用，短期預測精度較高［13］。但是，其缺點也比較明顯，如對于不規(guī)則數(shù)據(jù)序列難以確定合適的模型結構等［11］。因此，對于HFRS發(fā)病率這類影響因素多，因素間相互作用復雜，且有一定非線性特征的時間序列，單純使用傳統(tǒng)的分析方法進行預測，其預測的精度往往難以令人滿意。廣義回歸神經(jīng)網(wǎng)絡具有較快的學習速度、較好的處理不穩(wěn)定數(shù)據(jù)的能力、網(wǎng)絡結構較少受人為主觀因素影響和預測結果穩(wěn)定等特點，因而可用于多種非線性關系的擬合與預測［9］。由于HFRS發(fā)病率數(shù)據(jù)中既包含線性趨勢又包含非線性趨勢。因此，可以先使用ARIMA模型預測HFRS發(fā)病率，使其線性規(guī)律包含在ARIMA模型的結果中。接著通過具有高度非線性逼近能力的GRNN模型反復學習歸納原始數(shù)據(jù)和ARIMA模型擬合值之間的關系，建立兼有ARIMA模型和GRNN模型優(yōu)點的ARIMA-GRNN模型。

遼寧省1962年開始有完整的HFRS疫情資料記載。本研究對1962－2011年的疫情資料數(shù)據(jù)進行分析，分別建立ARIMA模型和ARIMA-GRNN模型。研究結果證實，ARIMA-GRNN模型對原始數(shù)據(jù)的擬合和預測效果要優(yōu)于ARIMA模型。ARIMA-GRNN模型計算簡單，預測精度高，所需的資料較少且易于獲得，對于HFRS發(fā)病率資料是一種較好的預測模型，為HFRS的防控提供可靠的理論依據(jù)。在模型的實際使用過程中，確定ARIMA-GRNN模型的最優(yōu)光滑因子是建模的關鍵，光滑因子越小，網(wǎng)絡對樣本的逼近性能就越強；光滑因子越大，網(wǎng)絡對樣本數(shù)據(jù)的逼近過程就越平滑。我們綜合考慮模型的擬合和外推能力，通過不斷嘗試，反復計算，把待估點預測值與樣本實測值之間平均平方誤差最小時的光滑因子作為最優(yōu)值，使模型的逼近性能和泛化性能達到平衡。雖然ARIMAGRNN模型擬合和預測效果較好，但是和其他常用的數(shù)學模型一樣，主要從數(shù)據(jù)上反映疾病的發(fā)展變化趨勢，所得到的結論都只是建立在既往歷史疫情數(shù)據(jù)和單純數(shù)學統(tǒng)計分析的基礎上，一旦參數(shù)發(fā)生變化或無法獲得相應參數(shù)時，也就無法做出預測［14］。此外，影響HFRS發(fā)病的因素錯綜復雜，很多影響因素未被考慮到模型參數(shù)中，可能會影響到結果的準確性。因此，在實際工作中，在有條件的情況下可以全面收集影響HFRS的發(fā)病因素，建議建模時加入相關因素以進一步提高模型精度。再次，ARIMA-GRNN模型是建立在ARIMA模型基礎之上的，其結構更為復雜。但是考慮到其擬合和預測準確性提高的幅度較大以及目前計算機硬件水平對于這種規(guī)模的計算還可以承受，我們認為使用ARIMA-GRNN模型建立HFRS預測模型還是可以被接受的。

1.石健.我國腎綜合征出血熱流行病學研究進展.中國人獸共患病學報，2007，23（3）：296-299.

2.劉潔，曲波，何欽成.應用GM（1，1）模型對全國1999-2009年腎綜合征出血熱疫情分析及預測.中國媒介生物學及控制雜志，2011，22（3）：248-250.

3.葛洪福.灰色預測模型GM（1，1）模型在HFRS發(fā)病趨勢預測中的應用.現(xiàn)代預防醫(yī)學，2000，27（1）：107.

4.吳偉，關鵬，郭軍巧，等.GM（1，1）灰色模型和ARIMA模型在HFRS發(fā)病率預測中的比較研究.中國醫(yī)科大學學報，2008，37（1）：52-55.

5.郭海強，丁海龍，曲波，等.應用ARIMA模型對全國2004-2009年腎綜合征出血熱疫情分析及預測.中國人獸共患病學報，2010，26（2）：1137-1140.

6.丁守鑾，王潔貞，袁曉紅.腎綜合征出血熱發(fā)病率的ANN預測模型.山東大學學報（醫(yī)學版），2002，40（2）：100-102.

7.朱奕奕.人工神經(jīng)網(wǎng)絡在上海市腎綜合征出血熱發(fā)病率預測中的應用.上海預防醫(yī)學，2012，24（5）：229-232.

8.吳澤明，吳偉，王萍，等.應用BP人工神經(jīng)網(wǎng)絡模型預測腎綜合征出血熱發(fā)病率.中國媒介生物學及控制雜志，2006，17（3）：223-226.

9.吳偉，郭軍巧，王萍，等.廣義回歸神經(jīng)網(wǎng)絡在腎綜合征出血熱發(fā)病率預測中的應用.中國媒介生物學及控制雜志，2007，18（6）：483-487.

10.張文彤主編.SPSS11.0統(tǒng)計分析教程.北京：北京希望電子出版社，2002，250-287.

11.嚴薇榮，徐勇，楊小兵，等.基于ARIMA-GRNN組合模型的傳染病發(fā)病率預測.中國衛(wèi)生統(tǒng)計，2008，25（1）：82-83.

12.Sprecht DF.A general regression neural network.IEEE Trans Neural Networks，1991，2（6）：568-576.

13.韓琴，蘇虹，王忱誠，等.ARIMA模型與GRNN模型對性病發(fā)病率的預測研究.現(xiàn)代預防醫(yī)學，2012，39（6）：1337-1340.

14.劉剛，唐宋，孫文杰.時間序列分析法在香港結核病預測中的應用.中國衛(wèi)生統(tǒng)計，2012，29（2）：226-228.

（責任編輯：劉壯）

Application of ARIMA-GRNN Model to Predict the Incidence of Hemorrhagic Fever with Renal Syndrome

Wu Wei，Guo Junqiao，An Shuyi，et al.（Department of Epidemiology，School of Public Health，China Medical University（110122），Shenyang）

To describe the procedure of building ARIMA-GRNN model，and explore the value of potential application of the above model to predict the incidence of hemorrhagic fever with renal syndrome.ARIMA and ARIMA-GRNN models were established using the incidence of hemorrhagic fever with renal syndrome in Liaoning province from 1962 to 2008，and the fitting and predictive performances were evaluated using the data from 2009 to 2011.The mean absolute value of error for fitted value of the optimal ARIMA model and ARIMA-GRNN model were 1.14 and 0.77，respectively；and the mean absolute value of error for predicted value of the optimal ARIMA model and ARIMA-GRNN model were 1.14 and 0.77，respectively.This suggested that the fitting and predictive efficacies of ARIMA-GRNN model were better than ARIMA model.ARIMA-GRNN model could effectively fit and predict the incidence of hemorrhagic fever with renal syndrome，which was of great application value for the prevention and control of hemorrhagic fever with renal syndrome.

Hemorrhagic fever with renal syndrome；Time series；Incidence；Predict

*國家自然科學基金項目（No.81202254）；國家自然科學基金項目（No.30771860）

1.中國醫(yī)科大學公共衛(wèi)生學院（110122）

2.遼寧省疾病預防控制中心

△通信作者：周寶森，Email：bszhou＠m(xù)ail.cmu.edu.cn

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

應用ARIMA-GRNN模型對腎綜合征出血熱發(fā)病率時間序列數(shù)據(jù)的預測研究*

材料與方法

結 果

討 論

結果

討論