王楚雯 胡 穎 侯 穎
(大連民族大學理學院 遼寧大連 116600)
艾滋病是一種危害性極大的傳染病,是由人免疫缺陷病毒(HIV)引起的慢性傳染病。它把人體免疫系統(tǒng)中最重要的CD4T 淋巴細胞作為主要攻擊目標,大量破壞該細胞,使人體喪失免疫功能。因此,人體易于感染各種慢性疾病,引發(fā)并發(fā)癥,并可導致惡性腫瘤,病死率較高[1-3]。本病主要通過性接觸、血液及母嬰傳播。
廣西是多民族的聚居地,其中漢族和壯族是主要人口。這一地區(qū)自然增長率達到8.16%,人口增長較快,人口流動性也大幅增加。艾滋病具有傳播迅速、發(fā)病緩慢、病死率高的特點,且無法根治,所以對艾滋病的預測、防控就顯得尤為重要[4]。本文利用2013 年1 月—2019 年10 月廣西壯族自治區(qū)艾滋病確診與死亡數的月度數據,經數據處理、模型識別、模型優(yōu)化等時間序列分析程序,找到擬合度最優(yōu)的模型,進行5 期的預測與分析,并提出防控建議。
數據來源于廣西壯族自治區(qū)疾病預防控制中心[5]。從該網站公布的數據中收集了2013 年1 月—2019 年10 月廣西省艾滋病確診數與死亡數、死亡率的月度數據。
艾滋病是一種傳染性的疾病,其數據是典型的時序數據。本文首先對其進行描述性時序分析,其次,運用R 語言做出更為精準細致的統(tǒng)計時間序列分析。
本文構造自回歸求和移動平均模式(ARIMA)模型,實質上是差分運算與ARMA 模型的結合,旨在將序列通過一階或多階差分后能夠達到平穩(wěn),方能使用ARMA 模型進行擬合、預測。
具有如下結構的模型稱為求和自回歸移動平均模型,簡稱為 ARIMA(p,d,q)模型
其中,非負整數 d—求和階數;Φ(B)=1-φ1B-……-φPBP—平穩(wěn)可逆 ARMA(p,q)模型的自回歸系數多項式;Θ (B)=1-φ1B-……-φqBq—平穩(wěn)可逆 ARMA模型的移動平均系數多項式;d—階差分算子。
▽d=(1-B)d=(-B)kARIMA 模型建立的過程如下:
進行平穩(wěn)性檢驗進行白噪聲檢驗-對ARIMA模型定階-對定階后的模型做殘差檢驗-模型優(yōu)化-模型預測,在建模過程中,使用R 語言。
在原數據中缺失 2015年3月、2015年4月、2016年5月、2017年5月和2017年11月的數據。為此,采用樣條插值法,將缺失的數據補全。將廣西艾滋病的確診數和死亡數的月度數據時序化,并繪制時序圖(圖1)。
由圖1 可知,廣西艾滋病發(fā)病數具有隨機性趨勢,沒有在某一值上下波動,由此看出發(fā)病數具有非平穩(wěn)性特征。廣西艾滋病死亡率具有線性增加的趨勢。
圖1 時序圖
死亡率線性擬合趨勢詳見圖2。
圖2 死亡率線性擬合趨勢
It為隨機波動項,經白噪聲檢驗It不是白噪聲,但It似乎具有一定的規(guī)律性,在每年年末至第二年初死亡率達到峰值。為了對死亡率進行預測,根據經驗對It進行一階差分,結果發(fā)現(xiàn),It與階差分時間序列具有平穩(wěn)特征。死亡率殘差與殘差分布詳見圖3。對差分后的It進行白噪聲檢驗發(fā)現(xiàn)P<0.05,即差分后的It為非白噪聲序列。
對廣西艾滋病發(fā)病數進行一階差分后,發(fā)現(xiàn)可消除數據的隨機性趨勢,艾滋病1 階差分后的數據具有明顯的平穩(wěn)特征,詳見圖4。通過對廣西艾滋病差分數據進行白噪聲檢驗發(fā)現(xiàn)P 值小于0.05,說明在95%的置信水平下拒絕了原假設,因此,有理由認為備擇假設成立,即發(fā)病數差分序列為非白噪聲序列。
廣西艾滋病發(fā)病數自相關及偏自相關圖詳見圖5,廣西艾滋病死亡率自相關及偏自相關圖詳見圖6。由圖5 可知,艾滋病發(fā)病數自相關具有一階拖尾性,偏自相關圖具有二階拖尾性。因此艾滋病發(fā)病數預測模型為 ARIMA(2,1,2)。為了防止主觀選取模型對預測模型造成誤差,故根據圖5 從不同的角度選取了多個備選模型。提供備選識別模型為:ARIMA(2,1,1)、ARIMA(1,1,1)和 ARIMA(1,1,2)。由圖6可知,艾滋病死亡率It的一階差分序列的自相關和偏自相關都表現(xiàn)為拖尾。根據拖尾特征,將It模型識別ARIMA(2,1,1)、ARIMA(1,1,1)和 ARIMA(3,1,1)。但由于艾滋病死亡率偏自相關函數拖尾結果并不明顯,故同時對It進行自動定階并建模,識別結果為ARIMA(1,0,0)、ARIMA(0,1,1)。
圖3 It 時序圖與差分時序圖
圖4 發(fā)病數差分時序圖
圖5 艾滋病差分發(fā)病數自相關及偏自相關圖
圖6 It 差分自相關及偏自相關圖
(1)艾滋病發(fā)病數:對發(fā)病數所選定的4 個模型進行“最小二乘-極大似然”口徑擬合,并對殘差進行白噪聲檢驗,P 值均大于0.05,認為模型都通過了檢驗。R 語言給出的參數估計都具有顯著性,所以省去參數的顯著性檢驗。觀察通過檢驗模型的信息量,發(fā)現(xiàn)ARIMA(2,1,2)擬合發(fā)病數數據后所得的信息量 AIC=987.14,AICc=987.94,BIC=999.11,是所有擬合模型中最小的,故用模型 ARIMA(2,1,2)建模。模型如下:
(2)艾滋病死亡率:同理,使用類似于(1)的方法,得到最優(yōu)模型為 ARIMA(2,1,1),模型如下:
▽It=0.769 2▽It-1-0.223 9It-2+εt+εt-1,
εt:WN(0,0.009 263)
(1)廣西艾滋病發(fā)病數模型
εt:WN(0,10 187)
(2)廣西艾滋病死亡率模型
使用建立的模型進行5 期預測,給出預測的80%和95%的置信區(qū)間,并繪制預測圖。
廣西艾滋病發(fā)病數預測結果詳見圖7,死亡率預測結果詳見圖8。
圖8 艾滋病死亡率預測圖
以上數據表明,廣西在2013—2019 年艾滋病確診人數的數據處于較為平穩(wěn)的狀態(tài),并沒有出現(xiàn)明顯增加或明顯減少的情況。在對廣西省確診數據進行預測后發(fā)現(xiàn),未來5 個月廣西艾滋病確診人數的數據處于下降狀態(tài),一定程度上說明了廣西在艾滋病的防控上取得了較好的成果。另一方面,在對廣西艾滋病死亡率擬合后發(fā)現(xiàn),近年來廣西艾滋病死亡率逐年上升。在對廣西死亡率數據預測的過程中也發(fā)現(xiàn)死亡率處于先上升后下降的狀態(tài),但從總體上看死亡率還是處于上升的狀態(tài)。通過查閱相關資料發(fā)現(xiàn),艾滋病死亡原因主要為艾滋病相關死亡、艾滋病無相關死亡、意外死亡和自殺死亡[6]。鑒于艾滋病死亡的復雜性,排除了意外死亡病例后,與死亡相關的因素包括文化程度、家庭情況、酗酒、抗病毒治療等。本文對廣西2013—2019 年艾滋病死亡率進行調查,認為廣西的文化程度、家庭情況、酗酒等因素不足以促使艾滋病死亡率增加。這說明廣西當地的抗病毒治療不利是艾滋病患者死亡率增加的主要原因。
通過觀察死亡率殘差的時序圖發(fā)現(xiàn),2013—2019 年期間每一年年末至第二年年初是艾滋病死亡的高發(fā)期。這說明,在春節(jié)期間艾滋病的死亡率明顯增加,春節(jié)期間由于酗酒等因素導致非意外死亡中伴有其他慢性疾病病例的增加。因此,在春節(jié)期間,艾滋病患者在積極進行艾滋病抗病毒治療的同時,也應注意與艾滋病無關的疾病的防治。
本文使用了插值、趨勢擬合、ARIMA 等方法對廣西艾滋病確診數及死亡率進行了短期建模,預測后的精度較高。在建模的過程中,從數據出發(fā)選擇最優(yōu)模型對數據進行了預測,得到了較好的預測結果。