白 璐 郭佩汶 范晉蓉
(大連民族大學(xué)理學(xué)院 遼寧大連 116600)
2020 年初,武漢暴發(fā)新型冠狀病毒(2019-nCoV)肺炎(COVID-19)疫情。隨著研究的進(jìn)展,鐘南山院士宣布新冠病毒可以人傳人,主要通過呼吸道飛沫傳播與接觸傳播。病毒短短幾日席卷湖北省乃至全國,各地開始采取一些防控措施,如呼吁民眾戴口罩、勤洗手、避免聚集性活動(dòng)等。本文利用湖北省疫情初步暴發(fā)至采取封城措施后的一個(gè)月內(nèi)每日確診人數(shù)的數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理、模型識(shí)別、參數(shù)估計(jì)、模型驗(yàn)證與模型優(yōu)化等時(shí)間序列分析方法[1-3],建立與之對(duì)應(yīng)的時(shí)間序列模型,并對(duì)模型進(jìn)行具體解釋。最終利用該模型對(duì)湖北省未來確診人數(shù)進(jìn)行6 期預(yù)測(cè)分析,以期為疫情防控提供數(shù)據(jù)支持。
數(shù)據(jù)來自搜狗新型冠狀病毒(簡稱“新冠”)疫情實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)統(tǒng)計(jì)[4]。
根據(jù)該網(wǎng)站公布的數(shù)據(jù),收集了2020 年1 月25 日—2020 年3 月4 日湖北省每日確診人數(shù)的數(shù)據(jù)。
疫情期間,湖北省每日確診人數(shù)數(shù)據(jù)是十分典型的時(shí)序數(shù)列,且極大程度反映了疫情傳播情況與影響力,“封城”政策實(shí)行后的數(shù)據(jù)更能反映對(duì)疫情的控制力度,通過數(shù)據(jù)預(yù)測(cè),能科學(xué)具體地觀測(cè)到疫情的發(fā)展趨勢(shì)。因此,基于隨機(jī)過程理論與數(shù)理統(tǒng)計(jì)學(xué)方法,本文采用時(shí)間序列分析的方法建模,通過對(duì)數(shù)據(jù)的分析與處理,選用求和自回歸移動(dòng)平均模型(ARIMA)模型進(jìn)行建模,并作出6 期預(yù)測(cè)分析。
ARIMA 模型是19 世紀(jì)70 年代伯克斯和詹金斯提出的時(shí)間序列預(yù)測(cè)方法,其模型表達(dá)式為:
其中,d—求和階數(shù);Φ(B)=1-φ1B-…-φPBP—平穩(wěn)可逆 ARMA(p,q)模型的自回歸系數(shù)多項(xiàng)式;Θ(B)=1-θ1B-…-θqBq—平穩(wěn)可逆ARMA 模型的移動(dòng)平均系數(shù)多項(xiàng)式。
其建模過程依照如下步驟:
(1)數(shù)據(jù)預(yù)處理:對(duì)收集到的數(shù)據(jù)進(jìn)行整理使其適用于R 語言處理,并將其調(diào)整為時(shí)間序列的標(biāo)準(zhǔn)形式。繪制其時(shí)序圖初步觀察其數(shù)據(jù)走勢(shì),如果是平穩(wěn)時(shí)間序列,則其時(shí)序圖會(huì)圍繞某一固定值做有界波動(dòng)。然后做出它的自相關(guān)(ACF)圖,如果是平穩(wěn)時(shí)間序列,那么它的ACF 圖具有迅速衰減的規(guī)律。若序列被證明為平穩(wěn),還要對(duì)它進(jìn)行白噪聲檢驗(yàn)(隨機(jī)性檢驗(yàn))。如果檢驗(yàn)得到是白噪聲則證明序列之間無相關(guān)性,就無法對(duì)其進(jìn)行預(yù)測(cè),對(duì)它建模也就失去了意義。
(2)數(shù)據(jù)平穩(wěn)化:由步驟(1)可知如何處理平穩(wěn)時(shí)間序列,但如果時(shí)序圖是具有某種趨勢(shì)的非平穩(wěn)時(shí)間序列,就要提取其確定性趨勢(shì)項(xiàng),即對(duì)具有隨機(jī)性趨勢(shì)的非平穩(wěn)時(shí)間序列做一階或二階差分,從而提取其隨機(jī)趨勢(shì),再將差分后的時(shí)間序列進(jìn)行隨機(jī)性檢驗(yàn)。通過檢驗(yàn)后,就可以進(jìn)行ARIMA 擬合建模。需要注意的是,在實(shí)際計(jì)算中也會(huì)有趨勢(shì)擬合之后數(shù)據(jù)不平穩(wěn)的現(xiàn)象,這時(shí)就需要使用其他方法處理數(shù)據(jù)。
(3)模型識(shí)別:通過R 語言作時(shí)間序列的自相關(guān)圖觀察其拖尾或截尾情況,再作偏自相關(guān)圖觀察拖尾或截尾情況,從而估計(jì)其P 值、q 值,即自回歸階數(shù)與平均移動(dòng)階數(shù)的取值[5,6]。
(4)模型估計(jì):這一步驟也稱為口徑擬合,本文是利用指定參數(shù)估計(jì)法(條件最小二乘和極大似然估計(jì)混合方法)估計(jì)模型中的未知參數(shù)。
(5)模型檢驗(yàn):檢驗(yàn)數(shù)據(jù)擬合的殘差是否是白噪聲序列以及是否過度擬合。只有白噪聲序列才能通過檢驗(yàn),否則就要返回(2)或(3)重新開始。通過檢驗(yàn)后,還要對(duì)估計(jì)的參數(shù)進(jìn)行顯著性檢驗(yàn),精簡的模型是指沒有不顯著參數(shù)的模型。
(6)模型優(yōu)化:這一步是為了選出最有效的模型,本文運(yùn)用赤池信息準(zhǔn)則信息準(zhǔn)法(AIC)與貝葉斯信息準(zhǔn)則法(BIC)選取最優(yōu)模型。
(7)預(yù)測(cè):根據(jù)最優(yōu)模型做出線性最小方差預(yù)測(cè)。
根據(jù)湖北省 2020年1 月 20 日—3 月 4 日患新型冠狀病毒肺炎(簡稱“新冠肺炎”)人數(shù)的數(shù)據(jù)繪制時(shí)序圖,詳見圖1。由圖1 可知,該數(shù)據(jù)具有明顯遞增趨勢(shì),不具有平穩(wěn)性數(shù)據(jù)的特征,需將此數(shù)據(jù)進(jìn)行平穩(wěn)化處理。
圖1 時(shí)序圖
采用差分的方法,對(duì)患新冠肺炎人數(shù)的數(shù)據(jù)進(jìn)行一階差分,再對(duì)一階差分序列進(jìn)行白噪聲檢驗(yàn)。結(jié)果表明,一階差分后的序列為非白噪聲,一階差分序列時(shí)序圖詳見圖2。經(jīng)過一階差分后,原序列的線形趨勢(shì)被提取,此時(shí)可以先確定ARIMA 模型中的d 值為1。另外,后期的數(shù)據(jù)是以臨床診斷統(tǒng)計(jì)的,而非前期的核酸檢測(cè),所以導(dǎo)致數(shù)據(jù)有個(gè)跳。
由一階差分序列的自相關(guān)圖和偏自相關(guān)圖(圖3)得出,自相關(guān)函數(shù)具有拖尾性,偏自相關(guān)函數(shù)具有一階截尾性,可將一階差分序列識(shí)別為 ARIMA(1,1,0)。
分別對(duì)擬定的 4 個(gè)模型 ARIMA(1,1,0)、ARIMA(1,1,1)、ARIMA(1,1,2)、ARIMA(0,1,1)進(jìn) 行“最小二乘-極大似然”參數(shù)估計(jì),并對(duì)殘差進(jìn)行白噪聲檢驗(yàn),擬定的4 個(gè)模型的殘差檢驗(yàn)結(jié)果的P 值均遠(yuǎn)遠(yuǎn)大于0.05,可認(rèn)為以上的4 個(gè)模型都通過檢驗(yàn)。因數(shù)據(jù)處理與檢驗(yàn)均使用R 語言進(jìn)行,而R 語言給出的參數(shù)估計(jì)是顯著的,可省去參數(shù)的顯著性檢驗(yàn)。比較以上 4 個(gè)模型的信息量,發(fā)現(xiàn) ARIMA(1,1,1)模型的信息量 AIC=805.34,BIC=810.70,是 4 個(gè)擬合模型中最小的,由此,對(duì) ARIMA(1,1,1)口徑擬合,模型如下:
圖2 一階差分時(shí)序圖
圖3 一階差分序列的自相關(guān)圖和偏自相關(guān)圖
使用建立的模型進(jìn)行6 期預(yù)測(cè),給出預(yù)測(cè)的80%和95%的置信區(qū)間并繪制相應(yīng)的預(yù)測(cè)圖(圖4)和個(gè)性化預(yù)測(cè)圖(圖5)。
圖4 預(yù)測(cè)圖
圖5 個(gè)性化預(yù)測(cè)圖
由以上數(shù)據(jù)可知,湖北省新冠肺炎確診人數(shù)雖仍存在上漲趨勢(shì),但增長幅度已經(jīng)明顯減緩,說明我國采取的防疫措施十分有效。相信最終湖北省新冠肺炎確診人數(shù)的增長幅度將減緩為零,確診人數(shù)也將最終在某一數(shù)值保持不再增長。因此,繼續(xù)堅(jiān)持現(xiàn)有的相關(guān)防疫措施及政策,人們必將打贏這場(chǎng)防疫阻擊戰(zhàn)。
本文綜合運(yùn)用ARIMA、趨勢(shì)擬合等手段,完成相關(guān)建模與分析,短期預(yù)測(cè)效果突出,便于操作。在建模的過程中,堅(jiān)持從數(shù)據(jù)本身出發(fā)尋找合適的模型,從而保證模型與數(shù)據(jù)之間具有較好的擬合效果,為后續(xù)的統(tǒng)計(jì)分析提供了便利,也保證了模型的可靠性。