国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自增強(qiáng)泊松過(guò)程的COVID-19疫情預(yù)測(cè)

2021-02-24 02:29劉元浩曹婍沈華偉黃俊杰程學(xué)旗
關(guān)鍵詞:建模人群階段

劉元浩,曹婍,沈華偉,黃俊杰,程學(xué)旗

(中國(guó)科學(xué)院計(jì)算技術(shù)研究所數(shù)據(jù)智能系統(tǒng)研究中心,北京 100190)

1 引言

自2019年底以來(lái)的幾個(gè)月內(nèi),新型冠狀病毒肺炎COVID-19 在全世界范圍內(nèi)廣泛流行,截至2020 年4月7 日,全球COVID-19 累計(jì)確診人數(shù)已達(dá)1,279,722例,并仍在持續(xù)快速增長(zhǎng)。疫情的持續(xù)蔓延對(duì)人們的生命安全造成巨大威脅,也對(duì)國(guó)家醫(yī)療建設(shè)、物資調(diào)配、隔離管控等方面帶來(lái)挑戰(zhàn)。在此背景下,采用數(shù)學(xué)方法對(duì)疫情傳播進(jìn)行建模并對(duì)確診病例數(shù)的增長(zhǎng)進(jìn)行及時(shí)準(zhǔn)確地預(yù)測(cè)對(duì)于疫情防控具有重要意義。一方面,對(duì)疫情傳播進(jìn)行準(zhǔn)確預(yù)測(cè),對(duì)于醫(yī)療衛(wèi)生資源的分配、防控重點(diǎn)的調(diào)整等具有重要的參考價(jià)值。另一方面,在防疫工作進(jìn)行過(guò)程中的重要時(shí)間節(jié)點(diǎn)前后,對(duì)確診病例數(shù)增長(zhǎng)趨勢(shì)的變化進(jìn)行對(duì)比,能夠有效地對(duì)防控措施有效性進(jìn)行合理評(píng)估。

對(duì)于疫情傳播預(yù)測(cè),最常用的研究框架是傳染病模型。傳統(tǒng)的常微分方程傳染病模型假設(shè)人群總數(shù)恒定且人群均勻混合[1],通過(guò)對(duì)人群中處于各個(gè)狀態(tài)的人數(shù)及各狀態(tài)間的相互轉(zhuǎn)換速率進(jìn)行建模,推算疫情發(fā)展走勢(shì)。常見(jiàn)的傳染病模型根據(jù)人群劃分的不同及人群轉(zhuǎn)換的不同,包括SI[2]、SIS[3]、SIR[4]、SEIR[5]等。傳染病模型從傳染病傳播動(dòng)力學(xué)的角度進(jìn)行考慮,能對(duì)疫情短期內(nèi)發(fā)展趨勢(shì)進(jìn)行較好的模擬,但其總?cè)藬?shù)恒定且人群均勻混合的理想化假設(shè)使其應(yīng)用場(chǎng)景受到局限。

疫情感染人數(shù)預(yù)測(cè)的另一方法是時(shí)間序列預(yù)測(cè)。疫情傳播情況會(huì)隨著時(shí)間推移而不斷演變,疫情感染人群數(shù)可以形式化為一種時(shí)間序列,并采用時(shí)間序列分析與建模的方式進(jìn)行預(yù)測(cè)。線性時(shí)間序列分析模型包括自回歸(Auto-regression)模型和移動(dòng)平均(Moving Average)模型[6],以及基于兩者組合而成的自回歸移動(dòng)平均(Auto-regression Moving Average)模型[7]。向量自回歸(Vector Autoregressive)模型等非線性時(shí)間序列模型以及基于深度神經(jīng)網(wǎng)絡(luò)的RNN[8],LSTM[9],TCN[10]等模型也在時(shí)間序列分析問(wèn)題上有優(yōu)秀的表現(xiàn)。采用時(shí)間序列分析模型進(jìn)行疫情預(yù)測(cè),能夠通過(guò)簡(jiǎn)單的模型建模疫情發(fā)展的時(shí)間序列當(dāng)前值與序列歷史信息間的關(guān)系,對(duì)疫情走勢(shì)做出預(yù)測(cè)。但由于缺乏對(duì)疫情的傳染性、爆發(fā)性、衰減性等特性的認(rèn)識(shí)與建模,對(duì)疫情確診人數(shù)的預(yù)測(cè)仍有一定的局限。此外疫情前期可用數(shù)據(jù)有限,也給時(shí)間序列模型的學(xué)習(xí)造成了很大困難。

本文采用自增強(qiáng)泊松過(guò)程(RPP)模型[11]對(duì)疫情確診人數(shù)變化趨勢(shì)進(jìn)行預(yù)測(cè),該模型將病毒感染人群的動(dòng)態(tài)過(guò)程建模為不均勻泊松過(guò)程,通過(guò)對(duì)病毒傳染性、級(jí)聯(lián)傳染的自增強(qiáng)效應(yīng)和病毒傳播的時(shí)效性等三個(gè)因子進(jìn)行建模,對(duì)疫情傳播過(guò)程中的關(guān)鍵因子進(jìn)行刻畫(huà),以解決上述模型中出現(xiàn)的問(wèn)題,并使用本次COVID-19 疫情傳播數(shù)據(jù)進(jìn)行實(shí)驗(yàn),證明模型的有效性。

2 相關(guān)工作

自COVID-19 疫情發(fā)生以來(lái),世界各地學(xué)者紛紛嘗試對(duì)疫情的發(fā)展趨勢(shì)展開(kāi)研究和分析。其中以SEIR 模型為代表的微分方程傳染病模型占據(jù)了疫情趨勢(shì)預(yù)測(cè)工作的主要部分。SEIR 模型將人群劃分為易感者(Susceptible)、潛伏期感染者(Exposed)、感染者(Infected)、治愈者(Recovered)四個(gè)群體,以微分方程描述四個(gè)狀態(tài)間的轉(zhuǎn)換關(guān)系。2020年1月31日,香港大學(xué)學(xué)者Joseph T Wu 應(yīng)用SEIR 模型,利用武漢早期病例數(shù),推測(cè)疫情會(huì)在4 月達(dá)到高峰[12]。肖燕妮教授團(tuán)隊(duì)同樣基于SEIR 模型,考慮跟蹤隔離等管控措施,對(duì)疫情的走勢(shì)和管控舉措的有效性進(jìn)行了分析[13]。2 月28 日,鐘南山院士團(tuán)隊(duì)考慮地區(qū)間人口流動(dòng)對(duì)SEIR 模型進(jìn)行改進(jìn),通過(guò)對(duì)實(shí)施管控措施時(shí)間的調(diào)整,論證了控制措施對(duì)于減少最終COVID-19 流行病的規(guī)模是必不可少的[14]。西安交通大學(xué)[15]、北京郵電大學(xué)[16]等國(guó)內(nèi)研究機(jī)構(gòu)也通過(guò)傳染病動(dòng)力學(xué)建模對(duì)COVID-19疫情走勢(shì)做出了預(yù)測(cè)。上述基于傳染病模型對(duì)疫情預(yù)測(cè)分析的工作被證明可以較準(zhǔn)確地反映小范圍空間在短期內(nèi)的疫情走勢(shì),但由于這類模型對(duì)初始參數(shù)敏感,且基于人群均勻接觸的理想假設(shè),難以應(yīng)對(duì)不同地區(qū)不同時(shí)間帶來(lái)的復(fù)雜疫情發(fā)展趨勢(shì)變化。

基于時(shí)間序列分析的疫情預(yù)測(cè)分析在流感等傳染病預(yù)測(cè)領(lǐng)域多有應(yīng)用[17][18][19]。線性時(shí)間序列模型如Pinto[20]模型假設(shè)未來(lái)的序列值為歷史序列值的線性組合,從而通過(guò)歷史確診人數(shù)對(duì)未來(lái)的確診人數(shù)進(jìn)行預(yù)測(cè)。然而線性時(shí)間序列模型在應(yīng)用中面臨諸多局限,基于深度學(xué)習(xí)技術(shù)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[8]模型解決了這一問(wèn)題,但也因?qū)﹂L(zhǎng)序列進(jìn)行學(xué)習(xí)時(shí)會(huì)出現(xiàn)梯度爆炸或梯度消失現(xiàn)象,從而無(wú)法對(duì)長(zhǎng)序列建模。時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Networks,TCN)[10]模型通過(guò)因果空洞卷積的設(shè)計(jì),提取序列局部特征的同時(shí)增大感受野,實(shí)現(xiàn)了對(duì)長(zhǎng)時(shí)間序列的有效處理。上述提到的時(shí)間序列模型,能對(duì)時(shí)間序列進(jìn)行建模并預(yù)測(cè)。然而這些時(shí)間序列模型對(duì)疫情傳播的傳染性、爆發(fā)性、衰減性的關(guān)鍵性質(zhì)缺乏認(rèn)識(shí),且要求有足夠的訓(xùn)練數(shù)據(jù)用來(lái)學(xué)習(xí)模型參數(shù),這使得其在疫情預(yù)測(cè)應(yīng)用領(lǐng)域存在一定局限。

3 模型方法

3.1 問(wèn)題形式化

我們使用疫情傳播的動(dòng)態(tài)過(guò)程刻畫(huà)人群中個(gè)體被病毒感染并發(fā)病這一事件的發(fā)生過(guò)程。對(duì)于某傳染病d,我們將其在時(shí)間段[0,T]內(nèi)的疾病感染人群動(dòng)態(tài)變化過(guò)程表示為個(gè)體染病事件發(fā)生的時(shí)間序列:

其中nd表示T時(shí)刻內(nèi)被疾病感染的人群總?cè)藬?shù),表示第i個(gè)染病事件發(fā)生的時(shí)間。不失一般性,令0 ≤≤T。

3.2 事件發(fā)生速率建模

為了建模疫情傳播的動(dòng)態(tài)過(guò)程中個(gè)體染病事件發(fā)生的速率,我們考察疾病傳播過(guò)程中的三大現(xiàn)象:(1)病毒傳染性,即病毒自身的傳染性對(duì)最終的感染人數(shù)起決定作用;(2)級(jí)聯(lián)傳播所帶來(lái)的自增強(qiáng)效應(yīng),即病毒當(dāng)前的感染人數(shù)越多越容易進(jìn)行新的傳播感染;(3)病毒傳播的時(shí)效性,即隨著時(shí)間推移,病毒感染人群繼續(xù)感染他人的可能性會(huì)下降。綜合考慮這三個(gè)現(xiàn)象,我們采用自增強(qiáng)泊松過(guò)程(Reinforced Poisson Process,RPP)[11]來(lái)建模疾病感染人群的動(dòng)態(tài)過(guò)程。具體而言,對(duì)于某個(gè)傳染病d,其感染人群的動(dòng)態(tài)過(guò)程建模為一個(gè)速率為的泊松過(guò)程。其中,λd是病毒自身的傳染性,松弛函數(shù)fd(t;θd)刻畫(huà)病毒傳播的速率隨時(shí)間演變過(guò)程。θd是松弛函數(shù)的參數(shù),id(t) 表示病毒d在時(shí)刻t已經(jīng)感染的人群數(shù)量。我們假定所有的病毒在開(kāi)始感染前,都有一定初始感染人數(shù)m。因此,在第i- 1 次真實(shí)感染事件發(fā)生后到第i次真實(shí)感染事件發(fā)生前的時(shí)間段內(nèi),我們有id(t) =m+i- 1(1 ≤i≤nd)。相應(yīng)地,在第nd次真實(shí)感染事件發(fā)生后到時(shí)刻T之前,我們有id(t) =m+nd。

對(duì)于疫情預(yù)測(cè),我們采用對(duì)數(shù)正態(tài)松弛函數(shù)

作為刻畫(huà)病毒傳播時(shí)效性的松弛函數(shù)。此時(shí)松弛函數(shù)的參數(shù)θd被替換為對(duì)數(shù)正態(tài)函數(shù)的均值μd和方差σd。

整個(gè)疾病感染人群的動(dòng)態(tài)過(guò)程可以表示為如圖1所示的產(chǎn)生式概率圖模型。

圖1 疾病感染人群動(dòng)態(tài)過(guò)程的產(chǎn)生式概率圖模型[11]

3.3 參數(shù)學(xué)習(xí)

兩次連續(xù)感染事件之間的時(shí)間間隔長(zhǎng)度服從不均勻泊松過(guò)程。因此,設(shè)第i- 1 次真實(shí)感染事件的發(fā)生時(shí)刻為,那么第i次真實(shí)感染事件在時(shí)刻發(fā)生的概率滿足:

在第nd次真實(shí)感染事件發(fā)生時(shí)刻和觀測(cè)時(shí)刻T之間沒(méi)有感染事件發(fā)生的概率為:

那么,在時(shí)間間隔[0,T]內(nèi)觀測(cè)到病毒d的染病人群動(dòng)態(tài)過(guò)程的似然為

其中,F(xiàn)d(t; μd,σd )是松弛函數(shù)fd(t;μd,σd)的累積分布函數(shù)。

我們通過(guò)最大似然估計(jì),學(xué)習(xí)病毒d的參數(shù)λd,μd和σd。令似然函數(shù)導(dǎo)數(shù)為零,可直接求得參數(shù)λd的最大似然估計(jì)值

對(duì)于μd和σd,我們使用梯度下降法最大化似然函數(shù),梯度

其中,φ是標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù),

3.4 疫情預(yù)測(cè)

根據(jù)泊松過(guò)程的速率函數(shù)和對(duì)應(yīng)的微分方程求解,我們得到病毒感染人群的預(yù)測(cè)函數(shù):

4 實(shí)驗(yàn)設(shè)置

4.1 對(duì)照模型

4.1.1 SEIR型流行病模型

傳染病學(xué)模型采用肖燕妮教授團(tuán)隊(duì)的工作[13],該模型在傳統(tǒng)SEIR模型對(duì)人群的“易感者-暴露者-感染者-治愈者”劃分的基礎(chǔ)上,結(jié)合COVID-19 的實(shí)際情況與諸如檢疫,隔離和治療等干預(yù)措施,將人群分為易感者(S),暴露者(E),潛伏傳染者(未表現(xiàn)出癥狀但有傳染性)(A),具有癥狀的傳染者(I),住院患者(H)和康復(fù)者(R),并進(jìn)一步劃分出被隔離的易感者(Sq)和被隔離的暴露者(Eq)。不同人群間的狀態(tài)轉(zhuǎn)換方程如下:

通過(guò)對(duì)模型設(shè)定合適的參數(shù)和初始值來(lái)推算疫情累計(jì)確診人數(shù)C=I+H+R。

4.1.2 時(shí)間序列模型

Pinto模型:采用該模型作為線性時(shí)間序列模型的代表。該模型劃定待預(yù)測(cè)時(shí)刻前的一段時(shí)間T 作為觀測(cè)窗口,將采樣窗口劃分為大量的采樣間隔,采用每個(gè)采樣間隔內(nèi)的新增確診人數(shù)作為模型的輸入,通過(guò)簡(jiǎn)單的多元線性組合給出模型的預(yù)測(cè)值[20]。

TCN模型:非線性時(shí)間序列模型采用時(shí)序卷積網(wǎng)絡(luò)(TCN)模型。該模型通過(guò)卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取疫情發(fā)展歷史序列中的重要特征,并通過(guò)因果空洞卷積提升增大了感受野,從而可以觀測(cè)更久的歷史序列[10]。

4.2 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)采用中國(guó)1 月20 日至3 月15 日共計(jì)56天的COVID-19 每日確診人數(shù)[21][22]作為實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)范圍基本涵蓋了全國(guó)自疫情開(kāi)始流行至爆發(fā)到基本得到控制的全過(guò)程。同時(shí)考慮到3 月16 日后國(guó)內(nèi)新增確診病例來(lái)源以境外輸入為主,因此將其排除,最大程度上避免了境外輸入病例對(duì)實(shí)驗(yàn)結(jié)果的影響。

考慮到疫情傳播具有地區(qū)性,不同地區(qū)疫情出現(xiàn)時(shí)間存在先后差異,疫情發(fā)展速度也可能不相同。我國(guó)的疫情傳播呈現(xiàn)出明顯的“武漢市-湖北省-全國(guó)其他地區(qū)”地區(qū)劃分:一方面體現(xiàn)在地區(qū)間的隔離上,自1 月23 日起武漢開(kāi)始全面封城,而湖北省也率先實(shí)行了較為嚴(yán)格的出入管制措施,最大程度上減少了感染病例的流入和流出;另一方面體現(xiàn)在疫情傳播的時(shí)間先后和傳播的規(guī)模上,國(guó)內(nèi)疫情最先發(fā)現(xiàn)于湖北省武漢市,隨后蔓延至湖北省和全國(guó)其他地區(qū),我國(guó)及時(shí)采取措施將疫情大規(guī)模傳播范圍盡可能地控制在了小范圍內(nèi),截至3 月15 日,全國(guó)近84%的確診病例發(fā)現(xiàn)于湖北省,而其中又有近74%的病例位于武漢市。

因此本文將全國(guó)確診人數(shù)數(shù)據(jù)劃分為“全國(guó)”、“全國(guó)(除湖北)”、“湖北(除武漢)”、“武漢”四個(gè)地區(qū)層次。

圖2是四個(gè)地區(qū)的累計(jì)確診人數(shù)隨時(shí)間變化的曲線(為保證模型預(yù)測(cè)結(jié)果體現(xiàn)疫情發(fā)展的真正趨勢(shì),我們排除掉2月12日新增確診人數(shù)中的臨床診斷病例數(shù)[22])。不難發(fā)現(xiàn)各個(gè)地區(qū)劃分下,疫情整體發(fā)展趨勢(shì)基本一致,但存在總量和增長(zhǎng)速度等方面的明顯差異。

圖2 各地區(qū)確診人數(shù)隨時(shí)間變化曲線

除了地區(qū)劃分,疫情趨勢(shì)在不同時(shí)間階段的表現(xiàn)也有差異。如圖中矩形框所標(biāo)識(shí),累計(jì)確診人數(shù)的變化在時(shí)間上較為明顯地呈現(xiàn)出三個(gè)階段:(1)前期——加速增長(zhǎng)階段,在疫情流行初期,累計(jì)確診人數(shù)增速持續(xù)上升,圖線呈下凸經(jīng)過(guò)矩形框的右下部分;(2)中期——增速穩(wěn)定階段,隨著疫情發(fā)展與防控措施的實(shí)行,每日新增確診人數(shù)基本維持不變,圖線基本沿矩形對(duì)角線呈直線;(3)后期——增速放緩階段,后期疫情得以控制,確診人數(shù)增速迅速放緩,圖線從扁平矩形框的左上部分經(jīng)過(guò)。為量化表示三個(gè)階段的特點(diǎn),我們對(duì)地區(qū)a的疫情發(fā)展階段u計(jì)算平均增長(zhǎng)系數(shù),

其中ca(i)為地區(qū)a第i天的新增確診人數(shù),Tu為階段u的天數(shù)。在計(jì)算時(shí),我們將累計(jì)確診人數(shù)曲線進(jìn)行了平滑處理以避免每日新增確診病例數(shù)波動(dòng)的影響。四個(gè)地區(qū)的各階段劃分與平均增長(zhǎng)系數(shù)見(jiàn)表1。

表1 各地區(qū)疫情發(fā)展趨勢(shì)的階段劃分

我們分別考察模型在各地區(qū)不同時(shí)間階段的預(yù)測(cè)表現(xiàn),作為衡量模型在不同環(huán)境下預(yù)測(cè)能力的依據(jù)。

4.3 實(shí)驗(yàn)參數(shù)設(shè)置

由于確診病例數(shù)以1天為單位時(shí)間統(tǒng)計(jì),因此RPP模型的最小時(shí)間單位為1天,當(dāng)天所有新增病例計(jì)為同時(shí)發(fā)生。由于疫情發(fā)展的情況會(huì)隨時(shí)間變化,為保證模型較好地反映近期疫情的走勢(shì),我們沒(méi)有使用預(yù)測(cè)時(shí)間之前的所有數(shù)據(jù),而是在4 ≤T≤15范圍內(nèi)通過(guò)搜索確定觀測(cè)窗口T大小。初始感染人數(shù)m= 20。

SEIR模型參數(shù)值設(shè)定采用文獻(xiàn)[13]中的取值,該文參數(shù)由武漢市早期疫情數(shù)據(jù)模擬獲得。我們使用原文方法求取了不同地區(qū)劃分下的模型參數(shù),取值見(jiàn)表2。模型的初始值獲取自國(guó)家衛(wèi)健委的報(bào)道數(shù)據(jù)[22],未明確報(bào)道的狀態(tài)初值由預(yù)測(cè)時(shí)間前一段時(shí)間疫情相關(guān)數(shù)據(jù)通過(guò)最大似然估計(jì)得出。

表2 SEIR模型參數(shù)取值

時(shí)間序列模型的觀測(cè)窗口大小同樣通過(guò)搜索確定,從而選取合適的觀測(cè)歷史長(zhǎng)度同時(shí)保證一定的訓(xùn)練集體量。采樣間隔設(shè)置為1天。

4.4 評(píng)價(jià)方法

我們計(jì)算預(yù)測(cè)結(jié)果的MAPE(Mean Absolute Percentage Error,平均絕對(duì)百分比誤差)以衡量模型的預(yù)測(cè)能力。MAPE的計(jì)算公式為

其中n 為預(yù)測(cè)時(shí)間段的天數(shù),Ct為第t天的累計(jì)確診人數(shù),為其預(yù)測(cè)值。

5 實(shí)驗(yàn)結(jié)果

5.1 地區(qū)間差異對(duì)預(yù)測(cè)效果的影響

我們使用不同模型在全國(guó)、全國(guó)(除湖北)、湖北(除武漢)、武漢四個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比不同地區(qū)間的差異對(duì)模型預(yù)測(cè)效果的影響。考慮到訓(xùn)練數(shù)據(jù)量和預(yù)測(cè)時(shí)段可能對(duì)各模型的預(yù)測(cè)效果產(chǎn)生不同的影響,因此我們分別在疫情前半段與后半段進(jìn)行實(shí)驗(yàn),使用1月31日之前和2月10日之前的數(shù)據(jù)訓(xùn)練模型,分別對(duì)隨后一周(即2 月1 日至2 月7 日和2 月11日至2 月17 日)的累計(jì)確診人數(shù)進(jìn)行預(yù)測(cè),誤差結(jié)果如表3、表4。

表3 各模型2月1日至2月7日預(yù)測(cè)結(jié)果MAPE

表4 各模型2月11日至2月17日預(yù)測(cè)結(jié)果MAPE

RPP 模型、Pinto 模型與TCN 模型對(duì)不同地區(qū)的疫情預(yù)測(cè)效果均比較穩(wěn)定。相較于Pinto 模型與TCN模型僅對(duì)歷史確診人數(shù)序列進(jìn)行分析,RPP 模型對(duì)疫情傳播的關(guān)鍵因子進(jìn)行了建模,其預(yù)測(cè)結(jié)果明顯優(yōu)于其他模型。

SEIR 模型的預(yù)測(cè)效果在不同地區(qū)差異較大。這是由于SEIR 模型假設(shè)人群均勻混合,在全國(guó)各地采取封城措施相互隔離的情況下,絕大多數(shù)的感染人群的活動(dòng)實(shí)際上被限制在了湖北省和武漢市內(nèi),這與人群均勻混合的假設(shè)高度不符,從源頭上限制了SEIR模型的表現(xiàn)。

5.2 不同時(shí)間階段對(duì)預(yù)測(cè)效果的影響

根據(jù)表1,我們從時(shí)間上將疫情的發(fā)展過(guò)程劃分為前期、中期和后期三個(gè)階段。這一部分我們從時(shí)間劃分的角度,考察模型“階段內(nèi)預(yù)測(cè)”和“跨階段預(yù)測(cè)”的效果。

5.2.1 階段內(nèi)預(yù)測(cè)

疫情發(fā)展的每一個(gè)階段都有其特定的發(fā)展趨勢(shì)和規(guī)律,對(duì)這些規(guī)律的把握能力是模型完成精準(zhǔn)預(yù)測(cè)的基本要求。這一部分實(shí)驗(yàn)分別使用前期,中期,后期的前半段數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),預(yù)測(cè)同時(shí)期后半段的累計(jì)確診人數(shù)。以武漢地區(qū)為例,各模型預(yù)測(cè)結(jié)果如圖3、圖4、圖5。

圖3 武漢市前期累計(jì)確診人數(shù)預(yù)測(cè)結(jié)果

圖4 武漢市中期累計(jì)確診人數(shù)預(yù)測(cè)結(jié)果

圖5 武漢市后期累計(jì)確診人數(shù)預(yù)測(cè)結(jié)果

由圖可以看出,在疫情前期數(shù)據(jù)量較少、數(shù)據(jù)規(guī)律性較弱時(shí),Pinto 模型與TCN 模型難以通過(guò)少量數(shù)據(jù)掌握疫情發(fā)展的整體趨勢(shì),因此預(yù)測(cè)效果較差。而RPP 模型與SEIR 模型通過(guò)對(duì)疫情發(fā)展固有性質(zhì)的建模,可以較好地模擬確診人數(shù)加速增長(zhǎng)的趨勢(shì)。

中后期RPP、Pinto 與TCN 模型對(duì)確診人數(shù)增速保持穩(wěn)定至減緩的趨勢(shì)能夠進(jìn)行較好地模擬。SEIR 模型由于其模型假設(shè)所有人都會(huì)暴露在被傳染的風(fēng)險(xiǎn)下,因此在人口總數(shù)很大時(shí),最終累計(jì)確診人數(shù)也會(huì)變得過(guò)高。因此我們?cè)谥泻笃诓辉賹?duì)其進(jìn)行對(duì)比。

我們?cè)诟鞯貐^(qū)數(shù)據(jù)集上進(jìn)行了相同的階段內(nèi)預(yù)測(cè)實(shí)驗(yàn),綜合平均誤差結(jié)果如表5。

表5 各模型階段內(nèi)實(shí)驗(yàn)累計(jì)確診人數(shù)預(yù)測(cè)MAPE

可以看出RPP 模型在各個(gè)時(shí)間階段內(nèi)都能準(zhǔn)確地對(duì)確診人數(shù)進(jìn)行預(yù)測(cè),對(duì)階段內(nèi)疫情發(fā)展趨勢(shì)能夠進(jìn)行較好地把握。

5.2.2 跨階段預(yù)測(cè)

由于疫情發(fā)展的不同階段趨勢(shì)各不相同,從而意味著應(yīng)該采取不同的防疫措施。也就是說(shuō),模型對(duì)于趨勢(shì)轉(zhuǎn)換的準(zhǔn)確預(yù)測(cè)能力十分重要。因此這一部分實(shí)驗(yàn)分別使用前期和中期的確診人數(shù)訓(xùn)練模型,預(yù)測(cè)其下一個(gè)時(shí)期的疫情趨勢(shì)。

同樣以武漢地區(qū)為例,各模型預(yù)測(cè)結(jié)果如圖6、圖7。

圖6 武漢市前期-中期累計(jì)確診人數(shù)預(yù)測(cè)結(jié)果

圖7 武漢市中期-后期累計(jì)確診人數(shù)預(yù)測(cè)結(jié)果

由圖6、圖7 可知,相較于Pinto 和TCN 模型,RPP模型在中期更能把握確診人數(shù)增速保持穩(wěn)定隨后趨于下降的趨勢(shì)。而后期RPP 和Pinto 模型都能較好地模擬增速迅速下降的趨勢(shì),而TCN模型的預(yù)測(cè)結(jié)果則傾向于保持增速持續(xù)增長(zhǎng)。

我們?cè)诟鞯貐^(qū)數(shù)據(jù)集上進(jìn)行相同的跨階段預(yù)測(cè)實(shí)驗(yàn),計(jì)算預(yù)測(cè)結(jié)果的平均增長(zhǎng)系數(shù)(p ?_u^a ) ?,再與表1中的實(shí)際值進(jìn)行對(duì)比,計(jì)算MAPE,結(jié)果如表6。

表6 各模型跨階段實(shí)驗(yàn)平均增長(zhǎng)系數(shù)的MAPE

可知RPP 模型在判斷階段變化時(shí)表現(xiàn)明顯優(yōu)于Pinto 與TCN 模型,在各時(shí)間階段都能很好地預(yù)測(cè)疫情發(fā)展趨勢(shì)的階段性變化。

6 實(shí)踐應(yīng)用

我們將本文方法投入實(shí)際應(yīng)用,自1 月29 日起先后對(duì)中國(guó)、日本、韓國(guó)、意大利、美國(guó)等九個(gè)國(guó)家共12個(gè)地區(qū)的疫情確診人數(shù)進(jìn)行預(yù)測(cè),累計(jì)確診人數(shù)平均誤差率小于0.5%。預(yù)測(cè)結(jié)果發(fā)布于中科天璣智疫通線上平臺(tái)(https://ncov.ictbda.com/#/,效果如圖8)

圖8 在線系統(tǒng)疫情預(yù)測(cè)效果

7 總結(jié)與展望

本文應(yīng)用基于自增強(qiáng)泊松過(guò)程(RPP)的模型來(lái)預(yù)測(cè)COVID-19的疫情確診病例數(shù)。我們的實(shí)驗(yàn)結(jié)果表明,RPP模型在預(yù)測(cè)疫情確診人數(shù)的任務(wù)中明顯優(yōu)于傳統(tǒng)的傳染病模型和時(shí)間序列分析模型。在空間上,RPP模型克服了SEIR模型基于人群均勻混合的局限,在各尺度的地理區(qū)域都有穩(wěn)定且準(zhǔn)確的預(yù)測(cè)結(jié)果。在時(shí)間上,一方面,RPP模型解決了SEIR模型在人口總數(shù)很大時(shí)累計(jì)確診數(shù)持續(xù)增長(zhǎng)的問(wèn)題;另一方面,RPP模型通過(guò)建模疫情發(fā)展過(guò)程中的關(guān)鍵因素,擺脫了時(shí)間序列分析模型僅對(duì)歷史數(shù)據(jù)建模的局限性,從而對(duì)疫情發(fā)展各個(gè)階段的疫情走勢(shì)能夠進(jìn)行更精確的預(yù)測(cè),并且能準(zhǔn)確把握疫情發(fā)展的重要階段性變化,其結(jié)果在實(shí)際應(yīng)用更具有參考價(jià)值。

本文的方法也存在進(jìn)一步優(yōu)化的空間,本文假設(shè)感染速率與當(dāng)前感染人數(shù)成正比,并使用松弛函數(shù)從整體上描述部分感染者被隔離或被治愈等情況造成的感染者總體影響力下降。未來(lái)將考慮使用Hawkes過(guò)程進(jìn)行建模,細(xì)化不同狀態(tài)感染者對(duì)疾病感染速率的影響。

猜你喜歡
建模人群階段
Open science:The science paradigm of the new era
關(guān)于基礎(chǔ)教育階段實(shí)驗(yàn)教學(xué)的幾點(diǎn)看法
物理建模在教與學(xué)實(shí)踐中的應(yīng)用
在經(jīng)歷中發(fā)現(xiàn)在探究中建模
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
糖尿病早預(yù)防、早控制
求距求值方程建模
在學(xué)前教育階段,提前搶跑,只能跑得快一時(shí),卻跑不快一生。
我走進(jìn)人群
基于通勤目標(biāo)人群需求的慢行交通系統(tǒng)構(gòu)建