須成杰 覃開舟
(復(fù)旦大學(xué)附屬婦產(chǎn)科醫(yī)院 上海 200090)
新型冠狀病毒是2019年末所發(fā)現(xiàn)的一種具有很強(qiáng)傳染性的冠狀病毒毒株,世界衛(wèi)生組織將由此種新型的冠狀病毒所引發(fā)的肺炎命名為COVID-19[1]。人感染后常見癥狀包括發(fā)熱、乏力、干咳等[2],癥狀嚴(yán)重的患者可能會產(chǎn)生嚴(yán)重的急性呼吸窘迫綜合征甚至死亡[3]。新型冠狀病毒傳染性很強(qiáng),導(dǎo)致其在全球流行。對新冠肺炎的傳播規(guī)律進(jìn)行理論分析和定量研究成為一項重要的課題,通過合理地預(yù)測疫情發(fā)展趨勢,能夠為疫情防控提供理論指導(dǎo)。
通過數(shù)學(xué)建模方法進(jìn)行傳染病傳播的研究是公衛(wèi)疾病干預(yù)的有效方法。Gong等[4]通過建立系統(tǒng)動力學(xué)模型,研究了及早發(fā)現(xiàn)并采取隔離治療的措施對SARS疾病傳播的重要影響。此后研究人員在SEIR模型的基礎(chǔ)之上又陸續(xù)提出了SIS模型、SEIR模型、SEIRS模型等傳染病倉室模型,推動了傳染病動力學(xué)研究的發(fā)展[5]。
本次新型冠狀病毒的傳播符合一般傳染病的傳播規(guī)律,因此本文采用SEIR模型來研究新型冠狀病毒肺炎疫情。基于每天公開發(fā)布的全國及省市疫情確診數(shù)據(jù),模擬疫情傳播過程,分析疫情傳播規(guī)律。根據(jù)模型分析結(jié)果可以合理地預(yù)測疫情的發(fā)展趨勢、每日確診人數(shù)、疫情拐點(diǎn),從而為疫情防控工作提供有效的參考信息,具有實(shí)際應(yīng)用價值。
SEIR模型是一個經(jīng)典的傳染病動力學(xué)模型,常用于模擬某一疫區(qū)的傳染病傳播過程,能夠有效合理地預(yù)測疫情傳播和擴(kuò)散趨勢。SEIR模型中,S代表易感者,E表示潛伏者,I表示感染者,R表示恢復(fù)者[6],總?cè)藬?shù)N=S+E+I+R。染病人群為傳染源,通過一定概率把傳染病傳給易感人群,自己也有一定的概率被治愈并免疫或死亡。易感人群一旦感染即成為新的傳染源。
SEIR模型的基本假設(shè)包括[7]:
(1) 不考慮疫區(qū)人口的出生和死亡,即假設(shè)總?cè)丝跒橐粋€常數(shù)。
(2) 治愈后的個體對病毒具有免疫能力,不會再次感染。
(3) 人群分為易感人群、感染人群和恢復(fù)人群,某一時刻t這三類人群的人數(shù)分別記作s(t)、i(t)、r(t)。
符號定義如表1所示。
表1 符號定義
其中:
有以下推斷:
(1) 一個病人與易感者接觸后必然具有一定的感染力。假定t時刻單位時間內(nèi),一個病人能傳染的易感者數(shù)目與環(huán)境內(nèi)易感者總數(shù)成正比,比例系數(shù)記為β,代表感染系數(shù)。
(2)t時刻,單位時間內(nèi)從染病者中移出的人數(shù)與病人數(shù)量成正比,比例系數(shù)記為γ,代表恢復(fù)系數(shù)[8]。
以上推斷可寫為式(1)-式(4)。
(1)
(2)
(3)
(4)
對于SEIR模型中的未知參數(shù),可利用最小二乘法這一經(jīng)典的優(yōu)化算法對參數(shù)進(jìn)行估計。最小二乘法的原理是選擇使得實(shí)際值與模型結(jié)果值之間誤差平方和最小的參數(shù)作為參數(shù)最優(yōu)解。
針對SEIR模型,假設(shè)未知參數(shù)θ=(β,γ),模型解得確診人數(shù)預(yù)測值為{yi(θ),1≤i≤N},實(shí)際確診人數(shù)為{Ii,1≤i≤N},則殘差平方和表示為:
(5)
式中:V為實(shí)際確診人數(shù)減去確診人數(shù)的預(yù)測值矩陣。
為求殘差平方和SSE(θ)的最小值,對式(4)關(guān)于θ求偏導(dǎo),并令其等于0,得:
(6)
式(5)的解即為最小二乘法得到的最優(yōu)參數(shù)。
自2020年1月22日起丁香園每天公開發(fā)布新型冠狀病毒肺炎疫情數(shù)據(jù),基于累計近3個月的疫情數(shù)據(jù),自4月25日起每天使用SEIR模型模擬全國及幾個重點(diǎn)省市(湖北省)的疫情傳播過程,并預(yù)測之后每天的確診人數(shù)變化趨勢和疫情拐點(diǎn)(即現(xiàn)存確診人數(shù)的最大值和最高峰所在的日期)。本文通過Python編程來構(gòu)建模型并估計參數(shù)。
進(jìn)行SEIR建模和預(yù)測時,首先需要確定模型的幾個初始值,以全國疫情預(yù)測模型為例進(jìn)行討論。
感染人群初始值I0即1月22日的感染人數(shù)為548。待估參數(shù)包括易感人群初始值S0、感染系數(shù)β和恢復(fù)系數(shù)γ。對于S0,考慮到本次疫情中對確診和疑似人群實(shí)行隔離、武漢市自1月23號起開始封城、全國多地采取了嚴(yán)格的防控措施等實(shí)際情況,可知感染者能接觸的人數(shù)是有限的,不能使用全國總?cè)丝跀?shù)作為易感人群初始值S0,需要通過數(shù)學(xué)方法估計,在SEIR模型中易感人群初始值S0是通過地區(qū)總?cè)丝跀?shù)N、潛伏者數(shù)初始值E0、感染人群初始值I0、死亡人群初始值D0等參數(shù)計算得到,而地區(qū)總?cè)丝跀?shù)N通過統(tǒng)計年鑒可獲取,潛伏者數(shù)初始值E0、死亡人群初始值D0等參數(shù)初始值假設(shè)為0,感染人群初始值I0假設(shè)為1,后續(xù)通過最小二乘法基于擬合誤差最小化原則不斷迭代更新,得到最終數(shù)值。
采用最小二乘法對感染系數(shù)β、從暴露人群到確診感染者的比率k、恢復(fù)系數(shù)γ、死亡率μ進(jìn)行估計。
將以上估計得到的參數(shù)代入SEIR模型公式中計算,可預(yù)測出每天的現(xiàn)存確診人數(shù)和疫情拐點(diǎn),并根據(jù)預(yù)測數(shù)據(jù)繪制確診人數(shù)變化曲線。
根據(jù)疫情期間公開數(shù)據(jù)的變化情況以及對每天建模預(yù)測的結(jié)果進(jìn)一步分析總結(jié),發(fā)現(xiàn)可從2個方向?qū)Τ跏紖?shù)做進(jìn)一步的調(diào)整,從而優(yōu)化模型。
(1) 過濾原始數(shù)據(jù)集。在疫情發(fā)生期間,自2月13日起湖北省把臨床診斷病例數(shù)納入確診病例數(shù)進(jìn)行公布。診斷分類的變化引起了湖北省及全國確診病例數(shù)的激增,由于前后統(tǒng)計口徑不一致,數(shù)據(jù)差異較大,因此后續(xù)對全國及湖北省數(shù)據(jù)進(jìn)行建模時只選取2月13日之后公布的確診數(shù)據(jù)。
(2) 優(yōu)化感染人群初始值I0。原本對全國疫情建模分析使用1月22日的確診人數(shù)作為感染人群初始值I0,而根據(jù)上述說明,對全國和湖北省進(jìn)行疫情分析時應(yīng)只選取2月13日之后的數(shù)據(jù),因此需要重新估計I0的值。以2月17日的全國疫情預(yù)測模型為例,當(dāng)n=1.3即I0≈378時,通過計算得到預(yù)測值與實(shí)際值誤差最小,全國疫情分析模型有最優(yōu)解。
(3) 優(yōu)化恢復(fù)系數(shù)γ。隨著疫情數(shù)據(jù)的不斷積累,需要重新估計恢復(fù)系數(shù)γ,使模型擬合程度更高。根據(jù)模型預(yù)測結(jié)果可以看到γ值對于拐點(diǎn)后的曲線變化影響較大,γ值越大,拐點(diǎn)后的曲線越陡峭。利用最小二乘法基于擬合誤差最小化原則擬合恢復(fù)系數(shù)值。
通過以上模型優(yōu)化方法,基于每日更新的確診數(shù)據(jù)進(jìn)行參數(shù)估計,從而得到每日疫情模型預(yù)測結(jié)果并繪制疫情發(fā)展曲線如圖1所示。
(a) 全國確診人數(shù)預(yù)測曲線
(b) 湖北省確診人數(shù)預(yù)測曲線圖1 確診人數(shù)預(yù)測曲線(截止于2020年4月24日)
2020年3月11日到2020年3月20日每日的模型預(yù)測結(jié)果數(shù)據(jù)如表2-表3所示。為評價模型預(yù)測效果,記預(yù)測值y與實(shí)際值I之間的相對誤差為δ,計算公式如下:
(7)
表2 全國確診人數(shù)預(yù)測結(jié)果表
續(xù)表2
表3 湖北省確診人數(shù)預(yù)測結(jié)果表
從表2、表3可看出,模型對于全國、湖北省的確診人數(shù)相對誤差率分別不超過2.04%、1.25%,說明模型能夠根據(jù)當(dāng)前累積的確診人數(shù)有效地預(yù)測之后的確診人數(shù)。從圖1可看出,模型擬合程度較高,曲線能夠有效地反映和預(yù)測疫情的發(fā)展趨勢。
本文使用傳染病動力學(xué)經(jīng)典模型SEIR模型對2020年1月22日至4月24日的全國及幾個重點(diǎn)省市的新型冠狀病毒肺炎疫情數(shù)據(jù)進(jìn)行建模分析,模擬新冠肺炎的傳播過程和發(fā)展趨勢,應(yīng)用模型結(jié)果預(yù)測疫情期間每天的確診人數(shù)和疫情拐點(diǎn)。在建模過程中,首先基于實(shí)際情況和最小二乘法優(yōu)化算法估計幾個重要參數(shù),即易感人群初始值、感染系數(shù)β和恢復(fù)系數(shù)γ等,模型擬合程度較高。本文的創(chuàng)新之處在于,從疫情期間發(fā)生的實(shí)際狀況出發(fā),進(jìn)一步優(yōu)化模型,通過過濾原始數(shù)據(jù)集、優(yōu)化感染人群初始值I0以及優(yōu)化恢復(fù)系數(shù)γ等方法進(jìn)一步提高了模型擬合程度和模型預(yù)測準(zhǔn)確率。
實(shí)驗結(jié)果證明,本文構(gòu)建的SEIR疫情預(yù)測模型能夠有效地反映疫情變化趨勢、合理地預(yù)測疫情確診人數(shù)和疫情拐點(diǎn),對于描述傳染病傳播過程、預(yù)測疫情發(fā)展、疫情防控等方面具有一定的實(shí)際應(yīng)用價值。然而新冠肺炎疫情的傳播過程十分復(fù)雜,影響疫情傳播的部分因素是SEIR模型無法刻畫或預(yù)測的,比如醫(yī)療資源的變化、政府的管控措施、境外輸入的影響等,因此模型難以準(zhǔn)確地預(yù)測疫情長期變化,比較適用于短期疫情預(yù)測。