何沅宸 孫傳瑞 陳胤孜 陳曉葳 王錫玲△
(1復旦大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室 上海 200032; 2復旦大學公共衛(wèi)生安全教育部重點實驗室 上海 200032)
COVID-19變異株Omicron毒株于2021年11月在南非等地被發(fā)現(xiàn)[1],因傳染性和免疫逃避能力顯著超過其他變異株[2],其迅速在全球成為主要流行毒株[3]。實時再生數(shù)(time-varying reproduction number,以下簡稱Rt)即t時刻一個病例可傳染所致續(xù)發(fā)病例的平均數(shù)量,在流行病學研究中常被用來快速評估某傳染病的實時平均傳播水平。當Rt>1時認為疫情會繼續(xù)發(fā)展,Rt<1時則認為疫情逐漸受到控制。新冠肺炎疫情Rt的實時估計已在國際上廣泛應用,英國、日本和香港等國家和地區(qū)均向公眾實時展示Rt的變化[4-6]以研判疫情走勢和調整干預措施。2022年3月上海市出現(xiàn)新冠本土病例并發(fā)生社區(qū)傳播,流行毒株為Omicron BA.2和BA.2.2型[7],政府采取了一系列應對措施。目前少有研究評價上海市此輪疫情Rt值的實時變化并基于此預測疫情后續(xù)發(fā)展[8-9]。
新冠疫情可視化平臺的開發(fā)具有重要意義,其可將信息圖表化以提高復雜數(shù)據(jù)的可讀性,滿足大眾及科研人員的信息需求[10-11]。目前有多個網(wǎng)站進行新冠數(shù)據(jù)可視化展示,如丁香園、騰訊新聞等[12-13]。然而,這些平臺內容以數(shù)據(jù)描述為主,相似度高,缺乏對上海市各區(qū)的詳細描述,沒有進行新冠病毒實時傳播能力Rt的評估和預測[14]。本研究將基于Rt構建貝葉斯分層模型,評估和預測上海市新冠疫情發(fā)生發(fā)展并開發(fā)新冠疫情可視化平臺。
數(shù)據(jù)來源和病例定義2022年3月1日—5月6日上海市COVID-19疫情每日確診病例、無癥狀感染者和新冠疫苗接種數(shù)據(jù)[15]來源于上海市衛(wèi)生健康委員會(以下簡稱“衛(wèi)健委”)官方網(wǎng)站(https://wsjkw.sh.gov.cn/)。確診病例的定義參照國家衛(wèi)健委修訂的《新型冠狀病毒肺炎診療方案(試行第九版)》[16]。無癥狀感染者未在第九版診療方案中明確定義,一般指除確診病例以外的病原學檢測呈陽性的感染者。
政府所采取的疫情防控措施及實施日期來源于上海市官方微信平臺“上海發(fā)布”和疫情防控工作新聞發(fā)布會。根據(jù)所影響的人群和地區(qū),本研究將各類措施劃定為低、中、高三級強度。低強度包括3月12日起幼兒園及中小學線下停課和3月15日起的切塊式、網(wǎng)格化篩查,中強度包括3月28日起以黃浦江為界分批、分區(qū)管控,高強度則包括4月3日起全市范圍進行多輪抗原和核酸篩查。常住人口年齡構成來自上海市統(tǒng)計局第七次人口普查數(shù)據(jù)[17]。
模型構建與主要參數(shù)設定本研究使用基于實時再生數(shù)構建的貝葉斯分層模型進行預測,模型中假定每日報告的感染者數(shù)It服從以It為均數(shù)和It+為方差的負二項式分布,考慮感染到報告延遲時間分布π和感染者診斷比例Piar來推導每日實際感染者數(shù)it,如公式(1)所示。公式(2)中每日實際感染者數(shù)it由該時刻的實時再生數(shù)Rt和該時刻前感染者的離散卷積和決定,離散卷積和由此前時刻的感染者數(shù)通過代際間隔分布g(即一代病例和二代病例感染的時間間隔分布)加權計算得到。實時再生數(shù)Rt則受到主要流行毒株的基本再生數(shù)R0、人群免疫水平(包括自然感染和接種新冠疫苗所獲得)和非藥物干預措施強度的影響,S為經(jīng)人群免疫水平校正后的易感者比例,pin和pva分別指由自然感染和接種疫苗獲得的免疫效果,見公式(3)。
上海市疫情發(fā)生社區(qū)傳播后病例數(shù)激增,醫(yī)療資源不足,存在病例錯分可能,研究中以陽性感染者而非確診病例作為擬合指標,每日報告的陽性感染者數(shù)由每日報告的確診病例數(shù)+無癥狀感染者數(shù)-由無癥狀感染者轉歸的確診病例數(shù)計算得到。為減少數(shù)據(jù)的隨機波動性,本研究將每日報告數(shù)據(jù)進行移動平均處理,取所計算日期前3天至后3天數(shù)據(jù)(n=7)的算術平均值。研究中所用的主要參數(shù)來源于國內外相關研究和合理假定,包括流行病學參數(shù)、疫苗接種和自然感染后預防感染的免疫效果及人群年齡別疫苗覆蓋率,具體設定見表1。考慮到當病例數(shù)激增時報告的延遲性會進一步增加,因此以每日報告感染者數(shù)是否超過5 000例為界,使其服從均數(shù)不同的Gamma分布。
模型擬合與預測性能評估本研究以2022年3月1日—4月29日為模型擬合段,以4月30日—5月6日為預測性能評估段。模型擬合段以最大似然法[25]估計不同強度的防控措施對Rt的影響,并選擇最佳參數(shù)預測疫情的后續(xù)發(fā)展,擬合偏差比例的計算如公式(4)所示,其中kt指實際觀察值,Pt,median是t時刻預測概率分布的中位數(shù)。鑒于感染到報告的延遲性,未納入4月23—29日的數(shù)據(jù)用于預測,假定此時間段內的Rt值和4月22日的數(shù)值相同。
通過對比預測結果與官方報告數(shù)據(jù)來評估模型預測性能。預測所得的每日感染者數(shù)是由非負整數(shù)集合的概率分布,其評估首先需要驗證預測概率分布和實際觀察值在統(tǒng)計學上具有一致性,再衡量集中度[26-28]。本研究中選擇隨機化概率分布變換(probability integral transform,PIT)和分級概率評分(ranked probability score,RPS)來分別對預測結果統(tǒng)計學的一致性和集中度進行評估。
PIT常被用來探究實際值和連續(xù)性的預測概率分布的統(tǒng)計學一致性,而對于每日新增感染數(shù)這樣的離散性資料,隨機化PIT是一種新的替代方法[27-28],計算方法如公式(5)所示,其中kt指實際觀察值,Pt(x)是t時刻的預測概率分布,根據(jù)定義Pt(-1)=0,v是標準均勻分布且與k無關。若Pt確為實際觀察值kt的預測概率分布,那么ut將是標準均勻分布,再用Anderson-Darling檢驗來驗證該假設在統(tǒng)計學上是否具有意義。當檢驗結果P≥0.05時認為沒有充分證據(jù)表明實際值和預測概率分布在統(tǒng)計學上不具有一致性;當0.01<P<0.05時認為有證據(jù)表明兩者可能不具有統(tǒng)計學的一致性,而當P≤0.01時認為有足夠的證據(jù)表明兩者不具有一致性,即預測概率分布相對實際觀察值是失準的。RPS計算如公式(6)所示,其中k,Pt(x)含義同公式(5),當計算結果越接近于0,則認為實際觀察值越有可能來自于預測概率分布且預測概率分布的集中度越好。研究分析均用R 4.1.3軟件完成,其中模型構建使用RStan 2.29[29]。
可視化平臺開發(fā)可視化平臺的開發(fā)主要包括數(shù)據(jù)提取與整理、數(shù)據(jù)可視化、預測模型構建和平臺搭建等4個步驟,基本架構如圖1所示。使用Python 3.10的Request、Re和Datetime第三方庫提取數(shù)據(jù)。使用R 4.1.3軟件完成數(shù)據(jù)整理、分析和可視化。使用網(wǎng)頁開發(fā)語言和R shiny 1.7.0框架[30]交互實現(xiàn)平臺搭建。R shiny框架已將網(wǎng)頁開發(fā)中的Ajax技術、Bootstrap框架和jQuery功能框架進行封裝以實現(xiàn)數(shù)據(jù)通信,而為滿足頁面布局的美化需求,后續(xù)再分別使用HTML進行網(wǎng)頁前端設計,CSS進行網(wǎng)頁布局優(yōu)化以及Java Script提高網(wǎng)頁互動效果。平臺使用Echarts實現(xiàn)條形圖、線圖、地圖、熱圖等數(shù)據(jù)可視化,并支持鼠標懸浮或點擊等交互。該平臺的系統(tǒng)架構搭建并運行于Ubuntu服務器。
圖1 新冠肺炎疫情預測預警平臺基本架構Fig 1 Architecture of the COVID-19 prediction and early warning platform
疫情概況2022年3月1日,上海市衛(wèi)健委報告首2例本土新冠感染者。截至4月29日,累計報告確診病例52 576例(其中18 686例由無癥狀感染者轉歸而來),無癥狀感染者530 642例(圖2A)。上海市本土疫情發(fā)展呈現(xiàn)先緩慢增加后迅速上升的態(tài)勢,在4月13日達到疫情高峰,當日新增27 605例感染者。此后疫情放緩,每日報告的感染者數(shù)波動下降,4月27日起每日新增感染者數(shù)已小于10 000例。
圖2 上海市2022年COVID-19疫情發(fā)展趨勢、實時再生數(shù)及預測結果曲線Fig 2 COVID-19 epidemic curve, Rt values and forecast result of Shanghai in 2022
根據(jù)疫情發(fā)展,上海市的非藥物干預措施逐漸從“精準防控”策略過渡到3月15日開始的切塊式、網(wǎng)格化防控篩查,又調整為3月28日起以黃浦江為界分批、分區(qū)實行封控,再到4月初對全市范圍進行核酸篩查和防控管理。隨著防控措施升級,Rt曲線總體呈現(xiàn)波動下降,在4月5日其均值首次降至1以下(0.94,95%CI:0.87~1.03),結合延遲時間分布,與4月13日疫情達到高峰相符(圖2B)。在4月13—14日Rt的95%CI上限再次超過1,達到1.01,與4月22日感染者新增數(shù)出現(xiàn)新的小高峰的趨勢貼合。考慮感染到報告的延遲時間,4月23—29日(即圖中灰色區(qū)域)的Rt估計值仍存在較大不確定性。
模型擬合結果擬合時間段中,經(jīng)移動平均處理后的每日新增感染者數(shù)與預測概率分布中位數(shù)擬合良好,擬合偏差比例為14.41%±15.20%。在4月20—26日模型的預測中位數(shù)明顯高于對應的移動平均值(如圖2C藍線和黃線所示),其原因可能是4月22日新增感染者數(shù)又出現(xiàn)一個小高峰而模型擬合未能體現(xiàn)。各級防控措施的調整對Rt值的相對效應如表2所示,上海市所有防控措施可將Rt值降低至1以下(0.30,95%CI:0.28~0.32),而在放松部分區(qū)域的防控后,Rt值增加至0.43(95%CI:0.41~0.46),仍未超過關鍵閾值水平,但使得本輪疫情中每日新增感染者數(shù)的下降速度在一定程度上放緩。
表2 上海市疫情防控措施對Rt值的效應估計Tab 2 The estimated relative effectiveness of nonpharmaceutical interventions on Rt in Shanghai
疫情走勢預測模型預測結果如圖2C所示,本輪疫情預計累積感染者數(shù)將達到625 040例(95%CI:600 465~670 211),預計將于5月17日(5月12—22日)單日新增感染者數(shù)<1 000例,將于6月5日(5月31日—6月11日)單日新增感染者數(shù)<100例。對4月30日—5月6日的預測結果進行評估,隨機化PIT的結果是P=0.12,尚無足夠證據(jù)表明結果概率分布和實際觀察值無統(tǒng)計學一致性,分級概率評分指標為382.53±105.29。
可視化平臺可視化平臺實現(xiàn)了上海市疫情變化趨勢描述和疫情預測兩大功能。疫情變化趨勢描述包括上海市及上海市各區(qū)新增、累積陽性感染者和死亡人數(shù)變化趨勢、各區(qū)累積感染率和感染者來源(隔離管控或風險人群排查)。疫情預測包括實時再生數(shù)、新增陽性感染者預測曲線和預測感染人數(shù)關鍵節(jié)點。為滿足用戶端的不同需求,平臺內置圖表適應電腦和手機端多種主流瀏覽器。該平臺于2022年4月19日起開放訪問,訪問地址:http:∥124. 222.178.35:3838/COVID19-tracker/。
本研究使用基于實時再生數(shù)構建的模型,評估和預測了2022年3月以來上海市本土疫情的發(fā)展態(tài)勢,并完成了新冠肺炎預測預警平臺的搭建。研究中考慮上海市現(xiàn)有免疫水平并設置隨時間變化的模型參數(shù),包括感染者從感染到報告的延遲時間分布和各級非藥物干預措施的相對效應,預測結果更貼合疫情的實際發(fā)展。而在預測段中雖假定Rt值不變,模型評估指標和后續(xù)實際報告數(shù)據(jù)依然證實了預測結果的準確性。2022年底,我國新冠疫情防控策略已有所調整,但調整相關參數(shù)后,此模型也可用于預測其他新發(fā)呼吸道傳染病以評估公共衛(wèi)生風險和干預措施有效性。
模型擬合結果顯示,上海市所采取的非藥物干預措施將Rt值降低并保持在1以下,且本輪疫情預測將于6月中下旬實現(xiàn)“動態(tài)清零”目標。另有研究通過上海市每日報告的新增感染者數(shù)據(jù)估計Rt值,同樣證實了上海市防控措施的效果[31]。劉可伋等[32]使用時滯動力學模型預測疫情發(fā)展并估計實時再生數(shù),但與本研究不同的是未充分考慮感染到報告的延遲時間,預測結果具有滯后性。疫情后期,連續(xù)14天無新增感染者區(qū)域的管控放松,而存在傳播風險的地區(qū)仍在嚴格管控中,防疫政策的變化對結果影響不大。但當跨區(qū)及跨省市人員流動增加時,新冠傳播風險增加,感染規(guī)??赡苓M一步擴大。
研究中假定上海市自2022年3月1日報告首2例感染者后已暫停全市的新冠疫苗接種,而部分區(qū)域在4月下旬已開始恢復對老年人等重點人群的疫苗接種[33],這部分人群的免疫水平未在模型中體現(xiàn),考慮到日均接種千余劑次和疫苗產(chǎn)生有效抗體水平需要2~3周的時間,可認為其對預測結果影響有限。但若老年人群的接種率進一步增高時,其所提供的保護效果將使得疫情控制速度快于預測結果。鑒于上海市內各區(qū)域人員流動頻繁,且非藥物干預措施的調整多是基于全市范圍,研究使用全市數(shù)據(jù)進行預測,區(qū)級疫情預測需要更多數(shù)據(jù)來支撐分析。
預測預警平臺使用Python進行公開數(shù)據(jù)實時爬取,基于實時再生數(shù)進行疫情走勢預測,使用Echarts和R shiny實現(xiàn)數(shù)據(jù)可視化和交互,具有實時性、科學性、頁面友好等優(yōu)點。通過數(shù)據(jù)可視化,高效展示了上海市及各區(qū)新冠疫情變化的時空差異,降低公眾捕獲并理解公開疫情數(shù)據(jù)的時間成本。目前已有預測預警平臺無法提供Rt值以估算疫情實時傳播速度[34-35]。本研究基于實時再生數(shù)的預測模型可視化,填補了已有平臺對疫情數(shù)據(jù)深層次挖掘的空白,提供更加科學的防控措施效果評價和疫情預警預判。該可視化平臺可快速擴展到其他城市的疫情數(shù)據(jù)解讀及預測預警,乃至其他可能發(fā)生的具有類似流行病學特征的感染性疾病,具有較好的應用前景。
作者貢獻聲明何沅宸 研究設計,數(shù)據(jù)分析,論文撰寫和修改。孫傳瑞 數(shù)據(jù)分析,論文撰寫和修改。陳胤孜 數(shù)據(jù)整理和分析。陳曉葳 數(shù)據(jù)采集。王錫玲 研究設計和指導,論文修改,經(jīng)費支持。
利益沖突聲明所有作者均聲明不存在利益沖突。