趙宜賓, 張艷芳, 任晴晴
(防災(zāi)科技學(xué)院基礎(chǔ)部,河北 三河 065201)
自2019 年12 月以來,湖北省武漢市發(fā)現(xiàn)多起不明原因的病毒性肺炎病例,經(jīng)醫(yī)學(xué)專家證實(shí)為一種新型冠狀病毒感染所致。2020 年1 月20 日世界衛(wèi)生組織將其命名2019 新型冠狀病毒即COVID-19。自從COVID-19 出現(xiàn)后,迅速在湖北擴(kuò)散,發(fā)病人數(shù)不斷上升。天津第一位病例是從武漢旅游回來發(fā)病,隨后確診。由于交通網(wǎng)絡(luò)發(fā)達(dá),而且正值春節(jié)前夕,人口流動大,病例通過各渠道迅速傳播,發(fā)病人數(shù)不斷上升。2020 年1 月21 日,自天津發(fā)布了首例輸入性COVID-19 確診病例,天津積極采取防控措施,明確了涉外疫情防控和入境人員健康管理規(guī)定。為了幫助大家了解疫情發(fā)展?fàn)顩r減少群眾恐慌,國內(nèi)外學(xué)者都積極投入到有關(guān)疫情的研究中,很多醫(yī)學(xué)工作者從患病者癥狀和治療過程情況進(jìn)行研究[1–3]。早前的學(xué)者應(yīng)用微分方程模型研究流行病的發(fā)展趨勢[4],針對新冠疫情的傳染特點(diǎn),從事數(shù)學(xué)工作的學(xué)者也應(yīng)用微分方程動力系統(tǒng)和數(shù)據(jù)分析方法對疫情發(fā)展趨勢進(jìn)行分析和預(yù)測[5–8]。嚴(yán)閱等[9]建立了一類基于時滯動力學(xué)系統(tǒng)的傳染病動力學(xué)模型,通過該模型反演出了各地的傳染率和隔離率,并預(yù)測了各地的疫情發(fā)展趨勢。王志心等[10]通過機(jī)器學(xué)習(xí)對確診人數(shù)趨勢進(jìn)行了預(yù)測。耿輝等[11]給出多種相關(guān)干預(yù)措施下疫情發(fā)展趨勢的預(yù)測。通過統(tǒng)計分析方法進(jìn)行系統(tǒng)建模,挖掘研究對象的發(fā)展規(guī)律[12]被證明是高效的。劉海濤等[13]利用正態(tài)分布較好地模擬巖樣的聲波測試結(jié)果。Sarkar 等[14]通過威布爾分布給出了合理應(yīng)用風(fēng)能的相關(guān)參數(shù)。在傳染病的研究中,潛伏期的規(guī)律分析[15–17]對于疫情防控和后期治療有重要的意義,這也是本文研究主要內(nèi)容。
本文以天津市2020 年1 月21 日至2 月27 日確診的136 位病例數(shù)據(jù)為源數(shù)據(jù),以接觸時間和發(fā)病時間明確為主要依據(jù),篩選出84 例樣本做為研究數(shù)據(jù),以對數(shù)正態(tài)分布模型和單因素方差分析為主要研究工具,對于新型冠狀病毒的潛伏期特征進(jìn)行全面分析。
數(shù)據(jù)來源為天津市政務(wù)網(wǎng)(www.tj.gov.cn)上通報的從2020 年1 月21 日至2 月27 日在天津地區(qū)確診的136 例新型冠狀病毒病例樣本,此樣本也是截止到2020 年3 月7 日天津疫情基本結(jié)束的天津地區(qū)全部病例樣本。
本文研究樣本具有以下3 個特點(diǎn)。
1) 數(shù)據(jù)信息比較完整
天津確診病例信息對于接觸、發(fā)病、確診時間記錄相對完整,對于病例的流動和接觸途徑,以及病例間的關(guān)聯(lián)關(guān)系記敘明晰,數(shù)據(jù)鏈相對完整。
2) 病源輸入相對固定
天津疫情的輸入病源主要是動車職工、百貨大樓銷售員、和個別輸入病例,數(shù)據(jù)單一可使接觸時間確定相對準(zhǔn)確。
3) 數(shù)據(jù)噪聲小
天津市疫情防控措施及時到位,對于病例發(fā)現(xiàn)、隔離、救治過程科學(xué)合理,同時天津市的人口流動性相對較小,病例之間的交叉感染機(jī)率極大降低,數(shù)據(jù)信息比較真實(shí)。
以上樣本特點(diǎn)決定了數(shù)據(jù)信息的真實(shí)、可靠,據(jù)此用科學(xué)方法分析出的結(jié)論,對于病源的數(shù)理特征的反映是真實(shí)可靠的。
截止2020 年3 月7 日,天津市共有確診的新冠病毒肺炎病例136 例,舍棄與確診患者或病源沒有明確接觸時間的樣本,并依據(jù)如下原則確定病毒感染時間。
原則1如果有明確接觸時間的,感染時間確定為接觸時間。比如,2020 年1 月20 日到百貨大樓購物,則感染時間定在2020 年1 月20 日。
原則2如果可觸時間是時間段,3 天以內(nèi)的以第2 天作為感染時間,超過3 天的,以第3 天作為感染時間。比如,2020 年1 月21 日至1 月25 日曾到武漢出差,則病毒感染時間定為2020 年1 月23 日。
原則3如果是同住親屬,病毒感染時間相同。如果親屬接觸感染,則以接觸日作為感染時間。
在此基礎(chǔ)上,定義病毒潛伏期為從健康個體感染病毒到新冠肺炎病癥特征出現(xiàn)的間隔期。依上述原則,篩選84 個病毒感染時間明確的病例作為病毒潛伏期的研究樣本。
對于樣本中的3 例無癥狀感染者,潛伏期定義為患者病毒感染至確診的時間間隔。
對選定的研究樣本做簡單的數(shù)字特征統(tǒng)計分析,如表1 所示。集中趨勢的三個度量指標(biāo)基本一致,約為11 天,潛伏期的偏度和峰度兩個數(shù)字特征均大于1,表明分布呈尖峰態(tài)且右偏,由于個別病例潛伏期超長,故概率密度曲線存在右側(cè)拖尾現(xiàn)象。
表1 病毒潛伏期數(shù)字特征統(tǒng)計分析
對樣本的簡單統(tǒng)計分析顯示樣本具有對數(shù)正態(tài)分布的相關(guān)特征。
進(jìn)一步,對樣本做是否服從對數(shù)正態(tài)分布的非參K-S(Kolmogorov-Smirnov)檢驗(yàn),得統(tǒng)計量D=0.118 95,檢驗(yàn)的p值為0.171 2?0.05,即潛伏期的統(tǒng)計分布與對數(shù)正態(tài)分布無顯著差異。因此,假定潛伏天數(shù)服從對數(shù)正態(tài)分布是合理的,故下文將用對數(shù)正態(tài)分布來描述潛伏期的統(tǒng)計規(guī)律。
為了能夠?qū)Σ《緷摲谝?guī)律從機(jī)理上有更客觀清晰的描述,首先,介紹關(guān)于超出量和對數(shù)正態(tài)分布的相關(guān)理論知識。
為了能夠?qū)﹄S機(jī)變量的統(tǒng)計規(guī)律做更完備的描述,文獻(xiàn)[18]給出了關(guān)于分布超出量的相關(guān)概念。
定義1[18]若隨機(jī)變量X ~F(x),記
則稱集合A為分布F的支撐,x?和x?分別為分布F支撐的上端點(diǎn)和下端點(diǎn)。
定義2[18]設(shè)X1,X2,···,Xn是來自總體X的樣本,總體X的分布函數(shù)為F(x)支撐的上端點(diǎn)為x?,對某個任取較大的ux?,稱
為隨機(jī)變量X的超閾值的分布函數(shù),簡稱超出量分布。
由公式(1)超出量分布的概率密度函數(shù)為
定義3[18]稱e(u)=E(X ?u|X>u)為隨機(jī)變量X的平均超出量函數(shù)。
平均超出量函數(shù)主要描述隨機(jī)變量取值大于給定閾值的部分的平均值,是用于描述隨機(jī)變量尾部的重要數(shù)字特征,用于對隨機(jī)變量的統(tǒng)計規(guī)律性的全面完整表述。
定義4設(shè)X是取值為正的連續(xù)型隨機(jī)變量,若lnX服從正態(tài)分布,則稱X服從對數(shù)正態(tài)分布。
若X服從對數(shù)正態(tài)分布,令其分布函數(shù)為F(x),密度函數(shù)為f(x),則有
其中μ和σ分別為lnX的均值和標(biāo)準(zhǔn)差。對數(shù)正態(tài)分布適用于有更大向上波動可能、更小向下波動,且分布具有不對稱性的變量的統(tǒng)計規(guī)律的描述。
若X服從對數(shù)正態(tài)分布,則根據(jù)數(shù)學(xué)期望和方差定義,容易得出
根據(jù)定義3,對于給定閾值u可以得出對數(shù)正態(tài)分布的平均超出量近似為
分位數(shù)是在用統(tǒng)計分析方法描述研究對象的變化規(guī)律時一個十分有效的工具,其定義如下。
定義5若隨機(jī)變量X ~F(x),稱
為F的p分位數(shù)。
在損失評估中常用分位來表達(dá)災(zāi)害的重現(xiàn)水平或計算重現(xiàn)期。在本文中,若以天為單位的病毒潛伏期X服從對數(shù)正態(tài)分布,則分位數(shù)xp表示p×100%的患者的病毒潛伏期小于xp天。
可用極大似然估計法求得對數(shù)正態(tài)分布中的參數(shù)μ和σ的估計值:令x1,x2,···,xn是一組樣本值,則可得對數(shù)似然函數(shù)為
令對數(shù)似然函數(shù)分別對μ和σ的偏導(dǎo)等于0,可得方程組如下
解方程組可得參數(shù)的極大似然估計值為
利用第1 節(jié)選取的研究病毒潛伏期數(shù)據(jù)樣本,根據(jù)公式(9),可得對數(shù)正態(tài)分布概率參數(shù)的極大似然估計為?μ=2.43, ?σ2=0.21。
模型的適用性檢驗(yàn),如圖1。以對數(shù)正態(tài)分布的分位數(shù)為橫軸,以樣本數(shù)據(jù)分位數(shù)為縱軸的對數(shù)正態(tài)分布QQ 檢驗(yàn)顯示了數(shù)據(jù)散點(diǎn)總體上是沿第一象限45?線分布,如圖1(a)所示。經(jīng)驗(yàn)分布函數(shù)與估計的潛伏期分布曲線契合度較高,如圖1(b)所示。因此,用對數(shù)正態(tài)分布來描述病毒潛伏期規(guī)律是適用的。
圖1 對數(shù)正態(tài)分布適用性檢驗(yàn)
潛伏期的對數(shù)正態(tài)密度曲線與樣本頻率分布規(guī)律,如圖2 所示。
圖2 概率密度 頻率圖
估計的概率密度曲線與潛伏期的頻率直方圖輪廓基本吻合,說明病毒潛伏期統(tǒng)計規(guī)律可以用對數(shù)正態(tài)分布描述。進(jìn)一步,做樣本值的頻率與相應(yīng)密度函數(shù)值整體的相關(guān)性的F檢驗(yàn),得統(tǒng)計量F= 18.051 3?1,檢驗(yàn)p值6.2×10?5?0.05,說明頻率與密度曲線是相關(guān)的,計算相關(guān)系數(shù)R2= 0.7,說明建立的對數(shù)正態(tài)模型可以解釋樣本數(shù)據(jù)70%的變異。
綜合上述檢驗(yàn)結(jié)果,利用對數(shù)正態(tài)分布對潛伏期統(tǒng)計規(guī)律進(jìn)行分析是合理和可信的。
由均值公式(4),得E(X)≈12.59,表明新冠肺炎病毒的平均潛伏期約13 天,對比現(xiàn)行政策,在防控形勢嚴(yán)峻且醫(yī)療資源缺乏的情況下,對疑似對象觀察14 天的規(guī)定是合理的。但公式(5)計算得方差D(X)≈37.04(標(biāo)準(zhǔn)差約為6.1 天),說明不同個體的潛伏期長短存在著較大的差別,也就是在疫情防控資源允許的情況下,應(yīng)該延長對疑似對象的隔離留觀天數(shù),這樣會取得更好的防控效果。
計算分位數(shù)可得x0.95≈24,表明95%的患者潛伏期在24 天以內(nèi)。由式(6)計算x0.95的平均超出量可得e(x0.95)≈6.71,也就是說,約有5%的患者,他們的平均潛伏天數(shù)應(yīng)該是30 天左右,這與已經(jīng)發(fā)現(xiàn)的潛伏期超長的患者數(shù)據(jù)是相對應(yīng)的,由于新型冠狀病毒在潛伏期也具有傳染性,所以具有超長潛伏期的這5%的患者將給疫情防控帶來極大困難。因此,在條件允許的情況下,適當(dāng)延長對密切接觸者的隔離留觀時間是合理,也是必要的。
確定新型冠狀肺炎病毒潛伏期的影響因素,對疫情防控有著重要的意義。下面將從年齡、性別和接觸方式上,對病毒潛伏期進(jìn)行差異性分析。
簡單數(shù)字特征統(tǒng)計分析發(fā)現(xiàn)數(shù)據(jù)有三個異常點(diǎn),差異性分析前將下面三個異常點(diǎn)去除,如表2 所示,三個異常點(diǎn)均為潛伏期天數(shù)超長,這也與當(dāng)前發(fā)現(xiàn)核酸檢測呈現(xiàn)陽性而無癥狀病例相吻合。
表2 異常點(diǎn)數(shù)據(jù)表
按0~18 歲、9~35 歲、36~50 歲、51~65 歲及65 歲以上五個年齡段,對樣本進(jìn)行分組,對各組分別進(jìn)行簡單的數(shù)字特征分析和正態(tài)分布的K-S 檢驗(yàn),結(jié)果如表3 所示。
表3 各年齡段病例潛伏期數(shù)據(jù)統(tǒng)計特征及正態(tài)分布檢驗(yàn)
在0~18 歲年齡段,數(shù)據(jù)樣本只有兩個,一方面分析結(jié)果沒有統(tǒng)計意義。另一方面,是不是真正表明青少年對新冠肺炎具有較強(qiáng)的免疫力,這需要進(jìn)一步搜集數(shù)據(jù)進(jìn)行研究。鑒于此,下面的分析將只對年齡在19 歲以上各組樣本進(jìn)行。
不同年齡段的數(shù)字特征及正態(tài)分布K-S 檢驗(yàn)結(jié)果(表3)說明各年齡段病例的潛伏期均可認(rèn)為服從正態(tài)分布(p值?0.05)。同時,各年齡段病例潛伏期方差齊性檢驗(yàn)p=0.167>0.05,即可認(rèn)為各樣本方差相等。
在樣本數(shù)據(jù)服從正態(tài)分布,且方差相等的前提下,對各年齡段病例潛伏期均值做單因素方差分析p值= 0.98?0.05。因此,統(tǒng)計意義上講各年齡段潛伏期均值無顯著性差異,即除去疑似異常點(diǎn)后,潛伏期與年齡沒有關(guān)系。
將樣本數(shù)據(jù)按性別分組,分別進(jìn)行簡單的數(shù)字特征分析和正態(tài)分布的K-S 檢驗(yàn),結(jié)果如表4 所示。
表4 不同性別病例潛伏期數(shù)據(jù)統(tǒng)計特征及正態(tài)分布檢驗(yàn)
由表4 結(jié)果可以看出,男性和女性的潛伏期均可認(rèn)為服從正態(tài)分布(p值?0.05)。同時,兩組病例樣本的潛伏期方差齊性檢驗(yàn)p=0.11>0.05,即可認(rèn)為男性和女性樣本的方差相等。
對男性和女性兩組病例潛伏期均值做單因素方差分析p= 0.33?0.05。因此,統(tǒng)計意義上講病毒對于男性和女性的潛伏期均值無顯著性差異,即除去疑似異常點(diǎn)后,潛伏期與性別無關(guān)。
從常規(guī)的病理分析來看,一些傳染病的潛伏期會受到傳染途徑的影響,如艾滋病、乙肝的傳染途徑不同,病源量級不同導(dǎo)致潛伏期不同[19],因此,不同的接觸方式是否對新型冠狀病毒的潛伏期有影響是值得探討的一個問題。
本文將與病源的接觸方式分為生活接觸(與長時間攜帶病源患者較長時間在一起生活)和普通接觸(相對來說,只是短暫相聚或偶遇接觸的情況),分析在這兩種接觸方式下,潛伏期有無顯著差異。
分別對兩組樣本分別進(jìn)行數(shù)字特征分析和正態(tài)分布的K-S 檢驗(yàn),結(jié)果如表5 所示。
表5 親屬接觸與一般接觸病例潛伏期方差齊性檢驗(yàn)表
數(shù)字特征及K-S 檢驗(yàn)結(jié)果表明,兩組病例的潛伏期均可認(rèn)為服從正態(tài)分布(p值?0.05)。同時,對兩組病例潛伏期方差齊性檢驗(yàn)p= 0.98?0.05,即兩組數(shù)據(jù)在統(tǒng)計意義上可認(rèn)為方差相等。
對兩組病例潛伏期均值做單因素方差分析,由于p= 0.016< 0.05,故認(rèn)為兩組病例的潛伏期均值存在顯著性差異,即對于一般疑似患者來說,與病源接觸時間的長短可能會導(dǎo)致潛伏期的不同,也就是說潛伏期與接觸病源方式有關(guān)。
本文應(yīng)用統(tǒng)計建模的方法對新型冠狀病毒的潛伏期的數(shù)字特征及影響因素做了全面的分析,所得結(jié)論與現(xiàn)有的經(jīng)驗(yàn)規(guī)律相吻合,說明模型是有效的。同時,由超閾值分布得出的超長潛伏期的均值是對現(xiàn)在經(jīng)驗(yàn)的有益補(bǔ)充。
本文旨在為傳染病潛伏期特征分析提供一套理論方法,所得的結(jié)論是依據(jù)所得樣本做出的。所確定因素對潛伏期是否確有影響,需要進(jìn)一步擴(kuò)充樣本容量進(jìn)行深度數(shù)據(jù)挖掘來驗(yàn)證。各因素對潛伏期的影響程度及原因,還有待于醫(yī)學(xué)專家從醫(yī)學(xué)視角上進(jìn)一步分析和論證。
由于分析數(shù)據(jù)只是天津市的病例樣本,分析結(jié)果有一定的局限性,各地區(qū)病例潛伏期的特征和規(guī)律是否相同,在現(xiàn)有確診方案下,病例的確診時間具有何種特征等內(nèi)容將是作者后續(xù)研究的重點(diǎn)方向。