蔣 艷 孫學(xué)婷 趙 瑞 龔建行 彭志行 杜牧龍△
【提 要】 目的 基于2013-2017年某空港入境傳染病確診病例時(shí)間序列,建立傳染病預(yù)測(cè)預(yù)警系統(tǒng),為空港入境傳染病監(jiān)控提供理論依據(jù)。方法 采用MA(q)、ARIMAX、簡(jiǎn)單指數(shù)平滑和Holt-Winters指數(shù)平滑這四種模型進(jìn)行擬合和預(yù)測(cè)。應(yīng)用logistic回歸探究影響傳染病陽性確診的因素。結(jié)果 四種模型中MA(q)、簡(jiǎn)單指數(shù)平滑和Holt-Winters指數(shù)平滑模型較適用,其中Holt-Winters指數(shù)平滑模型擬合及預(yù)測(cè)效果最優(yōu)。以年齡和月份構(gòu)建回歸模型的擬合效果較好,且0~9歲年齡組的風(fēng)險(xiǎn)最高,同一年齡組9月份入境者患病風(fēng)險(xiǎn)最小。結(jié)論 Holt-Winters指數(shù)平滑模型能較好地應(yīng)用于空港入境傳染病確診病例時(shí)間序列的擬合及預(yù)測(cè)。
隨著旅游業(yè)的興起和交通的發(fā)展,跨國(guó)境和跨省人口流動(dòng)越來越頻繁。據(jù)世界旅游組織統(tǒng)計(jì),2019年全球國(guó)際旅行者達(dá)14.60億人次,其中中國(guó)出入境總?cè)藬?shù)超過1.02億人次[1],頻繁的人口流動(dòng)導(dǎo)致傳染病跨境傳播成為全球重要的公共衛(wèi)生問題[2]??崭廴刖硞魅静〉牧餍惺苤T多因素的影響[3-5],且不同類型傳染病的時(shí)間分布呈現(xiàn)出不同的波動(dòng)形式,難以運(yùn)用結(jié)構(gòu)式的因果模型進(jìn)行預(yù)測(cè)。本研究擬通過建立時(shí)間序列模型及l(fā)ogistic回歸模型分析近年某空港入境人員傳染病確診病例的人員特征,以建立該空港入境的傳染病預(yù)警模型,為實(shí)現(xiàn)空港入境發(fā)熱輸入性病例監(jiān)控的合理規(guī)劃提供參考。
1.資料來源
本研究采集2013-2017年某空港每月入境人員總數(shù)和每月傳染病確診數(shù),以及2013-2016年疑似發(fā)熱病例人員的流行病學(xué)調(diào)查信息,包括姓名、年齡、性別、出入境日期、旅游史等基本信息。
2.質(zhì)量控制
由于數(shù)據(jù)收集的困難性,本研究數(shù)據(jù)存在缺失。2013和2014年只具備全年入境人員總數(shù)的信息,而缺少每月入境人員數(shù),因此本研究擬用比例推算法[6],即根據(jù)2015-2017年各月入境人員數(shù)的平均比例乘以2013、2014年全年入境人員總數(shù)得到各月入境人員數(shù)的估計(jì)值。對(duì)于2014年下半年陽性確診人員數(shù)據(jù)的缺失亦采取上述方式填補(bǔ)。
3.統(tǒng)計(jì)方法
選取2013-2016年陽性確診病例數(shù)作為響應(yīng)變量,以月為基本單位,構(gòu)建實(shí)際序列數(shù)據(jù)集。采用R 3.6.1軟件構(gòu)建q階移動(dòng)平均(moving average,MA)模型、多元自回歸求和移動(dòng)平均(auto-regressive integrated moving average with external regressors,ARIMAX)模型、簡(jiǎn)單指數(shù)平滑模型及Holt-Winters相加指數(shù)平滑模型,使用參數(shù)赤池信息量準(zhǔn)則(akaike information criterion,AIC)、均方根誤差(root mean square error,RMSE)、平均絕對(duì)誤差(mean absolute error,MAE)以及平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)比較模型的擬合性能。比較2017年陽性確診數(shù)真實(shí)值與預(yù)測(cè)值之間的RMSE、MAE、MAPE,驗(yàn)證模型預(yù)測(cè)效果。利用logistic回歸分析影響因素與傳染病陽性確診之間的關(guān)系,并計(jì)算比值比(OR)及其95%可信區(qū)間(95%CI)以觀察關(guān)聯(lián)強(qiáng)度。
1.時(shí)間序列分析
2013-2016年入境傳染病陽性確診數(shù)時(shí)序圖如圖1時(shí)序圖所示,未發(fā)現(xiàn)明顯的季節(jié)波動(dòng)。圖1中的自相關(guān)函數(shù)(autocorrelation function,ACF)和偏自相關(guān)函數(shù)(partial ACF,PACF)圖分別顯示截尾和拖尾特征。白噪聲檢驗(yàn)得Ljung-BoxQ=14.982,P=0.020,說明該序列不是白噪聲序列。擴(kuò)展迪基-福勒檢驗(yàn)(augmented dickey-fuller test,ADF)用于單位根平穩(wěn)性檢驗(yàn),結(jié)果得Dickey-Fuller=-4.213,P=0.010,序列不需要進(jìn)行差分。
(1)MA(q)模型
結(jié)合該序列為1階自相關(guān),考慮使用MA(1)模型。表1顯示MA(1)模型擬合結(jié)果,均具有統(tǒng)計(jì)學(xué)意義,確定模型形式為yt=7.632+(1-0.678B)εt。對(duì)模型殘差進(jìn)行檢驗(yàn),圖2為MA(1)模型殘差序列的ACF和PACF圖,可以看出自相關(guān)系數(shù)和偏自相關(guān)系數(shù)自1階開始都在兩倍標(biāo)準(zhǔn)差范圍內(nèi),說明信息提取充分。且按α=0.05的水準(zhǔn),該殘差序列為白噪聲(Ljung-BoxQ=3.745,P=0.711)。
圖1 2013-2016年入境傳染病陽性確診數(shù)時(shí)序圖及ACF、PACF圖
表1 MA(1)模型擬合結(jié)果
圖2 MA(1)模型殘差序列的ACF圖、PACF圖
(2)ARIMAX模型
由于各月傳染病陽性確診病例數(shù)受到該月入境人員數(shù)的影響,我們將2013年至2016年各月入境人員數(shù)引入模型作為輸入變量,圖3左圖為入境人員數(shù)與陽性確診數(shù)的時(shí)間序列圖,可見兩者波動(dòng)有相關(guān)性。對(duì)入境人員序列進(jìn)行平穩(wěn)性ADF檢驗(yàn),得Dickey-Fuller=-3.592,P=0.043,說明該序列平穩(wěn)。入境人員數(shù)與陽性確診數(shù)的互相關(guān)圖如圖3右圖所示,顯示在0階延遲互相關(guān)系數(shù)顯著不為0,結(jié)合陽性確診數(shù)序列自相關(guān)圖1階截尾,考慮將入境人員數(shù)序列和陽性確診數(shù)序列同期建模。模型的擬合結(jié)果如表2所示,可見常數(shù)項(xiàng)和相關(guān)系數(shù)項(xiàng)不顯著(P=0.284、0.077),ARIMAX模型不適用于本研究的建模。
圖3 2013年-2016年入境人員數(shù)與陽性確診數(shù)時(shí)序圖及這兩組數(shù)據(jù)的互相關(guān)圖
表2 ARIMAX模型擬合結(jié)果
(3)簡(jiǎn)單指數(shù)平滑模型和Holt-Winters指數(shù)平滑模型
2013-2016年某空港入境陽性確診數(shù)序列滿足平穩(wěn)且有一定增長(zhǎng)趨勢(shì)的要求,能構(gòu)建簡(jiǎn)單指數(shù)平滑模型和Holt-Winters指數(shù)平滑模型。簡(jiǎn)單指數(shù)平滑法所得水平項(xiàng)參數(shù)α為0.225;Holt-Winters指數(shù)平滑模型所得α為0.623,季節(jié)項(xiàng)參數(shù)δ為1×10-4。且兩個(gè)模型的殘差序列均為白噪聲序列(Ljung-BoxQ=18.878,P=0.092;Ljung-BoxQ=14.345,P=0.279),提示可以用這兩個(gè)模型對(duì)2017年陽性確診數(shù)進(jìn)行預(yù)測(cè)。
(4)三種模型比較
使用以上三種模型擬合2013-2016年某空港入境傳染病陽性確診數(shù),同時(shí)預(yù)測(cè)2017年的確診數(shù)。表3顯示了擬合及預(yù)測(cè)的參數(shù)結(jié)果,RMSE2、MAE2、MAPE2為預(yù)測(cè)評(píng)價(jià)指標(biāo),其余為擬合評(píng)價(jià)指標(biāo)。這些指標(biāo)值越小,模型擬合度越好。綜合考慮發(fā)現(xiàn)Holt-Winters指數(shù)平滑模型的RMSE1、MAE1以及預(yù)測(cè)評(píng)價(jià)指標(biāo)都是最小的,且圖4也直觀地反映出Holt-Winters指數(shù)平滑模型是最優(yōu)的。
2.影響因素分析
單因素logistic回歸分析顯示年幼者較年長(zhǎng)者更易被確診為攜帶傳染病(OR=0.866,95%CI=0.784~0.956),小季度入境者比大季度入境者更易被確診(OR=0.858,95%CI=0.715~1.028),小月份入境者比大月份入境者風(fēng)險(xiǎn)更大(OR=0.935,95%CI=0.881~0.992),而性別、來源地與傳染病陽性確診發(fā)生率無顯著相關(guān)性(OR性別=0.916,95%CI性別=0.638~1.314;OR來源地=1.079,95%CI來源地=0.673~1.803)。
表3 三種模型的擬合及預(yù)測(cè)效果的比較
圖4 三種模型的預(yù)測(cè)及擬合圖
基于P< 0.10的標(biāo)準(zhǔn)將有統(tǒng)計(jì)學(xué)意義的單因素納入多因素分析中,而季度和月份同時(shí)納入模型時(shí)易出現(xiàn)共線性,所以分別構(gòu)建了年齡與季度及年齡與月份這兩個(gè)多因素logistic回歸模型,并比較兩個(gè)模型的優(yōu)劣。年齡與季度的多因素logistic回歸模型擬合結(jié)果顯示,隨著年齡和季度的增大,入境者被確診為攜帶傳染病病毒的風(fēng)險(xiǎn)減小(OR年齡=0.865,95%CI年齡=0.782~0.955;OR季度=0.849,95%CI季度=0.706~1.018)。年齡和月份的多因素logistic回歸模型擬合結(jié)果亦相似(OR年齡=0.865,95%CI年齡=0.782~0.955;OR月份=0.933,95%CI月份=0.878~0.990)。兩個(gè)多因素logistic回歸模型均有統(tǒng)計(jì)學(xué)意義,且后者的AIC=655.24小于前者(657.37),表明用年齡、月份這兩個(gè)影響因素構(gòu)建的模型擬合效果更好。隨后,將年齡和月份分別轉(zhuǎn)換為啞變量,發(fā)現(xiàn)以0~9歲年齡組作為參照,其他年齡組在同一個(gè)月份入境時(shí),都有較低的風(fēng)險(xiǎn)被確診為攜帶傳染病病毒,其中30~39歲年齡組入境者的風(fēng)險(xiǎn)最低(OR=0.264,95%CI=0.142~0.481)。同樣的,以一月份作為參照,同一年齡組9月份入境具有顯著的保護(hù)性(OR=0.216,95%CI=0.080~0.549),而其他月份均無顯著性。
既往對(duì)于境外輸入性病例的趨勢(shì)預(yù)測(cè)是基于監(jiān)測(cè)數(shù)據(jù),結(jié)合季節(jié)氣象因素、社會(huì)因素等,采用專家會(huì)商法,得出結(jié)論[7];或是考慮時(shí)間分布特征,只分析某種特定的輸入性傳染病[8],尚缺乏利用建模對(duì)多種輸入性傳染病進(jìn)行綜合預(yù)測(cè)的研究。本研究利用時(shí)間序列模型搭建空港入境傳染病預(yù)測(cè)預(yù)警系統(tǒng),為有效監(jiān)控空港入境傳染病疫情提供理論依據(jù)。研究結(jié)果顯示,除ARIMAX模型外,其余三種模型均可應(yīng)用于空港入境傳染病的預(yù)測(cè),其中Holt-Winters指數(shù)平滑模型擬合及預(yù)測(cè)效果最優(yōu)。這可能是由于ARIMAX模型對(duì)數(shù)據(jù)要求高,當(dāng)實(shí)際問題較復(fù)雜時(shí)模型建立較困難,而指數(shù)平滑模型計(jì)算方法簡(jiǎn)便,適用于序列較短或不具備構(gòu)建ARIMA模型條件的情況[9-10]。
風(fēng)險(xiǎn)因素分析結(jié)果中,同月入境者0~9歲年齡組有較高的風(fēng)險(xiǎn)被確診為傳染病病毒陽性,而同一年齡組9月份入境者患傳染病的風(fēng)險(xiǎn)較低。此結(jié)果符合兒童是傳染病病毒攻擊主要對(duì)象的現(xiàn)象,且兒童人群易通過直系親屬快速傳播,使傳染病更易擴(kuò)散[11]。9月份是腸道傳染病和蟲媒傳染病的高發(fā)時(shí)間段,而能導(dǎo)致發(fā)熱的常見呼吸道傳染病更易在晚秋出現(xiàn),此規(guī)律也與研究結(jié)論相符。
本研究也存在不足之處:第一,數(shù)據(jù)收集難度較大,存在數(shù)據(jù)缺失,對(duì)時(shí)間序列模型構(gòu)建的穩(wěn)定性產(chǎn)生一定影響。第二,采用比例推算法填補(bǔ)2013和2014年各月入境人數(shù)及2014年下半年的確診數(shù),但入境人數(shù)及確診數(shù)未見明顯的周期性變化,用這種填補(bǔ)方式可能導(dǎo)致結(jié)果出現(xiàn)偏差。第三,影響因素分析中,對(duì)照組為采樣檢測(cè)后明確傳染病陰性的入境者,樣本量較少,無法代表總體傳染病陰性入境人群。后期我們將繼續(xù)完善數(shù)據(jù),增加多中心樣本,以更好地構(gòu)建空港口入境傳染病預(yù)測(cè)預(yù)警系統(tǒng)。
中國(guó)衛(wèi)生統(tǒng)計(jì)2020年6期