張倩媛 林 曉 朱惠紅 言方榮
(中國(guó)藥科大學(xué)生物統(tǒng)計(jì)與計(jì)算藥學(xué)研究中心 南京 210009)
在流行病學(xué)研究中,對(duì)于疾病的發(fā)病情況經(jīng)常有可能出現(xiàn)漏報(bào)、瞞報(bào)等情況,導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)中出現(xiàn)大量的零數(shù)據(jù),這時(shí)利用泊松、負(fù)二項(xiàng)模型進(jìn)行分析將可能導(dǎo)致結(jié)果出現(xiàn)較大偏差,即發(fā)生了零膨脹(Zero-inflated,ZI)現(xiàn)象。通過(guò)構(gòu)建ZI模型可以很好地解決這個(gè)問(wèn)題。近年,ZI模型引起了廣泛關(guān)注,并被日漸廣泛應(yīng)用于眾多領(lǐng)域,成為當(dāng)今數(shù)據(jù)分析領(lǐng)域的一大熱點(diǎn)[1]。
江蘇省是國(guó)內(nèi)艾滋病(AIDS)主要流行省份之一,近年來(lái)流行日趨嚴(yán)重[2],因此對(duì)其發(fā)病成因的深入研究具有非常重要的意義。本文的研究對(duì)象為2004~2010年江蘇省艾滋病調(diào)查數(shù)據(jù)。從圖1可知,發(fā)病次數(shù)為零的數(shù)據(jù)過(guò)多,占總體的42.22%,分布較離散,并不滿足一般的泊松、負(fù)二項(xiàng)模型,具有零膨脹現(xiàn)象。因此,本文針對(duì)這類(lèi)具有零膨脹特性的流行病學(xué)數(shù)據(jù),結(jié)合其流行病學(xué)因素變量,構(gòu)建零膨脹模型,并對(duì)AIDS形成及流行原因進(jìn)行深入分析。
圖1 江蘇省AIDS發(fā)病次數(shù)總體直方圖
ZI模型主要包括兩部分,分別是零過(guò)程和計(jì)數(shù)過(guò)程。零過(guò)程的取值只能為0,解釋了模型中過(guò)多零產(chǎn)生的可能原因;而計(jì)數(shù)過(guò)程取值可為0或正次數(shù),表明因素影響事件發(fā)現(xiàn)了多少次[3]。
當(dāng)計(jì)數(shù)過(guò)程服從泊松分布時(shí)便構(gòu)成了ZIP模型:
(1.1)
而ZINB模型適用于過(guò)離散(方差大于均值)的數(shù)據(jù),主要是計(jì)數(shù)變量為負(fù)二項(xiàng)分布時(shí)產(chǎn)生,其模型的形式如下:
f(yi,λi,φi)=
(1.2)
在ZIP、ZINB模型中,分別在其參數(shù)φi、λi中引入?yún)f(xié)變量而構(gòu)建回歸方程。
對(duì)于ZI模型,參數(shù)估計(jì)通常采用廣義線性模型框架下的極大似然估計(jì)來(lái)實(shí)現(xiàn)[4],通過(guò)最大化對(duì)數(shù)似然函數(shù)而得到參數(shù)的估計(jì)值。
本文研究對(duì)象為江蘇省63個(gè)市縣在2004~2010年的艾滋病發(fā)病記錄,包括發(fā)病率(1/10萬(wàn))、農(nóng)村人口數(shù)(萬(wàn)人)、人均GDP(萬(wàn)元)、人口數(shù)(萬(wàn)人)、衛(wèi)生機(jī)構(gòu)對(duì)數(shù)共5個(gè)變量,441個(gè)觀測(cè)。此外,根據(jù)人口數(shù)和發(fā)病率計(jì)算得到發(fā)病次數(shù)(例),產(chǎn)生用于分析的數(shù)據(jù)集。
表1 艾滋病發(fā)病數(shù)據(jù)概況
變量樣本量均值中值方差變異系數(shù)(%)最小值最大值發(fā)病次數(shù)4412.152134.356272.381078農(nóng)村人口數(shù)44180.798781460.97047.3075.080253.890人均GDP4413.4512.4259.13287.554.39221.898人口數(shù)441113.120102.3605259.95064.11427.240547.170衛(wèi)生機(jī)構(gòu)對(duì)數(shù)4412.3172.230.23120.7301.4313.625
從表1的描述性統(tǒng)計(jì)分析可知:變量農(nóng)村人口數(shù)、人口數(shù)波動(dòng)較大,為了消除量綱影響和變量變異大小的影響,本文對(duì)協(xié)變量進(jìn)行標(biāo)準(zhǔn)化處理。
2.2.1最優(yōu)模型選擇
(1)過(guò)離散檢驗(yàn)
O=221.97遠(yuǎn)大于1.96,且發(fā)病數(shù)的方差遠(yuǎn)大于均值(34.356>2.44),表明數(shù)據(jù)呈現(xiàn)過(guò)離散現(xiàn)象,說(shuō)明對(duì)此展開(kāi)的分析中,NB模型應(yīng)優(yōu)于Poisson模型,ZINB應(yīng)優(yōu)于ZIP。
(2)模型擬合評(píng)價(jià)指標(biāo)
運(yùn)用R軟件構(gòu)建了4類(lèi)模型,通過(guò)表2進(jìn)一步證實(shí):ZINB、NB模型均優(yōu)于ZIP和Poisson模型,而ZINB較NB更優(yōu)一些。
表2 各模型的擬合評(píng)價(jià)指標(biāo)及比較結(jié)果
Model-2LLAICBICPoisson1836.3891846.3891866.825NB1404.1641414.1641434.605ZIP1761.1931775.1931803.823ZINB1391.0691405.0691433.683
(3)Vuong檢驗(yàn)統(tǒng)計(jì)量結(jié)果
表3 Vuong檢驗(yàn)結(jié)果
Model1-Model2V值P值模型選擇ZIP-Poisson2.7730.003ZIP>PoissonZINB-NB1.8720.031ZINB>NB
通過(guò)V檢驗(yàn)可知,ZIP模型優(yōu)于Poisson模型,ZINB模型優(yōu)于NB模型,綜合模型擬合評(píng)價(jià)指標(biāo)可知:ZINB模型是最佳模型。
2.2.2ZINB模型分析結(jié)果
ZINB模型包括兩部分內(nèi)容:Logit部分、負(fù)二項(xiàng)部分,回歸結(jié)果見(jiàn)表4。其中,Logit部分是以艾滋病不發(fā)生為響應(yīng)概率,逆向考察了哪些因素影響了艾滋病的發(fā)生;而負(fù)二項(xiàng)部分基于此,進(jìn)一步分析與艾滋病發(fā)生次數(shù)相關(guān)的影響因素,參數(shù)估計(jì)值為正表明隨自變量取值變大,艾滋病發(fā)病次數(shù)增加。
表4 ZINB回歸分析結(jié)果
過(guò)程參數(shù)參數(shù)估計(jì)標(biāo)準(zhǔn)誤Z值P值負(fù)二項(xiàng)部分(計(jì)數(shù)過(guò)程)Intercept0.3150.0724.356 1.33e-05#nc_num0.4370.0904.864 1.15e-06#GDP_mean0.5750.0688.512<2e-16#population0.2660.0813.2850.001**Logit部分(零過(guò)程)Intercept-7.7423.068-2.5230.012*GDP_mean-8.3183.475-2.3940.017*
注:#P<0.001;**P<0.01;*P<0.05。
負(fù)二項(xiàng)部分的模型說(shuō)明了人均GDP、人口數(shù)、農(nóng)村人口數(shù)均對(duì)艾滋病發(fā)病次數(shù)的多少有顯著的影響,且均呈現(xiàn)正相關(guān)的關(guān)系,說(shuō)明了經(jīng)濟(jì)發(fā)達(dá)地區(qū)較經(jīng)濟(jì)欠發(fā)達(dá)的地區(qū),人口密集區(qū)域較人口稀少區(qū)域,農(nóng)村人口稠密區(qū)較農(nóng)村人口稀疏區(qū),艾滋病的發(fā)病率都更高一些。其中,人均GDP的影響最大(系數(shù)為0.575),因此,應(yīng)首要加強(qiáng)經(jīng)濟(jì)發(fā)達(dá)地區(qū)的艾滋病防治工作,并要重點(diǎn)關(guān)注于人口密集,或是農(nóng)村人口密集的地區(qū)的艾滋病情況。
相對(duì)于傳統(tǒng)的計(jì)數(shù)模型如Poisson、NB模型,ZI模型從艾滋病發(fā)病數(shù)的角度研究與艾滋病發(fā)病有關(guān)的影響因素,能夠更充分地利用數(shù)據(jù)的有效信息,更適合擬合含有零過(guò)多的數(shù)據(jù)。
本文針對(duì)江蘇省2004~2010年間63個(gè)市縣的艾滋病發(fā)病情況,基于4個(gè)與流行病學(xué)相關(guān)的協(xié)變量,建立了Poisson、NB、ZIP和ZINB 4個(gè)模型,并得出ZINB回歸模型是最優(yōu)模型的結(jié)論。其中,在本文所建立的ZINB回歸模型中,人口密集區(qū)域、農(nóng)村人口稠密市縣,其艾滋病發(fā)病率是顯著增加的。因此,著重對(duì)蘇南等經(jīng)濟(jì)發(fā)達(dá)城市、發(fā)病熱點(diǎn)區(qū)域、人口密集地區(qū)以及農(nóng)村人口稠密市縣等進(jìn)行合理防治和嚴(yán)格把控是艾滋病治理的有效手段。
1 解鋒昌,韋博成,林金官,等.ZI數(shù)據(jù)的統(tǒng)計(jì)分析綜述.應(yīng)用概率統(tǒng)計(jì),2009,25(6):659~671.
2 劉文東,朱葉飛,吳瑩,等.江蘇省HIV/AIDS時(shí)空流行特征分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2014,31(3):383~386.
3 趙晶,所佳寧,羅瀟,等.基于零膨脹模型的陽(yáng)性過(guò)敏原數(shù)影響因素研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2014,31(5):853~855;859.
4 Ceppi M,Biasotti B,Fenech M,et al.Human Population Studies with the Exfoliated Buccal Micronucleus Assay.Mutation Research,2010,705(1):11~19.
5 Yau KK,Lee AH,Carrivick PJ.Modeling Zero-inflated Count Series with Application to Occupational Health.Computer Methods Programs Biomedicine,2004,74(1):47~52.
6 Riccardo E,Marionia1,Fiona E, et al.The Association Between Late-life Cognitive Test Scores and Retrospective Informant Interview Data.Int Psychogeriatr,2011,23(2):274~279.
收稿日期:2017-07-17