劉云霞 劉言訓(xùn) 張冰冰 張洪梅 薛付忠
結(jié)核病至今仍是嚴(yán)重威脅人類健康的一個全球性重大公共衛(wèi)生問題[1]。傳染病的發(fā)生流行受多種因素的影響,如氣候、地理等自然因素,經(jīng)濟(jì)、人口密度等社會因素[2]。探明結(jié)核病發(fā)生流行的影響因素,可為其防控措施的制定提供科學(xué)依據(jù)。現(xiàn)有研究表明,結(jié)核病分布呈現(xiàn)明顯的空間分布特征[3-6],這提示不同時間、不同區(qū)域的相關(guān)影響因素的作用可能具有空間異質(zhì)性。然而,疾病影響因素研究中多用的傳統(tǒng)回歸模型,如線性回歸模型或logistic回歸模型等,均是假定回歸系數(shù)在所研究區(qū)域內(nèi)具有一致性(即為常數(shù)),而未考慮空間非平穩(wěn)性,因此所得結(jié)果只是所研究區(qū)域內(nèi)的某種“平均”,其分析結(jié)果并不能全面地反映空間數(shù)據(jù)的真實特征和影響因素作用的空間異質(zhì)性。因此,本研究擬應(yīng)用能夠處理空間異質(zhì)性的地理加權(quán)回歸(geographical weighted regression,GWR)模型分析結(jié)核病登記率與其影響因素間的空間局域關(guān)系。研究結(jié)果可為結(jié)核病的病因?qū)W研究及其有效防控提供思路和依據(jù),也可為其他傳染性疾病研究提供新思路和新方法。
山東省140個縣(區(qū))2005—2008年的結(jié)核病登記資料由山東省結(jié)核病防治中心提供。本研究選取人口密度、人均GDP、年平均氣溫、年降水量、年日照小時數(shù)、每千人擁有病床數(shù)、每千人擁有醫(yī)生數(shù)作為結(jié)核病影響因素,數(shù)據(jù)來源于山東省統(tǒng)計年鑒、山東省衛(wèi)生統(tǒng)計年鑒和山東省省情資料庫等。
1.結(jié)核病及其影響因素的地理信息系統(tǒng)(GIS):以電子化的山東省地形圖為空間結(jié)構(gòu)數(shù)據(jù)庫,以結(jié)核病疫情資料及相關(guān)影響因素資料建立屬性數(shù)據(jù)庫,以ArcGIS 9.0為數(shù)據(jù)管理和分析平臺,建立結(jié)核病及其影響因素的GIS。
2.全局空間自相關(guān)分析:采用空間自相關(guān)系數(shù)Moran’I檢驗區(qū)域結(jié)核病發(fā)病是否存在空間自相關(guān)[7]。Moran’s I 統(tǒng)計量取值范圍為(-1,1),I 小于0表示存在空間負(fù)相關(guān)關(guān)系,大于0則為空間正相關(guān)關(guān)系,I=0代表無空間相關(guān)關(guān)系。|I|的大小反映空間自相關(guān)關(guān)系的強(qiáng)弱。
3.GWR模型[8-9]:鑒于空間自相關(guān)和空間異質(zhì)性的存在,不同區(qū)域的影響因素對結(jié)核病疫情的影響可能不同,其作用方式和強(qiáng)度均可能存在差異,本研究應(yīng)用SAM v4.0軟件構(gòu)建GWR模型進(jìn)行局域估計,以獲得更好的擬合優(yōu)度和更高的準(zhǔn)確率,闡明影響因素作用的空間分異性。
GWR模型是一種非參數(shù)局部線性回歸方法,其模型表達(dá)式為:
其中(ui,vi)為第i個樣本點的地理位置坐標(biāo);βj是隨空間地理位置變化的回歸系數(shù);εi為獨立同分布的誤差項,通常假定其服從N(0,σ2)。該模型是對一般線性回歸模型的擴(kuò)展,假定其參數(shù)(回歸系數(shù))是區(qū)域地理位置的函數(shù),并隨地理位置的變化而變化,通過局域參數(shù)估計反映樣本對回歸方程貢獻(xiàn)在空間上的變異,因此其回歸結(jié)果更加可信。
本研究以結(jié)核病登記率為因變量,相關(guān)影響因素為自變量,基于加權(quán)最小二乘法(weighted least squares,WLS法),通過變化的空間數(shù)據(jù)窗口估計局部回歸參數(shù),構(gòu)建GWR模型。估計模型參數(shù)時,基于“AIC最小”的原則選擇適宜的空間權(quán)重函數(shù)[10]。并將GWR模型結(jié)果與基于普通最小二乘(ordinary least squares,OLS)估計的全局回歸模型結(jié)果相比較,以評價模型的擬合優(yōu)度。根據(jù)Fotheringham等[9]提出的GWR模型評價標(biāo)準(zhǔn)“若GWR模型與OLS模型的赤池信息準(zhǔn)則(akaike information criterion,AIC)之差大于3,則表明即使把GWR模型的復(fù)雜性考慮在內(nèi),其模型擬合效果也比OLS模型好”。同時,本研究借助于ArcGIS9.0將GWR模型分析結(jié)果予以圖示,具體分析各影響因素對結(jié)核病的影響程度及其空間差異。
山東省2005—2008年登記活動性結(jié)核病例數(shù)分別為37 706、38 880、41 448和43 208例,各年度各縣(區(qū))活動性結(jié)核病登記率分別為12.79/10萬~107.35/10萬、16.01/10 萬 ~86.52/10 萬、17.36/10萬~92.10/10萬和17.86/10萬~114.86/10萬。各縣(區(qū))結(jié)核病全局空間自相關(guān)分析結(jié)果見表1,可見各年度Moran’I統(tǒng)計量均通過0.05水平的統(tǒng)計學(xué)檢驗。
表1 山東省縣域結(jié)核病空間自相關(guān)分析結(jié)果(2005—2008)
根據(jù)“AIC最小”原則,本研究選用高斯權(quán)重函數(shù)進(jìn)行GWR模型的參數(shù)估計。GWR模型與OLS模型擬合優(yōu)度評價見表2,可見本研究GWR模型與OLS模型相比,其AIC值下降均大于3,R2亦有顯著提高。
表2 GWR模型與OLS模型擬合優(yōu)度比較
本研究2005—2008年GWR模型估計結(jié)果差異不大,因篇幅所限在此僅對2008年GWR模型的相關(guān)估計結(jié)果予以報告。表3列出了GWR模型參數(shù)估計值的描述性統(tǒng)計分析結(jié)果。
本研究GWR模型估計的R2值介于0.1162~0.3922之間,即該模型最低可解釋結(jié)核病登記率總變異的11.62%,最高可解釋39.22%,其平均值為35.37%,較 OLS模型(R2為0.1350)有了顯著提高。不同區(qū)域GWR模型的R2差異明顯,如中北部東營市和濱州市以及南部臨沂市的部分縣區(qū)的R2均在0.3352以上,即所研究的社會經(jīng)濟(jì)、氣候、衛(wèi)生資源配置等影響因素至少解釋結(jié)核病登記率總變異的33.52%;而中東部的濰坊市、青島市以及西部的臨沂市的部分縣區(qū)的R2均在0.1798以下,即研究的影響因素最多解釋結(jié)核病登記率總變異的17.98%,表明相比R2較大的區(qū)域而言存在更多的相關(guān)影響因素未予以考慮(圖1)。
圖1 GWR模型決定系數(shù)R2的空間分布
圖2為GWR模型各參數(shù)估計值的空間變異情況。①常數(shù)項的空間分布圖反映了各影響因素變量取值皆為0時結(jié)核病登記率的“基準(zhǔn)水平”存在明顯的空間變異,說明除本研究考慮的影響因素之外,還存在其他因素的影響。②年平均氣溫系數(shù)估計值的空間分布圖顯示,中北部和南部的大部分縣區(qū)的系數(shù)估計值為負(fù),表明溫度越低,結(jié)核病登記率越高;而中部縣區(qū)的系數(shù)估計值為正,表明溫度越低,結(jié)核病登記率越低。③年降水量系數(shù)估計值的空間分布圖顯示,中部大部分區(qū)域和北部2個縣區(qū)的系數(shù)估計值為正,表明降水量越大,結(jié)核病登記率越高;而其他縣區(qū)的系數(shù)估計值為負(fù),即這些區(qū)域的降水量越小,結(jié)核病登記率越高。④絕大多數(shù)區(qū)域的年日照時數(shù)系數(shù)估計值為負(fù),即其日照時間越長,結(jié)核病登記率越低。⑤人均GDP的系數(shù)估計值均為負(fù),表明縣區(qū)經(jīng)濟(jì)水平與結(jié)核病登記率呈負(fù)相關(guān)關(guān)系,表明經(jīng)濟(jì)水平越高,結(jié)核病防控效果越好。⑥人口密度的系數(shù)估計值亦均為負(fù),表明其與結(jié)核病登記率呈負(fù)向關(guān)系,這與既往研究結(jié)果不一致,但其系數(shù)估計值均很小。⑦每千人擁有病床數(shù)的系數(shù)估計值均為負(fù),即其與結(jié)核病登記率呈負(fù)向關(guān)系,相對來說中東部區(qū)域該因素的影響較大。⑧絕大多數(shù)每千人擁有醫(yī)生數(shù)系數(shù)估計值為負(fù),其中中部區(qū)域該因素影響較大,這與每千人擁有床位數(shù)系數(shù)估計值空間分布相似,在一定程度上說明衛(wèi)生資源配置好有利于結(jié)核病防控。
本研究全局空間自相關(guān)分析發(fā)現(xiàn)山東省2005—2008年各縣區(qū)的結(jié)核病登記率在空間分布上均具有明顯的空間正相關(guān)關(guān)系,即結(jié)核病患者分布存在空間聚集現(xiàn)象,提示空間非平穩(wěn)性的存在。這在一定程度上歸因于不同區(qū)域影響因素作用的空間異質(zhì)性。因此,本研究進(jìn)一步構(gòu)建了結(jié)核病登記率與相關(guān)影響因素的GWR模型,定量分析影響因素變量對結(jié)核病發(fā)病水平影響的空間變異性。各區(qū)域GWR模型的參數(shù)估計值的大小及符號反映了各影響因素變量對不同區(qū)域的結(jié)核病登記率的影響程度和方向?;?008年數(shù)據(jù)構(gòu)建的GWR模型參數(shù)估計值空間分布圖顯示,各區(qū)域影響因素系數(shù)估計值存在明顯的空間差異,表明不同區(qū)域各影響因素對結(jié)核病登記率的影響存在程度和方向上差異,該結(jié)果提示應(yīng)根據(jù)各影響因素的空間特征及其與結(jié)核病登記率間的局域關(guān)系制定區(qū)域化的結(jié)核病防控規(guī)劃和策略,而不能僅根據(jù)結(jié)核病登記報告結(jié)果粗略地制定整體規(guī)劃、策略和政策。同時,本研究結(jié)果顯示,GWR模型系數(shù)估計值的符號有正有負(fù),說明GWR方法比OLS法更能反映空間非平穩(wěn)性;GWR模型的R2最小值為11.62%,最大值為39.22%,平均值為35.37%,與OLS模型(R2為13.50%)相比,其更好地反映了結(jié)核病登記率的空間變異;GWR模型的AIC(1168.838)比 OLS 模 型 的 AIC(1173.541)小 4.7,根 據(jù) Fotheringham等[9]提出的 GWR模型評價標(biāo)準(zhǔn)也進(jìn)一步說明GWR模型的擬合優(yōu)度較全局OLS模型有了明顯改善。
表3 GWR模型參數(shù)估計值簡單描述
GWR模型是空間變系數(shù)模型的一種,其是對一般線性模型的擴(kuò)展,擴(kuò)展后模型的參數(shù)是區(qū)域地理位置的函數(shù),可隨地理位置的變化而變化,即通過空間數(shù)據(jù)樣本位置的改變來調(diào)節(jié)空間異質(zhì)性,進(jìn)而進(jìn)行局域參數(shù)估計,反映樣本對回歸方程貢獻(xiàn)在空間上的變異,其結(jié)果是局域的而不是全局的參數(shù)估計,能夠探測空間數(shù)據(jù)的空間非平穩(wěn)性,其回歸結(jié)果較全局回歸更加可信[10-11]。該方法可深入分析疾病分布空間聚集性的根本原因,為進(jìn)一步制定適宜的結(jié)核病防控策略提供指導(dǎo)依據(jù)。
[1]World Health Organization.Global tuberculosis control:epidemiology,strategy,financing.WHO report 2009.Geneva:WHO,2009.
[2]李立明.流行病學(xué).6版.北京:人民衛(wèi)生出版社,2007:238-258.
[3]Nunes C.Tuberculosis incidence in Portugal:spatiotemporal clustering.Int J Health Geogr,2007,6:30.
[4]Jia ZW,Jia XW,Liu YX,et al.Spatial analysis of tuberculosis cases in migrants and permanent residents,Beijing,2000-2006.Emerg Infect Dis,2008,14(9):1413-1419.
[5]Randremanana RV,Sabatier P,Rakotomanana F,et al.Spatial clustering of pulmonary tuberculosis and impact of the care factors in Antananarivo City.Trop Med Int Health,2009,14(4):429-437.
[6]唐益,龔德華,白麗瓊,等.湖南省2003—2011年活動性肺結(jié)核患者登記的空間分析.中國防癆雜志,2012,34(12):764-767.
[7]姜慶五,趙飛.空間自相關(guān)分析方法在流行病學(xué)中的應(yīng)用.中華流行病學(xué)雜志,2011,32(6):539-546.
[8]Leung Y,Mei CL,Zhang WX.Statistical tests for spatial nonstationarity based on the geographically weighted regression model.Environment and Planning,2000,32(1):9-32.
[9]Fotheringham AS,Brunsdon C,Charlton M.Geographically Weighted Regression:the analysis of spatially varying relationships.West Sussex:John Wiley &Sons Ltd,2002.
[10]蘇方林.中國R&D與經(jīng)濟(jì)增長的空間統(tǒng)計分析.上海:華東師范大學(xué),2005.
[11]王遠(yuǎn)飛,何洪林.空間數(shù)據(jù)分析方法.北京:科學(xué)出版社,2007.