楊 軍 歐春泉△ 丁 研 陳平雁
空氣污染、氣象等暴露因素的健康效應均有一定的持續(xù)性和滯后性〔1-2〕。換言之,人群健康指標(如死亡率、發(fā)病率)不僅與當天的暴露水平有關(guān),還可能受昨天乃至十多天前暴露的影響。評價暴露因素滯后效應的方法眾多,如:滑動平均法、廣義線性模型等方法,但各有其不足之處。近年來,分布滯后線性模型的提出使得該問題的研究有了很大的進展,國外目前普遍運用該法研究空氣污染的健康效應,但該法的應用前提是暴露-反應關(guān)系呈線性。然而,現(xiàn)實研究中有的暴露-反應關(guān)系呈現(xiàn)非線性,如氣溫效應通常呈U型、V型或J型分布〔3〕,并不適合使用該法。分布滯后非線性模型同時考慮暴露因素的滯后效應和暴露-反應的非線性關(guān)系。本文將詳細介紹模型的基本理論,并以實例闡述其應用。
分布滯后線性模型(distributed lag linear models,DLM)由Almon于1965年提出,并應用于經(jīng)濟學研究〔4〕。2000 年,Schwartz和 Braga等〔2〕將該模型引入環(huán)境健康效應的定量化評估。同時期Zanobetti〔5〕將廣義相加模型的思想與分布滯后模型思想綜合,提出廣義相加分布滯后模型(generalized additive distributed lag models)。分布滯后非線性模型(distributed lag non-linear models,DLNM)最早在流行病學研究中提及。2006年Armstrong〔6〕將DLNM引入氣溫健康效應研究中,并提出該模型思想。2010年Gasparrin、Armstrong等人進一步以廣義線性模型和廣義相加模型等傳統(tǒng)模型的思想為基礎(chǔ),利用交叉基(cross-basis)過程,闡述了分布滯后非線性模型的理論〔7-8〕。本文將從以下5個步驟對該模型進行介紹。
μ≡E(Y),g是連接函數(shù)族,Y可為多種概率分布,如正態(tài)分布、gamma分布、Poisson分布等;環(huán)境健康效應研究中,因變量yt(t=1,2,…,n)通常是人群中某陽性事件的逐日累計人數(shù)(如每日死亡人數(shù),每日患病人數(shù)等),而自變量xj通常是同期的逐日空氣污染物濃度、溫度、相對濕度等環(huán)境因子,連接函數(shù)通常采用Poission。uk表示其他混雜因素的線性效應,βj、γk為相應的參數(shù)〔7,9〕。fj表示自變量 xj的各種基函數(shù)(basis function)。通過選擇合適的基函數(shù),可將自變量xj轉(zhuǎn)化成一個新的變量集,包含在模型的設(shè)計矩陣中,從而對其效應進行估計。常用的基函數(shù)有正交函數(shù)、線性閾值函數(shù)和樣條函數(shù)等。其中樣條函數(shù)應用最廣,如:樣條平滑(smoothing spline),自然三次樣條(natural cubic spline),B樣條(B spline)等,見公式(2):
Zt為n×vx矩陣,是自變量x通過基函數(shù)轉(zhuǎn)換產(chǎn)生的新變量,稱基變量。通過轉(zhuǎn)化能更好描述因變量隨自變量變化的分布,結(jié)果更便于解釋。
由于暴露的影響存在滯后性,當天的結(jié)局可能受l天前暴露的影響。為了描述暴露的滯后效應,對x自變量進行簡單轉(zhuǎn)換產(chǎn)生n×(L+1)的Q矩陣,即
L是需定義的最長滯后天數(shù),q1·≡x(Q的第一列),l= [0,…,l,…,L]T
這樣,通過給暴露-反應關(guān)系添加滯后維度,實現(xiàn)同時描述因變量在自變量維度與滯后維度的分布。
分布滯后模型假設(shè)暴露的效應存在于某一特定時間內(nèi),通過對參數(shù)L設(shè)置不同的值估計不同滯后時間的效應。以往滯后效應的研究,往往簡單地將每個滯后時間與其設(shè)定的相應參數(shù)乘積累加。這種模型往往會產(chǎn)生很高的共線性和相關(guān)性,從而估計結(jié)果出現(xiàn)偏差、預測效能降低。Braga、Schwartz等〔2〕人改進的方法是給滯后分布強加某些限制,選擇適當?shù)幕瘮?shù)轉(zhuǎn)換。如采用分層的思想,假設(shè)滯后一定區(qū)間內(nèi)有相同的固定效應,或者使用連續(xù)函數(shù)(正交函數(shù)、樣條函數(shù)等)來描述平滑曲線等,見公式(4):
C為對滯后向量選擇特定基函數(shù)轉(zhuǎn)換得到的(L+1)×vl矩陣為每個滯后時間的線性效應的估計為對滯后分布所作的限制。
分布滯后非線性模型其算法相當復雜,其核心思想為交叉基。對自變量與因變量的關(guān)系、滯后效應的分布分別選擇合適的基函數(shù),求兩個基函數(shù)的張力積即得交叉基函數(shù)。具體步驟如下:首先建立因變量與自變量的模型,選擇基函數(shù)定義因變量隨自變量的分布,即公式(2),得到基向量Z;接著為暴露添加新的滯后維度,公式(3),再給矩陣Q每列選擇合適的基函數(shù),這樣得到n×vx×(L+1)的三維序列R,見公式(5):
rij為滯后暴露(qt·)通過基函數(shù)j變換得到,wt是自變量x的交叉基函數(shù)變換。與傳統(tǒng)模型不同,分布滯后非線性模型能同時描述效應在自變量的維度與滯后維度的變化分布。
暴露對反應的影響是非線性的,計算過程相當復雜、分析結(jié)果包含豐富信息。Gasparrini和Armstrong等人提供了R語言編寫的分布滯后非線性模型軟件包(Package=dlnm)。他們采用三維圖形表達滯后效應的估計結(jié)果,通過為特定滯后時間與暴露組合設(shè)定一個網(wǎng)格,隨著這兩個坐標變化的效應值就構(gòu)成一個形象直觀的3-D圖〔7-8〕。而且特定滯后時間或特定暴露的滯后效應可以通過對滯后效應分布圖進行簡單橫截得到,將每個滯后時間的滯后效應的貢獻相加便得到累積滯后效應,其估計值與標準誤的計算如式(6),其中)為估計參數(shù)的方差-協(xié)方差矩陣。
選取廣州市某城區(qū)2003年1月1日至2007年12月31日每日居民死亡數(shù)據(jù),同時段的氣象數(shù)據(jù)來自國家氣象數(shù)據(jù)共享中心,包括:日均氣溫、氣壓、相對濕度;自變量還有時間變量(t=1,2,3,…,1826),用以控制日死亡數(shù)本身的長期變化趨勢和季節(jié)性,反映其他未加考慮的混雜因素的影響。利用R軟件進行分析。
基本模型選擇廣義線性模型擬合每日全死因的死亡人數(shù),通過對每日平均氣壓、每日平均相對濕度,時間變量三次樣條函數(shù)平滑,這些變量的自由度(df)分別為3、3、7/年。這種自由度的選擇在眾多時間序列研究中被推薦〔7〕。其他影響因素還有年份與節(jié)假日啞變量。滯后時間與溫度基函數(shù)均選用自然三次樣條函數(shù)。
從所有的結(jié)果來看,相對危險度(RR)的分布隨著溫度變化而變化,暴露-反應關(guān)系近似V型,27℃為最適溫度(該溫度人群死亡率最低),在此溫度以上,氣溫越高死亡風險越大,在此溫度以下,則氣溫越低死亡風險越大(圖1)。這與國內(nèi)外研究報道氣溫健康效應為非線性相吻合〔3,10〕。
氣溫的影響存在明顯的滯后性和持續(xù)性。高溫的影響持續(xù)一周,而低溫的影響持續(xù)時間更長,可達15天(圖1)。高溫(27℃以上)15天的累計相對危險度(RR)為1.042(95%CI:1.010~1.074),即日均氣溫達27℃以上時,氣溫每升高1℃,造成15日內(nèi)人群死亡率累計上升4.2%。低溫(27℃以下)的15日累計RR為1.027(95%CI:1.006~1.048)。
圖1 相對危險度(RR)隨溫度與滯后時間(lag)的變化3-D圖,27℃為參照
雖然劉方和趙耐青〔9-10〕等人介紹了GAM 在氣溫健康效應影響評估中的應用,但國內(nèi)普遍采用線性相關(guān)與回歸方法,此種方法一則有悖于死亡人數(shù)在單位時間通常呈現(xiàn)Poisson分布的特性,二則忽視各觀察點之間存在相關(guān)關(guān)系的特性。
國外眾多研究發(fā)現(xiàn),空氣污染和氣象等環(huán)境因素的影響通常存在滯后性,而傳統(tǒng)單一的模型(如廣義線性模型、廣義相加模型、滑動平均法等)只考慮到某一特定時時間內(nèi)的效應,在模型中簡單地同時引入連續(xù)數(shù)天的暴露水平,不考慮滯后分布的特點,必然產(chǎn)生很高的共線性,導致分析結(jié)果存在不容忽視的偏差。氣溫健康效應滯后時間相當長(可達兩周),該問題尤為突出。
分布滯后線性模型是研究暴露滯后效應的好工具,國外已大量應用于空氣污染對健康影響的研究中,但該模型只限于呈線性的暴露-反應關(guān)系研究。分布滯后非線性模型在分布滯后線性模型的基礎(chǔ),先建立基于傳統(tǒng)方法的基本模型,可為廣義線性模型、廣義相加模型以及廣義估計方程等;接著對暴露-反應和滯后效應在時間維度的分布給予某些限制,從而估計不同滯后時間的暴露-反應關(guān)系,傳統(tǒng)模型可視為該模型的一個特例。該模型不僅限于空氣污染或氣溫對人類健康影響的研究,還可推廣應用于任何探究預測變量與結(jié)局關(guān)系及滯后效應的時間序列研究,甚至有望應用于病例-對照、前瞻性研究等臨床試驗中〔7〕。
目前分布滯后非線性模型面臨的問題主要在于基函數(shù)、節(jié)點的數(shù)目與位置、最大滯后天數(shù)、最佳模型等的選擇上缺乏公認的標準。這些問題均有待深入研究。
1.Zanobetti A,Schwartz J,Samoli E,et al.The temporal pattern of mortality responses to air pollution:a multicity assessment of mortality dis-placement.Epidemiology,2002,13(1):87-93.
2.Braga A,Zanobetti A,Schwartz J.The time course of weather-related deaths.Epidemiology,2001,12(6):662-667.
3.Curriero F,Heiner K,Samet J,et al.Temperature and mortality in 11 cities of the eastern United States.Am J Epidemiol,2002,155:80-87.
4.Almon S.The distributed lag between capital appropriations and expenditures.Econometrica,1965,33:179-196.
5.Zanobetti A,Schwartz J,Ryan M.Generalized additive distributed lag models:quantifying mortality displacement.Biostatistics,2000,1(3):279-292.
6.Armstrong B.Models for the relationship between ambient temperature and daily mortality.Epidemiology,2006,16(6):624-631.
7.Gasparrini A,Armstrong B,Kenward MG.Distributed lag non-linear models.Statistics in Medicine,2010,29(21):2224-2234.
8.Wood S.Generalized additive models:an introduction with R.Chapman& Hall/CRC Press:London/Boca Raton,2006.
9.董英,趙耐青,湯軍克.廣義相加模型在氣溫效應研究中的應用.中國衛(wèi)生統(tǒng),2008,25(2):144-146.
10.劉方,張金良,陸晨,等.北京地區(qū)氣溫與急性冠心病的時間序列研究.環(huán)境與健康雜志,2005,22(4):252-255.