彭曉武 余松林 相 紅 許振成 彭曉春
Maclure于1991年提出了病例交叉研究方法〔1〕,利用暴露效應(yīng)的時間差作自身對照,用條件logistic回歸模型建立暴露與疾病之間的關(guān)系。它是繼橫斷面研究、病例對照研究和隊列研究后發(fā)展的一種新的流行病學(xué)研究方法,適合于多變量的時間序列資料的分析,已廣泛用于環(huán)境污染與健康關(guān)系的研究中。
在我國,張政、詹思延〔2〕和胡以松〔3〕分別于 2001年對這一研究方法作了系統(tǒng)介紹。闞海東,陳秉衡和賈健于2003年用這一設(shè)計分析了上海市大氣污染與居民每日死亡關(guān)系〔4〕。賈健、闞海東、陳秉衡等2004年用這一設(shè)計分析了上海市閘北區(qū)大氣污染與死亡率的關(guān)系〔5〕。在這些文章中用條件logistic回歸探討大氣污染對居民死亡的影響效應(yīng)。由于病例交叉研究的資料整理比較復(fù)雜,特別是當(dāng)每日有多個事例如疾病或死亡發(fā)生時,對資料的整理技術(shù)要求更高。從文獻中尚未查到用SAS軟件對原始資料進行整理以便于用條件logistic回歸模型進行配合的報道。病例交叉設(shè)計可用于研究大氣污染物的短暫暴露對健康的急性效應(yīng),本文以雙向1:3病例配比的設(shè)計方案為泛例,用SAS數(shù)據(jù)步對原始數(shù)據(jù)(空氣污染和人群死亡的時間序列數(shù)據(jù))進行整理,對整理后的資料直接采用通用統(tǒng)計軟件配合配對logistic回歸模型,為病例交叉研究資料提供了比較簡單實用的SAS程序。
病例交叉研究的對照選擇方式有多種,按對照時間劃分有單向回顧性對照、單向前瞻性對照和雙向?qū)φ?。每種對照又分為1:1對照和1:M(M>1)對照。以大氣污染與死亡率關(guān)系為例,假定按1:3雙向病例交叉研究為例,以當(dāng)天死亡病例作為病例,時間間隔為每7天一個間隔。此即以向后退7天、14天及21天的大氣污染狀況為回顧性對照,以向前推7天、14天及21天的大氣污染狀況為前瞻性對照,可用圖1表示。
由圖1的結(jié)構(gòu)圖可以看出,按雙向?qū)φ?:3配對,各對照間相距7天時,一個病例對照層含有7個觀察對象,時間跨度前后共21×2+1=43天。設(shè)有下列51個觀察日的資料,最多可組成9個病例對照層(表1)。
圖1 病例交叉研究的對照方式
以第22號觀察為例,它是第一層的病例和第8層的回顧性對照1。第1層的死亡人數(shù)為28,即有28個y=1(y為病例指示變量,y=1表示死亡病例),這時資料整理時,要求有28個帶第1序號觀察協(xié)變量的回顧性對照3(即28個帶第1序號觀察協(xié)變量的y=0),有28個帶第8序號觀察協(xié)變量的回顧性對照2(即28個帶第8序號觀察協(xié)變量的y=0),有28個帶第15序號觀察協(xié)變量的回顧性對照1(即28個帶第15序號觀察協(xié)變量的y=0)。對于前瞻性對照1,2,3,也具有相同的情形。所以對第一層來說,應(yīng)整理為28×7=196個觀察,其中病例(y=1)28個,回顧性對照(y=0)共84個觀察(回顧性對照3,2,1各28個)。前瞻性對照(y=0)也共84個觀察(前瞻性對照3,2,1各28個)。
以下是按雙向1:3病例對照研究的設(shè)計對上例資料的整理過程的SAS程序及說明。
第一步:數(shù)據(jù)步,讀入數(shù)據(jù)。
表1 資料表及按病例分層
第二步:按病例及不同的對照號分別建立數(shù)據(jù)集,Case為病例數(shù)據(jù)集,ctrl_3,ctrl_2,ctrl_1為三個回顧性對照的數(shù)據(jù)集,coh_1,coh_2,coh_3為三個前瞻性對照的數(shù)據(jù)集。
第三步:將七個數(shù)據(jù)集合并,并按層(stratum)及是否為病例(y)排序,得到新數(shù)據(jù)集newdata。
輸出結(jié)果列于表2。
第四步:將每一層中的病例記錄(y=1)中的死亡數(shù)作為相應(yīng)對照記錄(y=0)中的死亡數(shù),并用變量dno表示。如在第一層病例記錄中的死亡數(shù)(deaths)28作為該層中所有有y=0的死亡數(shù)。
表2 按層和y排序后的輸出結(jié)果
表3 第一層的資料整理結(jié)果
第五步:最后,按配合配對logistic回歸的軟件要求,將數(shù)據(jù)集按每個病例或每個對照一個記錄展開,共得到1834(=262×7,其中262是在9層中病例記錄的死亡數(shù)總和)記錄,從而完成了整個按設(shè)計要求的資料整理過程,最終的數(shù)據(jù)集為eee。例如,第一層的資料整理結(jié)果列于表3中,第一層共有28*7=196個記錄。
病例交叉研究是繼橫斷面研究、病例對照研究和隊列研究后發(fā)展的一種新的流行病學(xué)方法,在環(huán)境污染與健康關(guān)系的研究中應(yīng)用較廣。但由于通常記錄中的資料是按時間循序排列的,而且每一個記錄包含有多個反應(yīng)個體,其資料整理比較復(fù)雜,在實際工作中應(yīng)用比較費時費力。本文以雙向1:3病例配比的設(shè)計方案為泛例,用SAS數(shù)據(jù)步對原始數(shù)據(jù)整理,對整理后的資料可直接采用通用統(tǒng)計軟件配合配對logistic回歸模型。本文為病例交叉研究資料提供了比較簡單實用的SAS程序。如果實際設(shè)計方案不是如本文介紹的雙向1:3病例配比的設(shè)計方案,只要在第二步中加以調(diào)整即可。例如,實際設(shè)計方案為回顧性1:3配比設(shè)計時,只要將隊列配比的三個數(shù)據(jù)子集coh_1,coh_2,coh_3去掉即可。如果時間間隔不是7,14和21(天),即可將dif1,dif2和dif3重新定義即可。本文提供了一個簡便靈活的SAS程序,為實際工作者選用。
1.Maclure M.The case-crossover design:a method for studying transient effects on the risk of acute events.Am J Epidemiol,1991,133:144-153.
2.張政,詹思延.病例交叉設(shè)計,中華流行病學(xué)雜志,2001,22(4):304-306.
3.胡以松.病例交叉研究.疾病控制雜志,2001,5(4):341-343.
4.闞海東,陳秉衡,賈?。虾J写髿馕廴九c居民每日死亡關(guān)系的病例交叉研究.中華流行病學(xué)雜志,2003,24(10):863-867.
5.賈健,闞海東,陳秉衡,等.上海市閘北區(qū)大氣污染與死亡率的病例交叉研究.中華流行病學(xué)雜志,2003,24(10):863-867.
6.SAS Institute Inc.SAS/STAT User's Guide.Version 9.2,Cary,NC:SAS Institute Inc.,2008.