胡純嚴(yán),胡良平,2*
(1. 軍事科學(xué)院研究生院,北京 100850;2. 世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
人們?cè)谑占ㄐ再Y料時(shí),通常會(huì)面臨如下實(shí)際問題:在所考察的處理因素分別處于“暴露”與“非暴露”水平下,觀察兩組受試對(duì)象是否出現(xiàn)某種結(jié)局時(shí),發(fā)現(xiàn)各組中每位受試對(duì)象受到處理因素特定水平(“暴露”或“非暴露”)影響的時(shí)間長(zhǎng)度可能不相同。這就意味著以各組受試對(duì)象的總?cè)藬?shù)作為計(jì)算該組樣本發(fā)病率的分母是不夠合理的,需要同時(shí)考慮每個(gè)人所經(jīng)歷的“時(shí)間長(zhǎng)度”,它就是“人-年數(shù)”。本文介紹基于“人-年數(shù)”為“分母”的定性資料分析方法,即“人-時(shí)間資料的獨(dú)立性檢驗(yàn)”。
1.1.1 累加發(fā)病率(簡(jiǎn)稱“發(fā)病率”)
設(shè)觀察由n個(gè)受試對(duì)象組成的一個(gè)群體在一個(gè)確定的時(shí)間段(例如一個(gè)月或一個(gè)季度或一年)內(nèi)出現(xiàn)患某病的人數(shù)為m,則稱該病的累加發(fā)病率(簡(jiǎn)稱為“發(fā)病率”)為100(m/n)%。這里有一個(gè)隱含的假定:即所有n個(gè)受試對(duì)象都被觀察了相同時(shí)間長(zhǎng)度(例如一個(gè)月或一個(gè)季度或一年)。
1.1.2 人-年數(shù)
在現(xiàn)實(shí)生活和科研工作中,受試對(duì)象被觀察的時(shí)間長(zhǎng)度可能不盡相同,有些受試對(duì)象可能分別被觀察了3 個(gè)月、7 個(gè)月或14 個(gè)月,如此等等。為了便于分析,不妨將“時(shí)間長(zhǎng)度”統(tǒng)一折算為“一年”,稱為“人-年數(shù)”。于是,分別被觀察了3、7、14個(gè)月的3位受試對(duì)象,總共被觀察了(3+7+14)/12=2人-年數(shù)。
1.1.3 發(fā)病密度
一組人群的發(fā)病密度(incidence density,ID)定義為:該組群中發(fā)生事件(發(fā)生疾病)的人數(shù)除以該組群在研究期間累加的人-年(時(shí)間)總數(shù)[1]。這里的分母是“人-年數(shù)”,其取值范圍為0 到∞;而累加發(fā)病率的取值范圍為0~1。
第1 種形式:未分層成組設(shè)計(jì)的人-時(shí)間資料,見表1[1]。第2 種形式:分層且含一個(gè)定性因素的人-時(shí)間資料,見表2[1]。第3 種形式:分層且含一個(gè)計(jì)量因素的人-時(shí)間資料,見表3[2]。
表1 某地45~49歲婦女乳腺癌發(fā)病例數(shù)與是否使用口服避孕藥(OC)的關(guān)系
表2 絕經(jīng)后期婦女是否使用OC患乳腺癌情況的調(diào)查結(jié)果
表3 某地鎳精煉工人肺癌死亡情況調(diào)查結(jié)果
未分層成組設(shè)計(jì)人-時(shí)間資料的表達(dá)模式,見表4。
表4 未分層成組設(shè)計(jì)人-時(shí)間資料的表達(dá)模式
檢驗(yàn)假設(shè)可表述如下:H0:ID1=ID2;H1:ID1≠ID2;α=0.05。
根據(jù)資料所滿足的前提條件,有兩個(gè)可供選擇的檢驗(yàn)統(tǒng)計(jì)量[1-2],分別見式(1)、式(2):
在上面兩式中,α1為表4 中“暴露水平組”的“病例數(shù)”,E1和V1分別為α1的“期望頻數(shù)”和“方差”,其計(jì)算分別見式(3)、式(4):
事實(shí)上,依據(jù)“Z2=χ21”的統(tǒng)計(jì)理論知識(shí)[3],可將式(1)和式(2)合并成式(5):
前提條件:這個(gè)檢驗(yàn)適用于“V1≥5”。
【例1】如表1資料,試分析“現(xiàn)在使用OC”與“從不使用OC”兩組婦女乳腺癌發(fā)病密度差異是否有統(tǒng)計(jì)學(xué)意義。
【分析與解答】設(shè)所需要的SAS程序[2]如下:
【程序說明】第2 句“do i=1 to 1;”代表該資料只有“一層”(相當(dāng)于只有一個(gè)4 格表資料);若整個(gè)資料有8層,此句應(yīng)修改為“do i=1 to 8;”。
【SAS輸出結(jié)果及解釋】
以上輸出結(jié)果是基于標(biāo)準(zhǔn)正態(tài)分布理論算得的,V1=5.15994 為“α1=9”的方差;而Z=1.42105、P=0.15530>0.05。
【統(tǒng)計(jì)結(jié)論和專業(yè)結(jié)論】上述計(jì)算結(jié)果說明,某地45~49歲婦女使用口服避孕藥與不使用口服避孕藥的乳腺癌發(fā)病密度差異無統(tǒng)計(jì)學(xué)意義,即可以認(rèn)為:口服避孕藥對(duì)該地45~49 歲婦女是否患乳腺癌沒有明顯影響。
以上輸出結(jié)果是基于χ2分布理論算得的,χ2=2.01939、P=0.15530>0.05,結(jié)論同上,此處從略。
【說明】當(dāng)自由度為1時(shí),χ2=Z2,故當(dāng)只有一個(gè)四格表資料時(shí),前面兩部分輸出結(jié)果只需要保留其中任何一個(gè)即可。
為節(jié)省篇幅,資料的表達(dá)模式參見前文表2 和表4(假定其代表第“i”層)。值得注意的是:在表2中,“年齡分組”可被視為一個(gè)“分層因素”(或稱為被控制的因素);而“使用OC 的情況”可被視為該研究的一個(gè)試驗(yàn)因素,它有3 個(gè)水平,分別為“從不使用OC”“現(xiàn)在使用OC”和“過去使用OC”。
本文所介紹的方法適用于試驗(yàn)因素具有兩個(gè)水平,對(duì)表2 資料而言,可以在分層的條件下比較“從不使用OC”與“現(xiàn)在使用OC”兩個(gè)水平下“各層合并后的發(fā)病密度”差異是否有統(tǒng)計(jì)學(xué)意義;也可以比較“從不使用OC”與“過去使用OC”兩個(gè)水平下“各層合并后的發(fā)病密度”差異是否有統(tǒng)計(jì)學(xué)意義。
檢驗(yàn)假設(shè)可表述如下:H0:合并ID1=合并ID2;H1:合并ID1≠合并ID2;α=0.05。
檢驗(yàn)統(tǒng)計(jì)量[1-2]見式(5):
前提條件:①假定各層發(fā)病密度之比[RRi=(α1i/t1i)/(α2i/t2i),i=1,2,…,k]相等;②Var(A)≥5。
【例2】如表2 資料,試分析按年齡分組且在“從不使用OC”與“現(xiàn)在使用OC”兩個(gè)條件下,合并的婦女乳腺癌發(fā)病密度差異是否有統(tǒng)計(jì)學(xué)意義。
【分析與解答】設(shè)所需要的SAS程序[2]如下:
后面緊接其他SAS 程序語句,具體內(nèi)容與“第2.3 節(jié)”中自“data a;”到最后完全相同,為節(jié)省篇幅,此處從略。
【SAS輸出結(jié)果及解釋】
以上輸出的是表2 中5 個(gè)“年齡分組(層)”各自的計(jì)算結(jié)果,其中,Z、P和Var_a1 分別代表“檢驗(yàn)統(tǒng)計(jì)量”“P值”和“各層α1的方差”。由“P值”列可知,只有在最后兩個(gè)年齡組中,“從不使用OC”與“現(xiàn)在使用OC”兩個(gè)條件下,婦女乳腺癌發(fā)病密度差異有統(tǒng)計(jì)學(xué)意義。
以上輸出的是表2 中5 個(gè)“年齡分組(層)”合并后的計(jì)算結(jié)果,即χ2=12.8219,P=0.000343<0.01。
【統(tǒng)計(jì)結(jié)論和專業(yè)結(jié)論】上述計(jì)算結(jié)果說明,在“從不使用OC”與“現(xiàn)在使用OC”兩個(gè)條件下,合并后的婦女乳腺癌發(fā)病密度差異有統(tǒng)計(jì)學(xué)意義。從表2 中的實(shí)際數(shù)據(jù)可知,“現(xiàn)在使用OC”者的乳腺癌發(fā)病密度比“從不使用OC”者的乳腺癌發(fā)病密度大。
采用“人-年數(shù)”取代“總樣本含量”是人們?cè)谔幚矶ㄐ再Y料時(shí),嚴(yán)格遵照“實(shí)事求是”原則的一個(gè)具體體現(xiàn),是統(tǒng)計(jì)學(xué)的一個(gè)微小進(jìn)步。然而,在實(shí)際科研工作中,精準(zhǔn)地獲得各組受試對(duì)象的“人-年數(shù)”是十分困難的事,尤其是在觀察時(shí)期較長(zhǎng)、回顧性研究且各組樣本含量較大的情境中。因此,應(yīng)盡可能事先制訂出相對(duì)完善的研究設(shè)計(jì)方案,并嚴(yán)格執(zhí)行研究設(shè)計(jì)方案(包括“標(biāo)準(zhǔn)操作規(guī)程方案”和“實(shí)時(shí)精準(zhǔn)質(zhì)量控制方案”等)[4-5],以確保所獲得的科研數(shù)據(jù)是精準(zhǔn)可靠的[6-7]。
本文介紹了與“人-時(shí)間資料”有關(guān)的基本知識(shí)、基于未分層人-時(shí)間資料比較兩總體“發(fā)病密度”和基于分層人-時(shí)間資料比較兩合并“發(fā)病密度”等內(nèi)容;通過兩個(gè)實(shí)例,介紹了基于SAS軟件實(shí)現(xiàn)前述兩種場(chǎng)合下的統(tǒng)計(jì)計(jì)算方法,對(duì)SAS 輸出結(jié)果進(jìn)行解釋,并做出了統(tǒng)計(jì)結(jié)論和專業(yè)結(jié)論。