胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
為了分析來(lái)自病例對(duì)照研究設(shè)計(jì)的g×2×2表資料,需要完成以下4項(xiàng)任務(wù):其一,檢驗(yàn)各層2×2表資料的優(yōu)勢(shì)比是否滿足齊性;其二,估計(jì)共同優(yōu)勢(shì)比的數(shù)值;其三,估計(jì)共同優(yōu)勢(shì)比的置信區(qū)間;其四,檢驗(yàn)共同優(yōu)勢(shì)比是否等于1。本文將對(duì)后三項(xiàng)任務(wù)有關(guān)內(nèi)容進(jìn)行介紹。
設(shè)高維表g×2×2表的表達(dá)模式如下,見(jiàn)表1。
表1 病例對(duì)照研究設(shè)計(jì)下g×2×2表的第h層2×2表資料的表達(dá)模式
在分析“病例對(duì)照研究設(shè)計(jì)”的二維表資料時(shí),可以很方便地依據(jù)公式“OR=ad/bc”計(jì)算出優(yōu)勢(shì)比OR的數(shù)值。然而,對(duì)于“g×2×2表資料”,卻無(wú)法直接計(jì)算出OR的數(shù)值。從概念上來(lái)說(shuō),似乎可以采取某種舉措,將“g×2×2表資料”降維或壓縮成一個(gè)“2×2表資料”。但事實(shí)上,這種理想的“2×2表資料”是無(wú)法直接呈現(xiàn)出來(lái)的。于是,統(tǒng)計(jì)學(xué)家通過(guò)統(tǒng)計(jì)學(xué)方法來(lái)體現(xiàn)出各層“2×2表資料”之間的“微小差別”,這就是求出各層“2×2表資料”的“權(quán)重系數(shù)wh”。通過(guò)它將各層“2×2表資料”進(jìn)行加權(quán)平均,從而間接獲得合并后的優(yōu)勢(shì)比OR的數(shù)值。在SAS/STAT的FREQ過(guò)程中,將其稱為“common odds ratios”[1],常譯成“共同或普通或合并優(yōu)勢(shì)比”。
基于“g×2×2表資料”計(jì)算共同優(yōu)勢(shì)比的前提條件是高維表資料應(yīng)滿足齊性,針對(duì)“優(yōu)勢(shì)比”,檢驗(yàn)高維表資料是否滿足齊性的檢驗(yàn)方法有5種,分別是“Breslow-Day檢驗(yàn)”“Breslow-Day-Tarone檢驗(yàn)”“Q檢驗(yàn)”“I2度量統(tǒng)計(jì)量及其不確定性限值”和“Zelen's精確檢驗(yàn)”。
SAS/STAT中的FREQ過(guò)程[1]采用3種方法估計(jì)共同優(yōu)勢(shì)比及置信區(qū)間,分別是:①校正的計(jì)算方法,Mantel-Haenszel估計(jì)法;②校正的計(jì)算方法,logit估計(jì)法;③基于條件分布的精確法。
2.1.1 高維表資料優(yōu)勢(shì)比分析的具體內(nèi)容
高維表資料優(yōu)勢(shì)比分析的具體內(nèi)容包括以下4項(xiàng)[1]:其一,檢驗(yàn)資料是否滿足齊性要求;其二,估計(jì)共同優(yōu)勢(shì)比;其三,估計(jì)共同優(yōu)勢(shì)比的置信區(qū)間;其四,檢驗(yàn)共同優(yōu)勢(shì)比是否等于1。
2.1.2 高維表資料共同優(yōu)勢(shì)比的點(diǎn)估計(jì)及置信區(qū)間估計(jì)
2.1.2.1 Mantel-Haenszel估計(jì)量
基于Mantel-Haenszel估計(jì)量(簡(jiǎn)稱MH估計(jì)量)估計(jì)高維表資料共同優(yōu)勢(shì)比,見(jiàn)式(1):
注意:當(dāng)nh較小時(shí),MH估計(jì)量不如logit估計(jì)量敏感。
2.1.2.2 Logit估計(jì)量
Woolf于1955年提出了logit估計(jì)量[1],見(jiàn)下式:
式(7)中,ORh是第h層的優(yōu)勢(shì)比,其100(1-α)%置信區(qū)間見(jiàn)下式:
在式(7)和式(8)中,wh是第h層的權(quán)重系數(shù),其定義見(jiàn)下式:
在式(9)中,Var[ln(ORh)]的定義見(jiàn)下式:
當(dāng)?shù)趆層的表格中出現(xiàn)0頻數(shù)時(shí),在計(jì)算ORh和wh之前,需要給該層的所有格加上 0.5[1]。
2.1.3 高維表資料共同優(yōu)勢(shì)比的精確置信區(qū)間估計(jì)
假定所有各層2×2表的優(yōu)勢(shì)比是一個(gè)常數(shù)。精確置信限的構(gòu)造原理:在各層2×2表的邊際總數(shù)固定的條件下,基于S=∑hnh11的分布來(lái)構(gòu)造精確置信限。精確置信區(qū)間的精度:Agresti于1992年指出,由于擬解決的問(wèn)題是一個(gè)離散問(wèn)題,所以,所構(gòu)造的精確置信區(qū)間的“置信水平”不會(huì)恰好等于100(1-α)%,但至少是100(1-α)%。因此,所求得的置信限是保守的[1]。精確置信限算法的來(lái)源:SAS/STAT中的FREQ過(guò)程計(jì)算共同優(yōu)勢(shì)比的置信限是依據(jù)Vollset、Hirji和Elashoff于1991年提出的算法,還可參考Mehta、Patel和Gray于1985年發(fā)表的有關(guān)文獻(xiàn)[1]。
算法的詳細(xì)描述:在第h層2×2表的邊際總數(shù)固定的條件下,讓隨機(jī)變量Sh代表第h層2×2表中(1,1)網(wǎng)格內(nèi)的頻數(shù)。給定行合計(jì)nh1·、nh2·,列合計(jì)nh·1、nh·2,Sh的下限與上限是 lh、uh,則它們的計(jì)算公式分別見(jiàn)式(11)和式(12):
讓s0代表所有q張表第(1,1)格上頻數(shù)之和。通過(guò)迭代計(jì)算方法求解下列兩個(gè)方程中的共同優(yōu)勢(shì)比置信限的下限值與上限值,φ1與 φ2,見(jiàn)式(16)、式(17):
當(dāng)觀測(cè)結(jié)果的和s0等于下界l時(shí),SAS/STAT中的FREQ過(guò)程就將置信限的下限設(shè)置為0,并基于顯著性水平α來(lái)決定置信限的上限值;同理,當(dāng)觀測(cè)結(jié)果的和s0等于上界u時(shí),SAS/STAT中的FREQ過(guò)程就將置信限的上限設(shè)置為∞,并基于顯著性水平α來(lái)決定置信限的下限值。
2.1.4 高維表資料共同優(yōu)勢(shì)比是否等于1的精確檢驗(yàn)
在運(yùn)用SAS/STAT中的FREQ過(guò)程時(shí),若在exact語(yǔ)句中使用了選項(xiàng)“COMOR”,該過(guò)程可以計(jì)算精確檢驗(yàn)。設(shè)φ=1,在無(wú)效假設(shè)成立的條件下,S的條件分布變成如下形式:
在無(wú)效假設(shè)成立且滿足分層2×2表的邊際固定的條件下,這個(gè)精確檢驗(yàn)的點(diǎn)概率就是觀測(cè)和s0出現(xiàn)的概率,這個(gè)概率可以用P0(s0)表示。在無(wú)效假設(shè)成立的條件下,S的期望值由下式定義:
單側(cè)精確概率P值(記為P1)可從條件分布P0(S≥s0)或P0(S≤s0)計(jì)算得到,取決于觀測(cè)結(jié)果的和s0大于還是小于E0(S),分別見(jiàn)下式:
基于下面3種定義,可分別計(jì)算出雙側(cè)精確概率P值(記為P2)。
定義1:雙側(cè)概率為單側(cè)概率的2倍。若該值超過(guò)1,將其設(shè)置為1。見(jiàn)下式:
定義2:雙側(cè)概率為所有小于等于觀測(cè)結(jié)果的和s0的點(diǎn)概率的概率之和,求和范圍是s的所有可能取值,即l≤s≤u,公式如下:
定義3:雙側(cè)概率為單側(cè)P值與分布的對(duì)側(cè)尾端(與期望值等距)相對(duì)應(yīng)的面積之和,計(jì)算公式如下:
2.2.1 問(wèn)題與數(shù)據(jù)
【例1】文獻(xiàn)[2]提供了如下資料,試對(duì)5項(xiàng)研究的共同優(yōu)勢(shì)比進(jìn)行分析。見(jiàn)表2。
表2 吸煙與肝細(xì)胞癌關(guān)系的5項(xiàng)病例對(duì)照研究結(jié)果
【例2】文獻(xiàn)[2]提供了如下資料,試對(duì)6項(xiàng)研究的共同優(yōu)勢(shì)比進(jìn)行分析。見(jiàn)表3。
表3 鼻咽癌與EB病毒感染關(guān)系的6項(xiàng)病例對(duì)照研究結(jié)果
2.2.2 共同優(yōu)勢(shì)比分析的SAS實(shí)現(xiàn)
【例3】沿用例1中的“問(wèn)題與數(shù)據(jù)”,試對(duì)5項(xiàng)研究的共同優(yōu)勢(shì)比進(jìn)行分析。
【分析與解答】設(shè)所需要的SAS程序如下:
【程序說(shuō)明】“exact語(yǔ)句”中的選項(xiàng)“eqor”要求對(duì)各層優(yōu)勢(shì)比OR是否滿足齊性進(jìn)行Zelen's精確檢驗(yàn);選項(xiàng)“comor”要求對(duì)共同優(yōu)勢(shì)比進(jìn)行精確檢驗(yàn)。
【SAS輸出結(jié)果及解釋】
以上輸出的是“普通優(yōu)比和相對(duì)風(fēng)險(xiǎn)”的計(jì)算結(jié)果,其中,“普通優(yōu)比”也叫做“共同優(yōu)比”。實(shí)際上,就是基于“Mantel-Haenszel法”和“l(fā)ogit法”計(jì)算出來(lái)的校正“共同優(yōu)比”的估計(jì)值及其95%置信區(qū)間。在本例中,因95%置信區(qū)間不包含1,說(shuō)明共同優(yōu)比與1之間的差別具有統(tǒng)計(jì)學(xué)意義。
此處原本是各層2×2表優(yōu)比齊性檢驗(yàn)結(jié)果,結(jié)果顯示,此資料滿足齊性(這部分計(jì)算結(jié)果在本期“科研方法專題”的《如何正確運(yùn)用χ2檢驗(yàn)——高維表資料齊性檢驗(yàn)與SAS實(shí)現(xiàn)》中已經(jīng)呈現(xiàn)了,限于篇幅,此處從略)。關(guān)于共同優(yōu)比的估計(jì)和置信區(qū)間的計(jì)算,直接利用前面的“校正計(jì)算結(jié)果”即可。但在SAS/STAT的FREQ過(guò)程中,還可采取精確計(jì)算法,以獲得更加可靠的計(jì)算結(jié)果如下:
以上輸出的是共同優(yōu)比的點(diǎn)估計(jì)值及其精確置信區(qū)間,因95%置信區(qū)間不包含1,說(shuō)明共同優(yōu)比與1之間的差別具有統(tǒng)計(jì)學(xué)意義。
以上輸出的是關(guān)于共同優(yōu)比是否等于1的精確檢驗(yàn)結(jié)果。其中,“S=307”是高維表資料中各層2×2表中第(1,1)格上頻數(shù)之和;“SH0=345.0348”是 H0(即“共同優(yōu)比=1”)成立條件下推導(dǎo)出各層2×2表中第(1,1)格上頻數(shù)之和;點(diǎn)概率P(S=307)=0.0002,與其對(duì)應(yīng)的單側(cè)概率為0.0008;與其對(duì)應(yīng)的雙側(cè)概率P2有3個(gè),分別基于不同的定義而算得,即基于定義1,得=0.0016;基于定義2,得=0.0016;基于定義3,得=0.0014。
【結(jié)論】無(wú)論是基于單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn),所得P值都小于0.01,說(shuō)明應(yīng)拒絕H0(即“共同優(yōu)比=1”),接受H1(即“共同優(yōu)比≠1”)。因優(yōu)比的點(diǎn)估計(jì)值為0.7836(MH法),說(shuō)明吸煙組的優(yōu)勢(shì)(odd值)小于不吸煙組的優(yōu)勢(shì)(odd值);更明確的專業(yè)結(jié)論是:吸煙者患肝細(xì)胞癌的風(fēng)險(xiǎn)小于不吸煙者患肝細(xì)胞癌的風(fēng)險(xiǎn)(注意:這個(gè)結(jié)論與臨床專業(yè)知識(shí)不相符,具體原因可能是原始資料中存在過(guò)失誤差,有待進(jìn)一步核實(shí))。
【例4】沿用例2中的“問(wèn)題與數(shù)據(jù)”,試對(duì)6項(xiàng)研究的共同優(yōu)勢(shì)比進(jìn)行分析。
【分析與解答】設(shè)所需要的SAS程序如下:
【SAS輸出結(jié)果及解釋】
以上輸出的是“普通優(yōu)比和相對(duì)風(fēng)險(xiǎn)”的計(jì)算結(jié)果,其中,“普通優(yōu)比”也叫做“共同優(yōu)比”。實(shí)際上,就是基于“Mantel-Haenszel法”和“l(fā)ogit法”計(jì)算出來(lái)的校正“共同優(yōu)比”的估計(jì)值及其95%置信區(qū)間。在本例中,因95%置信區(qū)間不包含1,說(shuō)明共同優(yōu)比與1之間的差別具有統(tǒng)計(jì)學(xué)意義。
此處原本是各層2×2表資料優(yōu)比齊性檢驗(yàn)結(jié)果,結(jié)果顯示,此資料不滿足齊性(這部分計(jì)算結(jié)果在本期“科研方法專題”的《如何正確運(yùn)用χ2檢驗(yàn)——高維表資料齊性檢驗(yàn)與SAS實(shí)現(xiàn)》中已經(jīng)呈現(xiàn)了,限于篇幅,此處從略)。關(guān)于共同優(yōu)比的估計(jì)和置信區(qū)間的估計(jì),通常的做法是基于隨機(jī)效應(yīng)模型推導(dǎo)出的公式進(jìn)行計(jì)算。而在SAS/STAT的FREQ過(guò)程中,采取精確計(jì)算法,輸出結(jié)果如下:
以上輸出的是共同優(yōu)比的點(diǎn)估計(jì)值及其精確置信區(qū)間,因95%置信區(qū)間不包含1,說(shuō)明共同優(yōu)比與1之間的差別具有統(tǒng)計(jì)學(xué)意義。
以上輸出的是關(guān)于共同優(yōu)比是否等于1的精確檢驗(yàn)結(jié)果。其中,“S=242”是高維表資料中各層2×2表中第(1,1)格上頻數(shù)之和;“SH0=201.3895”是 H0(即“共同優(yōu)比=1”)成立條件下推導(dǎo)出各層2×2表中第(1,1)格上頻數(shù)之和;點(diǎn)概率P(S=242)<0.0001,與其對(duì)應(yīng)的單側(cè)概率<0.0001;與其對(duì)應(yīng)的雙側(cè)概率P2有3個(gè),分別基于不同的定義而算得,即基于定義1,得<0.0001;基于定義2,得<0.0001;基于定義3,得<0.0001。
【結(jié)論】無(wú)論是基于單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn),所得P值都小于0.0001,說(shuō)明應(yīng)拒絕H0(即“共同優(yōu)比=1”),接受H1(即“共同優(yōu)比≠1”)。因優(yōu)比的點(diǎn)估計(jì)值為3.2135(MH法),說(shuō)明EB陽(yáng)性組的優(yōu)勢(shì)(odd值)大于EB陰性組的優(yōu)勢(shì)(odd值);更明確的專業(yè)結(jié)論是:EB陽(yáng)性者患鼻咽癌的風(fēng)險(xiǎn)大于EB陰性者患鼻咽癌的風(fēng)險(xiǎn)。
欲基于g×2×2表資料求共同優(yōu)勢(shì)比,需要先檢驗(yàn)資料是否滿足齊性要求,即檢驗(yàn)各層2×2表資料所對(duì)應(yīng)的優(yōu)勢(shì)比是否相等。常規(guī)的做法[2-8]如下:若資料滿足齊性要求,可基于固定效應(yīng)模型推導(dǎo)出的公式估計(jì)優(yōu)勢(shì)比及其置信區(qū)間;若資料不滿足齊性要求,可基于隨機(jī)效應(yīng)模型推導(dǎo)出的公式估計(jì)優(yōu)勢(shì)比及其置信區(qū)間。然而,在SAS/STAT的FREQ過(guò)程中,若資料滿足齊性要求,可通過(guò)CMH χ2檢驗(yàn)方法給出校正的計(jì)算結(jié)果,包括“校正的共同優(yōu)勢(shì)比的點(diǎn)估計(jì)值”及其“校正的95%置信區(qū)間”;若資料不滿足齊性要求,可通過(guò)各層2×2表中(1,1)網(wǎng)格內(nèi)的頻數(shù)的條件分布來(lái)構(gòu)造計(jì)算公式,可求得“共同優(yōu)勢(shì)比的精確點(diǎn)估計(jì)值”“精確95%置信區(qū)間”以及“共同優(yōu)勢(shì)比是否等于1”的精確單側(cè)概率和精確雙側(cè)概率。
本文對(duì)g×2×2表資料進(jìn)行了優(yōu)勢(shì)比分析,其全部?jī)?nèi)容包括“各層2×2表資料齊性檢驗(yàn)”“共同優(yōu)勢(shì)比的點(diǎn)估計(jì)和置信區(qū)間估計(jì)”和“共同優(yōu)勢(shì)比是否等于1的假設(shè)檢驗(yàn)”。從計(jì)算的角度來(lái)看,內(nèi)容涉及“校正算法”和“精確算法”。通過(guò)兩個(gè)實(shí)例,演示了基于SAS軟件實(shí)現(xiàn)優(yōu)勢(shì)比分析的內(nèi)容,并對(duì)結(jié)果進(jìn)行了解釋,做出了統(tǒng)計(jì)和專業(yè)結(jié)論。