胡純嚴,胡良平,2*
(1. 軍事科學(xué)院研究生院,北京 100850;2. 世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
對高維表資料進行獨立性分析的基本思路是將高維表降為二維表,降維的重要舉措就是按一個因素的全部水平或多個因素的全部水平組合對資料進行分層,從而使每層中的資料都是一個二維表資料。一種特殊的高維表就是分層后的二維表為2×2 表(即含一個二值的原因變量和一個二值的結(jié)果變量),簡記為“g×2×2 表”。針對獨立性檢驗問題,本文將介紹CMHχ2檢驗[1-3]和加權(quán)χ2檢驗[3-5]兩種方法,并通過實例,介紹使用SAS 軟件[1]實現(xiàn)計算的具體方法。
高維表(g×2×2表)資料的表達模式見表1。
表1 高維表(g×2×2表)資料的第h層2×2表資料的表達模式
設(shè)高維表資料中有K個因素(或自變量),1 個定性的結(jié)果變量。除了采用回歸分析可以同時考察K個因素對定性結(jié)果變量的影響之外,差異性分析的思路是將K-1 個因素當(dāng)作分層變量,只研究剩余的一個因素對二值定性結(jié)果變量的影響,這被稱為將高維表降維后使其成為二維表。顯然,在分層變量(它可以是1個因素,也可以是多個因素的水平組合)的每個水平下,都有一張二維表。假定分層變量有g(shù)(g≥2)個水平,則有g(shù)張2×2 表(注:本文不考慮g張R×C表)。研究者關(guān)心的是各層2×2 表資料中“原因變量”與“結(jié)果變量”之間是否獨立(不獨立時,就意味著存在關(guān)聯(lián)),為了回答這個問題,需要進行高維表資料的獨立性檢驗。在文獻[1,3,6-7]中,實現(xiàn)此檢驗的方法叫做廣義CMHχ2檢驗;而在文獻[4-5]中叫做加權(quán)χ2檢驗。
2.1.1 隱含權(quán)重的加權(quán)χ2檢驗的具體算法
在g×2×2 表資料中,設(shè)含有g(shù)個水平的因素為重要非試驗因素,按其分層可得到g個2×2 表資料。于是,可按如下的公式將g個2×2 表資料整合成一個χ2檢驗統(tǒng)計量χ2W[3]:
式(3)表明,χ2W服從自由度為1的χ2分布。
【說明】在式(1)、式(2)、式(3)中,看不見反映各層2×2 表資料重要性的“權(quán)重Wh”,故稱式(3)為“隱含權(quán)重的加權(quán)χ2檢驗統(tǒng)計量”。
2.1.2 突顯權(quán)重的加權(quán)χ2檢驗的具體算法
文獻[4-5]提供了另一個突顯權(quán)重的加權(quán)χ2檢驗統(tǒng)計量,見式(4)、式(5)、式(6):
將式(5)~式(10)代入式(4),可得到式(11):
對式(11)進行變形,得到式(12):
對式(12)做進一步變形,可得到式(13):
比較式(3)與式(13)可知,它們是完全相同的。
【說明】“隱含權(quán)重的加權(quán)χ2檢驗統(tǒng)計量”實際上是在原本有“權(quán)重”的式(11)的基礎(chǔ)上,將g×2×2 表資料中“各層原始數(shù)據(jù)以及行合計和列合計”代入公式中的有關(guān)變量并進行變形后的“結(jié)果或形式”。在本質(zhì)上,只有一個“突顯權(quán)重的加權(quán)χ2檢驗統(tǒng)計量”。
文獻[1-2]介紹了廣義CMHχ2檢驗統(tǒng)計量及其三種變形。下面再介紹一種類似于加權(quán)χ2檢驗統(tǒng)計量的CMHχ2檢驗統(tǒng)計量[3],見式(14):
在式(14)中,nh11、mh11和vh11分別為第h層2×2 表資料中第(1,1)格上的“觀察頻數(shù)”“期望頻數(shù)或理論頻數(shù)”和“方差”,后兩項的計算分別見式(15)、式(16):
在上面兩式中,H0為該假設(shè)檢驗的無效假設(shè)或稱為零假設(shè),其具體表述如下。
H0:在各層2×2 表資料中,行、列兩變量間互相獨立。
將式(15)和式(16)代入式(14)中后再變形,得到式(17):
2.3.1 問題與數(shù)據(jù)
【例1】文獻[5]提供了如下資料,試分析新療法與舊療法的治愈率是否相等。見表2。
表2 新療法與舊療法對某疾病的效果
2.3.2 多項研究中兩關(guān)鍵變量之間獨立性檢驗的SAS實現(xiàn)
【例2】沿用例1 中的“問題與數(shù)據(jù)”,通常設(shè)“組別”為“分層因素”,研究者關(guān)心的是“治療方法”與“治療結(jié)果”之間是否存在關(guān)聯(lián)性。與其等價的表述或假設(shè)是:H0:“治療方法”與“治療結(jié)果”之間互相獨立;H1:“治療方法”與“治療結(jié)果”之間不獨立。試基于表2 資料,檢驗前面給出的“檢驗假設(shè)”。
【分析與解答】
解法一,采用加權(quán)χ2檢驗。設(shè)所需要的SAS 程序如下:
【SAS輸出結(jié)果及解釋】
W-chisq=2.153 W-p=0.1422916183
以上輸出的結(jié)果是:χ2W=2.153,P=0.142292。
【統(tǒng)計結(jié)論】由以上輸出結(jié)果可知:χ2W=2.153,P=0.142292>0.05,說明“治療方法”與“治療結(jié)果”之間的關(guān)聯(lián)性無統(tǒng)計學(xué)意義。
【專業(yè)結(jié)論】在消除年齡因素的影響之后,可以認為:新療法與舊療法對應(yīng)的治愈率相等(說明“治療方法”與“治療結(jié)果”之間互相獨立)。
解法二,采用CMHχ2檢驗。設(shè)所需要的SAS 程序如下:
【SAS輸出結(jié)果及解釋】
以上輸出的結(jié)果是:χ2CMH=2.1334,P=0.1441。
【統(tǒng)計結(jié)論】由以上輸出結(jié)果可知:χ2CMH=2.1334,P=0.1441>0.05,說明“治療方法”與“治療結(jié)果”之間的關(guān)聯(lián)性無統(tǒng)計學(xué)意義。
【專業(yè)結(jié)論】在消除年齡因素的影響之后,可以認為:新療法與舊療法的治愈率相等。
本文所介紹的統(tǒng)計分析方法主要適用于g×2×2表資料,而不適用于g×R×C表資料(R與C中至少有一個大于2);本法的優(yōu)點是適用面較寬,即不論分層后的2×2表資料來自何種設(shè)計類型,均可使用;檢驗假設(shè)可籠統(tǒng)表述為:在分層后的各2×2表資料中,H0:“原因變量”與“結(jié)果變量”之間互相獨立,H1:“原因變量”與“結(jié)果變量”之間不獨立;從公式推導(dǎo)的最終結(jié)果可知,對于前述的“檢驗假設(shè)”而言,加權(quán)χ2檢驗統(tǒng)計量的數(shù)值與CMHχ2檢驗統(tǒng)計量的數(shù)值接近相等。
本文針對g×2×2 表資料獨立性檢驗問題,呈現(xiàn)了兩種不同形式的加權(quán)χ2檢驗公式和CMHχ2檢驗公式,通過公式推導(dǎo)和變形,揭示出兩種不同形式的加權(quán)χ2檢驗公式是完全相同的;同時,還揭示出加權(quán)χ2檢驗統(tǒng)計量與CMHχ2檢驗統(tǒng)計量在數(shù)值上是接近相等的。通過一個實例,展示了基于SAS 軟件實現(xiàn)加權(quán)χ2檢驗和CMHχ2檢驗的全過程,并對SAS輸出結(jié)果進行解釋,做出統(tǒng)計結(jié)論和專業(yè)結(jié)論。