胡純嚴 ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在醫(yī)學(xué)資料中,結(jié)果變量為定性變量的情形很常見。最常見的有如下3種情形:①結(jié)果變量為二值變量,例如“死亡與存活”“治愈與未治愈”和“復(fù)發(fā)與未復(fù)發(fā)”;②結(jié)果變量為多值有序變量,例如“治愈、顯效、好轉(zhuǎn)、無效、死亡”和“優(yōu)、良、中、差”;③結(jié)果變量為多值名義變量,例如某種基因的類型為“AA、AB、BB”,某種疾病的類型為“慢性、亞急性、急性”。當(dāng)僅考察一個原因變量時,收集到的資料常被整理成二維列聯(lián)表(簡稱為二維表)形式[1-2];當(dāng)考察的原因變量的個數(shù)≥2時,收集到的資料常被整理成高維列聯(lián)表(簡稱為高維表)形式(參見本文中的表1~表4)。分析高維表資料的統(tǒng)計方法主要有兩大類,第一類為廣義差異性分析,第二類為回歸分析。本文將概括介紹高維表資料的種類和有關(guān)實例及其相應(yīng)的統(tǒng)計分析方法。
【例1】文獻[3]呈現(xiàn)了如下資料,為研究阿司匹林對心血管事件發(fā)生的預(yù)防作用,研究者收集了滿足要求的7項臨床隨機對照試驗資料,見表1。
表1 阿司匹林預(yù)防心肌梗死后死亡的7項隨機對照試驗研究結(jié)果
【例2】假設(shè)某研究者為了研究“甲、乙兩種治療方法對不同病程和不同病情的某病患者的治療效果”,收集到如下資料,見表2。
表2 甲、乙兩種治療方法對不同病程和不同病情的患者治療效果
【例3】假設(shè)某研究者為了研究“細胞分化程度和細胞染色與惡性腫瘤組織類型之間的關(guān)系”,收集到如下資料,見表3。
表3 細胞分化程度和細胞染色與惡性腫瘤組織類型之間的關(guān)系
【例4】某研究探討乙型肝炎病毒(HBV)感染對健康的影響,在原發(fā)性肝癌高發(fā)區(qū)江蘇省海門市進行前瞻性隊列研究,對研究對象進行流行病學(xué)調(diào)查,調(diào)查結(jié)果見表4。
表4 1993年-2003年調(diào)查人群的死亡情況
【說明】之所以說表4資料具有特殊性,是因為表中各行上除了提供“病例數(shù)”之外,還提供了“人年數(shù)(即各組中全部受試者所經(jīng)歷的年數(shù)之合計值)”,而不是“陰性例數(shù)”,也不是“總例數(shù)”。分析表4資料,需要對“人年數(shù)”進行特殊處理,因篇幅所限,本文不予贅述,可參閱文獻[4]。
高維表資料的統(tǒng)計分析方法主要有兩大類,第一類為廣義差異性分析,內(nèi)容包括“加權(quán)χ2檢驗”“CMHχ2檢驗”和“Meta分析”;第二類為回歸分析,內(nèi)容包括“對數(shù)線性回歸模型分析”“Logistic回歸模型分析”“Probit回歸模型分析”和“離散選擇模型分析”。這兩類分析方法的區(qū)別在于:第一類方法是將多因素降維成單因素問題,屬于“基于分層后單個檢驗統(tǒng)計量的構(gòu)造及實現(xiàn)”,其結(jié)果比較單一;而第二類方法是直接構(gòu)建定性因變量依賴多因素及其交互作用項變化的回歸模型,并采用多種復(fù)雜的統(tǒng)計分析方法估計和檢驗?zāi)P椭械膮?shù),其結(jié)果比較豐富,而且可以更加全面地挖掘資料所蘊含的信息。
2.2.1 加權(quán)χ2檢驗
在分析二維表資料時,為了檢驗表中兩屬性變量之間是否獨立,可采用Pearson'sχ2檢驗、校正的Pearson'sχ2檢驗和似然比χ2檢驗。然而,在分析高維表資料時,以上方法均不能直接使用,需要按一個定性變量的各水平或多個定性變量的水平組合進行分層,當(dāng)各層都是“2×2表資料”時,就可按特定的公式求出各層的權(quán)重系數(shù),并進行“加權(quán)合并計算”,這就是“加權(quán)χ2檢驗[5]”。
2.2.2 CMHχ2檢驗
在分析二維表資料時,CMHχ2檢驗實際上包含了三種檢驗,即“兩屬性變量之間的獨立性檢驗(H1:一般關(guān)聯(lián))”“兩有序變量之間的相關(guān)性檢驗(H1:非零相關(guān))”和“定性原因變量各水平下定性結(jié)果變量的平均秩之間的差異性大小的秩和檢驗(H1:行評分均值差異)”;而在分析高維表資料時,首先要對資料進行分層,再進行“合并計算”。CMHχ2檢驗的結(jié)果與前面提及的三種檢驗結(jié)果類似,具體地說,若分層后,各層都是“2×2表資料”時,三種檢驗結(jié)果是完全相同的;若分層后,各層都不是“2×2表資料”時,三種檢驗結(jié)果中,“H1:非零相關(guān)”與“H1:行評分均值差異”的檢驗結(jié)果相同,而“H1:一般關(guān)聯(lián)”的檢驗結(jié)果與前兩種的檢驗結(jié)果是不同的[6]。
2.2.3 Meta分析
對三維表資料進行Meta分析的任務(wù)有以下4項:①弄清定性資料來自隊列研究設(shè)計還是病例對照研究設(shè)計。②選定擬分析的效應(yīng)指標(biāo),例如,隊列研究設(shè)計時,其效應(yīng)指標(biāo)有“相對危險度(RR)”或“危險率差(RD)”;病例對照研究設(shè)計時,其效應(yīng)指標(biāo)有“優(yōu)勢比(OR)”。③檢驗各層(即各研究項目)的“2×2表資料”之間是否滿足齊性。具體地說,對于隊列研究設(shè)計資料而言,就是檢驗各層“相對危險度(RR)”之間是否相等或各層“危險率差(RD)”之間是否相等;而對于病例對照研究設(shè)計資料而言,就是檢驗各層“優(yōu)勢比(OR)”之間是否相等。④計算“合并后資料”的“效應(yīng)指標(biāo)(RR或RD或OR)”的估計值及其置信區(qū)間。在進行前述兩步計算時,都必須依據(jù)“齊性檢驗”結(jié)果來選擇具體方法。
傳統(tǒng)算法體系的解決方案:在常規(guī)的統(tǒng)計學(xué)教科書[3,7-8]和用于 Meta分析的統(tǒng)計軟件(例如 Review Manager軟件[9])中,都采取如下策略:第一步,針對不同的“效應(yīng)指標(biāo)[(RR或lnRR)或RD或(OR或lnOR)]”構(gòu)造不同的檢驗統(tǒng)計量Q,檢驗各層2×2表資料是否滿足齊性要求;第二步,若“分層2×2表資料”滿足齊性要求,則采取基于“固定效應(yīng)模型”導(dǎo)出的公式進行特定效應(yīng)指標(biāo)估計和置信區(qū)間估計,若“分層2×2表資料”不滿足齊性,則采取基于“隨機效應(yīng)模型”導(dǎo)出的公式進行特定效應(yīng)指標(biāo)估計和置信區(qū)間估計。
SAS算法體系的解決方案:在SAS/STAT的FREQ過程中[6],只出現(xiàn)了關(guān)于“各層優(yōu)勢比(OR)”齊性檢驗的方法,沒有給出關(guān)于“相對危險度(RR或lnRR)”或“危險率差(RD)”齊性檢驗的方法。優(yōu)勢比齊性檢驗的具體方法有以下四種[6]:“Breslow-Day檢驗”“Q檢驗”“計算I2度量統(tǒng)計量及其95%置信區(qū)間”和“Zelen’s精確檢驗”。在SAS/STAT的FREQ過程中[6],沒有明確提及“固定效應(yīng)模型”與“隨機效應(yīng)模型”的概念,只要在“tables語句”中增加了選項“CMH”,于是,在SAS輸出結(jié)果中,就會輸出“普通優(yōu)比和相對風(fēng)險”(或稱為“共同優(yōu)比和相對風(fēng)險”)的計算結(jié)果,具體內(nèi)容如下所示:
在上面輸出的結(jié)果中,第1列為“統(tǒng)計量”,有“優(yōu)比”和“相對風(fēng)險”兩種,相對風(fēng)險又分為兩種計算結(jié)果,分別基于“分層2×2表”的“第1列”和“第2列”計算所得。若研究者將自己所關(guān)心的結(jié)局(例如:死亡)放置在表中第1列上,就看“相對風(fēng)險(第1列)”所在的行;否則,就看“相對風(fēng)險(第2列)”所在的行。無論是哪一種統(tǒng)計量的估計值和置信區(qū)間,SAS都基于兩種方法(即“校正的Mantel-Haenszel法”與“校正的logit法”)進行計算并輸出相應(yīng)的結(jié)果。通過比較發(fā)現(xiàn),它們可以被視為基于“固定效應(yīng)模型”計算的“估計值及95%置信區(qū)間”。
下面輸出結(jié)果中的“精確置信限”可以被視為基于“隨機效應(yīng)模型”計算的“共同優(yōu)比估計值及95%置信區(qū)間”。
值得一提的是,在SAS/STAT的FREQ過程中,尚未給出與“共同相對危險度(即按分層因素進行合并計算的相對危險度)”對應(yīng)的精確檢驗方法,也就是說,當(dāng)對隊列研究設(shè)計高維表資料進行Meta分析時,若“分層2×2表”資料不滿足齊性要求時,需要基于隨機效應(yīng)模型導(dǎo)出的公式并借助SAS語言編程實現(xiàn)完整的計算[10]。
在使用SAS/STAT的FREQ過程中,只要在“tables語句”中增加了選項“commonriskdiff(test=mh cl=(k mh mr score newcombe newcombemr))”,于是,SAS輸出結(jié)果就會呈現(xiàn)基于6種算法得到的“共同危險率差(RD)”的估計值及95%置信區(qū)間:
在上面的輸出結(jié)果中,第1列是6種計算方法的名稱,第2列為普通風(fēng)險率差(RD)的估計值,最后2列為其95%置信區(qū)間的下限值與上限值。其中,最后一行上的“匯總評分法”也叫做“General variance-based 法”[7]。在這 6 種方法中,哪些是與“固定效應(yīng)模型”對應(yīng)的方法、哪些是與“隨機效應(yīng)模型”對應(yīng)的方法,有待深入研究。
2.3.1 對數(shù)線性回歸模型
對數(shù)線性回歸模型不僅可以解決χ2檢驗所能解決的變量間是否存在關(guān)聯(lián)的問題,還可以解決χ2檢驗難以分析的多個變量間交互效應(yīng)的問題。其分析過程是:先構(gòu)建列聯(lián)表中各網(wǎng)格中頻數(shù)的對數(shù)(設(shè)為因變量)與多個分類變量(視為自變量)間關(guān)系的模型,然后用一定的統(tǒng)計方法(常用加權(quán)最小二乘方法和最大似然方法估計模型中的參數(shù),并使用迭代法進行計算,如Newton-Raphson迭代法)以實際頻數(shù)擬合模型、估計模型中的參數(shù),并進行參數(shù)的假設(shè)檢驗。
2.3.2 Logistic回歸模型
依據(jù)定性結(jié)果變量的不同類型,Logistic回歸模型有3種,即二值結(jié)果變量的一般多重Logistic回歸模型(包括配對設(shè)計資料和非配對設(shè)計資料兩種情形)、多值有序結(jié)果變量的累計多重Logistic回歸模型和多值名義結(jié)果變量的擴展(或稱為多項)多重Logistic回歸模型。在前述的幾種情形下,依據(jù)資料的實際情況,還可以將它們分別擴展成為“帶隨機效應(yīng)的多重 Logistic回歸模型”[6]和/或“多水平多重Logistic回歸模型”[11]。
2.3.3 Probit回歸模型
Logistic回歸模型與Probit回歸模型都是用于分析定性(二值或多值的)響應(yīng)變量與自變量之間的關(guān)系。它們之間最大區(qū)別在于:Probit回歸分析中響應(yīng)變量不再是二值變量,而是介于0~1之間的百分比變量。Probit回歸分析中采用的關(guān)聯(lián)函數(shù)為Probit函數(shù),響應(yīng)變量取值為1的概率如式(1)所示:
這個函數(shù)實際上就是標(biāo)準(zhǔn)正態(tài)分布曲線下分位數(shù)函數(shù)u=PROBIT(P)的反函數(shù)。式(1)中的β0+β1x就相當(dāng)于這里的u。在醫(yī)學(xué)研究中,此回歸模型常用于估計藥物或毒物的半數(shù)致死量[6]。
2.3.4 離散選擇模型
統(tǒng)計學(xué)家在“效用最大化”的假設(shè)之下推導(dǎo)出離散選擇模型。依據(jù)結(jié)果變量的表現(xiàn)形式,離散選擇模型可分為以下兩類。
第一類,當(dāng)結(jié)果變量為有序變量(也被稱為“偏好評分值”)時,此時的離散選擇模型就是“結(jié)合分析中的回歸模型”[10],見式(2):
在式(2)中,Y表示某種屬性組合下被評對象的總效用,即輪廓的總效用。a為截距,v為屬性變量各水平的分值效用,x為取值為0或1的啞變量,當(dāng)它代表的屬性水平出現(xiàn),則x=1,否則x=0。
若模型中屬性水平的分值效用的差值(最大效用與最小效用之差)越大,則該屬性的相對重要性越高。一般用百分比的形式來描述各屬性的重要性,見式(3):
在式(3)中,m表示屬性個數(shù),Wj表示第j個屬性的相對重要性,max(vj)和min(vj)分別表示第j個屬性各水平中最大和最小的分值效用。
第二類,當(dāng)結(jié)果變量為多選一(即從多項被選項目中選擇一項,選中的項標(biāo)記為1,其他未被選中的項一律標(biāo)記為0)時,此時的離散選擇模型(可進一步劃分為“Logit模型”“Nested logit模型”和“Probit模型”)比較復(fù)雜[6],限于篇幅,不予贅述。
以上兩類模型的適用場合如下:一類物品是否被顧客所青睞,取決于其自身多個屬性變量的水平組合以及顧客自身的條件和偏好。例如,假設(shè)考慮小轎車的三個屬性:車身(分為長、短)、耗油量(分為多、少)、價格(分為高、低),總共有2×2×2=8種型號的小轎車可供顧客選擇。讓某位顧客來挑選時,他或她有兩種表達意愿的方式:其一,依次給這8種型號的小轎車打一個“分值(1~8分)”,分值越大,代表顧客越喜歡。此時,可選擇前述提及的第一類離散選擇模型;其二,僅從這8種型號的小轎車中選擇一種,但參與選擇的顧客人數(shù)至少應(yīng)大于8,此時,可選擇前述提及的第二類離散選擇模型。
處理高維表資料時,人們常會犯以下兩種錯誤。
其一,將高維表資料簡單地壓縮成二維表資料,并直接對其進行統(tǒng)計分析,這樣做很容易得出錯誤的結(jié)論。例如,采用CMH χ2檢驗分析一個關(guān)于“A、B兩個診所護理量多和護理量少所對應(yīng)的嬰兒死亡率的資料[12]”,所得結(jié)果如下:共同相對危險度為RR=1.1078,其95%置信區(qū)間為[0.3996,3.0707](Mantel-Haenszel法)、[0.3980,3.0662](logit法)。因置信區(qū)間包含1,說明護理量少與護理量多的嬰兒死亡率接近相等;若對該資料中的A、B兩個診所進行簡單合并,得到的四格表資料如下:
用CMH χ2檢驗分析上述簡單合并后的四格表資料,得到的結(jié)果如下:
相對危險度為RR=2.7311,其95%置信區(qū)間為[1.1100,6.7198](Mantel-Haenszel法)、[1.1100,6.7198](logit法)。因置信區(qū)間不包含1,說明護理量少與護理量多的嬰兒死亡率之間的差別具有統(tǒng)計學(xué)意義,前者的死亡率為5.35%、后者的死亡率為1.90%。顯然,兩個死亡率之間的差距被人為地夸大了。究其原因,不難發(fā)現(xiàn):診所A與診所B的四格表資料之間不滿足齊性,而且診所B中“護理量多”的人數(shù)(25人)比診所A中“護理量多”的人數(shù)(297人)少了很多。以致于簡單合并后的資料中,原本死亡率高(8.00%)的診所B中“護理量多”的那一行數(shù)據(jù)在合計中的“貢獻或權(quán)重”很小,從而導(dǎo)致“護理量多”的合計欄中嬰兒死亡率“下降”(這可能是一種假象)了很多。
其二,采用回歸模型(對數(shù)線性模型除外)分析高維表資料時,人們常忽略因素之間的交互作用項。在使用Logistic回歸模型和Probit回歸模型時,使用者很少會把因素之間的交互作用項納入回歸模型中,因為統(tǒng)計學(xué)教科書中幾乎都忽視了這一點。事實上,在有些實際問題中,因素之間的交互作用是不可忽視的,不將其納于回歸模型,可能會降低回歸模型對資料的擬合效果。有時,可能會得出不符合實際的結(jié)論。
本文以高維表形式呈現(xiàn)了三種常見的和一種特殊的多因素定性資料及實例,即“二值結(jié)果變量的高維表資料及其實例”“多值有序結(jié)果變量的高維表資料及其實例”“多值名義結(jié)果變量的高維表資料及其實例”和“人-時間數(shù)據(jù)及實例”;概括介紹了分析高維表資料的兩類統(tǒng)計分析方法,即“廣義差異性分析簡介”和“回歸分析簡介”;最后,還討論了處理高維表資料時常犯的兩類錯誤,即“將高維表資料簡單地壓縮成二維表資料”和“基于回歸模型分析時常忽略因素之間的交互作用項”。