如何正確運(yùn)用χ2檢驗(yàn)——高維表資料優(yōu)勢(shì)比分析與SAS實(shí)現(xiàn)

2021-07-20 07:00:48胡純嚴(yán)胡良平

四川精神衛(wèi)生 2021年3期

胡純嚴(yán) ，胡良平，2*

（1.軍事科學(xué)院研究生院，北京 100850；2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì)，北京 100029*通信作者：胡良平，E-mail：lphu927@163.com）

為了分析來(lái)自病例對(duì)照研究設(shè)計(jì)的g×2×2表資料，需要完成以下4項(xiàng)任務(wù)：其一，檢驗(yàn)各層2×2表資料的優(yōu)勢(shì)比是否滿足齊性；其二，估計(jì)共同優(yōu)勢(shì)比的數(shù)值；其三，估計(jì)共同優(yōu)勢(shì)比的置信區(qū)間；其四，檢驗(yàn)共同優(yōu)勢(shì)比是否等于1。本文將對(duì)后三項(xiàng)任務(wù)有關(guān)內(nèi)容進(jìn)行介紹。

1 高維表資料共同優(yōu)勢(shì)比分析的基本概念

1.1 高維表g×2×2表的表達(dá)模式

設(shè)高維表g×2×2表的表達(dá)模式如下，見(jiàn)表1。

表1 病例對(duì)照研究設(shè)計(jì)下g×2×2表的第h層2×2表資料的表達(dá)模式

1.2 高維表資料共同優(yōu)勢(shì)比的含義

在分析“病例對(duì)照研究設(shè)計(jì)”的二維表資料時(shí)，可以很方便地依據(jù)公式“OR=ad/bc”計(jì)算出優(yōu)勢(shì)比OR的數(shù)值。然而，對(duì)于“g×2×2表資料”，卻無(wú)法直接計(jì)算出OR的數(shù)值。從概念上來(lái)說(shuō)，似乎可以采取某種舉措，將“g×2×2表資料”降維或壓縮成一個(gè)“2×2表資料”。但事實(shí)上，這種理想的“2×2表資料”是無(wú)法直接呈現(xiàn)出來(lái)的。于是，統(tǒng)計(jì)學(xué)家通過(guò)統(tǒng)計(jì)學(xué)方法來(lái)體現(xiàn)出各層“2×2表資料”之間的“微小差別”，這就是求出各層“2×2表資料”的“權(quán)重系數(shù)wh”。通過(guò)它將各層“2×2表資料”進(jìn)行加權(quán)平均，從而間接獲得合并后的優(yōu)勢(shì)比OR的數(shù)值。在SAS/STAT的FREQ過(guò)程中，將其稱為“common odds ratios”［1］，常譯成“共同或普通或合并優(yōu)勢(shì)比”。

1.3 估計(jì)共同優(yōu)勢(shì)比的前提條件

基于“g×2×2表資料”計(jì)算共同優(yōu)勢(shì)比的前提條件是高維表資料應(yīng)滿足齊性，針對(duì)“優(yōu)勢(shì)比”，檢驗(yàn)高維表資料是否滿足齊性的檢驗(yàn)方法有5種，分別是“Breslow-Day檢驗(yàn)”“Breslow-Day-Tarone檢驗(yàn)”“Q檢驗(yàn)”“I2度量統(tǒng)計(jì)量及其不確定性限值”和“Zelen's精確檢驗(yàn)”。

1.4 估計(jì)共同優(yōu)勢(shì)比及其置信區(qū)間的方法概述

SAS/STAT中的FREQ過(guò)程［1］采用3種方法估計(jì)共同優(yōu)勢(shì)比及置信區(qū)間，分別是：①校正的計(jì)算方法，Mantel-Haenszel估計(jì)法；②校正的計(jì)算方法，logit估計(jì)法；③基于條件分布的精確法。

2 高維表資料優(yōu)勢(shì)比分析及SAS實(shí)現(xiàn)

2.1 高維表資料優(yōu)勢(shì)比分析的具體算法

2.1.1 高維表資料優(yōu)勢(shì)比分析的具體內(nèi)容

高維表資料優(yōu)勢(shì)比分析的具體內(nèi)容包括以下4項(xiàng)［1］：其一，檢驗(yàn)資料是否滿足齊性要求；其二，估計(jì)共同優(yōu)勢(shì)比；其三，估計(jì)共同優(yōu)勢(shì)比的置信區(qū)間；其四，檢驗(yàn)共同優(yōu)勢(shì)比是否等于1。

2.1.2 高維表資料共同優(yōu)勢(shì)比的點(diǎn)估計(jì)及置信區(qū)間估計(jì)

2.1.2.1 Mantel-Haenszel估計(jì)量

基于Mantel-Haenszel估計(jì)量（簡(jiǎn)稱MH估計(jì)量）估計(jì)高維表資料共同優(yōu)勢(shì)比，見(jiàn)式（1）：

注意：當(dāng)nh較小時(shí)，MH估計(jì)量不如logit估計(jì)量敏感。

2.1.2.2 Logit估計(jì)量

Woolf于1955年提出了logit估計(jì)量［1］，見(jiàn)下式：

式（7）中，ORh是第h層的優(yōu)勢(shì)比，其100（1-α）%置信區(qū)間見(jiàn)下式：

在式（7）和式（8）中，wh是第h層的權(quán)重系數(shù)，其定義見(jiàn)下式：

在式（9）中，Var［ln（ORh）］的定義見(jiàn)下式：

當(dāng)?shù)趆層的表格中出現(xiàn)0頻數(shù)時(shí)，在計(jì)算ORh和wh之前，需要給該層的所有格加上 0.5［1］。

2.1.3 高維表資料共同優(yōu)勢(shì)比的精確置信區(qū)間估計(jì)

假定所有各層2×2表的優(yōu)勢(shì)比是一個(gè)常數(shù)。精確置信限的構(gòu)造原理：在各層2×2表的邊際總數(shù)固定的條件下，基于S=∑hnh11的分布來(lái)構(gòu)造精確置信限。精確置信區(qū)間的精度：Agresti于1992年指出，由于擬解決的問(wèn)題是一個(gè)離散問(wèn)題，所以，所構(gòu)造的精確置信區(qū)間的“置信水平”不會(huì)恰好等于100（1-α）%，但至少是100（1-α）%。因此，所求得的置信限是保守的［1］。精確置信限算法的來(lái)源：SAS/STAT中的FREQ過(guò)程計(jì)算共同優(yōu)勢(shì)比的置信限是依據(jù)Vollset、Hirji和Elashoff于1991年提出的算法，還可參考Mehta、Patel和Gray于1985年發(fā)表的有關(guān)文獻(xiàn)［1］。

算法的詳細(xì)描述：在第h層2×2表的邊際總數(shù)固定的條件下，讓隨機(jī)變量Sh代表第h層2×2表中（1，1）網(wǎng)格內(nèi)的頻數(shù)。給定行合計(jì)nh1·、nh2·，列合計(jì)nh·1、nh·2，Sh的下限與上限是 lh、uh，則它們的計(jì)算公式分別見(jiàn)式（11）和式（12）：

讓s0代表所有q張表第（1，1）格上頻數(shù)之和。通過(guò)迭代計(jì)算方法求解下列兩個(gè)方程中的共同優(yōu)勢(shì)比置信限的下限值與上限值，φ1與 φ2，見(jiàn)式（16）、式（17）：

當(dāng)觀測(cè)結(jié)果的和s0等于下界l時(shí)，SAS/STAT中的FREQ過(guò)程就將置信限的下限設(shè)置為0，并基于顯著性水平α來(lái)決定置信限的上限值；同理，當(dāng)觀測(cè)結(jié)果的和s0等于上界u時(shí)，SAS/STAT中的FREQ過(guò)程就將置信限的上限設(shè)置為∞，并基于顯著性水平α來(lái)決定置信限的下限值。

2.1.4 高維表資料共同優(yōu)勢(shì)比是否等于1的精確檢驗(yàn)

在運(yùn)用SAS/STAT中的FREQ過(guò)程時(shí)，若在exact語(yǔ)句中使用了選項(xiàng)“COMOR”，該過(guò)程可以計(jì)算精確檢驗(yàn)。設(shè)φ=1，在無(wú)效假設(shè)成立的條件下，S的條件分布變成如下形式：

在無(wú)效假設(shè)成立且滿足分層2×2表的邊際固定的條件下，這個(gè)精確檢驗(yàn)的點(diǎn)概率就是觀測(cè)和s0出現(xiàn)的概率，這個(gè)概率可以用P0（s0）表示。在無(wú)效假設(shè)成立的條件下，S的期望值由下式定義：

單側(cè)精確概率P值（記為P1）可從條件分布P0（S≥s0）或P0（S≤s0）計(jì)算得到，取決于觀測(cè)結(jié)果的和s0大于還是小于E0（S），分別見(jiàn)下式：

基于下面3種定義，可分別計(jì)算出雙側(cè)精確概率P值（記為P2）。

定義1：雙側(cè)概率為單側(cè)概率的2倍。若該值超過(guò)1，將其設(shè)置為1。見(jiàn)下式：

定義2：雙側(cè)概率為所有小于等于觀測(cè)結(jié)果的和s0的點(diǎn)概率的概率之和，求和范圍是s的所有可能取值，即l≤s≤u，公式如下：

定義3：雙側(cè)概率為單側(cè)P值與分布的對(duì)側(cè)尾端（與期望值等距）相對(duì)應(yīng)的面積之和，計(jì)算公式如下：

2.2 高維表資料優(yōu)勢(shì)比分析的SAS實(shí)現(xiàn)

2.2.1 問(wèn)題與數(shù)據(jù)

【例1】文獻(xiàn)［2］提供了如下資料，試對(duì)5項(xiàng)研究的共同優(yōu)勢(shì)比進(jìn)行分析。見(jiàn)表2。

表2 吸煙與肝細(xì)胞癌關(guān)系的5項(xiàng)病例對(duì)照研究結(jié)果

【例2】文獻(xiàn)［2］提供了如下資料，試對(duì)6項(xiàng)研究的共同優(yōu)勢(shì)比進(jìn)行分析。見(jiàn)表3。

表3 鼻咽癌與EB病毒感染關(guān)系的6項(xiàng)病例對(duì)照研究結(jié)果

2.2.2 共同優(yōu)勢(shì)比分析的SAS實(shí)現(xiàn)

【例3】沿用例1中的“問(wèn)題與數(shù)據(jù)”，試對(duì)5項(xiàng)研究的共同優(yōu)勢(shì)比進(jìn)行分析。

【分析與解答】設(shè)所需要的SAS程序如下：

【程序說(shuō)明】“exact語(yǔ)句”中的選項(xiàng)“eqor”要求對(duì)各層優(yōu)勢(shì)比OR是否滿足齊性進(jìn)行Zelen's精確檢驗(yàn)；選項(xiàng)“comor”要求對(duì)共同優(yōu)勢(shì)比進(jìn)行精確檢驗(yàn)。

【SAS輸出結(jié)果及解釋】

以上輸出的是“普通優(yōu)比和相對(duì)風(fēng)險(xiǎn)”的計(jì)算結(jié)果，其中，“普通優(yōu)比”也叫做“共同優(yōu)比”。實(shí)際上，就是基于“Mantel-Haenszel法”和“l(fā)ogit法”計(jì)算出來(lái)的校正“共同優(yōu)比”的估計(jì)值及其95%置信區(qū)間。在本例中，因95%置信區(qū)間不包含1，說(shuō)明共同優(yōu)比與1之間的差別具有統(tǒng)計(jì)學(xué)意義。

此處原本是各層2×2表優(yōu)比齊性檢驗(yàn)結(jié)果，結(jié)果顯示，此資料滿足齊性（這部分計(jì)算結(jié)果在本期“科研方法專題”的《如何正確運(yùn)用χ2檢驗(yàn)——高維表資料齊性檢驗(yàn)與SAS實(shí)現(xiàn)》中已經(jīng)呈現(xiàn)了，限于篇幅，此處從略）。關(guān)于共同優(yōu)比的估計(jì)和置信區(qū)間的計(jì)算，直接利用前面的“校正計(jì)算結(jié)果”即可。但在SAS/STAT的FREQ過(guò)程中，還可采取精確計(jì)算法，以獲得更加可靠的計(jì)算結(jié)果如下：

以上輸出的是共同優(yōu)比的點(diǎn)估計(jì)值及其精確置信區(qū)間，因95%置信區(qū)間不包含1，說(shuō)明共同優(yōu)比與1之間的差別具有統(tǒng)計(jì)學(xué)意義。

以上輸出的是關(guān)于共同優(yōu)比是否等于1的精確檢驗(yàn)結(jié)果。其中，“S=307”是高維表資料中各層2×2表中第（1，1）格上頻數(shù)之和；“SH0=345.0348”是 H0（即“共同優(yōu)比=1”）成立條件下推導(dǎo)出各層2×2表中第（1，1）格上頻數(shù)之和；點(diǎn)概率P（S=307）=0.0002，與其對(duì)應(yīng)的單側(cè)概率為0.0008；與其對(duì)應(yīng)的雙側(cè)概率P2有3個(gè)，分別基于不同的定義而算得，即基于定義1，得=0.0016；基于定義2，得=0.0016；基于定義3，得=0.0014。

【結(jié)論】無(wú)論是基于單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn)，所得P值都小于0.01，說(shuō)明應(yīng)拒絕H0（即“共同優(yōu)比=1”），接受H1（即“共同優(yōu)比≠1”）。因優(yōu)比的點(diǎn)估計(jì)值為0.7836（MH法），說(shuō)明吸煙組的優(yōu)勢(shì)（odd值）小于不吸煙組的優(yōu)勢(shì)（odd值）；更明確的專業(yè)結(jié)論是：吸煙者患肝細(xì)胞癌的風(fēng)險(xiǎn)小于不吸煙者患肝細(xì)胞癌的風(fēng)險(xiǎn)（注意：這個(gè)結(jié)論與臨床專業(yè)知識(shí)不相符，具體原因可能是原始資料中存在過(guò)失誤差，有待進(jìn)一步核實(shí)）。

【例4】沿用例2中的“問(wèn)題與數(shù)據(jù)”，試對(duì)6項(xiàng)研究的共同優(yōu)勢(shì)比進(jìn)行分析。

【分析與解答】設(shè)所需要的SAS程序如下：

【SAS輸出結(jié)果及解釋】

此處原本是各層2×2表資料優(yōu)比齊性檢驗(yàn)結(jié)果，結(jié)果顯示，此資料不滿足齊性（這部分計(jì)算結(jié)果在本期“科研方法專題”的《如何正確運(yùn)用χ2檢驗(yàn)——高維表資料齊性檢驗(yàn)與SAS實(shí)現(xiàn)》中已經(jīng)呈現(xiàn)了，限于篇幅，此處從略）。關(guān)于共同優(yōu)比的估計(jì)和置信區(qū)間的估計(jì)，通常的做法是基于隨機(jī)效應(yīng)模型推導(dǎo)出的公式進(jìn)行計(jì)算。而在SAS/STAT的FREQ過(guò)程中，采取精確計(jì)算法，輸出結(jié)果如下：

以上輸出的是關(guān)于共同優(yōu)比是否等于1的精確檢驗(yàn)結(jié)果。其中，“S=242”是高維表資料中各層2×2表中第（1，1）格上頻數(shù)之和；“SH0=201.3895”是 H0（即“共同優(yōu)比=1”）成立條件下推導(dǎo)出各層2×2表中第（1，1）格上頻數(shù)之和；點(diǎn)概率P（S=242）＜0.0001，與其對(duì)應(yīng)的單側(cè)概率＜0.0001；與其對(duì)應(yīng)的雙側(cè)概率P2有3個(gè)，分別基于不同的定義而算得，即基于定義1，得＜0.0001；基于定義2，得＜0.0001；基于定義3，得＜0.0001。

【結(jié)論】無(wú)論是基于單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn)，所得P值都小于0.0001，說(shuō)明應(yīng)拒絕H0（即“共同優(yōu)比=1”），接受H1（即“共同優(yōu)比≠1”）。因優(yōu)比的點(diǎn)估計(jì)值為3.2135（MH法），說(shuō)明EB陽(yáng)性組的優(yōu)勢(shì)（odd值）大于EB陰性組的優(yōu)勢(shì)（odd值）；更明確的專業(yè)結(jié)論是：EB陽(yáng)性者患鼻咽癌的風(fēng)險(xiǎn)大于EB陰性者患鼻咽癌的風(fēng)險(xiǎn)。

3 討論與小結(jié)

3.1 討論

欲基于g×2×2表資料求共同優(yōu)勢(shì)比，需要先檢驗(yàn)資料是否滿足齊性要求，即檢驗(yàn)各層2×2表資料所對(duì)應(yīng)的優(yōu)勢(shì)比是否相等。常規(guī)的做法［2-8］如下：若資料滿足齊性要求，可基于固定效應(yīng)模型推導(dǎo)出的公式估計(jì)優(yōu)勢(shì)比及其置信區(qū)間；若資料不滿足齊性要求，可基于隨機(jī)效應(yīng)模型推導(dǎo)出的公式估計(jì)優(yōu)勢(shì)比及其置信區(qū)間。然而，在SAS/STAT的FREQ過(guò)程中，若資料滿足齊性要求，可通過(guò)CMH χ2檢驗(yàn)方法給出校正的計(jì)算結(jié)果，包括“校正的共同優(yōu)勢(shì)比的點(diǎn)估計(jì)值”及其“校正的95%置信區(qū)間”；若資料不滿足齊性要求，可通過(guò)各層2×2表中（1，1）網(wǎng)格內(nèi)的頻數(shù)的條件分布來(lái)構(gòu)造計(jì)算公式，可求得“共同優(yōu)勢(shì)比的精確點(diǎn)估計(jì)值”“精確95%置信區(qū)間”以及“共同優(yōu)勢(shì)比是否等于1”的精確單側(cè)概率和精確雙側(cè)概率。

3.2 小結(jié)

本文對(duì)g×2×2表資料進(jìn)行了優(yōu)勢(shì)比分析，其全部?jī)?nèi)容包括“各層2×2表資料齊性檢驗(yàn)”“共同優(yōu)勢(shì)比的點(diǎn)估計(jì)和置信區(qū)間估計(jì)”和“共同優(yōu)勢(shì)比是否等于1的假設(shè)檢驗(yàn)”。從計(jì)算的角度來(lái)看，內(nèi)容涉及“校正算法”和“精確算法”。通過(guò)兩個(gè)實(shí)例，演示了基于SAS軟件實(shí)現(xiàn)優(yōu)勢(shì)比分析的內(nèi)容，并對(duì)結(jié)果進(jìn)行了解釋，做出了統(tǒng)計(jì)和專業(yè)結(jié)論。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡