王琪,胡良平,關(guān)雪,柳偉偉
·講座·
如何用SAS軟件正確分析生物醫(yī)學(xué)科研資料XVIII.R×C列聯(lián)表資料的統(tǒng)計(jì)分析與SAS軟件實(shí)現(xiàn)(一)
王琪,胡良平,關(guān)雪,柳偉偉
編者按
生物統(tǒng)計(jì)學(xué)是生物學(xué)領(lǐng)域科學(xué)研究和實(shí)際工作中必不可少的工具,在分子生物學(xué)迅速發(fā)展的今天,生物統(tǒng)計(jì)學(xué)更顯示出了它的重要性。實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)統(tǒng)計(jì)分析是現(xiàn)代生物學(xué)的基石,是生物學(xué)研究者檢驗(yàn)假說、尋找模式、建立生物學(xué)理論的有利工具,也是生物學(xué)研究者探索微觀和宏觀生物世界的必備基礎(chǔ)知識(shí)。對(duì)于每天甚至是每時(shí)每刻涌現(xiàn)的大量的、以天文數(shù)字計(jì)量的分子遺傳數(shù)據(jù),必須借助統(tǒng)計(jì)學(xué)知識(shí)加以分析處理,才能從中獲得有意義的信息?!吧锒鄻有詳?shù)據(jù)分析”是開展生物多樣性研究的一個(gè)重要方面,數(shù)據(jù)分析能力的高低極大地影響著我們對(duì)各種生態(tài)學(xué)現(xiàn)象認(rèn)識(shí)的深度和廣度?,F(xiàn)在,電子計(jì)算機(jī)的普及使得生物統(tǒng)計(jì)分析過程大大簡(jiǎn)化,生物統(tǒng)計(jì)分析軟件包的普及將生物統(tǒng)計(jì)學(xué)從統(tǒng)計(jì)學(xué)家的書本里解放了出來,簡(jiǎn)化了生物統(tǒng)計(jì)分析過程,使之成為生物學(xué)研究者的常用工具。本刊特邀軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心主任胡良平教授,以“如何用 SAS 軟件正確分析生物醫(yī)學(xué)科研資料”為題,撰寫系列統(tǒng)計(jì)學(xué)講座,希望該系列講座能對(duì)生物醫(yī)學(xué)科研工作者有所幫助。
R × C 列聯(lián)表資料可以分為雙向無(wú)序的R×C 列聯(lián)表資料、結(jié)果變量為有序變量的單向有序 R × C 列聯(lián)表資料、雙向有序且屬性相同的 R × C 列聯(lián)表資料和雙向有序且屬性不同的 R × C 列聯(lián)表資料等 4 類。本文將詳細(xì)介紹前兩類 R × C 表資料及其用 SAS 軟件實(shí)現(xiàn)統(tǒng)計(jì)分析的全部?jī)?nèi)容。
雙向無(wú)序的 R × C 列聯(lián)表資料是指在二維列聯(lián)表中,兩個(gè)定性變量都是名義變量,并且這兩個(gè)名義變量分別有R 個(gè)和 C 個(gè)(R 和 C 分別代表列聯(lián)表的行數(shù)和列數(shù),它們均為大于 2 的整數(shù))取值,由此排列而成的 R × C 表稱為雙向無(wú)序的 R × C 列聯(lián)表資料。當(dāng)理論頻數(shù)小于 5 的格子數(shù)未超過總格子數(shù)的 1/5 時(shí),用一般卡方檢驗(yàn);否則,用 Fisher 精確檢驗(yàn)處理該類資料[1]。以下將通過實(shí)例向讀者介紹如何用 SAS 軟件處理雙向無(wú)序的 R × C 列聯(lián)表資料。
表1 不同惡性血液病患者真菌感染發(fā)生的部位
【例 1】目前惡性血液病患者的主要治療方法包括放化療、免疫抑制劑治療等,這些治療方式會(huì)導(dǎo)致患者發(fā)生真菌感染。某臨床醫(yī)生對(duì)此做了回顧性調(diào)查研究,以分析不同血液病患者真菌感染部位是否相同,調(diào)查結(jié)果見表 1,試對(duì)表 1 進(jìn)行合理的統(tǒng)計(jì)分析。
分析與解答:本例是一個(gè)單因素多水平設(shè)計(jì)定性資料,原因變量“疾病種類”有 4 個(gè)水平,結(jié)果變量“感染部位”有 3 個(gè)水平,兩個(gè)變量都是多值名義變量,此時(shí)可采用卡方檢驗(yàn)或 Fisher 精確檢驗(yàn)對(duì)該資料進(jìn)行統(tǒng)計(jì)分析,以分析不同疾病的患者感染部位分布情況是否相同。以下介紹如何用 SAS 程序的 FREQ 過程分析雙向無(wú)序 R × C 列聯(lián)表資料。SAS 程序如下,設(shè)程序名為 li1.sas。
程序說明:程序中第一步建立名為 a1 的數(shù)據(jù)集,a 表示疾病種類,分為 4 個(gè)水平,b 表示感染部位,分為 3 個(gè)水平,f 表示頻數(shù)。第二步是過程步,調(diào)用 FREQ 過程進(jìn)行卡方檢驗(yàn),weight 語(yǔ)句指定頻數(shù)變量為 f,tables 語(yǔ)句指定用于生成二維列聯(lián)表,“/”后的選項(xiàng) chisq 表示進(jìn)行卡方檢驗(yàn)。
SAS 程序運(yùn)行結(jié)果:
a * b 表的統(tǒng)計(jì)量
以上是卡方檢驗(yàn)分析的結(jié)果,由于χ2= 4.6601,雙側(cè)P= 0.5881 > 0.05,說明不同惡性血液病患者發(fā)生真菌感染的部位之間的差異無(wú)統(tǒng)計(jì)學(xué)意義。
【例 2】沿用例 1 的背景資料,該醫(yī)生統(tǒng)計(jì)了不同惡性血液病患者真菌感染種類情況,結(jié)果見表 2,試對(duì)該資料進(jìn)行統(tǒng)計(jì)分析。
表2 不同惡性血液病患者真菌感染的類型
分析與解答:與例 1 類似,當(dāng)理論頻數(shù)小于 5 的格子數(shù)未超過總格子數(shù)的 1/5 時(shí),用一般卡方檢驗(yàn);否則,用Fisher 精確檢驗(yàn)處理該類資料。本例超過 1/5 的單元格的期望計(jì)數(shù)比 5 小,因此選用 Fisher 精確檢驗(yàn)。SAS 程序如下,設(shè)程序名為 li2.sas。
程序說明:本程序與例 1 的不同之處在于 tables 語(yǔ)句“/”后面的選項(xiàng)是 exact,表示進(jìn)行精確檢驗(yàn)。
SAS 程序運(yùn)行結(jié)果:
a * b 表的統(tǒng)計(jì)量
Fisher 精確檢驗(yàn)
第一部分是一般卡方檢驗(yàn)分析的結(jié)果,結(jié)果下方顯示“WARNING: 42% 的單元格的期望計(jì)數(shù)比 5 小??ǚ娇赡懿皇怯行z驗(yàn)?!?,因此應(yīng)選擇 Fisher 精確檢驗(yàn),結(jié)果顯示P= 0.0076 < 0.05,說明不同惡性血液病患者發(fā)生真菌感染的類型不同。
結(jié)果變量為有序變量的單向有序 R × C 列聯(lián)表資料是指表中僅結(jié)果變量的取值為有序,而原因變量為無(wú)序,如某資料中原因變量是藥物種類,結(jié)果變量是治愈、顯效、好轉(zhuǎn)、無(wú)效。如果僅原因變量為有序的而結(jié)果變量是無(wú)序的,則仍將其視為雙向無(wú)序的 R × C 列聯(lián)表資料。
結(jié)果變量為有序變量的單向有序 R × C 列聯(lián)表資料的統(tǒng)計(jì)分析可選用秩和檢驗(yàn)、Ridit 分析以及有序變量的logistic 回歸分析(此法較復(fù)雜,一般情況下不選用,在處理高維列聯(lián)表時(shí)常用)[1]。
【例 3】用混合核苷片、西藥及中草藥治療急性黃疸型肝炎,治療效果見表 3,試分析 3 種藥物治療效果之間的差異是否有統(tǒng)計(jì)學(xué)意義。
表3 不同藥物治療急性黃疸型肝炎的效果
分析與解答:這是一個(gè)單因素多水平設(shè)計(jì)定性資料,結(jié)果變量“療效”是有序變量,可選擇秩和檢驗(yàn)進(jìn)行統(tǒng)計(jì)分析。SAS 程序的 NPAR1WAY 過程或 FREQ 過程可以進(jìn)行分析,以下介紹相應(yīng)的 SAS 程序。用 NPAR1WAY 過程進(jìn)行秩和檢驗(yàn)的 SAS 程序如下,設(shè)程序名為 li3_1.sas。
程序說明:第一步是數(shù)據(jù)步,建立名為 a3 的數(shù)據(jù)集,a 表示藥物種類,b 表示療效,f 表示頻數(shù)。第二步是過程步,調(diào)用 NPAR1WAY 過程進(jìn)行秩和檢驗(yàn),freq 語(yǔ)句指定頻數(shù)變量 f,class 語(yǔ)句指定分組變量 a,var 語(yǔ)句用于指定結(jié)果變量 b。
SAS 程序運(yùn)行結(jié)果:
第一部分是 3 個(gè)組的打分結(jié)果,其中第一組平均秩是325.2632,第二組平均秩是324.8994,第三組平均秩是406.8830。
第二部分是 Kruskal-Wallis 秩和檢驗(yàn)的結(jié)果,HC≈χ2= 17.557,雙側(cè)P= 0.0002 < 0.05,說明 3 種藥物治療效果之間的差異有統(tǒng)計(jì)學(xué)意義。因第三組平均秩最高,因此混合核苷片的療效最好。
本例也可以通過 FREQ 過程實(shí)現(xiàn)秩和檢驗(yàn),程序如下,設(shè)程序名為 li3_2.sas。
程序說明:數(shù)據(jù)步與 li3_1.sas 相同,此處省略。過程步,調(diào)用 FREQ 過程,weight 語(yǔ)句用于指定頻數(shù)變量,tables 語(yǔ)句中“/”后面的選項(xiàng) cmh 表示進(jìn)行秩和檢驗(yàn),scores 選項(xiàng)指定打分方法。
SAS 程序運(yùn)行結(jié)果:
a * b 的匯總統(tǒng)計(jì)量Cochran-Mantel-Haenszel 統(tǒng)計(jì)量(基于秩得分)
第二行“行均值得分差值”對(duì)應(yīng)的結(jié)果即為秩和檢驗(yàn)結(jié)果,χ2= 17.557,P= 0.0002 與 li3_1.sas 得到的結(jié)果相同。
參考文獻(xiàn)
[1] Hu LP. Medical statistics-analysis of quantitative and qualitative data applying the triple-type theory. Beijing: People’s Military Medical Press, 2009:292-302. (in Chinese)胡良平. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)-運(yùn)用三型理論分析定量與定性資料. 北京:人民軍醫(yī)出版社, 2009:292-302.
DOI:10.3969/cmba.j.issn.1673-713X.2012.04.015
作者單位:100850 北京,軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心
通訊作者:胡良平,Email:lphu812@sina.com