王琪,胡良平,柳偉偉
·講座·
如何用SAS軟件正確分析生物醫(yī)學科研資料
王琪,胡良平,柳偉偉
XX. R × C列聯(lián)表資料的統(tǒng)計分析與SAS軟件實現(xiàn)(三)
編者按
生物統(tǒng)計學是生物學領(lǐng)域科學研究和實際工作中必不可少的工具,在分子生物學迅速發(fā)展的今天,生物統(tǒng)計學更顯示出了它的重要性。實驗設(shè)計與數(shù)據(jù)統(tǒng)計分析是現(xiàn)代生物學的基石,是生物學研究者檢驗假說、尋找模式、建立生物學理論的有利工具,也是生物學研究者探索微觀和宏觀生物世界的必備基礎(chǔ)知識。對于每天甚至是每時每刻涌現(xiàn)的大量的、以天文數(shù)字計量的分子遺傳數(shù)據(jù),必須借助統(tǒng)計學知識加以分析處理,才能從中獲得有意義的信息?!吧锒鄻有詳?shù)據(jù)分析”是開展生物多樣性研究的一個重要方面,數(shù)據(jù)分析能力的高低極大地影響著我們對各種生態(tài)學現(xiàn)象認識的深度和廣度?,F(xiàn)在,電子計算機的普及使得生物統(tǒng)計分析過程大大簡化,生物統(tǒng)計分析軟件包的普及將生物統(tǒng)計學從統(tǒng)計學家的書本里解放了出來,簡化了生物統(tǒng)計分析過程,使之成為生物學研究者的常用工具。本刊特邀軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心主任胡良平教授,以“如何用 SAS 軟件正確分析生物醫(yī)學科研資料”為題,撰寫系列統(tǒng)計學講座,希望該系列講座能對生物醫(yī)學科研工作者有所幫助。
R × C 列聯(lián)表資料可以分為雙向無序的 R × C 列聯(lián)表資料、結(jié)果變量為有序變量的單向有序 R × C 列聯(lián)表資料、雙向有序且屬性不同的 R × C 列聯(lián)表資料和雙向有序且屬性相同的 R × C 列聯(lián)表資料[1],前兩期已介紹了前三類,本文將繼續(xù)介紹第四類 R × C 表資料及其用 SAS 軟件實現(xiàn)統(tǒng)計分析的全部內(nèi)容。
列聯(lián)表資料中,當行變量與列變量的性質(zhì)相同且取值的水平數(shù)及含義也相同時,稱這樣的資料為雙向有序且屬性相同的列聯(lián)表資料。雙向有序且屬性相同的列聯(lián)表是一個“方形”列聯(lián)表,它的主要目的是希望回答行變量與列變量的檢測結(jié)果是否一致的問題。
雙向有序且屬性相同的方形列聯(lián)表實際上是配對設(shè)計2 × 2 列聯(lián)表資料的“擴大”,在處理“方表”資料時,人們更關(guān)心的是兩種檢測方法檢測的結(jié)果之間是否具有一致性,故常用的統(tǒng)計分析方法叫做一致性檢驗,也稱為Kappa檢驗。
一致性檢驗(Kappa檢驗)的計算公式如下[2]:
上式中Ri代表第 i行的頻數(shù)合計,Cj代表第 j 列的頻數(shù)合計。
以下將通過實例向讀者介紹如何用 SAS 軟件處理雙向有序且屬性相同的 R × C 列聯(lián)表資料。
【例 1】圍產(chǎn)期缺氧可致新生兒腦損傷,為探討頭部 CT對新生兒缺氧后腦損傷程度判斷的作用,選擇 22 例缺氧缺血性腦病患兒,采用島津 TH700 螺旋 CT 對其頭部進行檢查。臨床分度與 CT 分度的結(jié)果見表 1,試分析兩種方法有無一致性。
表1 臨床分度與 CT 分度比較
分析與解答:該資料為雙向有序?qū)傩韵嗤?R × C 表,根據(jù)研究目的,應(yīng)采用Kappa檢驗(一致性檢驗)對其進行統(tǒng)計分析。
SAS 程序如下,設(shè)程序名為 li1.sas。
程序說明:test agree 語句可同時輸出簡單和加權(quán)Kappa系數(shù)的估計值、漸近標準誤差、95% 置信區(qū)間以及假設(shè)檢驗結(jié)果。此處 test 語句中的 agree 可以用 kappa 代替,輸出結(jié)果比用 agree 時少了對加權(quán)Kappa系數(shù)進行假設(shè)檢驗的結(jié)果。
SAS 程序運行結(jié)果:
統(tǒng)計和專業(yè)結(jié)論:以上結(jié)果中,最上面是對稱性檢驗的結(jié)果:S= 1.0000,P= 0.8013 > 0.05,說明此方表的頻數(shù)滿足對稱性假設(shè),即此表中的各頻數(shù)關(guān)于主對角線是對稱的。
關(guān)于一致性檢驗結(jié)果,有簡單Kappa檢驗與加權(quán)Kappa檢驗結(jié)果。如何選擇這兩種檢驗結(jié)果,這要看結(jié)果判定時人為因素的作用大小來決定。若人為因素作用很小,選簡單Kappa檢驗;否則,應(yīng)選加權(quán)Kappa檢驗。
本研究腦損傷程度主要由醫(yī)生進行評判,每位醫(yī)生對同一張 CT 的判斷很可能是不同的,引入了人為因素,故此例擬參考加權(quán)Kappa檢驗分析的結(jié)果下結(jié)論。
加權(quán)Kappa檢驗結(jié)果給出了加權(quán)Kappa系數(shù)的值、漸近標準誤差、總體Kappa值的95% 置信區(qū)間。最后給出了對加權(quán)Kappa系數(shù)進行檢驗的結(jié)果:Z= 1.4138,P= 0.1574 > 0.05,表明Kappa值 0.2376 與 0 之間的差別沒有統(tǒng)計學意義,說明兩種檢測方法的檢測結(jié)果不是一致的。
專業(yè)結(jié)論:22 例患者 CT 分度與臨床分度不完全相同,在對此病進行分度時,尚不能用 CT 分度取代臨床分度。
【例 2】對某院確診為子宮內(nèi)膜癌的 30 例患者,行超聲造影檢查。病理檢查診斷與超聲造影檢查結(jié)果見表 2。試分析超聲造影檢查與病理結(jié)果之間是否存在一致性。
表2 超聲造影檢查與病理結(jié)果比較
分析與解答:該資料行變量和列變量性質(zhì)相同且取值水平和含義也相同,因此,屬于雙向有序且屬性相同的 R × C列聯(lián)表。該例主要目的是研究兩種檢查方法結(jié)果是否一致的問題,常用的統(tǒng)計方法是一致性檢驗,即Kappa檢驗。
SAS 程序如下,設(shè)程序名為 li2.sas。
SAS 程序運行結(jié)果:
統(tǒng)計和專業(yè)結(jié)論:對稱性檢驗的結(jié)果,S = 2.6667,P = 0.4459,說明頻數(shù)表滿足對稱性假設(shè),即此表中的各頻數(shù)關(guān)于主對角線是對稱的。經(jīng) Kappa 檢驗,Kappa = 0.4361,95% 置信區(qū)間為 0.1696 和 0.7026。對原假設(shè)“Kappa = 0”的假設(shè)檢驗結(jié)果,Z = 3.3584,P = 0.0008,表明兩種檢查方法結(jié)果之間的一致性具有統(tǒng)計學意義。可以認為病理檢查診斷與超聲造影檢查對子宮內(nèi)膜癌患者的分期評價結(jié)果具有一致性。但是就 Kappa 系數(shù)的取值來看,兩種檢查方法一致性的程度還不夠高。
以上統(tǒng)計分析的 SAS 實現(xiàn)結(jié)果中,既進行了簡單Kappa 檢驗,又進行了加權(quán) Kappa 檢驗,這兩種方法都是用來檢驗兩種檢測方法的評價結(jié)果是否具有一致性。其主要的區(qū)別是兩種方法計算的公式不一樣,更具體地說是對兩個變量的打分不一樣,簡單 Kappa 檢驗主要是利用對角線上的信息,加權(quán) Kappa 檢驗除了利用對角線上的數(shù)據(jù)外,還將對角線外的數(shù)據(jù)進行加權(quán)打分,將對角線外的信息也充分利用。所以在選擇方法時應(yīng)根據(jù)專業(yè)知識,如果兩個變量取值的界限比較明確,如“+”“++”“+++”等,這時可以選用簡單的 Kappa 檢驗;如果兩個變量的取值界限不十分明確,人為因素較多時,更宜選用加權(quán) Kappa 檢驗。
參考文獻
[1] Hu LP. Medical statistics-analysis of quantitative and qualitative data applying the triple-type theory. Beijing: People’s Military Medical Press, 2009: 292-307. (in Chinese)胡良平. 醫(yī)學統(tǒng)計學-運用三型理論分析定量與定性資料. 北京:人民軍醫(yī)出版社, 2009:292-307.
[2] Hu LP. Scientific research design and statistical analysis of cardiovascular disease. Beijing: People’s Military Medical Press, 2010:130-133. (in Chinese)胡良平. 心血管病科研設(shè)計與統(tǒng)計分析. 北京: 人民軍醫(yī)出版社, 2010:130-133.
DOI:10.3969/cmba.j.issn.1673-713X.2012.06.015
作者單位:100850 北京,軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心
通訊作者:胡良平,Email:lphu812@sina.com