胡純嚴(yán),胡良平,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029
單因素多水平設(shè)計是生物醫(yī)學(xué)試驗研究中使用頻率極高的一種設(shè)計類型。當(dāng)觀測結(jié)果變量為定量變量時,常選用的統(tǒng)計分析方法被簡稱為“單因素方差分析”。本文著重介紹該設(shè)計定量資料一元方差分析的前提條件、基本思想、計算公式和基于SAS軟件的實例分析。
第一個前提條件為“獨(dú)立性”,即全部定量數(shù)據(jù)中的任何兩個數(shù)據(jù)之間必須相互獨(dú)立[1];第二個前提條件為“正態(tài)性”,即某因素各水平組定量數(shù)據(jù)必須抽自正態(tài)分布的總體(需要分組進(jìn)行正態(tài)性檢驗)[2];第三個前提條件為“方差齊性”,即某因素k個水平組定量數(shù)據(jù)應(yīng)抽自方差相等的k個總體(需要對定量資料中每個因素所有水平組的總體方差進(jìn)行方差齊性檢驗)[3]。
單因素多水平設(shè)計定量資料一元方差分析的基本思想是關(guān)于總離均差平方和的分解,即將全部數(shù)據(jù)關(guān)于總均值的離差平方和分解成組間離均差平方和與組內(nèi)(或稱誤差)離均差平方和兩部分,自由度也有類似的分解方法。將各部分離均差平方和除以各自的自由度,就是各項的方差(或稱均方)。以組內(nèi)(或誤差)均方為分母,以組間均方為分子,就可以構(gòu)造出一個檢驗統(tǒng)計量F。
對于單因素多水平設(shè)計一元定量資料而言,其總離均差平方和SS總可按下式分解[4]:
式(1)中,三項離均差平方和的表達(dá)式如下:
基于離均差平方和與自由度構(gòu)造均方MS,見式(6)、式(7):
基于均方構(gòu)造檢驗統(tǒng)計量F,見式(8):
在式(8)中,F(xiàn)服從分子自由度為df組間、分母自由度為df誤差的F分布。
若采用手工計算,需要通過查F界值表(單側(cè)檢驗),可得F(1-α)(df組間,df誤差),若F≥F(1-α)(df組間,df誤差),則P≤α,反之,則P>α。最后,確定P值并作出統(tǒng)計推斷,再結(jié)合專業(yè)知識給出專業(yè)結(jié)論。
【例1】根據(jù)膽囊纖維化患者胰腺功能(胰蛋白酶分泌量),研究者將患者分為A、B、C三組:A組胰蛋白酶分泌量≤50 U/kg·h-1;B組胰蛋白酶分泌量為51~1000 U/kg·h-1;C組胰蛋白酶分泌量>1000 U/kg·h-1。三組的樣本含量分別為9、10、9例,測得每位受試對象的蛋白質(zhì)濃度(mg/mL)如下。A組:1.7、2.0、2.0、2.2、4.0、4.0、5.0、6.7、7.8;B組:1.4、2.4、2.4、3.3、4.4、4.7、6.7、7.6、9.5、11.7;C組:2.9、3.8、4.4、4.7、5.0、5.6、7.4、9.4、10.3[5]。分析三組患者蛋白質(zhì)濃度平均值之間的差異是否有統(tǒng)計學(xué)意義?
【例2】為研究鈣離子對體重的影響,某研究者將36只肥胖模型大白鼠隨機(jī)等分為三組,每組12只,分別給予常規(guī)劑量鈣(0.5%)、中劑量鈣(1.0%)和高劑量鈣(1.5%)三種不同的高脂飼料,喂養(yǎng)9周,測量并計算其喂養(yǎng)前后體重的差值[2]。分析三種不同劑量鈣作用下大白鼠體重改變量的均值是否相等?
【分析與解答】這是一個單因素三水平設(shè)計一元定量資料,設(shè)所需要的SAS程序如下:
【SAS程序說明】當(dāng)各組樣本含量不等時,以樣本含量最多的組為基準(zhǔn),樣本含量少的其他組缺少幾個數(shù)據(jù)就用幾個“點”填充。
【SAS輸出結(jié)果及解釋】
以上輸出結(jié)果表明:三組患者蛋白質(zhì)濃度的均值差異無統(tǒng)計學(xué)意義(因F=1.26,df=2,P=0.2998>0.05),故可以認(rèn)為不同胰蛋白酶分泌量對蛋白質(zhì)濃度的影響不明顯。三組定量資料的箱圖見圖1。
圖1 三組定量資料的箱圖
圖1中,從左到右共有3個長方形,每個長方形中的橫線代表各組定量資料的中位數(shù)所在的位置;每個長方形中的小正方形代表各組定量資料的平均值所在的位置,各組具體的平均值和標(biāo)準(zhǔn)差如下:
【分析與解答】這是一個單因素三水平設(shè)計一元定量資料,設(shè)所需要的SAS程序如下:
【SAS程序說明】第2個“means語句”給出了三個選擇項,分別代表三種多重比較的方法,在GLM過程中,類似的比較方法還有很多,此處從略。
【SAS輸出結(jié)果及解釋】
以上輸出結(jié)果表明:三組大白鼠體重改變量的均值差異有統(tǒng)計學(xué)意義(因F=31.49,df=2,P<0.0001),故可以認(rèn)為飼料中鈣劑量不同,大白鼠體重增加量也不同。飼料中鈣劑量越高,大白鼠體重增加量越少。飼料中鈣劑量由低到高對應(yīng)的三組大白鼠體重增加量的箱圖見圖2。
圖2 飼料中鈣劑量由低到高對應(yīng)的三組大白鼠體重增加量的箱圖
在圖2中,從左到右有3個長方形,每個長方形中的橫線代表各組定量資料的中位數(shù)所在的位置;每個長方形中的小正方形代表各組定量資料的平均值所在的位置,各組具體的平均值和標(biāo)準(zhǔn)差如下:
注:此檢驗控制Ⅰ型比較誤差率,不是試驗誤差率。
基于LSD法(即成組設(shè)計一元定量資料t檢驗)進(jìn)行均值之間兩兩比較的結(jié)果見圖3。
圖3 基于LSD法進(jìn)行均值之間兩兩比較的結(jié)果
注:此檢驗控制Ⅰ型試驗誤差率,對應(yīng)的假設(shè)為完全無效假設(shè),但不是部分無效假設(shè)。
基于SNK法進(jìn)行均值之間兩兩比較的結(jié)果見圖4。
圖4 基于SNK法進(jìn)行均值之間兩兩比較的結(jié)果
對輸出結(jié)果的解釋和結(jié)論同上(見圖3后面的解釋),此處從略。
注:此檢驗控制Ⅰ型試驗誤差率,但一般來說,此法比REGWQ法具有更高的Ⅱ型誤差率。
基于TUKEY法進(jìn)行均值之間兩兩比較的結(jié)果見圖5。
圖5 基于TUKEY法進(jìn)行均值之間兩兩比較的結(jié)果
對輸出結(jié)果的解釋和結(jié)論同上(見圖3后面的解釋),此處從略。
嚴(yán)格地說,用多次t檢驗取代方差分析的做法欠妥。事實上,當(dāng)采用多次t檢驗進(jìn)行n(n≥3)個均值兩兩比較時,可知比較的次數(shù)有c=n!/2!(n-2)!。比較的次數(shù)越多,在無效假設(shè)為真時,拒絕無效假設(shè)的Ⅰ類錯誤概率也越大。設(shè)每次檢驗水準(zhǔn)即犯Ⅰ類錯誤概率為α,累積Ⅰ類錯誤的概率為α’,則對多個均值進(jìn)行c次檢驗時,根據(jù)概率乘法原理,其累積Ⅰ類錯誤概率與c的關(guān)系見式(9)[6]:
例如,設(shè)α=0.05,c=3,其累積的Ⅰ類錯誤概率為:α’=1-(1-0.05)3=0.0143??梢?,用多次t檢驗取代方差分析,意味著Ⅰ類錯誤概率會增大,即出現(xiàn)假陽性的可能性會增加。因此,不應(yīng)該用t檢驗取代方差分析。
一般來說,對單因素多水平設(shè)計定量資料進(jìn)行一元方差分析后,若結(jié)論是各水平組的均值差異有統(tǒng)計學(xué)意義,這是一個概括性的結(jié)論,它并不意味著任何兩個平均值之間的差異都有統(tǒng)計學(xué)意義。欲知詳情,應(yīng)對多個均值進(jìn)行多重比較。然而,對多個均值進(jìn)行兩兩比較的方法很多,其區(qū)別是不同方法控制的誤差類型不同。詳見文獻(xiàn)[7-8]。
進(jìn)行方差分析前,需檢查定量資料是否滿足三個前提條件。因篇幅所限,本文在分析實例時,假定資料滿足方差分析所需要的前提條件。在實際應(yīng)用中,應(yīng)嚴(yán)格檢查給定資料是否滿足前提條件。否則,方差分析的結(jié)果可能不準(zhǔn)確。
本文介紹了與單因素多水平設(shè)計定量資料一元方差分析有關(guān)的主要內(nèi)容,包括前提條件、基本思想和計算公式。借助SAS軟件對兩個實例進(jìn)行了方差分析,還采用三種兩兩比較的方法(即LSD法、SNK法和TUKEY法)對例2中的三個均值進(jìn)行了分析。最后,在討論中闡明了不適合采用多次t檢驗取代方差分析的理由。