高 飛 ,劉媛媛 ,李長平 ,胡良平
(1.天津醫(yī)科大學(xué)眼科醫(yī)院、眼視光學(xué)院、眼科研究所,天津 300384;2.天津市眼科學(xué)與視覺科學(xué)國際聯(lián)合研究中心,天津 300384;3.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,天津 300070;4.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029;5.軍事科學(xué)院研究生院,北京 100850
在統(tǒng)計學(xué)中,為觀測觀察單位某項定量指標(biāo)的數(shù)量大小而獲得的資料稱為計量資料(measurement data),該類型資料一般有度量衡單位,表現(xiàn)為數(shù)值大小,如高密度脂蛋白、血壓、糖化血紅蛋白等。假設(shè)檢驗(hypothesis testing)作為統(tǒng)計分析的重要組成部分,是由樣本推斷總體是否可能存在差異的一種統(tǒng)計推斷方法[1]。以t分布為理論基礎(chǔ)的t檢驗計算方便且檢驗功效較高,是最常用的計量資料假設(shè)檢驗方法。由于對實(shí)驗設(shè)計類型、使用條件和資料性質(zhì)等問題認(rèn)識不清,科研工作者在使用t檢驗時存在大量的誤用[2]。因此,本文對t檢驗的基本概念與前提條件進(jìn)行介紹,闡明其正確的使用方法。
t分布最早由英國統(tǒng)計學(xué)家W.S.Gosset于1908年以筆名“student”發(fā)表,開創(chuàng)了小樣本統(tǒng)計推斷的新紀(jì)元[3]。
t分布的概率密度函數(shù)見式(2):
在式(2)中,Γ(·)為伽瑪函數(shù)。
t分布的概率密度函數(shù)見圖1,t分布的特征如下:①t分布的曲線形狀由自由度df決定,df越小則峰部越矮而兩尾部越高;②t分布的概率密度函數(shù)曲線形狀與標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)曲線相似,其圖形關(guān)于原點(diǎn)對稱,單峰偶函數(shù),但峰比標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)曲線低,而兩尾較高;③隨著自由度的增大,t分布越來越接近于標(biāo)準(zhǔn)正態(tài)分布,t分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布。
圖1 t分布的概率密度函數(shù)圖
t檢驗主要用于兩組定量資料(包括計量和計數(shù)資料兩種,通常指計量資料)的總體均數(shù)比較,是定量資料分析中最常用的假設(shè)檢驗方法,屬于參數(shù)檢驗的一種。根據(jù)研究目的和實(shí)驗設(shè)計類型,t檢驗可分為單組設(shè)計定量資料t檢驗、配對設(shè)計定量資料t檢驗和單因素兩水平設(shè)計(以前習(xí)慣上稱為成組設(shè)計)定量資料t檢驗三種[4]。這三種t檢驗對應(yīng)的檢驗統(tǒng)計量見式(3)、式(4)、式(5):
式(3)中,t為檢驗統(tǒng)計量的代號,它是一個服從t分布的隨機(jī)變量,為定量觀測指標(biāo)n個觀測值的算術(shù)平均值,μ0為與該定量觀測指標(biāo)對應(yīng)的理論值或標(biāo)準(zhǔn)值,s為該定量觀測指標(biāo)n個觀測值的標(biāo)準(zhǔn)誤,其中s為該定量觀測指標(biāo)n個觀測值的標(biāo)準(zhǔn)差,df為自由度,有時習(xí)慣用希臘字母ν表示。
式(4)中,n為對子個數(shù),d為成對數(shù)據(jù)的差量。
當(dāng)兩總體方差相等時,用合并樣本方差的方法計算t檢驗統(tǒng)計量:
式(5)中的s1和s2分別為兩樣本的標(biāo)準(zhǔn)差。
值得一提的是:式(1)定義了一個“隨機(jī)變量”,而在實(shí)際應(yīng)用時,所構(gòu)造出來的“t檢驗統(tǒng)計量可以被視為式(1)的一個特例,前人已證明其服從“t分布”,故后人才可以不加證明地直接應(yīng)用t檢驗。
1.3.1 估計某定量指標(biāo)參考值范圍或容許區(qū)間
當(dāng)樣本含量較小時,如n≤60,即使定量資料服從正態(tài)分布,也應(yīng)運(yùn)用t分布相關(guān)知識進(jìn)行計算,可參考式(6)。若使用正態(tài)分布法估計個體值的100(1-α)%正常值范圍,其結(jié)果范圍過窄,假陽性率較大[4]。
1.3.2 求個體值的預(yù)測區(qū)間
在單組設(shè)計一元定量資料中,求在未來第k(k=1,2,…)次抽樣條件下,定量指標(biāo)X取值的100(1-α)%預(yù)測區(qū)間時,所用的公式類似式(6),此處從略。
1.3.3 估計置信區(qū)間
當(dāng)σ未知且n較小時,計算單一總體均數(shù)的置信區(qū)間;計算兩樣本含量均較小時(如n1和n2均≤60)兩總體均數(shù)之差的置信區(qū)間。
在直線相關(guān)分析和回歸分析中,計算總體相關(guān)系數(shù)、總體截距、總體回歸系數(shù)的置信區(qū)間。
1.3.4 均值的假設(shè)檢驗
在單組設(shè)計、配對設(shè)計和單因素兩水平設(shè)計(簡稱成組設(shè)計)中,關(guān)于定量資料均值的假設(shè)檢驗(特指參數(shù)檢驗法),需要基于t分布進(jìn)行t檢驗。
1.3.5 多重線性回歸分析中某些參數(shù)的假設(shè)檢驗
在多重線性回歸分析中,對總體截距項和各總體回歸系數(shù)的假設(shè)檢驗,需要用到t檢驗。
涉及t檢驗的場合較多,都應(yīng)滿足一個共同的前提條件,即“所構(gòu)造出來的t統(tǒng)計量必須服從t分布”。這是一個相當(dāng)復(fù)雜的數(shù)學(xué)問題,以下僅針對“涉及均值比較且基于實(shí)驗設(shè)計角度考量時t檢驗的前提條件”進(jìn)行深入地解讀。概括地說,主要包括三種實(shí)驗設(shè)計類型、三要素和四原則。
2.2.1 單組設(shè)計
單組設(shè)計的特點(diǎn)是對一組同質(zhì)(即符合特定研究目的)的受試對象不按其他任何因素進(jìn)行分組,直接觀測或給予一種特定處理后觀測這些受試對象某一個或某些定量指標(biāo)的取值大小,僅涉及一個實(shí)驗因素的一個特定水平。若希望對單組設(shè)計定量資料進(jìn)行統(tǒng)計分析,必須提供定量觀測指標(biāo)的“標(biāo)準(zhǔn)值或理論值”。
2.2.2 配對設(shè)計
配對設(shè)計僅涉及一個實(shí)驗因素的兩個水平,其特點(diǎn)是相同指標(biāo)的觀測結(jié)果成對出現(xiàn),主要包括以下三種情況:①數(shù)據(jù)來自同一個體,稱為自身配對設(shè)計(如同一患者服用某種藥物前、后對同一定量指標(biāo)的測量);②數(shù)據(jù)來自親代相同的兩個個體,稱為同源配對設(shè)計(如每窩選兩只條件相近的動物或每戶選性別相同的兩個雙胞胎分別服用不同的藥物或接受不同的處理);③數(shù)據(jù)來自條件相近但并非同源的兩個個體,稱為條件相近者配對設(shè)計(如選擇性別相同,年齡、病情、體重等各方面都非常相近的每兩個個體配成一對)。
2.2.3 成組設(shè)計
單因素兩水平設(shè)計(簡稱成組設(shè)計)的特點(diǎn)是相同指標(biāo)的觀測結(jié)果來自兩個獨(dú)立的總體,受試對象被完全隨機(jī)分配到兩個不同的處理組中去。實(shí)驗中僅涉及一個具有兩水平的實(shí)驗因素,未對其他任何重要的非實(shí)驗因素進(jìn)行處理,僅希望通過隨機(jī)化來平衡所有非實(shí)驗因素在兩組間對觀察結(jié)果的干擾和影響[5]。
2.3.1 受試對象
受試對象就是實(shí)驗研究中實(shí)驗因素(如不同藥物、不同特殊處理)作用的承受者,在選取時必須對其同質(zhì)性予以重視,比如用動物作為受試對象時要注意種屬、品系、年齡、性別、窩別、體重和營養(yǎng)狀況等因素的影響;用樣品作為受試對象,應(yīng)考慮品種、批號、有效期和用量等影響因素;用人作為受試對象,若選取某病患者,應(yīng)注意正確診斷、正確分期和對病情的把握,若選取正常人,應(yīng)至少沒有與所研究問題有關(guān)的疾病。
2.3.2 影響因素
影響因素分為實(shí)驗因素和非實(shí)驗因素。實(shí)驗因素即外加于受試對象身上的,而且是研究者關(guān)心的、在實(shí)驗中需要觀察并闡明其處理效應(yīng)的因素。對于t檢驗來說,根據(jù)不同的實(shí)驗設(shè)計類型,一般僅涉及一個實(shí)驗因素的一個或兩個水平。除實(shí)驗因素外,通常還有一些來自受試對象自身條件(包括心理因素)、研究者(如操作方法、與受試對象交流的態(tài)度等)和環(huán)境條件的影響,必需通過增大樣本含量和采取合適的隨機(jī)化等措施,使一切非實(shí)驗因素對實(shí)驗因素的不同水平組的影響達(dá)到均衡一致,以降低或削弱非實(shí)驗因素對評價指標(biāo)取值的干擾和影響。
2.3.3 評價指標(biāo)
實(shí)驗因素作用于受試對象的結(jié)果,通過評價指標(biāo)來表達(dá)。采用t檢驗時,對評價指標(biāo)的最低要求是應(yīng)該為定量資料且服從正態(tài)分布,每次分析只涉及一個定量指標(biāo);若所研究的問題中有多個定量評價指標(biāo),僅當(dāng)它們在專業(yè)上是彼此互相獨(dú)立時,才可以對其每單個運(yùn)用t檢驗,否則,需要采用多元假設(shè)檢驗方法,如T2檢驗或Wilks'λ檢驗。
2.4.1 隨機(jī)原則
t檢驗與其他假設(shè)檢驗方法一樣,要求所得樣本是按照隨機(jī)原則從總體中抽取并分配到不同組中。其作用是確保樣本具有良好的代表性,使各組受試對象在重要的非實(shí)驗因素方面具有極好的均衡性,提高組間的可比性。
2.4.2 對照原則
進(jìn)行實(shí)驗研究,必須設(shè)立對照組。合理的對照組可以提高實(shí)驗的鑒別能力,增強(qiáng)說服力。單組設(shè)計的對照組是“標(biāo)準(zhǔn)值或理論值”所來自的“那個總體”,配對設(shè)計和成組設(shè)計則以其中一組作為對照組,另一組作為實(shí)驗組。
2.4.3 重復(fù)原則
重復(fù)是通過樣本含量來體現(xiàn)的,樣本含量過大(資源浪費(fèi)、工作量過大、易造成疏漏增多等)或過小(無法顯現(xiàn)真實(shí)的統(tǒng)計規(guī)律)都有弊病。不同的實(shí)驗設(shè)計類型、評價指標(biāo)的性質(zhì)和擬解決的統(tǒng)計學(xué)問題,對應(yīng)著各自的樣本含量計算公式,應(yīng)針對實(shí)際問題,結(jié)合專業(yè)知識和統(tǒng)計學(xué)知識做出合理的估計[6]。
2.4.4 均衡原則
對于單因素分析來說,應(yīng)設(shè)法使實(shí)驗組與對照組中的非實(shí)驗因素(如年齡、病程和病情)盡量達(dá)到均衡一致,使實(shí)驗因素的實(shí)驗效應(yīng)盡可能地反映出來。保證組間均衡的主要措施是遵循隨機(jī)原則和具有足夠大的樣本含量。
資料滿足前面介紹的與實(shí)驗設(shè)計有關(guān)的前提條件,是進(jìn)行t檢驗的基礎(chǔ)。同時,還應(yīng)進(jìn)一步關(guān)注數(shù)據(jù)資料特征方面的要求,即涉及均值比較且基于t分布角度考量時,t檢驗的前提條件有三個,分別是獨(dú)立性、正態(tài)性和方差齊性。
獨(dú)立性是指各個觀測值之間相互獨(dú)立,可根據(jù)專業(yè)知識或常識等進(jìn)行判斷。研究者準(zhǔn)備調(diào)查某藥物治療對抑郁癥患者情感強(qiáng)度識別能力的影響,故將受試者隨機(jī)分為試驗組與對照組,分別在基線期、治療后第4周和第12周使用情感強(qiáng)度識別任務(wù)對受試者進(jìn)行測評[7]。這種實(shí)驗設(shè)計屬于從同一受試者身上重復(fù)測量獲得同一個指標(biāo)的多個觀測值,觀測值之間就不符合獨(dú)立性要求。具體而言,單組設(shè)計和成組設(shè)計定量資料要求每個個體的測量值要相互獨(dú)立,配對設(shè)計定量資料要求不同對子間的測量值要相互獨(dú)立。
若希望采用t檢驗處理單組設(shè)計和成組設(shè)計定量資料,前提是待分析的各組定量資料均服從或近似服從正態(tài)分布,或者通過數(shù)據(jù)轉(zhuǎn)換使之符合正態(tài)分布。對于配對設(shè)計定量資料,不對兩組原始數(shù)據(jù)提出要求,只需兩組的差量符合正態(tài)分布即可。如果資料呈較嚴(yán)重的偏態(tài)分布,應(yīng)考慮采用非參數(shù)統(tǒng)計分析方法處理,或者通過變量轉(zhuǎn)換,使其滿足正態(tài)性要求。
正態(tài)性檢驗的方法大致可以歸為兩類:①采用一個指標(biāo)綜合檢驗偏度與峰度,如W法、D法、正態(tài)概率紙法等;②對兩者各用一個指標(biāo)檢驗,如動差法(亦稱矩法)。使用SAS軟件,在調(diào)用單變量分析過程UNIVARIATE時,只需在過程步語句中加上一個選擇項“NORMAL”,就可實(shí)現(xiàn)正態(tài)性檢驗。用這個過程實(shí)現(xiàn)正態(tài)性檢驗,當(dāng)樣本含量n≤2 000時,軟件自動采用W檢驗法(注:另外3種方法也會出現(xiàn));當(dāng)n>2 000時,軟件自動采用D檢驗法;而在SAS/INSIGHT等模塊中,SAS采用的是Kolmogorov D檢驗法。值得注意的是:當(dāng)樣本含量較小時,用Kolmogorov D檢驗法得出的結(jié)果與W檢驗法得出的結(jié)果往往是矛盾的,此時,應(yīng)以W檢驗法的結(jié)果為準(zhǔn)。
單因素兩水平設(shè)計一元定量資料t檢驗要求兩組定量資料所對應(yīng)的總體方差相等,對方差不齊的成組設(shè)計定量資料可采用近似t檢驗(或稱t'檢驗),也可直接選用秩和檢驗。
檢驗兩總體方差是否相等的常用方法是F檢驗,以兩樣本中方差較大的方差為分子,較小的方差為分母,求其比值(稱為F值),將求得的F值與相應(yīng)F分布下臨界值比較,得出結(jié)論。在SAS中,直接調(diào)用TTEST過程,即可輸出方差齊性檢驗的結(jié)果。
為了探究不同性別的糖尿病患者在確診時測量的糖化血紅蛋白值(HbA1c)是否存在差異,隨機(jī)抽取男性和女性糖尿病患者各15例,通過查看既往醫(yī)療記錄收集相應(yīng)數(shù)據(jù),包括性別(gender:1為男性,2為女性)和HbA1c(%),具體數(shù)據(jù)見SAS程序中的數(shù)據(jù)步。試檢驗不同性別的糖尿病患者HbA1c均值之間差異是否有統(tǒng)計學(xué)意義。
【SAS程序說明】在該試驗中,在性別的兩水平作用下,獲得的HbA1c觀測結(jié)果是兩組獨(dú)立數(shù)據(jù),因此,本例屬于組內(nèi)完全隨機(jī)單因素兩水平設(shè)計(即成組設(shè)計)。程序共4步,包括1個數(shù)據(jù)步和3個過程步,分別使用的是SORT過程、UNIVARIATE過程和TTEST過程。在SORT過程中,by選項指定性別為分組變量進(jìn)行排序。UNIVARIATE過程調(diào)用單變量分析過程,選項normal對數(shù)據(jù)進(jìn)行正態(tài)性檢驗,var指明待分析的變量。TTEST過程調(diào)用t檢驗并進(jìn)行方差齊性檢驗,選項cochran輸出采用“cochran法”導(dǎo)出的近似t檢驗的結(jié)果。
以上是男性HbA1c的正態(tài)性檢驗結(jié)果,運(yùn)用“W”等四種方法對其進(jìn)行正態(tài)性檢驗,P均>0.05,本例中n=15,因此選用W檢驗結(jié)果,可以認(rèn)為男性HbA1c的分布符合正態(tài)分布。
以上是女性HbA1c的正態(tài)性檢驗結(jié)果,運(yùn)用“W”等四種方法對其進(jìn)行正態(tài)性檢驗,P均>0.05,本例中n=15,因此選用W檢驗結(jié)果,可以認(rèn)為女性HbA1c的分布符合正態(tài)分布。
以上是對不同性別HbA1c資料進(jìn)行方差齊性檢驗的結(jié)果,F(xiàn)=1.32,P=0.6127>0.05,滿足方差齊性。
【說明】因篇幅所限,以上僅輸出了“與t分布有關(guān)的t檢驗的前提條件”的計算結(jié)果,其他內(nèi)容從略。
t檢驗的應(yīng)用有其明確的限定條件,對t檢驗的盲目使用將會降低結(jié)論的可靠性,甚至得出錯誤結(jié)論。在應(yīng)用t檢驗時,應(yīng)對如下幾種類型的錯誤提高警惕:第一,不考察定量資料對應(yīng)的實(shí)驗設(shè)計類型,盲目套用t檢驗處理資料;第二,不檢查資料是否具備獨(dú)立性、正態(tài)性和方差齊性,盲目套用參數(shù)檢驗方法;第三,隨意應(yīng)用t檢驗處理單因素k(k≥3)水平設(shè)計定量資料或多因素設(shè)計定量資料,割裂了原先的整體設(shè)計,降低資料的利用率,增大犯假陽性錯誤的概率且無法分析因素之間的交互作用;第四,不以專業(yè)知識為依據(jù),主觀選定單側(cè)檢驗或雙側(cè)檢驗,在對同一資料進(jìn)行檢驗時,單側(cè)檢驗較雙側(cè)檢驗更容易得出差異有統(tǒng)計學(xué)意義的結(jié)論[8]。
定量資料的統(tǒng)計分析在實(shí)際運(yùn)用中占據(jù)相當(dāng)大的比重,而t檢驗則是單因素設(shè)計一元定量資料的假設(shè)檢驗中最簡單且常用的方法,在科研論文中使用頻率極高[9-10]。正確使用t檢驗的關(guān)鍵在于如下兩點(diǎn):①正確辨析定量資料的實(shí)驗設(shè)計類型,著重考察實(shí)驗設(shè)計的“三要素”和“四原則”;②嚴(yán)格檢查定量資料是否滿足“獨(dú)立性、正態(tài)性和方差齊性”的條件。在已發(fā)表的期刊文章中,存在著大量關(guān)于t檢驗的誤用情況,對于同一個資料或同一個分析目的,由于所采用的統(tǒng)計分析方法不同,有時會得出不完全相同、甚至相反的結(jié)論,繼而導(dǎo)致科研失敗。因此,科研人員應(yīng)充分了解t檢驗的基本概念與前提條件,正確、合理地選用統(tǒng)計分析方法。