呂 朵 段重陽(yáng) 陳平雁
樣本量估計(jì)是研究設(shè)計(jì)中的一個(gè)極為重要環(huán)節(jié),如何正確估計(jì)樣本量即使對(duì)于統(tǒng)計(jì)專(zhuān)業(yè)人員都是較難把握的技能。目前,無(wú)論是統(tǒng)計(jì)專(zhuān)業(yè)人員還是非專(zhuān)業(yè)人員在實(shí)施樣本量估計(jì)時(shí)大多面臨以下三個(gè)問(wèn)題:其一,目前國(guó)內(nèi)尚缺乏系統(tǒng)地介紹樣本量估計(jì)方法的文獻(xiàn),從而導(dǎo)致在實(shí)驗(yàn)設(shè)計(jì)階段進(jìn)行樣本量估計(jì)時(shí)手段受限,尤其涉及到臨床試驗(yàn)中應(yīng)用較多的非劣性檢驗(yàn)和等效性檢驗(yàn),以及一般研究中非參數(shù)檢驗(yàn)、多元回歸和相關(guān)分析的樣本量估計(jì)方法。其二,由于國(guó)內(nèi)的教科書(shū)、專(zhuān)著和一些相關(guān)的期刊論著在介紹樣本量估計(jì)方法時(shí)缺乏源頭文獻(xiàn)的引用,加之某些設(shè)計(jì)的樣本量估計(jì)方法不止一種,我們采用的方法是否準(zhǔn)確和權(quán)威?我們應(yīng)用的究竟是誰(shuí)提出的方法?其三,樣本量估計(jì)的應(yīng)用軟件并不普及,如果依靠研究人員自己編程會(huì)有相當(dāng)難度。
鑒于上述原因,我們以樣本量估計(jì)專(zhuān)業(yè)軟件nQuery Advisor 7.0〔1〕為依據(jù)(因?yàn)樵撥浖壳氨粐?guó)際上公認(rèn)為樣本量估計(jì)的權(quán)威軟件之一,同時(shí)得到美國(guó)FDA的認(rèn)可),系統(tǒng)介紹樣本量估計(jì)方法,給出計(jì)算公式及其權(quán)威出處,通過(guò)實(shí)例加以說(shuō)明,并附有nQuery Advisor 7.0的操作主界面和樣本量估計(jì)中參數(shù)設(shè)置的界面,以及SAS 9.2軟件實(shí)現(xiàn)的程序,便于廣大讀者應(yīng)用。為了驗(yàn)證nQuery Advisor 7.0計(jì)算結(jié)果的準(zhǔn)確性,同時(shí)用SAS 9.2軟件及R語(yǔ)言由雙人乃至三人獨(dú)立編程進(jìn)行驗(yàn)證,以確保無(wú)誤。由于篇幅所限,本系列文章將側(cè)重基于差異性檢驗(yàn)與等效性檢驗(yàn)的樣本量估計(jì)方法,基本不涉及基于可信區(qū)間的樣本量估計(jì)方法。有關(guān)R語(yǔ)言實(shí)現(xiàn)的程序?qū)⒂辛砦慕榻B。
全部?jī)?nèi)容按統(tǒng)計(jì)分析方法分為五個(gè)部分,分別為均數(shù)比較、率的比較、生存分析、相關(guān)分析、回歸分析的樣本量估計(jì),詳細(xì)目錄見(jiàn)表1。所涉及的參考文獻(xiàn)均列在每個(gè)部分的結(jié)尾處。
因本文涉及的樣本量計(jì)算公式較多,凡公式中出現(xiàn)的相同符號(hào)統(tǒng)一定義如下:
α:檢驗(yàn)水準(zhǔn);
1-β:檢驗(yàn)效能;
s:取1代表單側(cè)檢驗(yàn),取2代表雙側(cè)檢驗(yàn);
MSE:均方差;
CV:變異系數(shù);
各類(lèi)參數(shù):如μ(總體均數(shù))、σ(總體標(biāo)準(zhǔn)差)等,這些參數(shù)一般未知,通常根據(jù)優(yōu)先順序 — 預(yù)試驗(yàn)結(jié)果、他人研究結(jié)果、假設(shè)等三種方式進(jìn)行估計(jì)。
若個(gè)別公式中的符號(hào)與上述定義不符,或另有含義,將以個(gè)別公式的定義為準(zhǔn)。
1 均數(shù)比較
1.1 單樣本均數(shù)的比較
1.1.1 差異性檢驗(yàn)
1.1.1.1 單樣本t檢驗(yàn)
方法:O'Brien和Muller(1993)〔2〕給出的單樣本t檢驗(yàn)的樣本量估計(jì)是建立在自由度為n-1,非中心參數(shù)為的非中心t分布基礎(chǔ)上。其檢驗(yàn)效能的計(jì)算公式為:
表1 樣本量估計(jì)方法目錄
式中,μ1為預(yù)期總體均數(shù);μ0為已知總體均數(shù);σ為預(yù)期的總體標(biāo)準(zhǔn)差。
在計(jì)算樣本量時(shí),一般先設(shè)定樣本量初始值,然后迭代樣本量直到所得的檢驗(yàn)效能滿(mǎn)足條件為止。此時(shí)的樣本量,即研究所需的樣本量。
【例1-1】某研究欲驗(yàn)證從事鉛作業(yè)男性工人的血紅蛋白含量是否與正常成年男性平均值(140 μg/L)有差異。預(yù)試驗(yàn)測(cè)得從事鉛作業(yè)男性工人的血紅蛋白含量均值130.83 μg/L,標(biāo)準(zhǔn)差 25.74 μg/L。如果設(shè)定α為5%水平,檢驗(yàn)效能為85%,雙側(cè)檢驗(yàn),統(tǒng)計(jì)分析采用單樣本t檢驗(yàn),試估計(jì)樣本量。
nQuery Advisor 7.0實(shí)現(xiàn):設(shè)定檢驗(yàn)水準(zhǔn) α=0.05;雙側(cè)檢驗(yàn),即s=2;檢驗(yàn)效能取1-β=85%。依據(jù)上述基礎(chǔ)數(shù)據(jù)可知,μ1=130.83,μ0=140,σ =25.74。在nQuery Advisor 7.0主菜單選擇:
Goal:Make Conclusion Using:⊙Means
Number of Groups:⊙One
Analysis Method:⊙Test
方法框中選擇:One group t-test for difference in means
在彈出的樣本量計(jì)算窗口將各參數(shù)鍵入,如圖1-1所示,結(jié)果為n=73。即本試驗(yàn)的最少樣本量為73例。
圖1 -1 nQuery Advisor7.0關(guān)于例1-1樣本量估計(jì)的參數(shù)設(shè)置與計(jì)算結(jié)果
圖1 -2 SAS 9.2關(guān)于例1樣本量估計(jì)的參數(shù)設(shè)置與計(jì)算結(jié)果
1.1.1.2 基于差值均數(shù)的配對(duì)t檢驗(yàn)
方法:與單樣本t檢驗(yàn)相同,見(jiàn)式(1-1),只需將μ1定義為預(yù)期差值的總體均數(shù)μd=μ1-μ2;已知總體均數(shù)μ0定義為0;σ為預(yù)期差值的總體標(biāo)準(zhǔn)差。
【例1-2】在一項(xiàng)將要開(kāi)展的減肥新藥臨床試驗(yàn)中,采用自身前后對(duì)照的配對(duì)設(shè)計(jì)。由預(yù)試驗(yàn)得到的初步結(jié)果顯示,未服藥前的體重指數(shù)(BMI)均數(shù)為28.5,服藥治療后的BMI均數(shù)為26.0,服藥前后差值的標(biāo)準(zhǔn)差為4.5。如果設(shè)定α為5%水平,檢驗(yàn)效能為85%,雙側(cè)檢驗(yàn),統(tǒng)計(jì)分析采用配對(duì)t檢驗(yàn),試估計(jì)樣本量。
nQuery Advisor 7.0實(shí)現(xiàn):設(shè)定檢驗(yàn)水準(zhǔn) α=0.05;雙側(cè)檢驗(yàn),即s=2;檢驗(yàn)效能取1-β=85%。依據(jù)上述基礎(chǔ)數(shù)據(jù)可知,μ1=28.5,μ2=26.0,σ =4.5。在nQuery Advisor7.0主菜單選擇:
Goal:Make Conclusion Using:⊙Means
Number of Groups:⊙One
Analysis Method:⊙Test
方法框中選擇:Paired t-test for difference in means
在彈出的樣本量計(jì)算窗口將各參數(shù)鍵入,如圖1-3所示,結(jié)果為n=32。即本試驗(yàn)的最少樣本量為32例。
SAS 9.2軟件實(shí)現(xiàn):
圖1 -3 nQuery Advisor7.0關(guān)于例1-2樣本量估計(jì)的參數(shù)設(shè)置與計(jì)算結(jié)果
圖1 -4 SAS 9.2關(guān)于例2樣本量估計(jì)的參數(shù)設(shè)置與計(jì)算結(jié)果
1.1.1.3 單個(gè)重復(fù)測(cè)量因素方差分析
方法:Dixon和 Massey(1983)〔3〕給出的單個(gè)重復(fù)測(cè)量因素方差分析的樣本量估計(jì)是建立在自由度為M-1和(M-1)(n-1),非中心參數(shù)為 nM(V/σ2·(1-ρ))的非中心F分布上。其檢驗(yàn)效能的計(jì)算公式為:
式中,M為重復(fù)水平數(shù);V為各個(gè)水平均數(shù)的方差;ρ為水平間的相關(guān)系數(shù);σ為每一水平的總體標(biāo)準(zhǔn)差。
在計(jì)算樣本量時(shí),一般先設(shè)定樣本量初始值,然后迭代樣本量直到所得的檢驗(yàn)效能滿(mǎn)足條件為止。此時(shí)的樣本量,即研究所需的樣本量。
【例1-3】一項(xiàng)旨在提高兒童自尊心的心理干預(yù)試驗(yàn)中,用一個(gè)滿(mǎn)分為100的兒童自尊心量表分別在干預(yù)前、干預(yù)后1個(gè)月、2個(gè)月,3個(gè)月對(duì)受試兒童進(jìn)行測(cè)量,以評(píng)估干預(yù)效果。通過(guò)預(yù)試驗(yàn)獲得干預(yù)前得分為55,第一次測(cè)量和一月后第二次測(cè)量之間的相關(guān)系數(shù)為0.7,兩次測(cè)量的合并標(biāo)準(zhǔn)差為10。研究者預(yù)期經(jīng)過(guò)三個(gè)月的干預(yù)后得分上升到59.5。試估計(jì)本研究在檢驗(yàn)效能為90%的情況下所需樣本量。
nQuery Advisor7.0實(shí)現(xiàn):設(shè)定檢驗(yàn)水準(zhǔn)α=0.05;檢驗(yàn)效能取1-β=90% 。依據(jù)上述基礎(chǔ)數(shù)據(jù)可知,ρ=0.7,σ =10,M=4。在nQuery Advisor7.0 主菜單選擇:
Goal:Make Conclusion Using:⊙Means
Number of Groups:⊙One
Analysis Method:⊙Test
方法框中選擇:Univariate one-way repeated measures analysis of variance。
注意,這里首先應(yīng)根據(jù)不同時(shí)間觀察結(jié)果對(duì)V進(jìn)行估計(jì),假設(shè)測(cè)量得分逐步均勻升高。在菜單欄中選擇:
Assistants:⊙Compute Effect Size
在彈出的計(jì)算窗口將各參數(shù)鍵入,如圖1-5所示,結(jié)果為V=2.813。
圖1 -5 nQuery Advisor7.0關(guān)于例1-3樣本量估計(jì)的參數(shù)計(jì)算結(jié)果
圖1 -6 nQuery Advisor7.0關(guān)于例1-3樣本量估計(jì)的參數(shù)設(shè)置與計(jì)算結(jié)果
在圖5界面點(diǎn)擊Transfer按鈕,計(jì)算結(jié)果V值顯示于主對(duì)話(huà)框(圖1-6),在主對(duì)話(huà)框再鍵入其他參數(shù),結(jié)果為n=40。
圖1 -7 SAS 9.2關(guān)于例1-3樣本量估計(jì)的參數(shù)設(shè)置與計(jì)算結(jié)果