曾治宇 林 娜 張明東 Peter Lam
樣本量計算是臨床研究設(shè)計階段的主要工作之一,其重要性在國內(nèi)日漸受到重視,為此在2015年還發(fā)表了一個《臨床試驗中樣本量確定的統(tǒng)計學(xué)考慮》的專家共識[1]。
目前臨床研究中,特別是醫(yī)療器械的臨床研究中,單組目標值法(performance goal,PG)的應(yīng)用越來越多。事先確定一個目標值(目標值的確定必須謹慎,依據(jù)充分,但這個不在本文的討論范圍內(nèi)),將研究預(yù)計能夠達到的值與之進行比較。例如美國FDA對于射頻消融導(dǎo)管的建議為急性成功率、慢性成功率及主要并發(fā)癥的目標值分別為85%,80%及7%,而預(yù)計值分別為95%,90%及2.5%。國內(nèi)CFDA也開始將這一方法寫入一些醫(yī)療器械臨床試驗的指導(dǎo)原則中。
對于計數(shù)資料的單組目標值法,從統(tǒng)計學(xué)角度來看其實就是單樣本率的比較。如果進行確切計算將涉及到二項分布,手工計算困難,常需借助特殊軟件。本文擬結(jié)合文獻發(fā)表的實例,介紹常規(guī)軟件excel及免費軟件G*Power進行單樣本率比較的樣本量計算。
單樣本率比較的樣本量計算常見的方法為正態(tài)近似法(公式1[2]),適合目標事件發(fā)生率不太極端且樣本量足夠大時,否則應(yīng)進行平方根反正弦變化(公式2[3])。我們將這兩個公式分別輸入excel表中,其中的參數(shù)可替換為實際的單元格引用,便于重復(fù)使用。
(1)
(2)
根據(jù)二項分布進行確切計算時使用G*Power免費軟件,上文提到的專家共識[1]也有此推薦。G* Power是由德國杜塞爾多夫大學(xué)開發(fā)的軟件,包括的樣本量計算系列有Exact、Ftest、ttest、χ2test及ztest等,本文使用的版本為3.1.9.2。
某臨床試驗欲驗證一款彩色多普勒超聲系統(tǒng)的臨床有效性,采用標準對照設(shè)計,用圖像優(yōu)良率為主要評價指標,臨床有效的標準為圖像優(yōu)良率不低于85%。預(yù)期試驗機器的圖像優(yōu)良率為95%,以0.05為檢驗水準,采用雙側(cè)檢驗,設(shè)定檢驗效能為80%,試估計樣本量[2]。該文獻利用nQuery計算的結(jié)果為79,SAS計算結(jié)果也是79,我們根據(jù)公式(1)利用excel正態(tài)計算的結(jié)果為78.017,如果向上取整,也是79。該例中預(yù)期的率達到95%,已經(jīng)不太適合正態(tài)近似法了,但該文并未給出利用二項分布確切計算的結(jié)果。在另一篇文獻[4]對于同一實例利用SAS逐步尋值法編程得到的樣本量為75,我們利用G*Power直接計算的結(jié)果也是75,但利用post hoc根據(jù)檢驗功效決定的樣本量為84。我們在下一個例子中對G*Power軟件的計算作些具體的說明。注意如果用公式(2)利用excel反正弦計算的結(jié)果是67,差異較大,我們在下文會有討論。
為驗證某一治療肝癌的組合治療方案是否有效,擬進行臨床試驗設(shè)計。根據(jù)以往研究數(shù)據(jù)獲知,肝癌的5年生存率為50%,研究者預(yù)期新的組合治療方案能使肝癌的5年生存率提高至60%,試按照檢驗效能為80%、檢驗水準為0.05的雙側(cè)檢驗估計本試驗所需樣本量[2]。文獻對此進行了確切概率檢驗,利用nQuery軟件時,在相應(yīng)的窗口內(nèi)樣本量一行反復(fù)嘗試填入不同數(shù)據(jù),直至獲得檢驗效能達到或超過80%,得到樣本量為208。SAS編程運算的結(jié)果也是208。我們根據(jù)公式(1)利用excel正態(tài)計算的結(jié)果為194,根據(jù)公式(2)利用excel反正弦計算的結(jié)果也是194。使用G*Power直接計算的結(jié)果為199,此時的檢驗功效為0.804,但α僅為0.047;使用G*Power post hoc計算樣本量為194時的檢驗功效為0.764,但α僅為0.037。這個例子中的率不極端,樣本量也較大,因此正態(tài)法、反正弦法及G×Power軟件直接計算的結(jié)果較為一致。
G*Power還可方便地給出在指定的α水平下(如α≤0.05),設(shè)定一定范圍內(nèi)不同樣本量(例如此例設(shè)定樣本量的范圍為180~220)時的檢驗功效(圖1)。圖1中可以清晰地看到,橫坐標樣本量194對應(yīng)的縱坐標檢驗功效只有0.764,雖然樣本量199時的檢驗功效為0.804(此時的α=0.047),但樣本量增加至200時的檢驗功效反而降至0.787(注意此時的α=0.040)。只有樣本量達到210時,檢驗效能才穩(wěn)定地居于0.8之上,因此根據(jù)post hoc的結(jié)果這個例子的樣本量計算結(jié)果為210,與上面nQuery與SAS的結(jié)果基本一致。
圖1 G*Power軟件post hoc給出特定樣本量下的檢驗效能
本文寫作之際,國家食品藥品監(jiān)管總局于2017年1月4日發(fā)布了《人工耳蝸植入系統(tǒng)臨床試驗指導(dǎo)原則》,關(guān)于樣本量的描述如下:根據(jù)臨床經(jīng)驗,開機12個月后,產(chǎn)品的總體有效率需至少達到70%(目標值為70%)方可被臨床接受。假設(shè)被試驗產(chǎn)品的總體有效率可以達到85%,則在雙側(cè)顯著性水平0.05、把握度80%的情況下,至少需要64例患者,考慮10%的脫落率,共需要70例患者[5]。
該文件未說明具體的計算方法及應(yīng)用的軟件,我們利用excel根據(jù)公式(1)正態(tài)近似法計算的結(jié)果正好是64例,而根據(jù)公式(2)平方根反正弦變化計算的結(jié)果為60例。而利用G*Power軟件精確計算的結(jié)果為70例。
在率不是過大或過小的情況下,單樣本率比較樣本量計算的正態(tài)近似法基本可行,excel輸入公式后計算簡潔明快。確切計算時,免費的G*Power軟件能方便地給出不同樣本下檢驗功效值,圖形顯示直觀清晰,甚至優(yōu)于nQuery與SAS的表達,也比既往文獻[4,6]推薦的方法簡潔得多。
值得注意的是,由圖1可見,確切計算樣本量時,隨著樣本量的增加,檢驗功效不是單調(diào)增加的。大家熟知的正態(tài)分布函數(shù)是連續(xù)的,在給定α水平時,隨著樣本量的增加,檢驗功效隨著增加。而基于二項分布的計算是非連續(xù)的,也就是說在不同的樣本量下,α值和β值是跳躍變化的。為了保證滿足α≤0.05的要求,樣本量增加時,α值可能會變小,這時1-β(即檢驗功效)也可能跌至既定的值如0.8以下。檢驗功效和樣本量的關(guān)系盡管總的趨勢仍然是遞增的,但表現(xiàn)為鋸齒狀遞增,不是純粹的單調(diào)遞增關(guān)系。例如例2在樣本量199時的α值為0.047,檢驗功效為0.804;在樣本量增至200時,α值降至0.040,檢驗功效下降至0.787,低于0.8。這也提示在利用類似二項分布這種非連續(xù)分布模型進行樣本量計算時,要考慮到樣本量變化與檢驗功效變化的這種關(guān)系,在局部情況下,樣本量增加,檢驗功效反而是下降的。因此,對于實例1,文獻利用SAS編程得到樣本量75是值得商榷的。臨床研究設(shè)計時,特別是在樣本量較小的確證性臨床研究中,務(wù)必反復(fù)權(quán)衡,避免設(shè)計失誤。