單樣本率比較(單組目標值法)的樣本量計算及其簡便實現(xiàn)

2018-07-16 06:08:22曾治宇張明東PeterLam

中國衛(wèi)生統(tǒng)計 2018年2期

曾治宇　林　娜　張明東　Peter Lam

樣本量計算是臨床研究設(shè)計階段的主要工作之一，其重要性在國內(nèi)日漸受到重視，為此在2015年還發(fā)表了一個《臨床試驗中樣本量確定的統(tǒng)計學(xué)考慮》的專家共識[1]。

目前臨床研究中，特別是醫(yī)療器械的臨床研究中，單組目標值法(performance goal,PG)的應(yīng)用越來越多。事先確定一個目標值(目標值的確定必須謹慎，依據(jù)充分，但這個不在本文的討論范圍內(nèi))，將研究預(yù)計能夠達到的值與之進行比較。例如美國FDA對于射頻消融導(dǎo)管的建議為急性成功率、慢性成功率及主要并發(fā)癥的目標值分別為85%，80%及7%，而預(yù)計值分別為95%，90%及2.5%。國內(nèi)CFDA也開始將這一方法寫入一些醫(yī)療器械臨床試驗的指導(dǎo)原則中。

對于計數(shù)資料的單組目標值法，從統(tǒng)計學(xué)角度來看其實就是單樣本率的比較。如果進行確切計算將涉及到二項分布，手工計算困難，常需借助特殊軟件。本文擬結(jié)合文獻發(fā)表的實例，介紹常規(guī)軟件excel及免費軟件G*Power進行單樣本率比較的樣本量計算。

計算方法

單樣本率比較的樣本量計算常見的方法為正態(tài)近似法(公式1[2])，適合目標事件發(fā)生率不太極端且樣本量足夠大時，否則應(yīng)進行平方根反正弦變化(公式2[3])。我們將這兩個公式分別輸入excel表中，其中的參數(shù)可替換為實際的單元格引用，便于重復(fù)使用。

(1)

(2)

根據(jù)二項分布進行確切計算時使用G*Power免費軟件，上文提到的專家共識[1]也有此推薦。G* Power是由德國杜塞爾多夫大學(xué)開發(fā)的軟件，包括的樣本量計算系列有Exact、Ftest、ttest、χ2test及ztest等，本文使用的版本為3.1.9.2。

實例分析

某臨床試驗欲驗證一款彩色多普勒超聲系統(tǒng)的臨床有效性，采用標準對照設(shè)計，用圖像優(yōu)良率為主要評價指標，臨床有效的標準為圖像優(yōu)良率不低于85%。預(yù)期試驗機器的圖像優(yōu)良率為95%，以0.05為檢驗水準，采用雙側(cè)檢驗，設(shè)定檢驗效能為80%，試估計樣本量[2]。該文獻利用nQuery計算的結(jié)果為79，SAS計算結(jié)果也是79，我們根據(jù)公式(1)利用excel正態(tài)計算的結(jié)果為78.017，如果向上取整，也是79。該例中預(yù)期的率達到95%，已經(jīng)不太適合正態(tài)近似法了，但該文并未給出利用二項分布確切計算的結(jié)果。在另一篇文獻[4]對于同一實例利用SAS逐步尋值法編程得到的樣本量為75，我們利用G*Power直接計算的結(jié)果也是75，但利用post hoc根據(jù)檢驗功效決定的樣本量為84。我們在下一個例子中對G*Power軟件的計算作些具體的說明。注意如果用公式(2)利用excel反正弦計算的結(jié)果是67，差異較大，我們在下文會有討論。

為驗證某一治療肝癌的組合治療方案是否有效，擬進行臨床試驗設(shè)計。根據(jù)以往研究數(shù)據(jù)獲知，肝癌的5年生存率為50%，研究者預(yù)期新的組合治療方案能使肝癌的5年生存率提高至60%，試按照檢驗效能為80%、檢驗水準為0.05的雙側(cè)檢驗估計本試驗所需樣本量[2]。文獻對此進行了確切概率檢驗，利用nQuery軟件時，在相應(yīng)的窗口內(nèi)樣本量一行反復(fù)嘗試填入不同數(shù)據(jù)，直至獲得檢驗效能達到或超過80%，得到樣本量為208。SAS編程運算的結(jié)果也是208。我們根據(jù)公式(1)利用excel正態(tài)計算的結(jié)果為194，根據(jù)公式(2)利用excel反正弦計算的結(jié)果也是194。使用G*Power直接計算的結(jié)果為199，此時的檢驗功效為0.804，但α僅為0.047；使用G*Power post hoc計算樣本量為194時的檢驗功效為0.764，但α僅為0.037。這個例子中的率不極端，樣本量也較大，因此正態(tài)法、反正弦法及G×Power軟件直接計算的結(jié)果較為一致。

G*Power還可方便地給出在指定的α水平下(如α≤0.05)，設(shè)定一定范圍內(nèi)不同樣本量(例如此例設(shè)定樣本量的范圍為180～220)時的檢驗功效(圖1)。圖1中可以清晰地看到，橫坐標樣本量194對應(yīng)的縱坐標檢驗功效只有0.764，雖然樣本量199時的檢驗功效為0.804(此時的α=0.047)，但樣本量增加至200時的檢驗功效反而降至0.787(注意此時的α=0.040)。只有樣本量達到210時，檢驗效能才穩(wěn)定地居于0.8之上，因此根據(jù)post hoc的結(jié)果這個例子的樣本量計算結(jié)果為210，與上面nQuery與SAS的結(jié)果基本一致。

圖1　G*Power軟件post hoc給出特定樣本量下的檢驗效能

本文寫作之際，國家食品藥品監(jiān)管總局于2017年1月4日發(fā)布了《人工耳蝸植入系統(tǒng)臨床試驗指導(dǎo)原則》，關(guān)于樣本量的描述如下：根據(jù)臨床經(jīng)驗，開機12個月后，產(chǎn)品的總體有效率需至少達到70%(目標值為70%)方可被臨床接受。假設(shè)被試驗產(chǎn)品的總體有效率可以達到85%，則在雙側(cè)顯著性水平0.05、把握度80%的情況下，至少需要64例患者，考慮10%的脫落率，共需要70例患者[5]。

該文件未說明具體的計算方法及應(yīng)用的軟件，我們利用excel根據(jù)公式(1)正態(tài)近似法計算的結(jié)果正好是64例，而根據(jù)公式(2)平方根反正弦變化計算的結(jié)果為60例。而利用G*Power軟件精確計算的結(jié)果為70例。

討　　論

在率不是過大或過小的情況下，單樣本率比較樣本量計算的正態(tài)近似法基本可行，excel輸入公式后計算簡潔明快。確切計算時，免費的G*Power軟件能方便地給出不同樣本下檢驗功效值，圖形顯示直觀清晰，甚至優(yōu)于nQuery與SAS的表達，也比既往文獻[4,6]推薦的方法簡潔得多。

值得注意的是，由圖1可見，確切計算樣本量時，隨著樣本量的增加，檢驗功效不是單調(diào)增加的。大家熟知的正態(tài)分布函數(shù)是連續(xù)的，在給定α水平時，隨著樣本量的增加，檢驗功效隨著增加。而基于二項分布的計算是非連續(xù)的，也就是說在不同的樣本量下，α值和β值是跳躍變化的。為了保證滿足α≤0.05的要求，樣本量增加時，α值可能會變小，這時1-β(即檢驗功效)也可能跌至既定的值如0.8以下。檢驗功效和樣本量的關(guān)系盡管總的趨勢仍然是遞增的，但表現(xiàn)為鋸齒狀遞增，不是純粹的單調(diào)遞增關(guān)系。例如例2在樣本量199時的α值為0.047，檢驗功效為0.804；在樣本量增至200時，α值降至0.040，檢驗功效下降至0.787，低于0.8。這也提示在利用類似二項分布這種非連續(xù)分布模型進行樣本量計算時，要考慮到樣本量變化與檢驗功效變化的這種關(guān)系，在局部情況下，樣本量增加，檢驗功效反而是下降的。因此，對于實例1，文獻利用SAS編程得到樣本量75是值得商榷的。臨床研究設(shè)計時，特別是在樣本量較小的確證性臨床研究中，務(wù)必反復(fù)權(quán)衡，避免設(shè)計失誤。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

單樣本率比較(單組目標值法)的樣本量計算及其簡便實現(xiàn)

計算方法

實例分析

討 論

討　　論