臨床研究樣本量的估計(jì)方法和常見錯(cuò)誤

2022-02-14 02:26潘岳松金奧銘王夢(mèng)星

中國(guó)卒中雜志 2022年1期

潘岳松，金奧銘，王夢(mèng)星

近年來，隨著我國(guó)對(duì)臨床研究的重視，國(guó)內(nèi)腦血管病領(lǐng)域的相關(guān)研究迅速發(fā)展。樣本量估計(jì)是臨床研究設(shè)計(jì)中的核心問題之一，隨著臨床研究的發(fā)展，也越來越受到關(guān)注和重視。最近的一項(xiàng)統(tǒng)計(jì)顯示，N Engl J Med發(fā)表的文章中，使用樣本量計(jì)算/統(tǒng)計(jì)功效分析的在1978-1979年只有39%，而在2015年增長(zhǎng)到了62%，是目前該雜志發(fā)表文章中使用頻率最高的統(tǒng)計(jì)學(xué)方法[1]。樣本量的正確估算直接關(guān)系到臨床研究的成敗，也一直是臨床研究者較為關(guān)注且難以把握的關(guān)鍵點(diǎn)之一。如果樣本量太小，研究結(jié)果的可重復(fù)性及代表性就欠佳，可能得出假陰性或假陽性的結(jié)論；如果樣本量過大，研究所需的經(jīng)費(fèi)和資源就越多，項(xiàng)目執(zhí)行的難度也越大，而且試驗(yàn)過程中對(duì)研究對(duì)象可能的潛在傷害越大，還存在倫理問題。那么，臨床研究設(shè)計(jì)時(shí)如何確定合適的樣本量呢？本文對(duì)決定樣本量估計(jì)的要素、常用的腦血管病臨床研究樣本量計(jì)算方法、樣本量估計(jì)中常見的問題等方面進(jìn)行闡述，以促進(jìn)腦血管病領(lǐng)域的研究者更好地掌握臨床研究樣本量估算的方法。

1 決定樣本量估計(jì)的要素

1.1 研究目的、研究設(shè)計(jì)和主要觀察指標(biāo)的資料類型臨床研究的樣本量估計(jì)首先需考慮研究目的和研究設(shè)計(jì)類型，根據(jù)不同的研究類型來選擇對(duì)應(yīng)的估計(jì)方法[2]。首先應(yīng)明確研究的目的是分析疾病發(fā)病或預(yù)后的危險(xiǎn)因素，是驗(yàn)證某項(xiàng)干預(yù)措施的有效性和安全性，還是評(píng)估某項(xiàng)新技術(shù)診斷疾病的準(zhǔn)確性。研究目的不同，對(duì)應(yīng)的樣本量估計(jì)的考慮因素也不同。臨床研究設(shè)計(jì)類型是屬于病例對(duì)照研究，還是隊(duì)列研究、隨機(jī)對(duì)照試驗(yàn)？隨機(jī)對(duì)照試驗(yàn)是優(yōu)效性設(shè)計(jì)，還是非劣效性設(shè)計(jì)？暴露因素/干預(yù)措施分組是兩組還是多組？是否匹配設(shè)計(jì)？不同的臨床研究設(shè)計(jì)類型對(duì)應(yīng)的樣本量估計(jì)需考慮的因素和計(jì)算公式各不相同。在估計(jì)樣本量之前，首先要明確和充分理解研究的目的和研究設(shè)計(jì)的類型。

樣本量估計(jì)需考慮的另一個(gè)重要因素是主要觀察指標(biāo)的資料類型。主要觀察指標(biāo)的資料類型一般可以分為定性指標(biāo)和定量指標(biāo)兩種，對(duì)應(yīng)的樣本量估計(jì)方法各不相同。腦血管病臨床研究中常用于評(píng)估二級(jí)預(yù)防效果的結(jié)局指標(biāo)如卒中復(fù)發(fā)、聯(lián)合血管事件發(fā)生、缺血性卒中復(fù)發(fā)等；常用于溶栓、機(jī)械取栓、神經(jīng)保護(hù)等臨床試驗(yàn)的結(jié)局指標(biāo)如功能預(yù)后良好（mRS 0～1分或mRS 0～2分）；Ⅱ期臨床試驗(yàn)常用的神經(jīng)功能惡化/好轉(zhuǎn)等指標(biāo)均為二分類定性指標(biāo)。對(duì)主要觀察指標(biāo)為二分類定性指標(biāo)的臨床研究，樣本量估計(jì)主要采用率的比較計(jì)算公式，用到的主要參數(shù)為率。常用于卒中后認(rèn)知功能障礙、腦小血管病預(yù)后研究的認(rèn)知功能評(píng)分等指標(biāo)為定量指標(biāo)，對(duì)主要觀察指標(biāo)是定量指標(biāo)的臨床研究，樣本量估計(jì)主要采用均數(shù)比較的計(jì)算公式，用到的主要參數(shù)為觀察指標(biāo)的均數(shù)和標(biāo)準(zhǔn)差。

1.2 效應(yīng)值暴露組或干預(yù)組間的主要觀察指標(biāo)的預(yù)估效應(yīng)值大小是直接決定臨床研究所需樣本量最主要的因素之一。對(duì)于兩組比較，以Δ表示兩組總體參數(shù)（均數(shù)或率）的差值或比值。常用的效應(yīng)值包括組間MD、RD、RR、HR、OR等。一般來說，兩組的預(yù)估效應(yīng)值越大，如兩組MD或RD越大，RR、HR或OR越偏離1，所需的樣本量越小。當(dāng)臨床研究是優(yōu)效性試驗(yàn)或非劣效性試驗(yàn)設(shè)計(jì)時(shí)，還需結(jié)合比較優(yōu)效性界值或非劣效性界值來確定樣本量。

1.3 變異度一般用方差或標(biāo)準(zhǔn)差反映組間觀察指標(biāo)的總變異程度。兩組定量指標(biāo)（均數(shù)）的比較，其方差可通過兩組樣本方差估計(jì)。兩組定性指標(biāo)（率）的比較，其方差可通過兩組樣本率估計(jì)。一般情況下，變異度，即方差越大，所需樣本量越大。事件率越接近0.5，所需樣本量越小。

1.4 檢驗(yàn)水準(zhǔn) 檢驗(yàn)水準(zhǔn)α，即Ⅰ型錯(cuò)誤的概率，是指錯(cuò)誤地拒絕了實(shí)際成立的原假設(shè)H0，錯(cuò)誤地判定為有差異的概率大小。α越小，所需樣本量越大。α的取值常為雙側(cè)0.05或0.1，優(yōu)效或非劣效試驗(yàn)設(shè)計(jì)中常取值為單側(cè)0.025。

當(dāng)需要多重檢驗(yàn)時(shí)，如設(shè)置了多個(gè)主要療效指標(biāo)、擬進(jìn)行多組間兩兩比較或在試驗(yàn)過程中設(shè)計(jì)了期中分析，需進(jìn)行多次比較分析的情況下，則會(huì)使Ⅰ型錯(cuò)誤增加，需對(duì)α進(jìn)行校正。在這一過程中要進(jìn)行多次重復(fù)顯著性檢驗(yàn)，每進(jìn)行一次檢驗(yàn)都將增加Ⅰ型錯(cuò)誤的概率，從而使總的顯著性水平α上升。如，以檢驗(yàn)水準(zhǔn)α=0.05，重復(fù)進(jìn)行10次檢驗(yàn)為例，發(fā)生Ⅰ型錯(cuò)誤的總概率將上升到0.19。常用的調(diào)整檢驗(yàn)水準(zhǔn)α的方法，如Bonferroni法，調(diào)整后的α’=α/k（k為統(tǒng)計(jì)檢驗(yàn)的次數(shù)），如總共需進(jìn)行3次檢驗(yàn)，則α’=0.05/3，為0.0167。成組序貫研究設(shè)計(jì)包含了期中分析，為了使總體顯著性水平維持常數(shù)α，必須調(diào)整每一次分析的顯著性水平，常用的調(diào)整α水平的方法包括Pocock法、O’Brien-Fleming法和Peto法等[3]。

1.5 把握度把握度，即檢驗(yàn)效能，是指所研究對(duì)象總體間確有差異時(shí)，按檢驗(yàn)水準(zhǔn)α能夠發(fā)現(xiàn)此差異的概率。把握度=1-β，其中β為Ⅱ型錯(cuò)誤的概率，因此指定了β水平也就等于指定了把握度水平。把握度越大，所需樣本量越大，通常將其定為0.80或0.90。一般建議臨床試驗(yàn)把握度定為0.90。

1.6 其他因素除了上述主要因素外，其他因素如兩組例數(shù)的分配比例、優(yōu)效性與非劣效性界值、不應(yīng)答或失訪率等均可影響樣本量的估計(jì)[4]。一般而言，兩組比較時(shí)取相等的樣本含量，此時(shí)總的樣本含量最少，且可達(dá)到最高的統(tǒng)計(jì)效能，因此經(jīng)常使用的是各組等樣本含量設(shè)計(jì)。但是，由于某些實(shí)際原因，有時(shí)可能需要進(jìn)行各組不等樣本含量設(shè)計(jì)，在進(jìn)行樣本量估計(jì)時(shí)也應(yīng)予以考慮。通過樣本量估算公式計(jì)算得到樣本量后，一般要考慮不應(yīng)答或失訪的影響，增加相應(yīng)的樣本量，以確保實(shí)際收集的有效病例數(shù)能足夠達(dá)到統(tǒng)計(jì)要求。如考慮失訪的影響，可將最后的樣本量定為N’=N/（1－失訪率）。

2 樣本量估計(jì)的思路

不同的臨床研究設(shè)計(jì)樣本量估計(jì)方法也不同，樣本量估計(jì)的思路非常重要（表1）。與臨床研究樣本量估計(jì)相關(guān)的最核心的參數(shù)是“兩組主要觀察指標(biāo)的預(yù)估值”。在根據(jù)樣本量估計(jì)公式計(jì)算之前，需要先明確3個(gè)問題：①研究的目的是什么？采用什么樣的設(shè)計(jì)？②研究的主要觀察指標(biāo)是什么？③主要觀察指標(biāo)有預(yù)估值嗎？其中，研究目的、研究設(shè)計(jì)和主要結(jié)局指標(biāo)在研究方案設(shè)計(jì)時(shí)應(yīng)該就已經(jīng)確定了。而主要觀察指標(biāo)的預(yù)估值，則可通過預(yù)試驗(yàn)或總結(jié)前期數(shù)據(jù)、查閱文獻(xiàn)及結(jié)合專家意見，由臨床專家和統(tǒng)計(jì)學(xué)專家聯(lián)合確定。確定了上述3個(gè)問題的答案，就確定了研究樣本量估計(jì)時(shí)需要用到的參數(shù)及參數(shù)的大小，之后將數(shù)據(jù)代入樣本量計(jì)算公式，采用軟件計(jì)算即可。常用的PASS、SAS、Stata等統(tǒng)計(jì)軟件以及一些公眾網(wǎng)站和微信小程序都可以方便地實(shí)現(xiàn)樣本量的計(jì)算[5]。

表1 樣本量估計(jì)的思路

3 常見的臨床研究設(shè)計(jì)樣本量估計(jì)方法

3.1 臨床登記隊(duì)列樣本量估計(jì) 在腦血管病臨床研究中，最常見的研究設(shè)計(jì)類型是臨床專病隊(duì)列，用于探討基線預(yù)后影響因素與患者預(yù)后的關(guān)系。根據(jù)危險(xiǎn)因素的有無或高低可分為兩組，進(jìn)而比較兩組卒中復(fù)發(fā)率的差異或檢驗(yàn)暴露因素與患者預(yù)后的關(guān)系。兩樣本率比較的樣本量估計(jì)可采用公式①進(jìn)行計(jì)算。其中p1與p2分別代表兩組的率，p=（p1+p2）/2。有時(shí)實(shí)際得到的是對(duì)照組的率p1和效應(yīng)值RR或OR值，可通過公式p2=RR×p1或公式p2=（OR×p1）/[1+p1×（OR-1）]進(jìn)行轉(zhuǎn)化。Z1-α/2和Z1-β分別為α和1-β對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分布臨界值。實(shí)際工作中，可進(jìn)一步考慮兩組不等比例、混雜因素的影響等對(duì)樣本量做進(jìn)一步調(diào)整，擴(kuò)大樣本量。

示例：某研究者擬進(jìn)行一項(xiàng)臨床登記研究探討基線糖尿病狀態(tài)與卒中患者1年卒中復(fù)發(fā)的關(guān)系。前期資料顯示糖尿病的RR值為1.3，無糖尿病人群的一年卒中復(fù)發(fā)率為8%，取α=雙側(cè)0.05，β=0.20，考慮失訪率為10%，計(jì)算得所需樣本量為2529例/組。

3.2 優(yōu)效性臨床試驗(yàn)兩樣本率比較優(yōu)效性臨床試驗(yàn)的目的是評(píng)價(jià)試驗(yàn)干預(yù)措施是否優(yōu)于對(duì)照措施（陽性或安慰劑對(duì)照）。如雙聯(lián)抗血小板治療對(duì)比單聯(lián)抗血小板治療的試驗(yàn)、機(jī)械取栓對(duì)比傳統(tǒng)治療的試驗(yàn)均多采用這種研究設(shè)計(jì)[6-7]。兩樣本率比較優(yōu)效性臨床試驗(yàn)的樣本量估計(jì)可采用公式②進(jìn)行計(jì)算。其中p1與p2分別代表兩組率，p=（p1+p2）/2，Δ為優(yōu)效性界值。Δ一般取具有臨床意義的最小值，由臨床專家與統(tǒng)計(jì)學(xué)專家協(xié)商確定。當(dāng)Δ=0時(shí)，優(yōu)效性檢驗(yàn)相當(dāng)于兩樣本率比較的樣本量計(jì)算方法。

示例：某試驗(yàn)擬比較阿司匹林聯(lián)合氯吡格雷雙聯(lián)抗血小板治療與單用阿斯匹林治療對(duì)預(yù)防卒中復(fù)發(fā)的療效，根據(jù)前期的文獻(xiàn)報(bào)告，預(yù)設(shè)阿司匹林聯(lián)合氯吡格雷雙聯(lián)抗血小板治療組3個(gè)月卒中復(fù)發(fā)率為8%，單用阿斯匹林治療組3個(gè)月卒中復(fù)發(fā)率為10%，優(yōu)效性界值Δ=0，α=0.025，β=0.10，考慮失訪率為5%，計(jì)算得所需樣本量為4528例/組。

3.3 非劣效性臨床試驗(yàn)兩樣本率比較非劣效性臨床試驗(yàn)的目的是評(píng)價(jià)試驗(yàn)干預(yù)措施在臨床意義上不差于（非劣于）對(duì)照措施（通常為已上市的有效藥物或標(biāo)準(zhǔn)治療方案），目的是探索新的治療選擇。這種情況常用于原有上市藥物的療效較好，試驗(yàn)藥的療效超過標(biāo)準(zhǔn)治療措施的可能性較小，預(yù)計(jì)研究藥物的療效與原有上市藥物相當(dāng)，但研究藥物可能具有其他特點(diǎn)，在其他方面可能有優(yōu)勢(shì)，如更好的安全性、使用更方便或依從性更好等。隨著藥物研發(fā)的深入，近年來采用非劣效性設(shè)計(jì)的試驗(yàn)越來越普遍。腦血管病臨床研究中如比較低劑量對(duì)比標(biāo)準(zhǔn)劑量阿替普酶溶栓、直接取栓對(duì)比橋接取栓、取栓前替萘普酶對(duì)比阿替普酶溶栓等試驗(yàn)多采用這種設(shè)計(jì)[8-10]。

兩樣本率比較的非劣效性臨床試驗(yàn)的樣本量估計(jì)可采用公式③進(jìn)行計(jì)算。其中p1與p2分別代表兩組率，p=（p1+p2）/2，Δ為非劣效性界值。非劣效性臨床試驗(yàn)通常設(shè)兩組的率相等。Δ一般由臨床專家與統(tǒng)計(jì)學(xué)專家根據(jù)既往研究證據(jù)結(jié)合臨床意義共同確定，并最終由臨床專家確認(rèn)。統(tǒng)計(jì)上可采用兩步法估算，先估計(jì)出陽性對(duì)照藥物相對(duì)于安慰劑為對(duì)照的絕對(duì)療效M1，一般取小于陽性對(duì)照與安慰劑效應(yīng)之差的95%CI下限（高優(yōu)指標(biāo)）[11]。臨床可接受的非劣效性界值M2一般通過M2=f×M1計(jì)算確定，建議非劣效設(shè)計(jì)中取f=0.5。在沒有歷史數(shù)據(jù)可依據(jù)時(shí)，Δ的確定也可根據(jù)目標(biāo)值法取值為陽性對(duì)照藥物療效的10%～15%。

示例：某試驗(yàn)采用非劣效性試驗(yàn)設(shè)計(jì)，擬檢驗(yàn)直接取栓治療患者3個(gè)月預(yù)后良好的比例不劣于橋接取栓治療的患者。根據(jù)前期數(shù)據(jù)和文獻(xiàn)報(bào)告，預(yù)設(shè)兩組患者3個(gè)月預(yù)后良好率為60%，非劣效性界值Δ=5%，α=0.025，β=0.10，考慮失訪率為5%，計(jì)算得所需樣本量為2124例/組。

以上為腦血管病臨床研究中常見的樣本量估計(jì)方法，特殊類型研究，如整群隨機(jī)對(duì)照臨床試驗(yàn)、適應(yīng)性設(shè)計(jì)臨床試驗(yàn)、單組目標(biāo)值試驗(yàn)、診斷性試驗(yàn)等的樣本量計(jì)算，以及兩樣本均數(shù)比較的樣本量估計(jì)方法，可參閱相關(guān)文獻(xiàn)，因?yàn)槠南拗?，本文不作詳述?/p>

4 樣本量估計(jì)的常見錯(cuò)誤

4.1 沒經(jīng)過計(jì)算直接確定樣本量部分研究者在撰寫臨床研究方案時(shí)，未經(jīng)過計(jì)算就直接確定樣本量（如100例或200例）。這種確定樣本量的做法可能導(dǎo)致樣本量不足，達(dá)不到統(tǒng)計(jì)學(xué)檢驗(yàn)的要求，得不到預(yù)期的研究結(jié)果。不過，對(duì)于因?qū)嶋H情況限制無法入組過多的研究，或研究本身的目的是為了進(jìn)行預(yù)試驗(yàn)探索方案的可行性、初步探索干預(yù)措施的療效和安全性，可不按照樣本量估計(jì)的例數(shù)入組，但應(yīng)對(duì)預(yù)試驗(yàn)的研究目的給予明確說明。

4.2 樣本量估計(jì)方法與研究設(shè)計(jì)和主要觀察指標(biāo)不對(duì)應(yīng) 在樣本量估計(jì)過程中，最常見的錯(cuò)誤之一是樣本量估計(jì)方法與研究設(shè)計(jì)和主要觀察指標(biāo)不對(duì)應(yīng)。如：研究的目的是采用隊(duì)列研究設(shè)計(jì)驗(yàn)證基線時(shí)某指標(biāo)升高與卒中預(yù)后的關(guān)系，但樣本量估計(jì)時(shí)卻依據(jù)1年卒中復(fù)發(fā)率，采用率的橫斷面調(diào)查公式的方法進(jìn)行樣本量估計(jì)；或者，臨床試驗(yàn)中設(shè)置的主要觀察指標(biāo)為3個(gè)月預(yù)后良好的比例，但因?yàn)槿鄙偾捌跀?shù)據(jù)，主要觀察指標(biāo)無法預(yù)估，在樣本量估計(jì)時(shí)采用了3個(gè)月卒中復(fù)發(fā)率作為計(jì)算的依據(jù)。樣本量的估計(jì)方法應(yīng)與研究目的、研究設(shè)計(jì)和主要觀察指標(biāo)相對(duì)應(yīng)，否則無法得到預(yù)期的效果。

4.3 參數(shù)設(shè)置不合理樣本量估計(jì)的另一個(gè)常見錯(cuò)誤是樣本量估算的參數(shù)設(shè)置缺乏依據(jù)，或參數(shù)設(shè)置不合理、不符合臨床實(shí)際情況。如：為節(jié)省樣本量有意夸大事件率或預(yù)期的效應(yīng)值，或設(shè)置的脫落率和失訪率過高，設(shè)置的參數(shù)明顯不符合臨床的實(shí)際情況。上述情況都可能導(dǎo)致樣本量估計(jì)不準(zhǔn)確，從而使研究達(dá)不到預(yù)期的研究效度。

總之，在臨床研究的過程中，樣本量既不是越大越好，也不是越小越好。合理的樣本量是臨床研究科學(xué)設(shè)計(jì)的重要環(huán)節(jié)，與研究設(shè)計(jì)的其他環(huán)節(jié)密切相關(guān)，估計(jì)過程應(yīng)充分理解和考慮研究目的、研究設(shè)計(jì)和主要觀察指標(biāo)的資料類型。樣本量需要臨床專家和統(tǒng)計(jì)學(xué)專家合作討論確定，選擇正確的計(jì)算方法和公式，合理設(shè)置參數(shù)，并進(jìn)行科學(xué)的計(jì)算才能保證其準(zhǔn)確無誤。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

臨床研究樣本量的估計(jì)方法和常見錯(cuò)誤

1 決定樣本量估計(jì)的要素

2 樣本量估計(jì)的思路

3 常見的臨床研究設(shè)計(jì)樣本量估計(jì)方法

4 樣本量估計(jì)的常見錯(cuò)誤