Bootstrap法與H-L法中位數(shù)差值區(qū)間檢驗(yàn)在非劣效試驗(yàn)中的模擬比較研究*

2021-01-09 07:03成都醫(yī)學(xué)院公共衛(wèi)生學(xué)院610500曾子倩陳曉芳陳衛(wèi)中

中國(guó)衛(wèi)生統(tǒng)計(jì) 2020年6期

成都醫(yī)學(xué)院公共衛(wèi)生學(xué)院(610500) 毛昂曾子倩魏敏陳曉芳陳衛(wèi)中

【提要】目的比較Bootstrap法和Hodges-Lehmann法(H-L法)在中位數(shù)差值非劣效性檢驗(yàn)中的特點(diǎn)，為相關(guān)研究中統(tǒng)計(jì)學(xué)方法的選擇提供依據(jù)。方法以某臨床試驗(yàn)中試驗(yàn)組與對(duì)照組咽痛消失時(shí)間的比較為基礎(chǔ)，通過(guò)計(jì)算機(jī)模擬生成單組樣本量分別為20、30、50、100、200各500個(gè)兩獨(dú)立樣本，分別服從參數(shù)為90h(試驗(yàn)組)、100 h(對(duì)照組)的Poisson分布。針對(duì)每個(gè)樣本采用基于正態(tài)近似和百分位數(shù)的Bootstrap法、H-L法求得中位數(shù)差值的置信區(qū)間，并通過(guò)置信區(qū)間下限與非劣性界值進(jìn)行比較，得出三種方法的檢驗(yàn)效能。結(jié)果三種方法均隨著樣本量增加，檢驗(yàn)效能增加。在樣本量為20時(shí)，H-L法與正態(tài)近似法檢驗(yàn)效能相當(dāng)(25% vs.24%)，且都高于百分位數(shù)法(19%)。在樣本量為30、50、100時(shí)，H-L法檢驗(yàn)效能高于正態(tài)近似法與百分位數(shù)法，且正態(tài)近似法高于百分位數(shù)法。在樣本量為200時(shí)，三種方法的檢驗(yàn)效能相當(dāng)，均在95%以上。結(jié)論整體來(lái)看，H-L法獲得的區(qū)間最窄且最穩(wěn)定，檢驗(yàn)效能最高，尤其在樣本量不大時(shí)建議選擇H-L法。

非劣效性試驗(yàn)(non-inferiority trials)被廣泛應(yīng)用于藥物臨床試驗(yàn)研究。有關(guān)非劣效性檢驗(yàn)的方法主要有假設(shè)檢驗(yàn)法和區(qū)間檢驗(yàn)法兩種[1]。目前針對(duì)定量資料均數(shù)非劣效性檢驗(yàn)的方法較為成熟，如t檢驗(yàn)法、均數(shù)差的置信區(qū)間法，以及基于模型邊緣均數(shù)置信區(qū)間法等[5]。但越來(lái)越多的臨床試驗(yàn)中以某一臨床事件發(fā)生或達(dá)到預(yù)先規(guī)定標(biāo)準(zhǔn)的時(shí)間分布情況作為藥物的療效指標(biāo)[2]，其觀察結(jié)果多呈偏態(tài)分布，且存在不確切值為開(kāi)口資料，采用中位時(shí)間作為療效描述和比較指標(biāo)更為恰當(dāng)[3-4]。針對(duì)中位數(shù)的非劣效性區(qū)間檢驗(yàn)的主要有H-L法和Bootstrap法兩種，關(guān)于兩種方法在非劣效試驗(yàn)中的檢驗(yàn)效能比較報(bào)道較少。因此，本文以評(píng)價(jià)某醫(yī)藥公司生產(chǎn)的七味清咽氣霧劑咽痛緩解時(shí)間為例，比較上述兩種區(qū)間檢驗(yàn)方法在不同樣本量下的檢驗(yàn)效能，為相關(guān)研究中統(tǒng)計(jì)學(xué)方法的選擇提供依據(jù)。

對(duì)象與方法

1.對(duì)象

為評(píng)價(jià)某公司生產(chǎn)的七味清咽氣霧劑的有效性，以標(biāo)準(zhǔn)藥物作為對(duì)照，共納入280名受試對(duì)象，隨機(jī)等分為試驗(yàn)組和對(duì)照組。以疼痛消失時(shí)間為有效性評(píng)價(jià)指標(biāo)，在6天的臨床用藥觀察中，對(duì)于咽痛未消失患者的疼痛消失時(shí)間記為“>144h”，為典型的開(kāi)口資料。試驗(yàn)結(jié)果顯示對(duì)照組的咽痛消失時(shí)間的中位數(shù)為90h，試驗(yàn)藥物組疼痛消失時(shí)間中位數(shù)為100h，非劣效性臨界值Δ設(shè)定為15h，即中位數(shù)差值>-15可做出試驗(yàn)藥物非劣于標(biāo)準(zhǔn)藥物的結(jié)論。

2.方法

(1)數(shù)據(jù)分布及參數(shù)的選擇

本研究中，假定數(shù)據(jù)服從Poisson分布，即試驗(yàn)組和對(duì)照組的結(jié)局變量X1、X2分別服從參數(shù)為1和2的Poisson分布，結(jié)合試驗(yàn)結(jié)果記為X1～P(90)，X2～P(100)。

(2)樣本量的確定

根據(jù)經(jīng)驗(yàn)，結(jié)合臨床實(shí)際，模擬研究中單組樣本量分別設(shè)定為20、30、50、100和200，以考察不同樣本量下檢驗(yàn)方法的表現(xiàn)與檢驗(yàn)效能。

(3)Hodges-Lehmann法

(1)

(U(Cα)，U[(n1×n2)+1-Cα])

(2)

其中Cα是一個(gè)小于等于置信區(qū)間下限的最大整數(shù)，表達(dá)為：

(3)

(4)Bootstrap可信區(qū)間法

Bootstrap方法最早由美國(guó)斯坦福大學(xué)統(tǒng)計(jì)學(xué)教授Efron[9]在1979年提出的。本研究中，在每種樣本含量下通過(guò)數(shù)學(xué)模擬產(chǎn)生500個(gè)Poisson分布樣本，并對(duì)每個(gè)樣本進(jìn)行有放回、且樣本量不變的重復(fù)抽樣，獲得500個(gè)Bootstrap樣本，計(jì)算得到其中位數(shù)差值的置信區(qū)間。其具體步驟為：

①計(jì)算Poisson分布樣本數(shù)據(jù)的中位數(shù)M1、M2及M1-M2；

②對(duì)兩樣本分別進(jìn)行有放回樣本例數(shù)固定的Bootstrap抽樣，獲得用于計(jì)算標(biāo)準(zhǔn)差的Bootstrap樣本；

④重復(fù)②-③步驟500次，獲得500個(gè)Bootstrap樣本及500個(gè)中位數(shù)之差；

⑤置信區(qū)間計(jì)算方法：

L(M1-M2)B=(M1-M2)-ZαSE(M1-M2)B

(4)

b.Bootstrap百分位數(shù)法：用500個(gè)Bootstrap樣本獲得的500個(gè)中位數(shù)之差，并將中位數(shù)之差P2.5作為中位數(shù)之差的置信區(qū)間下限。

(5)檢驗(yàn)結(jié)論及檢驗(yàn)效能估計(jì)

(6)軟件實(shí)現(xiàn)過(guò)程

通過(guò)SAS 9.4進(jìn)行數(shù)據(jù)模擬，并完成兩種中位數(shù)差值的置信區(qū)間檢驗(yàn)方法在非劣效性試驗(yàn)中的比較。非劣效性檢驗(yàn)中檢驗(yàn)水準(zhǔn)α設(shè)定為0.025。

結(jié) 果

1.H-L法、正態(tài)近似法和百分位數(shù)法95%置信區(qū)間的比較

H-L法的95%置信區(qū)間明顯比正態(tài)近似法波動(dòng)范圍小，置信區(qū)間的寬度也要小于正態(tài)近似法，且每種方法的置信區(qū)間都包含中位數(shù)真實(shí)差異10h。同時(shí)，各組樣本量上H-L法置信下限的標(biāo)準(zhǔn)差均小于Bootstrap正態(tài)近似法和百分位數(shù)法。具體見(jiàn)表1和圖1。

表1 H-L法、正態(tài)近似法和百分位數(shù)法中位數(shù)差值95%置信下限的比較

圖1 正態(tài)近似法和H-L法95%置信區(qū)間比較

2.三種方法的檢驗(yàn)效能比較

三種方法的檢驗(yàn)效能都隨著樣本增加而增加。在n=20時(shí)正態(tài)近似法和H-L法相當(dāng)，但隨著樣本量的增大，H-L法均好于正態(tài)近似法和百分位數(shù)法。且在n≥100時(shí)，H-L法明顯好于正態(tài)近似法和百分位數(shù)法，而正態(tài)近似法和百分位數(shù)法相差不大。具體見(jiàn)表2和圖2。

表2 三種方法檢驗(yàn)效能的比較[n(%)]

3.兩組受試者咽痛消失時(shí)間的比較

兩組受試者咽痛消失時(shí)間的比較中，三種檢驗(yàn)方法的置信下限均大于非劣效性界值，均得出試驗(yàn)藥非劣于對(duì)照藥的結(jié)論。但H-L法的置信區(qū)間最窄。具體見(jiàn)表3。

表3 兩組受試者咽痛消失時(shí)間差值及其95%可信區(qū)間(h)

討論

本研究探討了兩種中位數(shù)差值的區(qū)間檢驗(yàn)方法在非劣效試驗(yàn)中的模擬比較研究。在樣本量為20時(shí)，正態(tài)近似法的檢驗(yàn)效能和H-L法的檢驗(yàn)效能相差不大。但隨著樣本量的增大H-L法的檢驗(yàn)效能先是明顯高于正態(tài)近似法，在樣本量到200時(shí)，兩種方法的檢驗(yàn)效能趨于一致。不論樣本量是多少，正態(tài)近似法的置信區(qū)間波動(dòng)范圍都大于H-L法，且不如H-L法穩(wěn)定，其原因可能和兩種方法利用樣本信息程度有關(guān)。H-L法充分利用每一個(gè)樣本信息，每一個(gè)觀測(cè)都要與另一組的每個(gè)觀測(cè)進(jìn)行相減，且在后續(xù)計(jì)算中所占權(quán)重相等，并對(duì)極端值有較為穩(wěn)健的處理[10]。而正態(tài)近似法則較多的考慮了原始樣本中位數(shù)的差異，其次，Bootstrap法還與原始樣本量有關(guān)，本研究中在單組樣本量為200時(shí)，正態(tài)近似法得到的置信區(qū)間波動(dòng)范圍較樣本量為100時(shí)有了明顯改善，應(yīng)注意的是在應(yīng)用Bootstrap法估計(jì)中位數(shù)置信區(qū)間時(shí)是基于樣本很好地代表總體的假設(shè)[11]。

正態(tài)近似法和百分位數(shù)法的檢驗(yàn)效能在樣本量大的時(shí)候趨于一致，但在小樣本時(shí)正態(tài)近似法明顯優(yōu)于百分位數(shù)法。由于百分位數(shù)法單純的利用了Bootstrap樣本的P2.5和P97.5信息，其計(jì)算置信區(qū)間原理屬于一種非參數(shù)的方法，而正態(tài)近似法既利用了原始抽樣樣本中位數(shù)差值的真實(shí)差異又利用了Bootstrap樣本的信息，根據(jù)中心極限定理計(jì)算其置信區(qū)間屬于一種參數(shù)方法，故正態(tài)近似法的檢驗(yàn)效能要優(yōu)于百分位數(shù)法。臨床判斷非劣效性的一個(gè)重要問(wèn)題是非劣效性界值Δ標(biāo)準(zhǔn)的選擇[12]。本研究中，當(dāng)把非劣效性臨界值Δ設(shè)置為13、14時(shí)，三種方法的檢驗(yàn)效能同時(shí)降低，但仍然是H-L法優(yōu)于正態(tài)近似法和百分位數(shù)法。但由于H-L法的區(qū)間寬度最小且穩(wěn)定，改變非劣效性臨界值對(duì)其影響較小。

本研究主要針對(duì)以時(shí)間作為效應(yīng)指標(biāo)，且可能存在不確切值的右截尾數(shù)據(jù)，并以中位數(shù)作為比較的指標(biāo)進(jìn)行非劣效性檢驗(yàn)。除本研究介紹的兩類(lèi)置信區(qū)間法外，也可以考慮選擇生存分析的方法。但理論上針對(duì)右截尾的數(shù)據(jù)中位生存時(shí)間和時(shí)間的中位數(shù)是相等的，而且如果仍采用Bootstrap法估計(jì)中位數(shù)差的置信區(qū)間結(jié)果與本研究中使用的方法也應(yīng)該是一致。Jinheum指出也可以利用分層Cox比例風(fēng)險(xiǎn)模型計(jì)算中位生存時(shí)間差的置信區(qū)間[13]，但其標(biāo)準(zhǔn)誤計(jì)算較為復(fù)雜。因此，針對(duì)右截尾時(shí)間數(shù)據(jù)計(jì)算中位數(shù)差值的置信區(qū)間，應(yīng)首先考慮基于中位數(shù)差的Bootstrap法或H-L法。但如果數(shù)據(jù)中存在其他類(lèi)型的刪失數(shù)據(jù)，如研究對(duì)象中途退出等，此時(shí)中位數(shù)比較法已不再適用，應(yīng)考慮利用分層Cox比例風(fēng)險(xiǎn)模型得到中位數(shù)差的置信區(qū)間。

從本次研究的結(jié)果來(lái)看，在藥物的非劣效試驗(yàn)中，三種中位數(shù)差值的區(qū)間檢驗(yàn)方法所獲得的區(qū)間都包含了總體中位數(shù)的真實(shí)差異。整體來(lái)看，H-L法獲得的區(qū)間最窄且最穩(wěn)定，檢驗(yàn)效能最高，且對(duì)極端值有較為穩(wěn)健的處理，尤其在樣本量不大時(shí)建議選擇H-L法。其在實(shí)際應(yīng)用中H-L法的操作復(fù)雜程度也要低于Bootstrap法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Bootstrap法與H-L法中位數(shù)差值區(qū)間檢驗(yàn)在非劣效試驗(yàn)中的模擬比較研究*

對(duì)象與方法

結(jié) 果

討 論

討論