BOP2試驗設計方法的先驗敏感性分析研究*

2022-05-28 04:20中國藥科大學生物統(tǒng)計與計算藥學研究中心210009

中國衛(wèi)生統(tǒng)計 2022年2期

中國藥科大學生物統(tǒng)計與計算藥學研究中心(210009)

姜倩蘇麗文言方榮△

【提要】目的 BOP2設計(貝葉斯最優(yōu)II期設計)是在一個統(tǒng)一框架下可以處理復雜終點臨床試驗的設計方法，因其良好的統(tǒng)計性能、易于實踐等優(yōu)勢，已在臨床試驗中得到廣泛應用。和一般貝葉斯方法一樣，模型未知參數(shù)的先驗分布設置十分關(guān)鍵。本文旨在研究BOP2設計對先驗選取的敏感性以及先驗選擇的一般規(guī)律。方法通過計算機模擬研究比較BOP2設計在不同無信息先驗、樂觀先驗和保守先驗下的統(tǒng)計表現(xiàn)。結(jié)果基于模擬結(jié)果，發(fā)現(xiàn)部分無信息先驗以及保守先驗，在不同場景下BOP2設計均有良好的統(tǒng)計性能，而樂觀先驗易引起一類錯誤率膨脹，僅當樂觀先驗與實際療效相一致時，其統(tǒng)計性能良好。結(jié)論保守先驗下BOP2設計的表現(xiàn)最穩(wěn)健。若研究者對試驗藥物療效持有相當積極樂觀的態(tài)度，可以謹慎地選擇樂觀先驗。

傳統(tǒng)的II期臨床試驗通常只考慮單個二分類的終點，比如腫瘤反應。然而隨著新型分子靶向制劑以及免疫療法的迅速發(fā)展，有效終點變得更加復雜，這種終點可能是有序的或多分類的。Yuan[1]于2016年提出了一種靈活的貝葉斯最優(yōu)II期(Bayesian optimal phase II，BOP2)試驗設計，該設計能夠在一個統(tǒng)一的框架下處理復雜終點類型的試驗。因其具有良好的統(tǒng)計性能、易于實踐等優(yōu)點，已在臨床試驗中得到廣泛應用。BOP2是一種基于貝葉斯理論的方法，采用狄利克雷-多項模型建模，每次期中分析時，通過評估治療有效的后驗概率，做出繼續(xù)或終止試驗的決定，每次期中分析的停止閾值將根據(jù)期中樣本量做出適應性改變[1]。

研究表明與傳統(tǒng)的臨床試驗設計相比，BOP2設計具有以下優(yōu)點：(1)提供了一個靈活的可同時監(jiān)測多個響應終點的框架；(2)允許停止規(guī)則隨期中樣本量而適應性改變，這提高了設計的檢驗效能，使治療有效時錯誤終止試驗的風險降低。在試驗早期，傾向于采用更寬松的停止規(guī)則以避免數(shù)據(jù)量較小帶來的提前終止有療效試驗的風險，隨試驗進展以及數(shù)據(jù)積累，則應采用更嚴格的停止規(guī)則來提前終止無療效的試驗；(3)停止規(guī)則可在試驗開始前給出，從而臨床研究者只需收集出現(xiàn)感興趣事件的受試者數(shù)，根據(jù)表中對應數(shù)據(jù)，就可獲得下一步?jīng)Q策的指導；(4)有效地控制一類錯誤率并具有較高的檢驗效能[1]。

BOP2設計作為一種貝葉斯設計方法，其先驗分布的選取是在設計時需要考慮的，Yuan主要討論了基于模糊先驗的研究結(jié)果。本文將在此基礎(chǔ)上，通過計算機模擬，研究BOP2設計在不同先驗參數(shù)設置下的統(tǒng)計性能以及先驗穩(wěn)健性，以期總結(jié)出BOP2對先驗指定的敏感性以及先驗選擇的一般規(guī)律，從而對BOP2的使用提供一些先驗選擇的參考建議。

研究方法

在腫瘤臨床試驗中，臨床試驗終點有如下四種類型，分別是：(1)二分類療效/毒性終點，如客觀緩解率(ORR)。如果ORR<20%則認為該設計無效，ORR>40%則認為該治療有效；(2)嵌套型療效終點，Cheson等人[2]將療效分為四個等級：完全緩解(CR)、部分緩解(PR)、疾病狀態(tài)穩(wěn)定(SD)、疾病進展(PD)。如果CR或PR的概率大于30%，或者CR的概率大于15%，則認為該藥物有效，否者無效。試驗終點CR是CR/PR的一部分，故稱之為嵌套型終點；(3)聯(lián)合有效性終點，如客觀緩解率和六個月內(nèi)無事件生存率(EFS6)。若ORR≤10%以及EFS6≤20%則認為治療無效，若EFS6>20%，或ORR>15%則認為該治療有效；(4)有效性和毒性終點，如同時考慮有效性終點ORR和毒性終點DLT，如果ORR<45%或DLT>30%則認為該治療無效[1]。

先驗分布一般包括四種類型，分別是：(1)無信息先驗，通常指概率密度函數(shù)扁平且發(fā)散不集中的先驗分布。該先驗分布推導出的后驗分布完全由當前數(shù)據(jù)主導，例如Beta(1，1)；(2)樂觀先驗，由于研究者對新藥的療效持有積極樂觀的態(tài)度，故該先驗分布傾向于對療效較好的區(qū)間賦予較大的概率，例如Beta(8，2)；(3)保守先驗，與樂觀先驗相反，對新藥的療效持謹慎保守的觀點，傾向于對療效較差的區(qū)間賦予較大的概率，例如Beta(2，8)；(4)臨床先驗分布，該先驗綜合不同臨床專家對新藥的認識，通過平均的方法來消除潛在的主觀因素的影響，因而它代表相對客觀的先驗。

Yuan[1]的團隊已經(jīng)證明了在先驗樣本量為1的模糊先驗下，BOP2設計具有嚴格控制一類錯誤率以及保證較高檢驗效能的優(yōu)良統(tǒng)計表現(xiàn)。本文主要研究BOP2在無信息先驗、樂觀先驗和保守先驗下的表現(xiàn)。

(1)無信息先驗

(2)樂觀先驗及保守先驗

樂觀先驗以及保守先驗的設定可根據(jù)先驗樣本量n及各分類終點先驗概率期望E(θk)獲得，即

本文取零假設(治療無效)作為保守先驗分布的E(θ)，備擇假設(治療有效)作為樂觀先驗分布的E(θ)。如嵌套終點的案例中，零假設和備擇假設分別為：H0：CR=0.15&(CR/PR)=0.30；H1：CR=0.25&(CR/PR)=0.50。因此，對于嵌套終點Y={CR，PR，SD，PD}，保守先驗的E(θ)=(0.15，0.15，0.30，0.40)，樂觀先驗的E(θ)=(0.25，0.25，0.25，0.25)。此外，本文同時考慮了先驗樣本量n對BOP2統(tǒng)計性能的影響，分別模擬了先驗樣本量為1、3、5、7、10的保守和樂觀先驗的結(jié)果。

模擬試驗

本文對各類終點下的BOP2設計分別進行了模擬研究，各終點得出的敏感性結(jié)論相似。由于篇幅限制，本文僅呈現(xiàn)其中具有代表性的嵌套型療效終點的模擬研究，通過模擬研究比較BOP2設計在無信息先驗，保守先驗以及樂觀先驗下的統(tǒng)計性能?？紤]嵌套終點Y={CR，PR，SD，PD}，其零假設以及備擇假設為

H0：CR=0.15&(CR/PR)=0.30，

H1：CR=0.25&(CR/PR)=0.50。

本模擬設置了8個代表不同藥物實際療效的場景，從場景1至場景8參數(shù)的選擇代表實際療效逐漸增加且基本涵蓋了CR以及(CR/PR)的可能范圍。場景1為零假設場景，場景7為備擇假設場景。最大樣本量N=40，前10個受試者接受治療后開展第一次期中分析，往后每有5個受試者接受治療開展一次期中分析，直至達到最大樣本量。期中分析停止準則及閾值均和BOP2設計原文一致。一類錯誤率控制為10%。每個場景分別用R 3.6.0軟件模擬10000次。

BOP2設計的統(tǒng)計性能考察指標主要有以下三項：(1)拒絕零假設的概率(percentage of rejecting the null hypothesis，PRN)，定義為模擬試驗中拒絕零假設的試驗的比例，因此當零假設為真(假)，PRN為一類錯誤率(檢驗效能)；(2)早期停止試驗的概率(percentage of early termination，PET)，因治療無效而早期停止的試驗的比例；(3)樣本量：10000次模擬試驗的平均樣本量。

表1～3分別是嵌套終點的BOP2設計在不同無信息先驗、保守和樂觀先驗下所得到的PRN、PET和樣本量。

表1 嵌套終點BOP2設計在不同無信息先驗下的PRN、PET和樣本量

表1展示了BOP2設計在四種無信息先驗下的模擬結(jié)果。場景1至場景8的參數(shù)設置分別模擬了由低到高的實際療效。由表1可知，在場景1(治療無效)下，除Bayes-Laplace先驗的一類錯誤率(PRN)超出預設的10%外，其他三種無信息先驗的一類錯誤率均為9.20%，小于預設的閾值10%。說明在以上無信息先驗下的BOP2設計均有效地控制了一類錯誤率。在場景7以及場景8下，真實療效滿足備擇假設(有效)時，檢驗效能(PRN)均高于87.10%，并在場景8達到了97.87%，這說明無信息先驗下BOP2設計具有理想的檢驗效能。隨著場景1到場景8真實療效逐漸提升，無信息先驗下試驗因無效而早期停止的概率逐漸降低，并保證了有較高的概率在早期停止無療效的試驗以及有效避免在早期錯誤停止有療效的試驗。如場景1有76.20%的概率正確的在早期停止試驗，場景8僅有1.57%的早期停止概率?？偟膩碚f，除Bayes-Laplace先驗以外，其他三種無信息先驗的模擬結(jié)果相似且在不同場景下都有較好的統(tǒng)計性能和穩(wěn)健性。

表2展示了BOP2設計在不同先驗樣本量的保守先驗下的模擬結(jié)果，基于對新藥療效的保守判斷，取零假設(治療無效)作為表2中保守先驗分布的E(θ)，即E(θ)=(0.15，0.15，0.30，0.40)。由表2可知，不同先驗樣本量的保守先驗的模擬結(jié)果相似。在場景1下，一類錯誤率(PRN)均小于預設的閾值10%，證明了保守先驗下的BOP2設計能有效地控制一類錯誤率。在場景7以及場景8下，即真實療效滿足備擇假設(有效)時，模型檢驗效能(PRN)均大于85.50%，并在場景8達到了96.00%，說明保守先驗下BOP2設計具有與無信息相似的較高檢驗效能。隨著場景1到場景8真實療效逐漸提升，早期停止試驗的概率從場景1的82.10%降至場景8的3.0%，說明了BOP2設計在保守先驗下也具有較高的概率在早期停止無療效的試驗，并有效避免有療效的試驗在早期被停止。綜上，保守先驗在不同場景以及不同先驗樣本量下均有良好的統(tǒng)計性能和穩(wěn)健性。

表2 保守先驗的嵌套終點類型BOP2設計在不同先驗樣本量下的PRN、PET和樣本量

表3展示了BOP2設計在不同先驗樣本量的樂觀先驗下的模擬結(jié)果，基于對新藥療效的樂觀判斷，取備擇假設(治療有效)作為表3中樂觀先驗分布的E(θ)，即E(θ)=(0.25，0.25，0.25，0.25)。由表3可知，在場景1下，先驗樣本量大于3的樂觀先驗的一類錯誤率(PRN)均超過預設的閾值10%，說明樂觀先驗與實際療效不符合時，易引起一類錯誤率膨脹。在場景7以及場景8下，即樂觀先驗與真實療效一致時，BOP2設計的檢驗效能(PRN)均高于87.12%，并在場景8達到99.15%；錯誤地早期停止有療效的試驗的概率均低于6.23%，且在場景8達到低于1%。說明若樂觀先驗與實際療效一致，則能提升檢驗效能并降低在試驗早期停止有療效試驗的概率。值得注意的是，不同先驗樣本量的樂觀先驗的統(tǒng)計表現(xiàn)不同。當先驗與真實療效一致時，先驗樣本量越大，BOP2設計的統(tǒng)計性能越好；反之，當先驗與真實療效相悖時，先驗樣本量越大對統(tǒng)計性能危害越大，這說明BOP2設計對樂觀先驗的先驗樣本量是敏感的?？偟膩碚f，樂觀先驗下BOP2設計的統(tǒng)計表現(xiàn)不夠穩(wěn)健，當樂觀先驗與真實療效相悖時，將損失BOP2設計的統(tǒng)計性能，只有當樂觀先驗與真實療效相一致時，才能提升BOP2設計的統(tǒng)計表現(xiàn)。

表3 樂觀先驗的嵌套終點類型BOP2設計在不同先驗樣本量下的PRN、PET和樣本量

討論

本文通過大量模擬研究比較了BOP2設計在常見的幾種先驗分布下的統(tǒng)計性能。結(jié)果表明，BOP2設計在保守先驗和部分無信息先驗下都有較為穩(wěn)健的統(tǒng)計性能。當藥物實際療效較差時，BOP2設計可以嚴格地控制一類錯誤率；當藥物實際療效很好時，有理想的檢驗效能。無信息先驗中的Bayes-Laplace先驗易引起一類錯誤率的膨脹，因此應謹慎使用該先驗。保守先驗的先驗樣本量對結(jié)果無顯著影響。BOP2設計在樂觀先驗下的表現(xiàn)較為敏感，當且僅當在藥物實際療效較好時，引入樂觀先驗才會獲得良好的統(tǒng)計性能，而當藥物實際療效較差時，引入樂觀先驗則極易引起一類錯誤率的膨脹?？偟膩碚f，保守先驗是所有試驗先驗中最穩(wěn)健的一個選擇，這也與BOP2網(wǎng)頁應用程序的默認先驗相符合。

綜上所述，在使用BOP2時，BOP2網(wǎng)頁APP的默認先驗是最穩(wěn)健的選擇。若研究者對試驗藥物療效持十分樂觀態(tài)度，也可以謹慎地選擇樂觀先驗以提高檢驗效能。筆者希望通過本文，為廣大BOP2用戶在選擇先驗分布上提供可靠、科學的建議，以期提升BOP2的應用效能。BOP2網(wǎng)頁應用程序可見http：//www.trialdesign.cn。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

BOP2試驗設計方法的先驗敏感性分析研究*

研究方法

模擬試驗

討 論

討論