張 穎 李 迅 費(fèi)宇彤 劉建平
(北京中醫(yī)藥大學(xué)循證醫(yī)學(xué)中心,北京,100029)
傾向指數(shù)用于中醫(yī)藥非隨機(jī)設(shè)計(jì)臨床療效評(píng)價(jià)的思考
張 穎 李 迅 費(fèi)宇彤 劉建平
(北京中醫(yī)藥大學(xué)循證醫(yī)學(xué)中心,北京,100029)
盡管隨機(jī)對(duì)照試驗(yàn)是臨床干預(yù)研究因果推斷的金標(biāo)準(zhǔn),但是在中醫(yī)藥臨床研究的現(xiàn)實(shí)中,由于倫理、治療措施的特征、費(fèi)用、時(shí)間以及外部效度問(wèn)題,隨機(jī)對(duì)照試驗(yàn)往往無(wú)法實(shí)施甚至在某些情況下不適用。因果推論的本質(zhì)是一個(gè)反事實(shí)問(wèn)題。隨機(jī)對(duì)照試驗(yàn)通過(guò)隨機(jī)化來(lái)平衡可能影響干預(yù)分配的特征變量。傾向指數(shù)可以應(yīng)用于非隨機(jī)設(shè)計(jì)的觀察性研究,如前瞻性隊(duì)列研究,作為諸多特征變量的一個(gè)復(fù)合函數(shù),用于均衡暴露組和對(duì)照組之間特征變量的分布。在滿足一定前提條件的情況下,傾向指數(shù)分析法可以提供干預(yù)效果的無(wú)偏估計(jì)。因此,在中醫(yī)藥觀察性的臨床研究中,傾向指數(shù)可能具有廣闊的應(yīng)用價(jià)值和潛力。
干預(yù);非隨機(jī)設(shè)計(jì);因果推斷;傾向指數(shù)
從循證醫(yī)學(xué)的證據(jù)分級(jí)體系來(lái)看,隨機(jī)對(duì)照臨床試驗(yàn)(Randomized Controlled Trial,RCT)是科學(xué)研究探索因果關(guān)系的最理想的金標(biāo)準(zhǔn)設(shè)計(jì)方案,位于證據(jù)體的最高級(jí)[1]。因此,在理想情況下,隨機(jī)對(duì)照臨床試驗(yàn)是評(píng)價(jià)醫(yī)療干預(yù)效果的最佳方式。統(tǒng)計(jì)學(xué)的傳統(tǒng)觀點(diǎn)認(rèn)為,對(duì)采用隨機(jī)化方法得到的試驗(yàn)數(shù)據(jù)所進(jìn)行的因果推論,其本質(zhì)是一個(gè)反事實(shí)問(wèn)題。反事實(shí)就是在導(dǎo)致結(jié)果的原因(例如,影響疾病預(yù)后的治療措施)不存在的情況下會(huì)發(fā)生的潛在結(jié)果(potential outcome)或事件狀態(tài)(state of affairs)[2]。所以,在處于干預(yù)狀態(tài)下的對(duì)象而言,反事實(shí)就是處于控制狀態(tài)下的潛在結(jié)果;對(duì)于處于控制狀態(tài)的對(duì)象而言,反事實(shí)就是處在干預(yù)狀態(tài)下的潛在結(jié)果。在統(tǒng)計(jì)學(xué)理論界,通常將此概念框架稱為因果關(guān)系的Neyman-Rubin反事實(shí)框架(Neyman-Rubin counterfactual framework of causality)[3-4]。
既然反事實(shí)是一種潛在結(jié)果,那么它在真實(shí)數(shù)據(jù)(real data)中是無(wú)法被觀測(cè)到的,而隨機(jī)對(duì)照試驗(yàn)是如何去獲得反事實(shí)的呢?最為關(guān)鍵的環(huán)節(jié)是隨機(jī)化。隨機(jī)化創(chuàng)造一種類似于實(shí)驗(yàn)條件的研究環(huán)境,使得干預(yù)組和對(duì)照組的分配符合預(yù)先設(shè)定的概率(例如,對(duì)于1∶1設(shè)計(jì)的試驗(yàn),每個(gè)對(duì)象將有50%的概率被分配到干預(yù)組或?qū)φ战M),從而保證2組的一切特征變量(協(xié)變量),包括可觀察的和不可觀察的,具有相同的分布。從統(tǒng)計(jì)學(xué)的角度,認(rèn)為經(jīng)過(guò)隨機(jī)分配的干預(yù)組和對(duì)照組是同質(zhì)的,即使存在差異,也不應(yīng)影響到評(píng)價(jià)結(jié)果,因?yàn)檫@種差異往往是由于機(jī)遇造成的。由此,可以認(rèn)為干預(yù)組的干預(yù)效果和對(duì)照組參與干預(yù)的效果相同。借助統(tǒng)計(jì)學(xué)的手段,通過(guò)考察樣本中未暴露于干預(yù)中的對(duì)象的結(jié)果來(lái)探究干預(yù)對(duì)樣本對(duì)象(已接受干預(yù)的)的因果效應(yīng)。
中醫(yī)藥作為防治疾病的措施,已經(jīng)有幾千年的歷史[5]。雖然其產(chǎn)生和發(fā)展過(guò)程伴隨著長(zhǎng)期應(yīng)用于人體的經(jīng)驗(yàn)探索和實(shí)踐,但對(duì)其對(duì)有效性的論證依然無(wú)法回避因果關(guān)系的推論過(guò)程。
目前,國(guó)內(nèi)已經(jīng)有大量的中醫(yī)藥隨機(jī)對(duì)照試驗(yàn)的報(bào)告發(fā)表,但是其質(zhì)量往往參差不齊,而且引起了國(guó)內(nèi)外的廣泛關(guān)注[6]。要改善這一現(xiàn)象,一方面要提高中藥隨機(jī)對(duì)照試驗(yàn)的質(zhì)量和報(bào)告規(guī)范,另一方面則要探索適宜中醫(yī)藥特色的設(shè)計(jì)方法。事實(shí)上,在中醫(yī)藥的臨床研究實(shí)踐中,隨機(jī)對(duì)照試驗(yàn)并不適用于任何情況。首先,和西方現(xiàn)代醫(yī)學(xué)相比,中醫(yī)藥的理論、診斷、治療和語(yǔ)言都自成一體[7],目前全面借鑒國(guó)際統(tǒng)一的化學(xué)藥品臨床研究的方法和標(biāo)準(zhǔn),不利于中藥的評(píng)價(jià),也不能體現(xiàn)中醫(yī)藥的特點(diǎn)和優(yōu)勢(shì)[8]。同時(shí),在中醫(yī)藥臨床試驗(yàn)中采用隨機(jī)、盲法和安慰劑也會(huì)面臨一系列倫理問(wèn)題[9]。
隨機(jī)對(duì)照試驗(yàn)無(wú)法解決治療個(gè)體化的問(wèn)題,即在試驗(yàn)過(guò)程中不允許按照每個(gè)對(duì)象“望聞問(wèn)切”的不同情況,隨時(shí)調(diào)整不同組方的配伍和劑量。而使用了辯證論治過(guò)程的隨機(jī)對(duì)照試驗(yàn),也會(huì)面臨來(lái)自研究者的診療偏倚和研究結(jié)果的外部真實(shí)性較差的挑戰(zhàn)。還有,與化學(xué)藥物的隨機(jī)對(duì)照試驗(yàn)不同,到中醫(yī)醫(yī)院就診的患者,對(duì)中醫(yī)藥治療有很強(qiáng)的選擇傾向。在這種情況下,無(wú)法通過(guò)隨機(jī)化對(duì)患者實(shí)施非中醫(yī)藥的干預(yù),哪怕是對(duì)照組接受單純西藥,對(duì)許多慢性病或腫瘤患者來(lái)說(shuō)也是不符合倫理的。從另一個(gè)方面看,在中醫(yī)藥醫(yī)療實(shí)踐的一些特殊情況中,如對(duì)中醫(yī)綜合治療效果的評(píng)價(jià),非隨機(jī)化研究是不可或缺的研究方法。例如,當(dāng)研究的關(guān)注點(diǎn)在于考察中醫(yī)藥在更廣泛條件下遠(yuǎn)期療效和安全性問(wèn)題時(shí),就需要采用注冊(cè)試驗(yàn)(registry study)或真實(shí)世界研究(real world study),通常是經(jīng)過(guò)長(zhǎng)時(shí)間的隊(duì)列觀察才能實(shí)現(xiàn)。
非隨機(jī)設(shè)計(jì)的觀察性研究,可以克服諸多的倫理學(xué)因素的限制,而且數(shù)據(jù)更能代表臨床實(shí)踐中實(shí)際存在的疾病譜和患者的構(gòu)成。然而,觀察性研究在進(jìn)行因果推斷時(shí)能否像隨機(jī)對(duì)照那樣去獲得反事實(shí)呢?現(xiàn)實(shí)中,采用非隨機(jī)化的方法得到的觀察性研究數(shù)據(jù),往往會(huì)在諸多特征變量上出現(xiàn)組間不均衡的狀態(tài),這樣對(duì)干預(yù)效果的分析和判斷就會(huì)比隨機(jī)對(duì)照試驗(yàn)更加復(fù)雜。用于校正組間不均衡狀態(tài)的常用方法主要是最小二乘(Ordinary Least Squares,OLS)回歸,這種方法將重要的特征變量都納入到回歸方程。如果能滿足Gauss -Markov經(jīng)典線性回歸模型的全部假設(shè),即誤差項(xiàng)的均值為零、同方差和互不相關(guān),最小二乘估計(jì)將是最佳線性的無(wú)偏估計(jì)(Best Linear Unbiased Estimator,BLUE)。但遺憾的是,在真實(shí)世界中應(yīng)用最小二乘回歸進(jìn)行因果推斷時(shí),這些假設(shè)必將面臨一系列的質(zhì)疑。
為了克服傳統(tǒng)統(tǒng)計(jì)方法的局限,傾向指數(shù)(Propensity Score,PS)正獲得越來(lái)越廣闊的應(yīng)用空間。傾向指數(shù),又稱傾向值、傾向分?jǐn)?shù)或傾向評(píng)分,它的提出緣起于研究者們對(duì)社會(huì)科學(xué)領(lǐng)域中廣泛存在的觀察性研究的因果關(guān)系的推斷方法的探討。Rosenbaum和Rubin在1983年首次提出傾向指數(shù)這一術(shù)語(yǔ)[10],它是指在給定已觀察到的協(xié)變量的條件下暴露于干預(yù)的概率。傾向指數(shù)從統(tǒng)計(jì)方法的角度按照反事實(shí)框架獲得觀察性研究的因果推論[11]。它將觀察對(duì)象的多個(gè)特征變量表示為一個(gè)函數(shù),然后通過(guò)傾向指數(shù)的匹配來(lái)均衡暴露組和對(duì)照組間的特征變量的分布。以此過(guò)程來(lái)實(shí)現(xiàn)比較2組觀察對(duì)象在結(jié)果變量(因變量)上的差異的目的。
傾向指數(shù)的應(yīng)用就類似對(duì)觀察性研究數(shù)據(jù)的特征變量進(jìn)行了類似隨機(jī)化的均衡處理。Rosenbaum和Rubin認(rèn)為,傾向指數(shù)具有如下的性質(zhì):
1)傾向指數(shù)可以均衡暴露組和對(duì)照組之間在諸多特征變量上的差異。傾向指數(shù)概括了所有觀測(cè)到的特征變量的值,是一個(gè)復(fù)合值(coarsest score),而每一個(gè)特征變量都是一個(gè)精確值(finest score)。經(jīng)過(guò)推導(dǎo)可以證明,一個(gè)復(fù)合值可以充分平衡暴露組與對(duì)照組之間在精確值上被觀察到的差異,也即,暴露組和對(duì)照組的對(duì)象,只要具有相同的傾向指數(shù),那么在觀察到的特征變量上具有相同的分布。暴露組和對(duì)照組的對(duì)象如果在某個(gè)特征變量的取值上存在差異,這種差異也是隨機(jī)差異(chance differences),或機(jī)遇造成的差異,而不是系統(tǒng)差異(systematic differences)。
2)在既定傾向指數(shù)的情況下,干預(yù)分配和觀測(cè)到的特征變量有條件地相互獨(dú)立,即滿足強(qiáng)可忽略治療分配(strongly ignorable treatment assignment)的假定。這一性質(zhì)使得在控制了傾向指數(shù)的條件下,每一個(gè)觀察對(duì)象具有相同的概率被分配到暴露組,因此和隨機(jī)對(duì)照試驗(yàn)的效果一樣。
3)對(duì)于具有相同傾向指數(shù)的所有對(duì)象來(lái)講,暴露組和對(duì)照組之間的結(jié)局變量上的均值差是該傾向指數(shù)上的平均干預(yù)效應(yīng)(Average Treatment Effect,ATE)的無(wú)偏估計(jì)。根據(jù)反事實(shí)框架理論,研究者不能同時(shí)觀察到同一研究對(duì)象上的兩種潛在結(jié)局(即暴露狀態(tài)下和非暴露狀態(tài)下的結(jié)果),所以,必須借助于暴露組和對(duì)照組之間的平均值來(lái)估計(jì)反事實(shí)。
然而,傾向指數(shù)也有自身的局限。它的應(yīng)用前提是,與治療分配相關(guān)的所有特征變量都被準(zhǔn)確的測(cè)量,在此前提下,從傾向指數(shù)獲得的干預(yù)效果的估計(jì)才是無(wú)偏的。而且,暴露組和對(duì)照組的組間特征變量要有足夠的重疊,即有相當(dāng)大的共同支持域(common support region)。鑒于特征變量的混雜效應(yīng)廣泛的存在于非隨機(jī)的觀察性研究中,傾向指數(shù)的應(yīng)用需要有大樣本量作為前提,從而保證暴露組和對(duì)照組之間傾向指數(shù)分布的均衡性。樣本量越大,特征變量之間的均衡性越好。
總之,在中醫(yī)藥治療的臨床評(píng)價(jià)研究中,非隨機(jī)的大樣本觀察性研究數(shù)據(jù)對(duì)于治療效果的因果推論仍然具有很大的價(jià)值和潛力。傾向指數(shù)的應(yīng)用將會(huì)更好的控制可觀測(cè)的特征變量的差異,獲得最佳效應(yīng)的估計(jì)值。
[1]劉建平.傳統(tǒng)醫(yī)學(xué)證據(jù)體的構(gòu)成及證據(jù)分級(jí)的建議[J].中國(guó)中西醫(yī)結(jié)合雜志,2007,27(12):1061-1065.
[2]Shadish,W.R.,Cook,T.D.,&Campbell,D.T..Experimental and quasi -experimental designs for generalized causal inference[M].Boston:Houghton Mifflin,2002.
[3]Neyman,J..Statistical problems in agricultural experiments[J].Supplement to the Journal of the Royal Statistical Society,1935,2(2):107-180.
[4]Rubin,D.B..Estimating causal effects of treatments in randomized and nonrandomized studies[J].Journal of Educational Psychology,1974,66(5):688-701.
[5]陳蔚文.中藥學(xué)[M].2版.北京:人民衛(wèi)生出版社,2013.
[6]費(fèi)宇彤,劉建平.國(guó)際草藥CONSORT聲明及中藥臨床試驗(yàn)報(bào)告規(guī)范化問(wèn)題思考[J].中國(guó)中藥雜志,2008,33(1):89-94.
[7]劉建平.中醫(yī)藥臨床試驗(yàn)的方法學(xué)問(wèn)題與挑戰(zhàn):循證醫(yī)學(xué)的觀點(diǎn)[J].中西醫(yī)結(jié)合學(xué)報(bào),2006,4(1):1-6.
[8]沈玉紅,彭真,張珂良.中藥臨床試驗(yàn)現(xiàn)狀及對(duì)策分析[J].中國(guó)新藥雜志,2013,22(20):2365-2368.
[9]范昕,李康,馬葆華,等.中藥臨床試驗(yàn)中若干醫(yī)學(xué)倫理學(xué)問(wèn)題[J].中醫(yī)藥學(xué)報(bào),2012,40(1):7-10.
[10]Rosenbaum PR.Rubin D B.The central role of the propensity score in observational studies for causaleffects[J].Biometrika,1983,70(1):41-55.
[11]辛濤,姜宇.教育科學(xué)的因果推論:困境與超越[J].清華大學(xué)教育研究,2013,34(3):1-6.
(2014-09-21收稿 責(zé)任編輯:洪志強(qiáng))
Propensity Score and the Intervention Effects of Chinese M ed icine in Non-random ized Clinical Study
Zhang Ying,Li Xun,F(xiàn)ei Yutong,Liu Jianping
(Evidence Based Medicine Center,Beijing University of ChineseMedicine,Beijing 100029,China)
Randomized controlled trial(RCT)is the golden standard design tomake causal inference on intervention effects in clinical trials.While,in the research reality of Chinesemedicine,RCTs could not be conducted,even not applicable,due to ethical issue,characters of the intervention,cost,time and external validity.The essence of causal inference is counterfactual framework.All kinds of covariates could be balanced in RCTs via randomization.Propensity score(PS)is a composite score which could balance the distribution of covariates between intervention and control group.PS could provide unbiased estimate of intervention effectwhen critical assumptions are met.For the observational studies of Chinesemedicine,such as prospective cohort study,PSwill have wide app lication and huge potential.
Intervention;Non-randomized design;Causal inference;Propensity score
R195
A
10.3969/j.issn.1673-7202.2014.10.005
北京中醫(yī)藥大學(xué)優(yōu)秀青年骨干教師專項(xiàng)計(jì)劃課題(編號(hào):2014-QNJSZX006);北京中醫(yī)藥大學(xué)創(chuàng)新團(tuán)隊(duì)(編號(hào):2011-CXTD-09);國(guó)家中醫(yī)藥管理局2012年度中醫(yī)藥行業(yè)科研專項(xiàng)“中醫(yī)臨床研究水平及能力提升模式研究”(編號(hào):201207007)資助