王素珍,孟維靜,趙曉蒙,呂軍城,石福艷
濰坊醫(yī)學(xué)院公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室 261053
△女,1967年1月生,博士,教授,研究方向:臨床試驗(yàn)設(shè)計(jì)方法及信息處理,E-mail:wangsz@wfmc.edu.cn
經(jīng)傾向指數(shù)匹配后的肝癌患者療效評(píng)價(jià)*
王素珍△,孟維靜,趙曉蒙,呂軍城,石福艷
濰坊醫(yī)學(xué)院公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室 261053
△女,1967年1月生,博士,教授,研究方向:臨床試驗(yàn)設(shè)計(jì)方法及信息處理,E-mail:wangsz@wfmc.edu.cn
傾向指數(shù);匹配法;肝癌;生存分析
目的:將肝癌患者分為介入治療(TACE)和介入加放療(TCR)2組,用傾向指數(shù)匹配法均衡組間的協(xié)變量,評(píng)價(jià)2種治療方式的效果。方法:采用logistic回歸模型計(jì)算肝癌患者的傾向指數(shù),然后按照傾向指數(shù)進(jìn)行組間卡鉗匹配,對(duì)匹配后的數(shù)據(jù)進(jìn)行生存分析。結(jié)果:匹配前2組的生存率差異無(wú)統(tǒng)計(jì)學(xué)意義,Log-Rank檢驗(yàn)的χ2= 1.792,P=0.181;匹配后差異有統(tǒng)計(jì)學(xué)意義,Log-Rank檢驗(yàn)的χ2=4.026,P=0.045。結(jié)論:采用傾向指數(shù)匹配法能有效降低混雜偏倚,對(duì)肝癌患者的治療效果做出正確評(píng)價(jià)。
評(píng)價(jià)藥物或者治療方法的最佳方案是隨機(jī)對(duì)照的臨床試驗(yàn),然而在實(shí)際應(yīng)用中,受倫理學(xué)等因素的限制,隨機(jī)化的實(shí)現(xiàn)往往面臨較大困難[1-2]。當(dāng)隨機(jī)化難以實(shí)現(xiàn)或者遭到破壞時(shí),混雜因素就不可避免的存在于不同處理組之間,導(dǎo)致治療效果的判斷變得復(fù)雜起來(lái),因此無(wú)法判定組間的差異是由于治療所致還是由于組間的分配不平衡造成。為了對(duì)組間差異做出正確的評(píng)價(jià),需要首先平衡掉混雜因素,傾向指數(shù)法是解決此問(wèn)題的一種實(shí)用方法[3-4]。
1.1 傾向指數(shù)匹配法的原理 傾向指數(shù)方法是由Rosenbaum和Rubin在1983年首次提出[5],其主要目的是通過(guò)均衡組間各個(gè)混雜因素變量的可比性來(lái)降低偏倚,其實(shí)質(zhì)是將多個(gè)協(xié)變量的影響因素用一個(gè)傾向指數(shù)來(lái)表示,根據(jù)傾向指數(shù)進(jìn)行不同治療組間的匹配,對(duì)觀測(cè)性數(shù)據(jù)的非研究混雜因素進(jìn)行類(lèi)似隨機(jī)化的均衡處理[6]。
傾向指數(shù)是按照給定的一組特征變量(xm)將任意一個(gè)研究對(duì)象i(i=1,2,…,N)劃分到治療組(Zi=1)的條件概率,第i個(gè)研究對(duì)象被分配到治療組的概率可以表達(dá)為:
假定分組變量Zi和特征變量xi相互獨(dú)立,則對(duì)任意一個(gè)觀測(cè)變量xi,
e(Xi),即P,被稱(chēng)為“傾向指數(shù)”。
假設(shè)從治療組選出研究對(duì)象i,則e(X)=pri(Z=1|X=xi),再?gòu)膶?duì)照組選出一個(gè)研究對(duì)象j,那么e(X)=prj(Z=0|X=xj);如果Pri=Prj,則必然有xi=xj。經(jīng)過(guò)傾向指數(shù)調(diào)整的組間個(gè)體,除了處理因素和結(jié)果變量分布不同外,其他協(xié)變量應(yīng)當(dāng)均衡可比,相當(dāng)于“事后隨機(jī)化”,使觀察性數(shù)據(jù)達(dá)到“接近隨機(jī)分配數(shù)據(jù)”的效果[7-8]。
傾向指數(shù)匹配法是在通過(guò)模型估計(jì)傾向指數(shù)后,從對(duì)照組中選出與暴露組傾向指數(shù)相同或相近的個(gè)體進(jìn)行配對(duì),達(dá)到均衡組間協(xié)變量的目的[9]。匹配時(shí)如果將暴露組與對(duì)照組個(gè)體傾向指數(shù)差值設(shè)定在某個(gè)范圍內(nèi),即為卡鉗匹配[10]。
1.2 資料來(lái)源 所有肝癌病例來(lái)自2004年至2010年山東省腫瘤醫(yī)院收治的患者,旨在評(píng)價(jià)2種治療方式對(duì)肝癌患者生存時(shí)間的影響[11]。收集的指標(biāo)有性別(1=男,0=女)、年齡、職業(yè)(1=工人,2=農(nóng)民,3=干部,4=醫(yī)生,5=教師,6=其他)、Child分級(jí)(1=A級(jí),2=B級(jí),3=C級(jí))、家族史(1=有,0=無(wú))、是否有乙型肝炎(HBsAg陽(yáng)性) (1=是,0=否)、是否復(fù)發(fā)(1=是,0=否)、甲胎蛋白(AFP)、谷氨酰轉(zhuǎn)肽酶(GT)以及治療方式。其中,治療方式分為介入治療(TACE)和介入加放療(TACE combined radiation,TCR)2種。排除無(wú)法使用的病例,共計(jì)569例,其中TACE組患者292例,TCR組患者277例。生存時(shí)間在山東省腫瘤醫(yī)院隨訪科的配合下,由電話(huà)隨訪和書(shū)信隨訪獲得,隨訪時(shí)間為4 a。
1.3 統(tǒng)計(jì)學(xué)處理 ①以分組變量為因變量,協(xié)變量為自變量,建立logistic模型,根據(jù)模型計(jì)算每個(gè)肝癌患者的傾向指數(shù)。②以?xún)A向指數(shù)為依據(jù),進(jìn)行2組間的卡鉗匹配。為了盡量保留原始數(shù)據(jù)提供的信息,增加匹配成功的對(duì)數(shù),該次卡鉗值設(shè)置為0.15[9]。③2組間匹配效果的評(píng)價(jià),即協(xié)變量的均衡性比較,對(duì)于定量資料采用t檢驗(yàn),對(duì)于定性資料采用χ2檢驗(yàn)。④匹配后的生存分析:2組間的生存分析采用Kaplan-Meier法,生存率的比較采用logrank檢驗(yàn),檢驗(yàn)水準(zhǔn)α=0.05。傾向指數(shù)的匹配以及所有的統(tǒng)計(jì)分析均采用SAS 9.2。
2.1 匹配之前分析結(jié)果 原始資料中入選的協(xié)變量有:性別、職業(yè)、年齡、AFP、GT、Child分級(jí)、家族史、是否有乙肝(HBsAg陽(yáng)性)、腫瘤直徑、腫瘤數(shù)量等。采用傾向指數(shù)匹配之前,對(duì)2組間的協(xié)變量進(jìn)行統(tǒng)計(jì)分析,其中定量變量采用2組獨(dú)立樣本t檢驗(yàn),其中AFP變量方差不齊,采用t’檢驗(yàn);定性變量采用χ2檢驗(yàn),檢驗(yàn)結(jié)果如表1所示。所有協(xié)變量中年齡、Child分級(jí)、家族史、是否有乙肝(HBsAg陽(yáng)性)、腫瘤大小等變量在2組間的分配不平衡。
表1 傾向指數(shù)匹配前肝癌患者的協(xié)變量分布 例(%)
續(xù)表
對(duì)原始資料(未采用傾向指數(shù)匹配前的兩組資料)進(jìn)行生存分析,結(jié)果見(jiàn)表2。
表2 傾向指數(shù)匹配前2組肝癌患者的生存曲線(xiàn)比較
2.2 匹配之后分析結(jié)果 采用傾向指數(shù)法對(duì)2組數(shù)據(jù)進(jìn)行卡鉗匹配,共有215對(duì)匹配成功。2組肝癌患者協(xié)變量的均衡性比較顯示,匹配前不均衡的年齡、Child分級(jí)、家族史、是否有乙肝(HBsAg陽(yáng)性)以及腫瘤直徑等變量經(jīng)匹配后在2組的分配達(dá)到了平衡,結(jié)果見(jiàn)表3。
表3 傾向指數(shù)匹配后肝癌患者的協(xié)變量分布 例(%)
續(xù)表
用匹配之后的215對(duì)新樣本進(jìn)行生存分析,結(jié)果見(jiàn)表4。
表4 傾向指數(shù)匹配后2組肝癌患者的生存曲線(xiàn)比較
在隨機(jī)化無(wú)法實(shí)現(xiàn)的試驗(yàn)研究以及觀察性研究中,用傾向指數(shù)平衡組間協(xié)變量的不均衡不失為一種好的方法[12]。該研究采用卡鉗匹配法對(duì)肝癌患者的臨床觀測(cè)數(shù)據(jù)進(jìn)行匹配研究,分析了不同治療方式下肝癌患者的生存時(shí)間,為臨床大夫及患者選擇合適的治療方案提供有效參考。
傾向指數(shù)揭露了處理分配與潛在的混雜因素之間的聯(lián)系,能夠通過(guò)調(diào)整來(lái)均衡處理組和對(duì)照組間的協(xié)變量分布,得到處理效應(yīng)的無(wú)偏估計(jì),減少非隨機(jī)觀察性研究中的選擇性偏倚,并且能夠直接比較協(xié)變量在處理組和對(duì)照組之間的均衡性;同時(shí),通過(guò)傾向指數(shù)對(duì)組間混雜因素的調(diào)整,使大量的臨床觀測(cè)性數(shù)據(jù)可以成為循證醫(yī)學(xué)的診療證據(jù),而這些數(shù)據(jù)獲取成本低,更能夠反映醫(yī)療實(shí)踐中實(shí)際存在的疾病譜。另外,在混雜因素很多,結(jié)局變量發(fā)生率又很低的情況下,傳統(tǒng)的多元模型并不適合,此時(shí)采用傾向指數(shù)法無(wú)疑為明智的選擇。近年來(lái),傾向指數(shù)受到人們?cè)絹?lái)越多的關(guān)注,并被應(yīng)用到臨床觀測(cè)數(shù)據(jù)的評(píng)價(jià)之中。在傾向指數(shù)的諸多調(diào)整方法中,匹配法的最大優(yōu)點(diǎn)在于可以最大限度地保留原始樣本的信息。
在傾向指數(shù)匹配法應(yīng)用中,卡鉗值的選擇會(huì)影響匹配成功的對(duì)數(shù),卡鉗值越小,匹配精確度越高,匹配成功的對(duì)數(shù)越少;相反,卡鉗值越大,匹配精確度越低,匹配成功對(duì)數(shù)越多。研究結(jié)果表明最合適的卡鉗值是取2組傾向指數(shù)標(biāo)準(zhǔn)差的20%或者取2組間傾向指數(shù)絕對(duì)差值(卡鉗值)為 0.02或0.03[13]。該研究對(duì)2種方法均進(jìn)行了研究,發(fā)現(xiàn)2種方法得到的匹配后樣本有差別,后一種方法得到的樣本更少一些,但是最終的分析結(jié)果卻是一致的。為了保持原有樣本的結(jié)構(gòu),增加匹配成功的對(duì)數(shù),該次卡鉗值采用了前一種方法,即取2組傾向指數(shù)標(biāo)準(zhǔn)差的20%,為0.15。
匹配后的Ⅰ型錯(cuò)誤和檢驗(yàn)效能也是該研究中考慮的問(wèn)題,通過(guò)Monte Carlo模擬表明,經(jīng)傾向指數(shù)匹配后,Ⅰ型錯(cuò)誤未高于設(shè)定的名義檢驗(yàn)水準(zhǔn)(0.05);而檢驗(yàn)效能基本達(dá)到預(yù)期值。具體的模擬過(guò)程和參數(shù)設(shè)計(jì)見(jiàn)文獻(xiàn)[14]。
作者的研究結(jié)果表明,傾向指數(shù)匹配法是一種很好的處理非隨機(jī)化數(shù)據(jù)的方法,為以后非隨機(jī)化臨床試驗(yàn)數(shù)據(jù)的處理提供了理論基礎(chǔ)。
[1]Hong S,Youn YN,Yi G,et al.Long term results of ST-segment elevation myocardial infarction versus non-ST-segment elevation myocardial infarction after off-pump coronary artery bypass grafting:propensity score matching analysis[J].J Korean Med Sci,2012,27(2):153
[2]Berger JS,Herout PM,Harshaw Q,et al.Bleeding-associated outcomes with preoperative clopidogrel use in on-and off-pump coronary artery bypass[J].Thromb Thrombolysis,2012,34(1):56
[3]Wisnivesky JP,Halm EA,Bonomi M,et al.Postoperative radiotherapy for elderly patients with stageⅢ lung cancer[J].Cancer,2012,118(18):4478
[4]Oh KH,Hwang YH,Cho JH,et al.Outcome of early initiation of peritoneal dialysis in patients with end-stage renal failure[J].J Korean Med Sci,2012,27(2):170
[5]Little RJ,Rubin DB.Causal effects in clinical and epidemiological studies via potential outcomes:concepts and analytical approaches[J].Annu Rev Public Health,2000,21: 121
[6]Linden A,Adams JL.Combining the regression discontinuity design and propensity score-based weighting to improve causal inference in program evaluation[J].J Eval Clin Pract,2012,18(2):317
[7]Scrutinio D,Passantino A,Catanzaro R,et al.Inpatient cardiac rehabilitation soon after hospitalization for acute decompensated heart failure:a propensity score study[J].J Cardiopulm Rehabil Prev,2012,32(2):71
[8]鄭亮,夏結(jié)來(lái),王素珍,等.非隨機(jī)化臨床試驗(yàn)中傾向指數(shù)的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2009,36(15):2805
[9]王永吉,蔡宏偉,夏結(jié)來(lái),等.第二講:傾向指數(shù)常用研究方法[J].中華流行病學(xué)雜志,2010,31(5):584
[10]王永吉,蔡宏偉,夏結(jié)來(lái),等.第一講:傾向指數(shù)的基本概念和研究步驟[J].中華流行病學(xué)雜志,2010,31(3): 347
[11]張寶南,魏治鵬.血管內(nèi)皮抑素聯(lián)合肝動(dòng)脈化療栓塞對(duì)大鼠肝癌移植瘤組織血管生成的影響[J].鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2011,46(3):462
[12]Walsh P,Shanholtzer L,Loewen M,et al.A matched case control study with propensity score balancing examining the protective effect of paracetamol against parentally reported apnoea in infants[J].Resuscitation,2011,83(4):440
[13]Apolone G,Deandrea S,Montanari M,et al.Evaluation of the comparative analgesic effectiveness of transdermal and oral opioids in cancer patients:a propensity score analysis[J].Eur J Pain,2012,16(2):229
[14]孟維靜,王素珍,呂軍城,等.傾向指數(shù)分層法的模擬研究[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2002,29(4):542殖抑制率逐漸升高,表明EGCG能夠抑制A549細(xì)[J].J Cell Biochem,2008,103(2):509
Effect evaluation of hepatocellular carcinoma patients after propensity score matching
WANG Suzhen,MENG Weijing,ZHAO Xiaomeng,LV Juncheng,SHI FuyanDepartment of Health Statistics,School of Public Health,Weifang Medical College,Weifang 261053
propensity score;matching method;hepatocellular carcinoma;survival analysis
Aim:To evaluate the effects of transcatheter arterial chemoembolization(TACE)combined with or without radiation therapy on two groups of hepatocellular carcinoma(HCC)patients after balancing the covariates by propensity score.Methods:Each patient’s propensity score from the model was calculated and made caliper matching according to the propensity score.And then make survival analysis for the matched data.Results:There were no significant differences in the survival rate between the 2 groups before matching,with χ2of 1.792 and P of 0.181 from Log-Rank test.But the differences in the survival rate were statistically significant between the 2 groups after matching,with χ2of 4.026 and P of 0.045 from Log-Rank test.Conclusion:Propensity score matching method can effectively reduce the confounding bias of non-randomized clinical observational data,helping us evaluate the curative effect of HCC patients correctly.
R181.2
10.3969/j.issn.1671-6825.2012.06.007
*國(guó)家自然科學(xué)基金資助項(xiàng)目 81141112;山東省自然基金資助項(xiàng)目 ZR2009CM117
(2012-03-01收稿 責(zé)任編輯趙秋民)
鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2012年6期