程里禮,雷鵬,陶園,古輝云,張超,趙國忠
· 循證理論與實踐 ·
基于統(tǒng)計學(xué)角度:解讀固定效應(yīng)模型和隨機效應(yīng)模型
程里禮1,2,雷鵬2,陶園3,古輝云3,張超4,趙國忠2
大多數(shù)的Meta分析都會用到固定效應(yīng)模型和隨機效應(yīng)模型中的一種,固定效應(yīng)模型假設(shè)所有的納入研究擁有共同的真實效應(yīng)量,而隨機效應(yīng)模型中的真實效應(yīng)隨納入研究的不同而改變。運用的模型不同,所得到的合并后的效應(yīng)量均數(shù)值也不相同,這不僅體現(xiàn)在效應(yīng)量的均值上,更多的體現(xiàn)在每個納入研究權(quán)重的分配上,本文主要目的是深度解剖兩種模型以及兩種模型的假設(shè),區(qū)分其共同點和不同點,并通過兩種模型計算每個研究所占的權(quán)重和合并后效應(yīng)量的均數(shù)值,最后指出并比較其優(yōu)缺點。
隨機效應(yīng)模型;固定效應(yīng)模型;效應(yīng)量;統(tǒng)計學(xué)
系統(tǒng)評價/Meta分析是針對某一具體臨床問題,系統(tǒng)、全面地收集全世界所有已發(fā)表或未發(fā)表的臨床研究,采用臨床流行病學(xué)的原則和方法對研究進行嚴(yán)格的評價,篩選出符合納入標(biāo)準(zhǔn)的研究,進行定性或定量合成,從而得出可靠的結(jié)論[1]。1976年,Glass首次提出Meta分析是采用統(tǒng)計學(xué)方法總結(jié)獨立研究的結(jié)果。與單個研究的評價相比,Meta分析通過整合所有相關(guān)研究,可更精準(zhǔn)的估計衛(wèi)生保健的效果,并有利于探索各研究證據(jù)的一致性及研究間的差異性[2]。
目前,很多統(tǒng)計方法模型被用于Meta分析中,最常見的兩種模型為固定效應(yīng)模型(FEM)和隨機效應(yīng)模型(REM)。FEM假設(shè)所有的納入研究擁有共同的真實效應(yīng)量,而REM中的真實效應(yīng)隨研究的不同而改變。基于不同模型的運算,所得到的合并后的效應(yīng)量均數(shù)值也不相同[3]。早在1976年,第一篇Meta分析就使用FEM進行了數(shù)據(jù)合并,基于其統(tǒng)計簡潔性及異質(zhì)性認(rèn)知,致使FEM廣泛使用,直到2006年仍然有四分之三的Meta分析的文章在使用[4]。然而,隨著方法學(xué)不斷更新及異質(zhì)性理解,方法學(xué)家們對于證據(jù)合并內(nèi)在結(jié)構(gòu)理解與剖析,已開始逐漸對“理想”狀態(tài)的FEM產(chǎn)生疑問。隨后,REM逐漸被使用,并替代部分FEM,但至今對兩種模型理解錯誤與使用不當(dāng)?shù)默F(xiàn)象仍層出不窮,嚴(yán)重影響結(jié)果真實性與可靠性。
在很多系統(tǒng)評價/Meta分析中,F(xiàn)EM的假設(shè)是不合理的,當(dāng)納入一組研究進行Meta分析時,假設(shè)所有研究擁有足夠多的共同點從而使得合并后的效應(yīng)量均數(shù)有意義,然而就相同的真實效應(yīng)量而言,并沒有充分的理由假設(shè)所有研究是完全相同的[5]。有證據(jù)顯示,由于系統(tǒng)評價/Meta分析制作者水平良莠不齊,致使當(dāng)前已發(fā)表的系統(tǒng)評價/Meta分析文章并沒有考慮到這方面[6]。為了進一步探討兩種模型間差別及正確使用,本研究基于三個方面來解讀REM和FEM及如何正確擇選兩種模型。
1.1 FEM 假設(shè)所有納入的研究擁有共同的真實效應(yīng)量,或者除了隨機誤差外,所觀察效應(yīng)量均為真實效應(yīng)量。如比較對糖尿病黃斑水腫(DME)的抗血管內(nèi)皮生長因子(Anti-VEGF)藥物中aflibercept與bevacizumab療效,除了藥物自身療效外,其他患者背景、藥物使用情況及測量結(jié)局的工具等均“一致”,每個研究的觀察效應(yīng)量差別僅僅是由于抽樣誤差引起[7],也就是說,每個研究的觀察效應(yīng)量就“等于”其真實效應(yīng)量。Cochrane Handbook已明確指出,當(dāng)異質(zhì)性小于40%,建議采用FEM進行Meta合并,因此,F(xiàn)EM對各研究背景較為苛刻,僅適用于“理想化”研究背景。
1.2 REM 如上所訴,F(xiàn)EM中假設(shè)所有研究的真實效應(yīng)量是相同的,但在大多數(shù)的系統(tǒng)評價和Meta分析中這是很難實現(xiàn)的[8]。因為研究的對象很難保存同質(zhì)性,所以在REM中的真實效應(yīng)量會隨著不同的研究所改變,例如一個研究的效應(yīng)量可能比擁有不同年齡、教育背景、健康程度等參與者的研究的效應(yīng)量更高或更低,所以真實效應(yīng)量的大小不僅取決于樣本的抽樣誤差,還取決于參與者或研究對象以及進行的干預(yù)措施等,也可稱其為異質(zhì)性[2]。
2.1 FEM 假設(shè)納入研究擁有共同的真實效應(yīng)量,如圖1中圓圈所示,各研究合并的真實效應(yīng)量(θ)用倒三角表示??梢园l(fā)現(xiàn),對于FEM,所有研究真實效應(yīng)量都是相同的。每個研究的樣本量并非無限的,所以都會存在抽樣誤差(ε),從而導(dǎo)致了各研究的觀察效應(yīng)量(Y)不等于真實效應(yīng)量(如圖2中正方形所示),并且隨著研究的不同而不同,可以用公式θn=Yn+εn表示。
圖1 真實效應(yīng)量相同的各研究之間比較注:倒三角表示合并后的真實效應(yīng)量,圓圈代表單各研究的真實效應(yīng)量
圖2 各研究的抽樣誤差比較注:倒三角表示合并后的真實效應(yīng)量,圓圈代表單各研究的真實效應(yīng)量,正方形代表各研究的觀察效應(yīng)量
2.2 REM 在圖3中,由于每個研究人群的背景、年齡、教育程度、地理環(huán)境的因素的不同,導(dǎo)致各個真實效應(yīng)量也完全不同(成正態(tài)分布),同時也不同于合并的真實效應(yīng)量(μ),把兩者之間的差值叫做真實差值,并用ζ表示(如圖4)。由于抽樣誤差的成在,相互之間的觀察效應(yīng)量或多或少于真實效應(yīng)量,例如圖4中的Study3,觀察效應(yīng)量小于真實效應(yīng)量,而真實效應(yīng)量又小于合并的真實效應(yīng)量,所以在REM中,合并后的真實效應(yīng)量由兩種因素決定,即真實差值和抽樣誤差,可用公式θn=Yn+ζn+εn表示。
圖3 各研究的真實差值比較注:倒三角表示合并后的真實效應(yīng)量,圓圈代表單各研究的真實效應(yīng)量
圖4 各研究的真實差值與抽樣誤差的比較注:倒三角表示合并后的真實效應(yīng)量,圓圈代表單各研究的真實效應(yīng)量,正方形代表各研究的觀察效應(yīng)量
在Meta分析中,為了減少誤差獲得更加準(zhǔn)確的結(jié)果,每種模型的計算各不相同,主要體現(xiàn)在各個研究權(quán)重值的分配上,這也是兩種效應(yīng)模型的根本的區(qū)別所在。
3.1 FEM 在這種模型中,權(quán)重的分配主要依賴其精確度,每個研究的權(quán)重等于方差的倒數(shù)(公式1),樣本量越大,效應(yīng)量的方差就越大,那么相應(yīng)的權(quán)重分配就越多。因此大樣本的研究對總合并后效應(yīng)量的貢獻值相對于小樣本研究就更大,導(dǎo)致小樣本研究更容易被忽略,分配的權(quán)重也就更少[10]。
觀察效應(yīng)量的不同僅僅是由于抽樣誤差引起的,所以其方差V=VY(VY指的是觀察值方差,也可稱為組內(nèi)方差),每個研究的權(quán)重值為:
3.2 REM 與FEM不同,REM的總效應(yīng)量是各個研究真實效應(yīng)量的均數(shù)值,并非只注重大樣本量的研究,而是為了平衡每個研究的效應(yīng)量注重所有納入的研究[2],如小樣本研究也可以獲得多的權(quán)重,因為除了抽樣誤差的存在,大部分研究還存在真實差值,即異質(zhì)性,用τ2(也稱組間方差)來表示,那么單個研究的方差為:每個研究所分配的權(quán)重為:
從式5看出,納入研究的樣本量雖然小,精確度不高,但如果其異質(zhì)性小,τ2值接近于0,那么同樣可以獲得更多的權(quán)重。
Meta分析中,研究者對模型選擇的不同會得出不同的結(jié)論,甚至得出相反的結(jié)論[9]。下面實例很好的解釋了不同模型對每個研究分配的權(quán)重和最后結(jié)果的影響。
該部分引用郭健[10]的一項關(guān)于干細(xì)胞移植治療肝硬化的Meta分析,在設(shè)定嚴(yán)格納入和排除標(biāo)準(zhǔn)后,共納入7篇隨機對照實驗用于臨床評價,共617例患者,治療措施為干細(xì)胞移植,評價標(biāo)準(zhǔn)為術(shù)后1、2、3個月肝硬化患者的丙氨酸氨基轉(zhuǎn)移酶(ALT)、天門冬氨酸氨基轉(zhuǎn)移酶(AST)、凝血酶原時間(PT)、血清白蛋白水平(ALB)以及總膽紅素(TB)與術(shù)前的基線變化。本文只記錄了術(shù)后1個月TB的變化值,所有數(shù)據(jù)運算及模型選擇均在RevMan 5.3軟件進行,圖5與圖6分別為REM與FEM結(jié)果森林圖。
基于FEM與REM可見,采用不同的效應(yīng)模型,每項研究分配的權(quán)重也各不相同,如研究a6樣本量相對于其他研究為大樣本,在FEM中分配的權(quán)重為41.3%,而在REM中則為19.6%。同時不同效應(yīng)模型計算出的總效應(yīng)量也有區(qū)別,REM的總效應(yīng)量的置信區(qū)間比FEM更寬,值得注意的是,REM計算的合并效應(yīng)量的置信區(qū)間穿過了無效線,導(dǎo)致結(jié)果無統(tǒng)計學(xué)意義(圖5),相反,F(xiàn)EM合并效應(yīng)量的置信區(qū)間則沒有與無效線相交,使得結(jié)果更趨向于治療組。
圖5 術(shù)后1個月TB水平與術(shù)前比較(REM)
圖6 術(shù)后1個月TB水平與術(shù)前比較(FEM)
5.1 異質(zhì)性檢驗 進行一次Meta分析,在合并數(shù)據(jù)之前,要能夠正確、有效的發(fā)現(xiàn)異質(zhì)性,即行異質(zhì)性檢驗。以前用χ2檢驗作為異質(zhì)性檢驗的工具,現(xiàn)已發(fā)現(xiàn)小樣本研究的χ2檢驗缺乏檢驗效能[7],并且對異質(zhì)性的存在沒有統(tǒng)計學(xué)意義。目前最常用的異質(zhì)性檢驗方法分為統(tǒng)計量法和圖示法兩種。統(tǒng)計量法包括Q檢驗、I2檢驗和H檢驗,圖示法是通過視覺觀察對異質(zhì)性進行判斷,有森林圖、星狀圖、拉貝圖、加爾布雷斯圖等[2]。這里由于篇幅有限只對I2檢驗進行介紹,I2檢驗是Higgins等[11]在2003年提出新的異質(zhì)性評價指標(biāo),I2統(tǒng)計量指的是異質(zhì)性部分在效應(yīng)量總的變異中所占的比重。
總的變異Q的計算公式:
n是納入研究的例數(shù),W為每個研究所占的權(quán)重,Y為各個研究的觀察效應(yīng)量,M為所有效應(yīng)量合并后的加權(quán)均數(shù),也可以將Q稱為均數(shù)差的加權(quán)平方和(WSS)。
假設(shè)納入研究擁有共同的效應(yīng)量,算出的WSS為df,也就是納入研究的自由度,那么反映異質(zhì)性部分I2計算公式如下:
I2的取值范圍為0~100%,當(dāng)I2=0(如果I2為負(fù)值仍設(shè)為0)時,表明沒有觀察到異質(zhì),I2值越大則異質(zhì)性越大。在Cochrane手冊中依照I2值將異質(zhì)性分為4個程度[9]:0~40%、40%~60%、50%~90%、75%~100%依次為輕度、中度、較大和很大異質(zhì)性。I2作為一個率,用于描述各個研究所致的變異占總變異的百分比,克服了Q統(tǒng)計量對納入研究個數(shù)的依賴,可以更好地衡量多個研究結(jié)果間異質(zhì)性程度大小[1]。
5.2 異質(zhì)性處理 Meta分析的所有納入研究都存在異質(zhì)性,可以分為臨床異質(zhì)性、方法學(xué)異質(zhì)性和統(tǒng)計學(xué)異質(zhì)性。對于不同的異質(zhì)性類型,運用的處理方法各不相同,詳見圖7。
本研究重點僅在于對統(tǒng)計學(xué)異質(zhì)性進行處理說明,當(dāng)異質(zhì)性來源不能用臨床和方法學(xué)異質(zhì)性來解釋時,通??烧J(rèn)為該部分異質(zhì)性來源于統(tǒng)計學(xué)異質(zhì)性,采用處理方法是使用REM進行效應(yīng)量合并[2],為了使異質(zhì)性在統(tǒng)計學(xué)層面上進行實質(zhì)性隔離。在異質(zhì)性不明顯的情況下,REM與FEM計算結(jié)果相似,若異質(zhì)性非常明顯,則可提高估算的可信區(qū)間的精度,并同時增大檢驗效能[12]。
圖7 異質(zhì)性的處理方法
5.3 注意事項 根據(jù)研究關(guān)注同一效應(yīng)量的理解,如用同一方法或標(biāo)準(zhǔn)對同一藥物的多項研究、同一人群同一藥物的不同部位的研究以及同一人群同一藥物不同階段的研究等,這些都可以采用FEM,多數(shù)情況下無法判斷多個研究是不是完全關(guān)注同一效應(yīng),則使用REM比較穩(wěn)妥。最后應(yīng)當(dāng)避免先選FEM后再根據(jù)異質(zhì)性檢驗結(jié)果改為REM,大多數(shù)效應(yīng)模型應(yīng)用REM更合理,如果研究之間不存在異質(zhì)性時,隨機和固定效應(yīng)模型得出的結(jié)果一致。
如今,系統(tǒng)評價與Meta分析越來越備受關(guān)注,特別Meta分析,其潛在優(yōu)勢更加顯著,包括增加檢驗效能、提高準(zhǔn)確性、回答單個研究無法回答的問題和解決相互矛盾的觀點引發(fā)的爭論。運用的統(tǒng)計學(xué)模型也越來越多,除了上文講述的兩種模型外,Doi等提出一種新的加權(quán)模型,QE模型,這種模型的提出基于固定和REM的諸多缺陷,如:REM并未將偏倚對每項研究結(jié)果的影響進行考慮,且存在低估標(biāo)準(zhǔn)誤的風(fēng)險,導(dǎo)致合并結(jié)果同樣存在偏倚,剛好QE模型能夠很好的解決上述問題[13],當(dāng)然QE模型也存在一些缺陷。由于筆者知識有限,此文尚未將FEM和REM以及其他更好的模型講述透徹,有待進一步學(xué)習(xí)提高。
[1] 羅杰,冷衛(wèi)東. 系統(tǒng)評價/Meta分析理論與實踐[M]. 北京:軍事醫(yī)學(xué)科學(xué)出版社,2013.
[2] Higgins JPT,Green S. Cochrane Handbook for Systematic Reviews of Interventions Version 5.1. 0 [Updated March 2011]. The Cochrane Collaboration,2011,Available at:www.cochrane-handbook.org.
[3] Brockwell SE,Gordon IR. A comparison of statistical methods for meta-analysis[J]. Stat Med,2001,20(6):825-40.
[4] Schmidt FL,Oh IS,Hayes TL. Fixed versus random-effects models in meta-analysis: model properties and an empirical comparison of differences in results[J]. Br J Math Stat Psychol,2009,62 (Pt 1):97-128.
[5] Borenstein M,Hedges LV,Higgins JP,et al. A basic introduction to fixed-effect and random-effects models for meta-analysis[J]. Res Synth Methods,2010,1(2):97-111.
[6] Riley RD,Gates S,Neilson J,et al. Statistical methods can be improved within Cochrane pregnancy and childbirth reviews[J]. J Clin Epidemiol, 2011,64(4):608-18.
[7] Doi SA,Barendregt JJ,Khan S,et al. Advances in the meta-analysis of heterogeneous clinical trials I: The inverse variance heterogeneity model[J]. Contemp Clin Trials,2015,45(Pt A):130-8.
[8] Borenstein M,Hedges LV,Higgins JPT,et al. Introduction to Meta-Analysis[M]. John Wiley and Sons Ltd,2009.
[9] Nikolakopoulou A,Mavridis D,Salanti G. Demystifying fixed and random effects meta-analysis[J]. Evid Based Ment Health,2014,17(2): 53-7.
[10] 郭健,陳洪,王智. 干細(xì)胞移植治療肝硬化Meta分析[J]. 東南大學(xué)學(xué)報:醫(yī)學(xué)版,2013,32(4):429-36.
[11] HigginsJP,ThompsonSG,Decks JJ,et al. Measuring inconsistency in meta Aanlysis[J]. BMJ,2003,327(7414):557-60.
[12] 魏麗娟,董慧娟. Meta分析中異質(zhì)性的識別和處理[J]. 第二軍醫(yī)大學(xué)學(xué)報,2006,27(4):449-50.
[13] 徐暢,Doi Suhail,張超,等. QE或者RE模型?一種帶偏倚校正功能的加權(quán)方式在Meta分析中的應(yīng)用[J]. 中國循證醫(yī)學(xué)雜志,2016,16(5):612-6.
本文編輯:翁鴻,姚雪莉
歡迎投稿,歡迎訂閱!
中國科技核心期刊,科技論文統(tǒng)計源期刊E-mail:ebcvm_cj@126.com;
網(wǎng)址:www.ebcvm.com/www.ebcvm.org
Based on statistics: interpret fixed effect model and random effect model
CHENG Li-li*, LEI Peng, TAOYuan, GU Hui-yun, ZHANG Chao, ZHAO Guo-zhong.*Ningxia Medical University, Yinchuan 750000, China.
ZHAO Guo-zhong, E-mail: Zhaogzh1220@163.com
Most of Meta-analysis will use fixed effect model (FEM) or random effect model (REM), and FEM assumes that there is common true effect size in all included studies, while true effect size in REM will change according to different included studies. The mean of pooled effect size will be different as different models are used, which is not only reflected on the average, but also much on the weight distribution of each included study. Main purpose of this article is to deeply analyze these two models and their assumptions, distinguish their similarities and difference, calculate each study’s weight and pooled effect size by these two models, and finally point out and compare their advantages and disadvantages.
Random effect model; Fixed effect model; Effect size; Statistics
R4
A
1674-4055(2017)03-0261-04
2014年度寧夏自然科學(xué)基金(NZ14122)
1750000 銀川,寧夏醫(yī)科大學(xué);2750000 銀川,寧夏醫(yī)科大學(xué)總醫(yī)院肝膽外科;3442000 十堰,湖北醫(yī)藥學(xué)院;4442000 十堰,湖北省十堰市太和醫(yī)院循證醫(yī)學(xué)與臨床研究中心
趙國忠,E-mail:Zhaogzh1220@163.com
10.3969/j.issn.1674-4055.2017.03.02