劉瑞銀, 暢藝婷
(沈陽(yáng)師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院, 沈陽(yáng) 110034)
Meta分析是對(duì)某一特定問(wèn)題的諸多研究結(jié)果進(jìn)行綜合評(píng)價(jià)的一種統(tǒng)計(jì)方法,1976年由Glass首次命名為meta分析,并將其定義為以綜合已有的研究結(jié)果為目的,對(duì)單項(xiàng)研究結(jié)果進(jìn)行綜合的統(tǒng)計(jì)學(xué)方法。Meta分析最早被應(yīng)用于教育學(xué)等社會(huì)科學(xué)領(lǐng)域,20世紀(jì)90年代開始被廣泛應(yīng)用于自然科學(xué)領(lǐng)域[1-6]。
假設(shè)研究的總體為X~F(x;μ,σ2),其中均值μ為感興趣的總效應(yīng)量?,F(xiàn)有K個(gè)調(diào)查小組對(duì)該問(wèn)題進(jìn)行調(diào)查研究,得到了K組樣本x1,x2,…,xK,其中
每一組的樣本均值記為ti,又稱作子效應(yīng)量。樣本均值ti的誤差記為vi,其中i=1,2,…,K。Meta分析指的是,在不知道原始樣本x1,x2,…,xK,只知道由原始樣本估計(jì)的子效應(yīng)量ti及子效應(yīng)量的誤差數(shù)據(jù)vi的情況下,如何對(duì)效應(yīng)量μ進(jìn)行估計(jì)。
這里需要特別注意的是,研究中感興趣的效應(yīng)量不一定是均值,而是根據(jù)實(shí)際情況而定的統(tǒng)計(jì)量。在本文中,不加注明的話,假設(shè)是均值。
Meta分析根據(jù)所建立模型的不同可以分為固定效應(yīng)模型和隨機(jī)效應(yīng)模型。下面分別介紹meta分析的這2種模型,并對(duì)它們進(jìn)行比較。
在固定效應(yīng)模型下,假設(shè)所有的研究都來(lái)自于同一個(gè)總體[8],那么它們估計(jì)的效應(yīng)量μ是相同的,也就是說(shuō)μ1=μ2=…=μK=μ,實(shí)驗(yàn)數(shù)據(jù)來(lái)自均值為μ方差為σ2的分布,即xij~F(x;μ,σ2),觀測(cè)效應(yīng)Ti的分布為Ti~F(x;μ,vi)。在這種模型下只有一種誤差即組內(nèi)誤差。如圖1所示,總體是均值為μ方差為σ2的分布,觀測(cè)效應(yīng)為Ti,ei為隨機(jī)誤差,也就是組內(nèi)誤差,觀測(cè)效應(yīng)Ti的表達(dá)式為
Ti=μ+ei
圖1 固定效應(yīng)模型Fig.1 Fixed effect model
研究中通常用樣本量來(lái)作為權(quán)重,例如攜帶1 000個(gè)個(gè)體的研究得到的權(quán)重會(huì)是攜帶100個(gè)個(gè)體的研究的權(quán)重的10倍。但是這種方法并不精確,因此meta分析提出運(yùn)用每組研究的方差的倒數(shù)來(lái)作為每組研究的權(quán)重[9],也就是說(shuō)第i個(gè)研究的權(quán)重wi為
(1)
其中vi為第i組研究中子效應(yīng)的方差。
Meta分析的計(jì)算方法及步驟如下[10-12]:
(2)
聯(lián)合效應(yīng)的方差為權(quán)重和的倒數(shù),表達(dá)式為
(3)
推導(dǎo)過(guò)程如下:
聯(lián)合效應(yīng)的標(biāo)準(zhǔn)誤差為
(4)
則95%的置信區(qū)間為
(6)
單尾檢驗(yàn)p值為
p=1-Φ(|Z|)
(7)
雙尾檢驗(yàn)p值為
p=2[1-Φ(|Z|)]
(8)
其中Φ為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。
Ti=μ+εi+ei
其中:εi為組間誤差;ei為組內(nèi)誤差。
圖2 隨機(jī)效應(yīng)模型Fig.2 Random effect model
隨機(jī)效應(yīng)模型將誤差分為2個(gè)部分,組內(nèi)誤差和組間誤差,當(dāng)分配權(quán)重的時(shí)候也是運(yùn)用這2個(gè)部分來(lái)計(jì)算,這樣會(huì)更加精確。設(shè)總方差為Q,其公式如下
(9)
它是由組內(nèi)方差和組間方差相加得到的,如果方差的來(lái)源只有組內(nèi)方差,那么Q的期望值就會(huì)等于自由度df,其中
df=(NumberStudies)-1
證明如下:
其中
帶入(10)式得
其中總方差Q減去自由度df得到的是額外方差,也就是組間方差,記為τ2,其表達(dá)式為
(11)
表1 植物種群密度和植物質(zhì)量對(duì)植物代謝率的影響
由于隨機(jī)效應(yīng)模型的計(jì)算公式與固定效應(yīng)模型的形式一致,這里不再重復(fù)。
表1是2012年統(tǒng)計(jì)的植物種群密度和植物質(zhì)量對(duì)植物的代謝率的影響[16],其中原假設(shè)為植物種群密度和植物質(zhì)量對(duì)植物的代謝率無(wú)影響,備擇假設(shè)為植物種群密度和植物質(zhì)量對(duì)植物的代謝率有影響。
若將該研究模型看作固定效應(yīng)模型,利用R語(yǔ)言進(jìn)行計(jì)算,每一組的權(quán)重可以根據(jù)式(1)給出,根據(jù)式(2)到式(8)其他計(jì)算結(jié)果為
v=0.020 2
LowerLimit=0.678 6-1.96*0.142 2=0.399 9
UpperLimit=0.678 6+1.96*0.142 2=0.957 3
P1T=1-(Φ(|4.772 4|))<0.000 1
P2T=2[1-(Φ(|4.772 4|))]<0.000 1
由于2個(gè)p值都小于0.000 1,所以拒絕原假設(shè),也就是說(shuō)有理由相信植物種群密度和植物質(zhì)量對(duì)植物的代謝率有影響。
若將其看做隨機(jī)效應(yīng)模型,由式(9)得到總方差Q的值為
因該模型自由度為5,大于總方差Q,由式(10)知,組間方差τ2為0,所以該模型為固定效應(yīng)模型。
因固定效應(yīng)模型假定所有研究都來(lái)自一個(gè)總體,即影響每個(gè)研究的效應(yīng)的元素是相同的,所以估計(jì)值也就是聯(lián)合效應(yīng)是相同的,模型誤差僅來(lái)自于每個(gè)研究固有的隨機(jī)誤差,即組內(nèi)誤差。但隨機(jī)效應(yīng)模型假定每個(gè)研究來(lái)自不同總體,所以得到的是一個(gè)分布,估計(jì)值是分布的均值,模型的誤差不僅來(lái)自于組內(nèi)誤差,還來(lái)自于研究與研究間的組間誤差。另外,在處理一些比較極端的實(shí)驗(yàn)時(shí),固定效應(yīng)模型會(huì)忽視一些比較小的研究,但是隨機(jī)效應(yīng)模型不會(huì),因此隨機(jī)效應(yīng)模型的權(quán)重會(huì)比固定效應(yīng)模型平衡一些。
因此當(dāng)選擇固定效應(yīng)模型來(lái)進(jìn)行計(jì)算時(shí),有理由相信所有研究的功能是相同的,研究的目的是計(jì)算共同的效應(yīng)然后將其推廣到其他相同總體的例子中。如選擇隨機(jī)效應(yīng)模型,由于數(shù)據(jù)來(lái)自前人研究,所以研究功能不同,這些研究對(duì)象或干預(yù)可能會(huì)對(duì)結(jié)果有影響,對(duì)此研究目的是將其推廣到一系列不同總體中。但如研究數(shù)量較小,不太可能精確估計(jì)組間誤差,所以此時(shí)選擇固定效應(yīng)模型。