王永吉 蔡宏偉 夏結(jié)來△ 李嬋娟 蔣志偉 陳 冬
均衡性原則是指除了處理因素不同外,其他對觀察結(jié)果有影響的因素應(yīng)盡量一致〔1〕。組間基線資料的均衡性是為了保證反應(yīng)變量觀察結(jié)果的組間可比性,以便在相似的基線條件下考察處理因素對觀察結(jié)果的真實影響。
目前基線資料均衡性的檢驗方法常用的是假設(shè)檢驗。隨機化是假設(shè)檢驗應(yīng)用的前提,只有滿足了隨機化原則的資料才能應(yīng)用假設(shè)檢驗做統(tǒng)計推斷。在非隨機化研究中用假設(shè)檢驗來檢驗基線資料的均衡性顯然是不合理的;雖然隨機化分組在大樣本的情況下能較好的保持組間均衡性〔2〕,但在樣本量相對較小的情況下即使采用了隨機化分組也有較大的可能出現(xiàn)組間基線資料不均衡。另外文獻報道了其他的檢驗基線資料均衡性方法,如描述性統(tǒng)計、圖示法(如Q-Q圖、箱式圖)、標準化差異(standardized difference)和方差比(variance ratios)等〔3〕,其中標準化差異在近年的研究中應(yīng)用較多〔4〕。本文的目的是通過理論闡述與模擬研究探討均衡性檢驗必要性的問題,以及如何選擇恰當?shù)慕y(tǒng)計方法有效地評價組間的不均衡性。
假設(shè)檢驗的目的是通過樣本對總體進行推斷,而基線均衡性比較的目的是比較樣本間的可比性,因此前者的意義在總體層面,后者的意義則在樣本層面上。另外根據(jù)假設(shè)檢驗和樣本量的關(guān)系可知,即使樣本實際的均衡性沒有變化,隨著樣本量的減少,檢驗效能降低,也會得出較大的P值,即均衡性變好的假相,所以通過假設(shè)檢驗得出的基線“均衡”是不可靠的。假設(shè)檢驗用于基線均衡性比較本質(zhì)上只能考察隨機化是否正確實施。我們需要一種恰當?shù)姆椒▉碜骶庑詸z驗,標準化差異滿足了Imai等提出的均衡性檢驗方法應(yīng)該具備的兩個性質(zhì):首先,它應(yīng)該是針對樣本而不是總體;其次,樣本量不應(yīng)該影響統(tǒng)計量的值〔5〕。
標準化差異的定義由Flury和Reidwyl在1986年首次提出〔6〕。對于連續(xù)性變量,其定義是:
其中,pT和pC分別表示處理組和對照組中待檢驗變量的陽性率。一般地,當標準化差異小于0.1時,認為組間該變量的均衡性較好〔4〕。
1.模擬方法及步驟
采用Monte Carlo模擬比較假設(shè)檢驗和標準化差異在檢驗基線資料均衡性中的應(yīng)用。本研究所有數(shù)據(jù)均由模擬產(chǎn)生,數(shù)據(jù)模擬及統(tǒng)計分析程序采用SAS 9.1統(tǒng)計軟件。模擬主要分為模型建立和統(tǒng)計分析兩部分,其中模型建立主要是建立處理因素與協(xié)變量的關(guān)系。具體模擬過程如下:
(1)假定樣本量為500,設(shè)定種子數(shù),根據(jù)Bernoulli分布產(chǎn)生兩個獨立的隨機二分類變量x1和x2,模擬保證兩個變量各自陽性數(shù)與陰性數(shù)比例都約為1:1,利用 SAS函數(shù) rand(’bernoulli’,P)生成,P 均設(shè)為0.5。
(2)模擬以處理因素T為應(yīng)變量,x1和x2為協(xié)變量建立如下模型:
其中,T為二分類處理因素,利用SAS函數(shù)rand(’bernoulli’,P)求得,T=rand(’bernoulli’,PT);a0為常數(shù)項,調(diào)整a0可以控制處理因素T陽性結(jié)果發(fā)生率,即處理組與對照組間樣本比例,為了方便模擬,將處理組和對照組樣本量比例控制在1:1;ai(i=1,2)為回歸系數(shù),其中 ORi=exp(ai),設(shè) OR1=1,OR2=1.5,數(shù)據(jù)集模擬完成。
(3)采用c2檢驗和標準化差異法分別對步驟(2)中產(chǎn)生的數(shù)據(jù)集進行均衡性評價。
(4)保持 OR1和 OR2值不變,重復(fù)(1)~(3)1000次,記錄1000次中變量x1組間不均衡的次數(shù),計算檢出率。
(5)保持OR1和OR2值不變,逐漸增大OR1,并同時調(diào)整a0保證處理組與對照組間樣本比例不變,重復(fù)(1)~(4)11次,每重復(fù)一次OR1值增加0.1,OR1值的變化范圍在1~2之間,結(jié)果見圖1。
(6)固定OR1=1.5,OR2=1.5,逐漸增大樣本量,分別對樣本量50和100~1000之間進行模擬。當樣本量變化范圍在100~1000之間時,每重復(fù)一次樣本量增加100,即假定基線資料總體不均衡情況下,評價采用c2檢驗的P值(α取0.05)和標準化差異比較均衡性檢驗結(jié)果的差異,結(jié)果見圖2。
(7)固定OR1=1,OR2=1.5,逐漸增大樣本量,分別對樣本量50和500~4000之間進行模擬。當樣本量變化范圍在500~4000之間時,每重復(fù)一次樣本量增加500,評價采用c2檢驗和標準化差異法比較均衡性檢驗結(jié)果的差異,結(jié)果見圖3。
2.模擬結(jié)果
假設(shè)檢驗和標準化差異法的檢出率隨OR1值變化的曲線如圖1所示;OR1≠1和OR1=1時,假設(shè)檢驗和標準化差異法的檢出率隨樣本量變化的曲線如圖2,圖3所示。
圖1 變量x1檢出率隨OR1變化曲線(n=500)
由圖1可知,OR1值較小時,標準化差異法的檢出率高于假設(shè)檢驗,隨著OR1值的增大,標準化差異法和假設(shè)檢驗的檢出率趨于一致。進一步模擬研究證明,如果改變樣本量,結(jié)果不變。結(jié)果提示,標準化差異檢驗變量不均衡的能力要高于假設(shè)檢驗。
由圖2可知,在OR1≠1的情況下,假設(shè)檢驗的檢出率隨樣本量增大而降低,標準化差異的檢出率高于假設(shè)檢驗,并且一直處于相對平穩(wěn)的狀態(tài)。結(jié)果提示,標準化差異不受樣本量的影響,而假設(shè)檢驗受樣本量的影響,即使在小樣本情況下,標準化差異也可以檢驗出變量的不均衡性。
圖2 變量x1檢出率隨樣本量變化曲線(OR1≠1)
圖3 變量x1檢出率隨樣本量變化曲線(OR1=1)
在OR1=1的情況下,假設(shè)檢驗由于Ⅰ型錯誤的控制,檢出率一直處于5%左右。小樣本時,標準化差異的檢出率高于假設(shè)檢驗,標準化差異的檢出率隨樣本量增大而降低,當樣本量達到4000時,標準化差異的檢出率趨于0。
非隨機化研究中,通常會存在基線資料不均衡的情況,導(dǎo)致估計處理效應(yīng)時產(chǎn)生偏倚,均衡性檢驗是必不可少的。隨機化研究中,由圖3的模擬結(jié)果可知,當樣本量達到1500時,出現(xiàn)不均衡的可能性就很小了(小于0.05),因此,大樣本情況下,不需要作均衡性檢驗;而在樣本量相對較小的情況下,即使經(jīng)過隨機化分組,也很難保證基線資料的均衡性,需要作均衡性檢驗保證組間的可比性,提高試驗的可靠性。標準化差異正是在小樣本情況下也可以檢驗出基線資料不均衡性的方法。標準化差異同時適用于連續(xù)型變量和分類變量的均衡性比較,且不受度量衡的影響。標準化差異的優(yōu)點還在于可以量化指標差異的大小,也可以結(jié)合示意圖直觀地表示〔7〕。
本研究的局限性在于只模擬研究了兩分組,基線資料為分類變量的情況。基線資料是多分類變量時,建議根據(jù)各分類樣本量大小加權(quán)后,再計算標準化差異。對于多分組資料,建議進行組間兩兩比較,選擇標準化差異最大的兩組作為均衡性評價的標準。而對于基線資料為非正態(tài)連續(xù)型變量的情況有待進一步研究。
1.孫振球,徐勇勇,等.醫(yī)學(xué)統(tǒng)計學(xué).第2版.北京:人民衛(wèi)生出版社,2006:618-619.
2.Senn S.Testing for baseline balance in clinical trials.Statistics in Medicine,1994,13:1715-1726.
3.Ho DE,Imai K,King G,et al.Matching as nonparametric preprocessing in parametric causal inference.Political Analysis,2007,15:199-236.
4.Austin PC.A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003.Statistics in Medicine,2008,27:2037-2049.
5.Imai K,King G,Stuart EA.Misunderstandings among experimentalists and observationalists:balance test fallacies in causal inference.Journal of the Royal Statistical Society,2008,171:481-502.
6.Flury BK,Reidwyl H.Standard distance in univariate and multivariate analysis.The American Statistician,1986,40:249-251.
7.王永吉,蔡宏偉,夏結(jié)來,等.傾向指數(shù)(第三講)——應(yīng)用中的關(guān)鍵問題.中華流行病學(xué)雜志,2010,31(7):823-8244.