復旦大學公共衛(wèi)生學院流行病學教研室,公共衛(wèi)生安全教育部重點實驗室(200032) 施婷婷 劉振球 袁黃波 吳學福 吳明山 張鐵軍
隨機對照試驗(randomized controlled trial,RCT)是最理想的金標準設計方案[1]。但在實際工作中,由于倫理學等因素的影響以及研究設計的理想性,RCT的應用受限。而非隨機對照研究(包括觀察性研究和非隨機試驗研究)的研究對象所具有的各種特征與真實世界研究(real world study,RWS)結果更為接近,實用性更廣。但由于無法隨機化,如何處理混雜偏倚成為此類研究亟待解決的難題[2]。
傳統(tǒng)的控制混雜偏倚的方法包括在研究設計階段進行配比,或在數據分析階段按照混雜因素分層,或采用多因素數學模型進行調整等。但是當混雜變量較多或處理組與對照組的某些變量差異較大時,傳統(tǒng)方法便不再適用,傾向性評分(propensity score,PS)法由此應運而生,廣泛應用于醫(yī)學、經濟學、社會學等多個領域的非隨機對照研究中[3-4]。
1.傾向性評分原理與方法
1983年,Rosenbaum和Rubin首次提出傾向性評分這一概念,他們將PS定義為被研究的個體在控制可觀測到的混雜變量(confounding variables)的情況下,通過將混雜變量納入logistic回歸模型來產生一個預測個體受到自變量影響的概率[5-6]。PS的基本原理是指在一定可觀察協變量(Xi)的條件下,研究對象i(i=1,2,…,n)被分配到特定處理組(Zi=1)或對照組(Zi=0)的條件概率。因此,第i個研究對象被分配到處理組的概率可以表示為:e(xi)=Pr(Zi=1|Xi=xi),若給定的特征變量(xi)與分組變量(Zi)是相互獨立的,則:
其中,xi為個體i的協變量,e(xi)為個體i被分入處理組的概率,也叫做傾向性評分值[3]。
傾向性評分是一個平衡評分,在傾向評分的條件下,觀察到的基線協變量在處理組和對照組之間的分布是相似的[2],從而排除混雜變量的影響,獲取“凈效應”。但傾向性評分法本身不能控制混雜,而是通過匹配、分層、利用回歸模型直接調整混雜變量以及逆概率加權等方式,不同程度地提高兩組間的可比性,削弱或平衡協變量對所估計效應的影響,達到“類隨機化”的效果[6]。其中,傾向性評分匹配法在分析和結果的呈現及解釋方面比較簡單,并且平衡結果可靠[7],因而越來越多地應用于非隨機對照研究中。傾向性評分匹配是通過多變量logistic回歸模型,根據眾多基線協變量對處理組與對照組中PS值相同或相近的研究對象進行匹配,理論上,匹配后的兩組研究對象在各個特征變量的分布趨于均衡,從而削弱或抵消混雜因素的分布不均衡對研究結果的干擾[8]。
2.傾向性評分匹配常用匹配方法
(1)最近鄰配比法(nearest-neighbor matching)
最近鄰配比法是PSM最常用的一種匹配方法,具體方法是:首先將兩組研究對象分開,根據協變量計算PS值;然后,依據PS值大小分別對兩組研究對象進行排序,從處理組中依次選出1個研究對象,從對照組中找出1個(或多個)與處理組個體傾向評分值最相近的個體作為匹配對象[12]。從源人群中移去匹配成功的對子,再依次進行處理組剩余研究對象的匹配過程。最鄰近匹配法按處理組研究對象進行匹配,所有個體都可以成功匹配,可以充分利用處理組信息,但如果配對組與處理組的PS值分布差距較大,將影響匹配質量,降低研究精確度[13]。
(2)馬氏矩陣配比法(Mahalanobis metric matching)
馬氏矩陣配比法是將評分值作為一個變量同其他重點平衡的變量一起,利用矩陣計算兩個研究對象的馬氏距離的一種匹配辦法[14]。馬氏距離是由印度統(tǒng)計學家Mahalanobis提出的,表示m維空間中2點間的協方差距離,不受量綱的影響,還可以排除變量間相關性的干擾。
(3)卡鉗匹配(caliper matching)
卡鉗值是指當兩組研究對象根據PS值進行匹配時所允許的誤差范圍,卡鉗匹配是在最近鄰匹配法的基礎上應用的匹配法。該方法解決了最近鄰匹配法在配對組與處理組的PS值分布差距較大時難以保證匹配質量的問題,但也可能使部分觀察對象落在卡鉗值范圍外而被剔除,導致無法充分有效利用數據,產生抽樣偏倚[4]。
傾向性評分匹配的實施可以通過R軟件的MatchIt程序包實現[10]。數據選擇R軟件內置的由Dehejia和Wahba(1999)創(chuàng)建的數據集“l(fā)alonde”。該數據集是用于評估傾向評分匹配的經典數據集,包括研究對象共614例(處理組185例,對照組429例),其分組變量為treat(是否接受培訓),定義“1”為處理組,“0”為對照組;基線協變量包括age(年齡),educ(教育年限),black(是否為黑人)等共9個協變量。
實施傾向性評分匹配的具體步驟如下:
(1)根據臨床經驗或實際要求,以處理因素(分組變量)作為因變量(y),混雜因素作為自變量(x)來構建logit或probit回歸模型;
(2)擬合回歸模型的參數;
(3)根據擬合的回歸模型計算每個研究對象的傾向性評分值(即條件概率);
(4)以傾向性評分為依據,通過相應匹配方法來均衡混雜因素(協變量)在兩組的分布[9]。
使用logistic回歸對前述9個基線變量的匹配前后情況進行回歸分析[11],結果見表1。在匹配前,僅變量“age”、“re75”(1975年收入)在兩組間均衡,其他協變量在兩組間均不均衡。通過最鄰近匹配法進行匹配,匹配比例為1∶1,結果顯示,僅“black”變量未能在兩組間達到均衡。樣本匹配前后均衡性檢驗及匹配效果見圖1-3。圖1為傾向性評分分布QQ圖,表示處理組與對照組間變量“age”、“educ”、“black”的PS分布,可看出單個變量匹配前后的均衡情況,如“educ”變量在匹配后更接近正態(tài)分布,說明匹配效果較好;圖2為傾向性評分分布抖點圖,其中點的位置表示個體的得分情況,匹配后處理組與對照組點的分布相似,表示兩組間PS值分布均衡;圖3為傾向性評分分布直方圖,表示處理組與對照組間匹配前后PS值的分布,可以看出匹配前兩組間PS值分布差異較大,匹配后的對照組PS值分布更接近對照組。以上結果的R軟件實現過程見附錄。
圖1 傾向性評分分布QQ圖
圖2 傾向性評分分布抖點圖
圖3 傾向性評分分布直方圖
表1 傾向性評分匹配前后研究對象基線特征情況分布
傾向性評分匹配法作為一種均衡基線混雜因素的半參數方法,在非隨機對照研究中的應用越來越廣泛,常用于處理組研究對象較少且對照組樣本量遠大于處理組的研究中。本研究選取R軟件內置經典數據集“l(fā)alonde”,通過構建logistic回歸模型將9個協變量“降維”轉化為傾向性評分值,采用1∶1匹配的最鄰近匹配法從對照組中選取與處理組可比性更佳的研究對象。結果表明,經匹配后,兩組間“educ”(教育年限)等5個基線協變量的分布差異不再具有統(tǒng)計學意義,兩組之間具有較好的均衡可比性。傾向性評分匹配法可以使研究設計階段無法實現隨機化的非隨機對照研究獲得“類隨機化”的效果,也可以降低協變量較多帶來的數據分析難度,這對于公共衛(wèi)生領域中基于人群的研究具有較好的應用前景,在除醫(yī)學外的其他領域也可發(fā)揮獨特的作用。
但是,傾向性評分匹配也有限制因素。對于樣本量較小的研究,傾向性評分匹配法便無法解決兩組之間協變量失衡的問題,因而不再適用。當存在重要混雜因素無法測量或者未知時,PSM法也難以應用。在匹配過程中,處理組與對照組間的傾向性評分重疊范圍常稱為“共同支持域”(common support region),“共同支持域”的大小是影響匹配方法估計效果的重要因素[15]。PSM根據重疊范圍剔除對照組個體,會丟失部分觀測值,導致剩下樣本的代表性減弱。若期望達到高質量的匹配效果,則需要較大的樣本量來產生較大的PS值范圍。只有當不存在未觀測到的混雜因素且兩組共同支持域夠大時,才能保證PSM結果的正確性。此外,PSM多應用于結局為分類變量研究,如果存在缺失值,傾向性評分同樣無法處理。
傾向性評分匹配有多種匹配方法,每種方法都有各自的優(yōu)缺點,在實際應用中,研究者一定要根據樣本數據的情況選擇適合的方法,科學運用傾向性評分匹配法,才能有效控制混雜因素,提高研究結果的準確性。