王湛晨
摘要:間斷點回歸(RD)是僅次于隨機實驗的,能夠有效利用現(xiàn)實約束條件分析變量之間因果關(guān)系的實證方法。本文旨在簡要介紹間斷點回歸,并對一些問題予以解釋。
關(guān)鍵詞:間斷點回歸;處理效應(yīng);有效性
中圖分類號:F224 文獻(xiàn)識別碼:A 文章編號:1001-828X(2016)010-000-01
一、簡介
間斷點回歸(也成RD)首次被在Thistlethwaite和Campbell(1960)用于在準(zhǔn)自然實驗中評估處理效應(yīng),實驗準(zhǔn)則便是參與實驗的某一樣本(也可稱為強制變量)是否超過了既定的“間斷點”。該評估策略盡管已有五十多年歷史,但直到最近才被引入經(jīng)濟學(xué)中使用。自從教育領(lǐng)域運用RD逐漸成熟后,之后涌現(xiàn)一大批運用此方法研究各種問題的文獻(xiàn)。Hahn Jinyong,Petra Todd和Wilbert van der Klaauw(2001)認(rèn)為RD相比于其他準(zhǔn)實驗的需要的假設(shè)更為寬泛并且為RD的使用建立了規(guī)范。RD興起的另一個原因在于它不僅僅是效用評估的方法,基于RD的因果推論也比其他傳統(tǒng)的自然實驗更為可信(雙重差分法和工具變量法),因此被更多的應(yīng)用在應(yīng)用研究領(lǐng)域。
因此,為了提供一個具有高可信度和透明的項目效應(yīng)評估方法,RD能夠被用于分析許多重要經(jīng)濟學(xué)問題。盡管RD在經(jīng)濟學(xué)中的地位日漸重要,始終沒有對于如何理解RD的總結(jié)的文獻(xiàn),以及對RD的優(yōu)缺點評判的文獻(xiàn)。另外,對于使用RD的具體細(xì)節(jié)步驟也尚未涵蓋標(biāo)準(zhǔn)的計量經(jīng)濟學(xué)檢驗。撰寫本文的目的便在于彌補上述的不足,把RD在經(jīng)濟學(xué)中使用的一些要求明確出來,給予對此方法感興趣的學(xué)者以引導(dǎo)。
二、如果樣本能夠準(zhǔn)確的改變所賦值的變量,那么RD便是無效的
當(dāng)接受處理會獲得獎勵或收益時,經(jīng)濟學(xué)家自然會想要知道該個體會如何表現(xiàn)進(jìn)而得到獎勵。比如,學(xué)生通過努力有效“提高”自己的測試成績。得分為c的樣本應(yīng)該比起得分低于c的樣本來說應(yīng)該不同。這就告訴我們,處理的存在就好比賦值變量的函數(shù)為不連續(xù)函數(shù),但僅僅有這一點并不能夠分辨RD是否合理。因此,任何產(chǎn)生激勵進(jìn)行為的間斷規(guī)則都能導(dǎo)致RD無效。
三、如果個體不能夠準(zhǔn)確改變賦值變量,實驗中處理的變化在臨界值附近可以視為和通過隨機實驗得到的結(jié)果是一樣的
這也是RD其如此被追捧的原因。當(dāng)個體不能準(zhǔn)確的控制賦值變量時,尤其在臨界附近的X的值,每個樣本大致上得到略高于(處理)或略低于(不處理)臨界值的概率,可以看做拋硬幣實驗的翻版。這也區(qū)別了RD和工具變量法的不同。當(dāng)使用工具變量法分析因果推論,必須假設(shè)工具變量的選擇是外生決定的(比如通過擲硬幣決定),但這一點很難區(qū)分。相反,在假設(shè)樣本不能準(zhǔn)確控制賦值變量的前提下,RD所隔離的變化和隨機試驗得到的效果是一樣的。
四、和隨機試驗一樣,RD也能被分析以及檢驗
這也是局部隨機結(jié)果的一個關(guān)鍵內(nèi)涵。如果在臨界點附近,處理的差異大致上隨機的,所有變量的確定先于賦值變量的識別,略高或略低于臨界值的變量應(yīng)具有相同的分布,則服從所有“基準(zhǔn)特征”。如果這些基線協(xié)變量中存在間斷點,基礎(chǔ)的識別假設(shè)“樣本不能準(zhǔn)確控制賦值變量”就顯得毫無依據(jù)。因此,常常用基線協(xié)變量來測試RD是否合理有效。對比之下,在選擇工具變量和匹配或回歸控制策略時,需要設(shè)定有關(guān)處理的協(xié)變量和結(jié)果變量之間關(guān)系的假設(shè)條件。
五、RD的圖形表達(dá)是有幫助的,但圖像不應(yīng)以是否有效標(biāo)示
用坐標(biāo)圖分析RD中賦值變量與結(jié)果變量的關(guān)系已成為標(biāo)準(zhǔn)做法。這確實有一定的優(yōu)勢,因為原始數(shù)據(jù)會增加研究的透明度。圖示法會直白告訴讀者,相比于回歸曲線遠(yuǎn)離臨界點凸起的部分,結(jié)果變量在臨界處的跳躍是否更加明顯。另外,圖形展示會幫助解釋為什么不同的函數(shù)形式會得到不同的答案,而且能夠識別出實證分析中存在一個問題,即極端值的存在問題。對于圖示法的一個問題便是,學(xué)者會去構(gòu)造看起來有效果的圖形,或者有意掩蓋實際存在的效應(yīng)。
六、非參數(shù)估計并不是解決由RD產(chǎn)生的函數(shù)形式問題的方法。對于非參數(shù)估計,我們有必要將其看作是參數(shù)估計的補充而不是替代
當(dāng)學(xué)者選擇參數(shù)函數(shù)形式是錯誤的,回歸結(jié)果通常是有偏的。而采用非參數(shù)程序,比如局部線性回歸,僅僅對臨界值附近的樣本點做回歸得到的結(jié)果同樣是有偏的(除非選取的區(qū)域為真實線性存在的)。對于確定函數(shù)的形式,有可能低階多項式是很好的近似表達(dá),帶來偏誤很小甚至是無偏的。但在其他情況下,多項式的形式或許不是好的近似表達(dá),而采用局部線性回歸會得到更小的偏誤。舉例來說,討論結(jié)果Y對X和處理虛擬變量D做回歸,既可被看作是參數(shù)回歸也可以是寬帶寬的局部線性回歸。因此我們建議不要僅依賴一種方式。在實證分析環(huán)節(jié),由兩種同樣可信的設(shè)定的方法所得出的結(jié)果更加穩(wěn)定,且比對設(shè)定輕微變動敏感的結(jié)果更加可靠。RD構(gòu)思對此也不例外。
七、擬合優(yōu)度和其他統(tǒng)計檢驗?zāi)軒椭懦量痰脑O(shè)定
通常采用不同規(guī)則導(dǎo)致估計結(jié)果取值范圍更寬。雖然不存在某個方程形式適用于所有情形且能除去不合適的設(shè)定,該說法似合乎情理。至少我們應(yīng)認(rèn)為,不要依賴于設(shè)定一旦更靈活便會被拒絕的設(shè)定得出的估計結(jié)果。舉例說明,當(dāng)結(jié)果來于低階多項式模型,因為更少限制的(區(qū)分每個離散變量X的均值)而被拒絕,對于這種結(jié)果我們給予小可信度是合理的。同樣的,沒有理由使我們更青睞于對所有數(shù)據(jù)采用同一設(shè)定的情況。但限制僅選擇臨界值附近的觀測值會給出實質(zhì)上且統(tǒng)計上不同的答案。
總之,RD更應(yīng)該被看作是一種特殊的數(shù)據(jù)產(chǎn)生過程的描述。為研究某一事物我們青睞于隨機試驗或是RD得出的數(shù)據(jù)。但事實是,和隨機試驗一樣(被看做是具體的數(shù)據(jù)產(chǎn)生方式更加合適而不是研究分析的方法),RD的存在不是在于回答一系列問題。這就是說,會涌現(xiàn)出一股潮流來揭示RD會涉及更多經(jīng)濟學(xué)領(lǐng)域中。
參考文獻(xiàn):
[1] Thistleth waite,Donald L.,and Donald T. Campbell, “Regression-Discontinuity Analysis: An Alternative to the Ex Post Facto Experiment”,Journal of Educational Psychology,51(6),1960.
[2] Hahn Jinyong,Petra Todd,Wilbert van der Klaauw, “Evaluating the Effect of An Antidiscrimination Law Using a Regression Discontinuity Design”NBER Working paper 7131.