黃煒 張子堯 劉安然
關(guān)鍵詞:因果推斷;雙重差分法;事件研究法;實證研究
一、引言
隨著計量經(jīng)濟學“可信性革命”(credibility revolution)席卷經(jīng)濟學的各個領(lǐng)域,基于潛在因果模型的因果效應識別策略,如匹配法(matching)、工具變量法(instrumental variable)、雙重差分法(difference-in-differences)和斷點回歸設(shè)計(regression discontinuity design)等,逐漸成為了經(jīng)濟學等社會科學領(lǐng)域?qū)嵶C研究的通行研究范式。上述幾種方法的使用要求和適應場景各不相同,雙重差分法由于其直觀清晰、易于理解,并且實際操作難度較低、上手簡單等特點而廣為應用。圖1展示了中文期刊經(jīng)濟管理類學術(shù)論文各類方法的使用數(shù)量變化,可以看到自2015 年后使用雙重差分法的國內(nèi)經(jīng)濟管理類研究數(shù)量急劇上升,在2019 年超越工具變量法成為了目前使用最為廣泛的計量方法,并且其上升趨勢仍有進一步加強的傾向。由此或可推測,在未來的一段時期內(nèi),雙重差分法仍然將是經(jīng)濟管理類實證研究的主流方法之一。
雙重差分法在實證研究中主要用于評估政策效應。與其他方法相比,雙重差分法的識別方法非常直觀:先觀察受政策影響的個體在政策前后的變化,再觀察未受政策影響的個體在政策前后的變化,兩個變化之間的差異就是政策干預對個體的影響。同時,雙重差分法可以非常方便地使用最小二乘法來實現(xiàn)。直觀理解加上簡單易行使得雙重差分法得到了廣泛應用,學者們使用雙重差分法評估了許多重要的政策效應,例如,劉瑞明和趙仁杰(2015)發(fā)現(xiàn)國家高新區(qū)的建設(shè)顯著地促進了地區(qū)經(jīng)濟增長;呂越等(2019)發(fā)現(xiàn)“一帶一路”倡議促進了中國企業(yè)海外綠地投資;Liu 和Mao(2019)發(fā)現(xiàn)增值稅轉(zhuǎn)型改革顯著提高了企業(yè)投資并改善了生產(chǎn)率;宋弘等(2021)發(fā)現(xiàn)社保法定費率下降使得企業(yè)社保繳費參與率提高,但削弱了企業(yè)的勞動力需求。以上文獻只是大量使用雙重差分法實證研究中的滄海一粟。
然而,伴隨著雙重差分法的廣泛使用,一些對于雙重差分法的不精確理解甚至是錯誤認識也逐漸開始出現(xiàn)。常見的一些問題包括:雙重差分法的基本識別假設(shè)是什么?雙重差分法需要政策是完全隨機分配的嗎?平行趨勢假設(shè)是什么?通常所說的平行趨勢檢驗真的是在檢驗平行趨勢假設(shè)嗎?控制變量應該如何選?。渴裁礃拥淖兞勘仨毧刂?,什么樣的變量必須不能控制,什么樣的變量可以控制也可以不控制?當政策干預時點不一致時雙重差分法應該如何實現(xiàn)?這種實現(xiàn)方法有什么問題,應該如何改進?等等。實證研究者在研究過程中或多或少都曾遇到或?qū)⒁龅缴鲜鰡栴},但是標準的計量經(jīng)濟學教材中很少直接回應這些實踐方面的疑問,研究者不得不根據(jù)自身的理解來處理上述問題,這是對雙重差分法產(chǎn)生不正確理解的原因之一?;诖?,本文結(jié)合國際上關(guān)于雙重差分法的最新研究,試圖對雙重差分法應用中的一系列問題進行初步探討,希望能夠幫助廓清一些疑惑,為我國經(jīng)濟學界研究與國際前沿接軌提供些微貢獻。
本文的結(jié)構(gòu)如下:第二部分描述雙重差分法的計量實現(xiàn),對研究中常用的幾種雙重差分法進行歸納總結(jié),而后著重強調(diào)了雙重差分法的識別假設(shè)及其直觀含義。第三部分分析雙重差分法使用中的控制變量選取、平行趨勢檢驗的實現(xiàn)和理解,以及組間線性時間趨勢是否控制三個常見易混淆的問題。第四部分討論了近年來廣泛應用的交錯雙重差分法的實現(xiàn)和潛在問題,以及如何嘗試使用動態(tài)雙重差分法和事件研究法來克服交錯雙重差分法的不足。第五部分討論了雙重差分法評估政策效應時常見的幾個問題,包括需要重視真實的制度背景、政策干預是否需要完全隨機、溢出效應以及一般均衡視角下的成本收益分析。最后是總結(jié)性評論。
二、雙重差分法的計量實現(xiàn)和識別假設(shè)
(一)標準DiD(standard DiD)
雙重差分是一種嘗試采用控制組實際未經(jīng)處理的結(jié)果變化作為處理組倘若未經(jīng)處理的結(jié)果變化的反事實來分析因果效應的方法,通常包括沖擊事件、處理組、控制組和時期這四個要素,其經(jīng)典構(gòu)造可以表示為如下形式:
雙重差分的核心是通過構(gòu)造交互項來識別政策沖擊對受影響個體(處理組)的平均處理效應(average treatment effect on the Treated,ATT),①即基于一個反事實框架來評估政策沖擊發(fā)生與不發(fā)生這兩種情況下處理結(jié)果it Y 的變化。真實的因果效應需要通過比較處理組接受處理與不接受處理的狀態(tài)得出,然而在現(xiàn)實生活中,當沖擊發(fā)生后,我們僅能觀察到處理組受到?jīng)_擊后的情況,無法真正知曉其未受沖擊的情況。而在雙重差分方法中,控制組提供了一個可供研究的反事實,即可將未受到處理的控制組在觀察時期內(nèi)的“變化”近似于處理組倘若未受到?jīng)_擊將發(fā)生的變化。從處理組前后時期的變化中減去控制組前后時期的變化,即可得到因果效應 。上述分析的數(shù)學表達式如下式所示,第一個中括號內(nèi)為處理組前后時期的差分效應,第二個中括號內(nèi)為控制組前后時期的差分效應,兩個一次差分再相減后,得到雙重差分處理效應:
(二)雙重差分法的其他形式拓展
1. 交錯雙重差分法(staggered DiD)。標準雙重差分法模型和雙向固定效應雙重差分法模型涉及的政策實施時點或沖擊發(fā)生時點為同一時期。然而,現(xiàn)實生活中諸多政策實施未必發(fā)生在某一時點,而是先有試點再逐步推廣,在漸進的過程中推而行之,如增值稅轉(zhuǎn)型、土地確權(quán)、新農(nóng)保實施、高鐵修建等。交錯雙重差分法為處理這類情形提供了方法。②當個體接受政策沖擊的時間不同時,政策分組虛擬變量i D 變?yōu)閕t D ,此時it D 即可用來表示個體i 在時間t 處是否受到政策沖擊,而無需再生成交互項。不過在實際應用中,交錯雙重差分法可能會遇到難以找到控制組、部分樣本始終為處理組、異質(zhì)性處理效應等問題。由于交錯雙重差分法適用面較廣且使用時又有諸多需要注意的事項,本文將在第四部分詳細討論這一方法的應用與利弊。
2. 廣義雙重差分法(generalized DiD)。當所有研究對象均或多或少同時受到了政策干預,即僅有處理組而無控制組時,仍然能夠考慮應用雙重差分法。對此,可以根據(jù)研究對象受到的具體沖擊情況來構(gòu)建處理強度(treatment intensity)指標來進行分析,此時個體維度并不是從0 到1 的改變,而是連續(xù)的變化。因此,可以將個體維度的政策分組虛擬變量替換為用以表示不同個體受政策影響程度的連續(xù)型變量,該種方法被稱為廣義雙重差分法。①Nunn 和Qian(2011)研究了一個經(jīng)典的例子,他們研究了土豆種植擴散對歐洲人口增長的影響。歐洲幾乎所有地區(qū)都種植了土豆,不存在未種植土豆的地區(qū),因此沒有標準意義上的控制組。他們的選擇是將地區(qū)間土豆種植適宜度作為處理強度,以1700 年前后為處理時點,使用廣義雙重差分法估計了引入土豆對人口增長的影響。
3. 隊列雙重差分法(cohort DiD)。隊列雙重差分法也被稱為截面雙重差分法,即使用橫截面數(shù)據(jù)來評估某一歷史事件對個體的長期影響。隊列雙重差分法同樣是比較兩個維度上的差異大小:一個維度為地區(qū)間差異,標識該地區(qū)是否受干預政策影響或干預強度;另一個維度為出生隊列間差異,標識個體是否受到了干預政策的影響。隊列雙重差分法本質(zhì)上是使用未受政策干預的出生隊列作為受到政策干預的出生隊列的反事實結(jié)果。Duflo(2001)是早期應用隊列雙重差分法的經(jīng)典研究,近年來使用這一方法的代表性文獻有Chen 等(2020)的研究文獻。
4. 模糊雙重差分法(fuzzy DiD)。在標準雙重差分法等方法的應用情境中,處理組和控制組之間通常涇渭分明,因此可以通過分組差分得到較為“干凈”的處理效應。但是,有時沖擊并未帶來急?。╯harp)變化,所謂的“處理組”中雖然受沖擊率高于其他組別,但并沒有完全被干預或受政策沖擊,而所謂的“控制組”中也并非完全沒有受到?jīng)_擊,即處理組和控制組之間沒有明確的分野,不存在“干凈”的處理組與控制組。模糊雙重差分法為處理此類情形提供了可能,de Chaisemartin和d’Haultfoeuille(2018)在文章中詳細介紹了該種方法,并利用該方法重新評估了印度尼西亞的教育回報。
5. 三重差分法(triple differences)。顧名思義,三重差分法引入了第三個維度“組別”(group),通過比較不同組別間的處理組和控制組在干預政策前后結(jié)果變量變化的差異來識別因果效應。②三重差分法的應用場景通常有兩個:一是在平行趨勢假設(shè)不滿足時引入第三個維度的差分來幫助消除處理組和控制組間的時間趨勢差異;二是在平行趨勢滿足時,用于識別干預政策在不同群體間的異質(zhì)性處理效應。三重差分法是一個典型的實踐先于理論的方法,其使用最早可以追溯到Gruber(1994),近年來在頂級期刊使用越來越頻繁,不過直到Olden 和M?en(2020)才較為完整地討論了三重差分法的識別假設(shè)和使用條件。
6. 其他雙重差分法。縱觀上述各種類型的雙重差分法,其基本思路是尋找觀測樣本在兩個維度上的差異,其中一個維度用于控制不可觀測的時間趨勢,另一個維度用于測度政策效應的變化。
如果從更加一般化的角度理解雙重差分法背后的直覺和思想,可以發(fā)現(xiàn)事實上幾乎任何兩個維度的差異之差異都可以從雙重差分的角度去理解。也就是說,幾乎所有的交互項模型都可以理解為一種雙重差分法。一個典型的例子是Mayzlin 等(2014)的研究,他們研究了造假成本對在線旅店預定網(wǎng)站的消費者評論的影響。兩家在線酒店預訂網(wǎng)站中,Expedia 網(wǎng)站只有實際完成訂單的消費者可以評價服務質(zhì)量,而TripAdvisor 網(wǎng)站則是任何人都可以評價服務質(zhì)量,所以兩個網(wǎng)站的造假成本是不同的。他們發(fā)現(xiàn),當一家旅店周圍沒有其他旅店存在時,該旅店在TripAdvisor 上的好評率顯著高于在Expedia 上的好評率,這是因為該旅店試圖操縱評論提高本店評分。當一家旅店旁邊存在另一家鄰近的旅店時,該旅店在TripAdvisor 上的差評率顯著高于Expedia 上的差評率,這是各旅店試圖打壓競爭對手,為對手惡意評低分。他們的識別策略事實上和雙重差分法不謀而合:Expedia 和TripAdvisor 的造假成本構(gòu)成了一個維度差異,旅店鄰近范圍內(nèi)是否存在直接競爭者構(gòu)成了另一個維度的差異,通過二者之差就能夠識別出造假成本對網(wǎng)站消費者評論操縱的影響。①另一個例子是Rajan 和Zingales(1998)的研究,該研究試圖論證金融發(fā)展對經(jīng)濟增長的影響。他們使用的一個識別策略是交互項模型:被解釋變量是k 國j 行業(yè)的增長率,解釋變量是j 行業(yè)的外部融資依賴度和k 國的金融發(fā)展程度的交互項。其背后的直覺如下:若金融發(fā)展確實能夠促進經(jīng)濟增長,那么j 行業(yè)的外部融資依賴度越高,金融發(fā)展對其經(jīng)濟增長的激勵越強。因此,如果不同行業(yè)間的外部融資依賴程度差異(第一個維度)和金融發(fā)展水平的跨國差異(第二個維度)能夠解釋不同國家行業(yè)間的增長率差異,就能夠論證金融發(fā)展對經(jīng)濟增長的影響。②
(三)雙重差分法的識別假設(shè)
雙重差分法的應用需要滿足一定的假設(shè)條件,倘若違背了這些前提假設(shè),估計結(jié)果可能會嚴重偏離真實的因果效應。本部分對雙重差分法的識別假設(shè)內(nèi)容及可能違背假設(shè)的情景、后果進行討論。
1. 平行趨勢假設(shè)。雙重差分法最基本的假設(shè)是平行趨勢假設(shè)(parallel trend assumption),又稱共同趨勢假設(shè)(common trend assumption),是指倘若處理組個體未接受干預或沖擊,則其結(jié)果變動趨勢與控制組個體結(jié)果變動趨勢相同。該假設(shè)數(shù)學表達如下:
由上述分析可知,雙重差分法要求在沒有干預或處理的情況下,處理組和控制組的平均結(jié)果隨時間變化的趨勢相同。該識別假設(shè)可以記為更簡便的形式:雙重差分法背后隱含著“準自然實驗”的思想,并不嚴格要求處理組與控制組之間滿足隨機分組條件。實際上,雙重差分法所要求的“隨機分組”,是指結(jié)果變量的變動趨勢獨立于政策沖擊,即關(guān)于Y 0滿足隨機分組條件。需要強調(diào)的是,這一識別假設(shè)和我們通常所說的隨機分組是不同的,一般意義上的隨機分組要求處理狀態(tài)和潛在結(jié)果不相關(guān),即(Y0|D=1) (Y0|D=0),顯然,該識別假設(shè)和雙重差分法要求的潛在結(jié)果差分意義上的隨機分組有區(qū)別。假使處理組與控制組滿足隨機分組原則,那么便近似于隨機對照試驗(randomized controlled trial,RCT),處理組與控制組的結(jié)果對比便是處理效應,無需再使用雙重差分法。
這里需要說明一個問題:雙重差分法作為一種計量模型,其本身解決內(nèi)生性問題嗎?答案應該是否定的。事實上,雙重差分法是一個估計量,更是一種研究設(shè)計。作為估計量的雙重差分法,估計的是處理組和控制組的結(jié)果變量在干預前的組間均值差異和干預后的組間均值差異,即差異之差異。然而,這個估計量是否能夠正確識別我們關(guān)心的因果效應,取決于識別假設(shè)式(2)是否成立。更為嚴謹?shù)恼f法是,在滿足識別假設(shè)的前提下雙重差分法能夠正確識別因果效應,而式(2)經(jīng)過簡單的變形可以發(fā)現(xiàn),它實際上就是雙重差分環(huán)境下的外生性假設(shè)。所以,作為估計量的雙重差分本身并沒有解決內(nèi)生性問題,而是“假設(shè)”不存在內(nèi)生性問題。而作為一種研究設(shè)計,雙重差分法可以追溯至19 世紀中期物理學家John Snow 對倫敦霍亂成因的研究(Snow,1855),①Card 和 Krueger(1994)關(guān)于最低工資的早期研究也采用類似的設(shè)計思想。②如果沒有研究設(shè)計的“雙重比對”的想法,是不會產(chǎn)生雙重差分法這一估計量的。事實上,是在有了雙重對比的研究設(shè)計后,我們使用雙重差分這一估計量來捕捉所關(guān)心的具體的因果效應。然而,當下一些使用雙重差分法的實證研究將估計量與研究設(shè)計二者等同起來,似乎有了這個估計量,就自然而然有了對應的研究設(shè)計,就可以直接避開內(nèi)生性問題,這是不正確的。雙重差分法解決內(nèi)生性問題,本質(zhì)上仍然依賴于干預或政策沖擊本身的外生性。
從處理組前后兩期結(jié)果的變化中減去控制組的兩期結(jié)果的變化,其實質(zhì)是去除共同趨勢的影響,從而得到“干凈”的政策效果。需要注意的是,嚴格來說,共同趨勢假設(shè)是無法被完全檢驗的。
文章中的做法通常是檢驗處理組和控制組的事前平行趨勢,然而,沖擊發(fā)生前變化平行并不能保證今后依然平行。倘若政策沖擊并不隨機,而是會被某因素X 所影響,那么X 在決定干預是否發(fā)生的同時,也很有可能會影響共同趨勢的變化。因此,盡管雙重差分法不要求處理組與控制組在各方面相似,但如果一些與結(jié)果變量相關(guān)的預處理特征在處理組和控制組之間不平衡,那么研究對象很有可能不滿足共同趨勢假設(shè)。通常我們?nèi)匀幌M幚斫M和控制組之間較為相似,此時可以去檢驗關(guān)鍵控制變量的差異,或者嘗試與匹配方法相結(jié)合等。其中,匹配方法可作為非參數(shù)估計手段,也可以作為一種數(shù)據(jù)預處理手段。雙重差分法本身近似于一種差分意義上的匹配方法。③倘若處理組和控制組之間存在明顯差異,那么通常要選取不同的控制組來進行穩(wěn)健性檢驗。此外,如果處理組和控制組在處理前后存在成分變化(compositional changes),這意味著政策可能具有很強的內(nèi)生性,通常難以滿足共同趨勢假設(shè),在該種情況下,要慎重使用雙重差分法。
雙重差分法中除去政策、時間等兩個維度的變量外,還可以再加入其他變量進行控制,即在模型中加入控制變量it W 。然而,在實際回歸操作中,具體應當加入什么控制變量、哪些變量不能被控制、是否要加入線性趨勢等問題需要格外留意。本文將在第三部分對此展開討論。
2. 單位處理變量值穩(wěn)定假設(shè)(SUTVA)。單位處理變量值穩(wěn)定假設(shè)(stable unit treatment valuesassumption,SUTVA)是指不同個體是否受到政策沖擊是相互獨立的,某一個體受政策沖擊的情況(treatment status)不影響任何其他個體的結(jié)果。直觀理解,不滿足SUTVA 意味著控制組個體也受到了干預政策的影響,因而不再是事實上未受干預影響的“真實”控制組,也就無法使用控制組時間趨勢來構(gòu)建處理組時間趨勢的反事實。在理想情況下,處理組和控制組被嚴格區(qū)分開來,彼此互不干涉,然而,在現(xiàn)實生活中,相當多的政策沖擊具有一定的外部性,例如加強上游省份水污染企業(yè)的環(huán)境督查也會有利于改善下游省份水質(zhì)。此外,個體的行為也往往具有一定的策略性和選擇性,如處理組地區(qū)得到了較好的政策幫扶,那么原本控制組地區(qū)的個體可能會自發(fā)從控制組地區(qū)遷移至處理組地區(qū),意味著宏觀上非政策目標地區(qū)也受到了干預政策的影響,這就是通常所說的一般均衡效應(general equilibrium effect)或溢出效應(spillover effect)。一般均衡效應或溢出效應會使得SUTVA 不再成立,進而導致雙重差分法無法正確識別因果效應。Butt(s 2021)在Callaway和Sant’Anna(2020)研究基礎(chǔ)上采用事件分析法對這類溢出情況進行了處理。
三、雙重差分方法中需要注意的具體問題
(一)控制變量
在回歸方程中加入控制變量起到兩個作用。第一,保證條件獨立假設(shè)(conditional independenceassumption,CIA)成立。①條件獨立假設(shè)成立意味著給定控制變量時處理變量i D 與誤差項it 不相關(guān),從而保證了OLS 估計量b 是我們所關(guān)心的因果效應 的一致估計。這是觀測性研究的因果推斷中控制變量所發(fā)揮的最核心作用。第二,減小誤差,提高估計精度。如果處理變量i D 與誤差項it 已經(jīng)不相關(guān),無論是否加入控制變量,b 都是因果效應 的一致估計。此時加入合理的控制變量可以降低誤差從而提高估計精度。
Cinelli 等(2021)將控制變量分為三類。第一類控制變量是為了保證CIA 成立而控制的變量(稱為好控制變量,good control),必須在回歸方程中加以控制。由于這類變量既影響it Y 又影響i D ,不控制這類變量會導致明顯的“遺漏變量”問題,從而使得OLS 估計系數(shù)b 不是因果效應 的一致估計,這是觀測性實證研究面臨的最大挑戰(zhàn)。以常用的面板數(shù)據(jù)為例,首先,通常個體固定效應和時間固定效應必須加以控制,其次是既影響it Y 又影響i D 的可觀測變量it X 。不過這里需要強調(diào)的是,發(fā)生在處理時點之后( D t≥T )的 it X 作為事后變量,很有可能是一個“壞”控制變量(見下文),對其加以控制會導致估計系數(shù)b 不一致。為了避免這類問題,一般的做法是控制事前某一后者可以控制更為靈活的時間趨勢形式,因而在實踐中更為常用。
第二類控制變量是可能導致CIA 不成立的變量(稱為壞控制變量,bad control),必須排除在回歸方程之外。受到i D 影響的結(jié)果變量一般都是壞控制變量,加入回歸方程會使得估計系數(shù)b 不再具有因果解釋力。壞控制變量問題可能對因果效應的估計產(chǎn)生極大的影響,圖2 是一個模擬估計的例子:添加了合理控制變量的雙向固定效應模型能夠很好地估計真實因果效應,然而一旦繼續(xù)加入壞控制變量,估計系數(shù)會產(chǎn)生極大的偏誤。判斷控制變量是否合理的一個經(jīng)驗法則是考慮控制變量的決定時間:在處理時點之后產(chǎn)生變化的變量都可能受到i D 的影響,很可能是壞控制變量。①在過去相當長一段時期內(nèi)有一種看法認為“凡是與it Y 和i D 相關(guān)的變量均應該作為控制變量納入回歸方程”,這種看法忽略了壞控制變量的存在。對控制變量的選擇直接決定了實證研究的可信性,需要研究者更加謹慎地對待。②
第三類控制變量是不影響CIA 是否成立的變量(稱為中性控制變量,neutral control),在回歸方程中可加可不加。從因果效應識別的角度而言,這類變量是否加入回歸方程并不影響對因果效應估計的一致性,控制或不控制均可。從統(tǒng)計推斷的角度來看,合理地控制這類變量有助于減小殘差從而提高估計精度,但是與壞控制變量問題類似,選取不當?shù)闹行钥刂谱兞糠炊鴷沟霉烙嬈`增加。判斷中性控制變量是否應該控制的一個經(jīng)驗法則是:影響被解釋變量it Y 的中性控制變量可以加入回歸方程中以減小誤差,提高估計精度;影響i D 的中性控制變量一般不控制,因為若控制則會減小Di Tt的變動性(variation),降低估計精度。
(二)平行趨勢與事前趨勢檢驗
平行趨勢(parallel trend)又稱共同趨勢(common trend),指處理組個體的it Y 在沒有接受處理的狀態(tài)下?lián)碛泻涂刂平M個體it Y 相同的時間變動趨勢,它是雙重差分法能夠正確識別因果效應的前提條件。由于處理組個體在處理時點后的反事實結(jié)果(處理組沒有接受處理的it Y )無法觀察到,平行趨勢假設(shè)本質(zhì)上是無法直接檢驗的。因此,研究者通常退而求其次,通過檢驗可觀察的處理組和控制組事前趨勢是否相同來間接地檢驗平行趨勢假設(shè)。如果處理組和控制組的事前趨勢平行,那么研究者就有一定的信心認為事后趨勢也是平行的。
式(3)中的i D 是分組變量, st T 是第s期的時間虛擬變量, pres 和posts可以直觀地理解為在處理發(fā)生前和處理發(fā)生后的第s 期處理組和控制組被解釋變量it Y 的差異相對于基期(這里是處理發(fā)生前一期)處理組和控制組被解釋變量it Y 的差異。①②事前平行趨勢滿足意味著在處理時點D T 之前的各個時期組間差異沒有發(fā)生明顯變化,因此可以通過檢驗pres 是否顯著異于0 來間接地檢驗事前平行趨勢是否成立。圖3 是一個模擬的例子,可以看到在處理發(fā)生前各個時期的pres 均不顯著,聯(lián)合檢驗結(jié)果也無法拒絕處理前系數(shù)都為0 的原假設(shè),因此可以認為事前平行趨勢得到了滿足。
式(3)不僅能夠檢驗事前平行趨勢,還能夠觀察到處理效應的動態(tài)變化。注意, ts pos 代表了處理時點D T 之后的各個時期組間差異相對于基期的差異,如果處理效應確實存在,我們應該期望得真實因果效應1。因此式(3)實際上發(fā)揮著檢驗事前平行趨勢與處理動態(tài)效應的雙重作用。
需要強調(diào)的是,事前平行趨勢通過檢驗并不意味著平行趨勢假設(shè)一定成立。正如前文強調(diào)的,平行趨勢假設(shè)本身不可檢驗,而事前平行趨勢只是整個平行趨勢假設(shè)的一部分,即使事前平行趨勢通過檢驗也只是表明處理組和控制組在處理發(fā)生前保持相同時間趨勢,并不能確保事后趨勢也一定平行,所以“事前平行趨勢檢驗通過,平行趨勢假設(shè)成立”說法并不準確。①
(三)組別時間趨勢的進一步分析
使用雙重差分法評估政策效應的可靠性依賴于平行趨勢假設(shè),因此,在實證研究中最為擔心的一點就是干預分配的過程可能使得平行趨勢假設(shè)不成立。例如研究貧困縣政策對經(jīng)濟發(fā)展的影響時,由于貧困縣依據(jù)人均GDP 等經(jīng)濟指標來認定,被劃為貧困縣的地區(qū)經(jīng)濟發(fā)展速度很可能原本就比非貧困縣更慢,處理組(貧困縣)和控制組(非貧困縣)之間的經(jīng)濟發(fā)展狀況很難滿足平行趨勢。
一個可能的選擇是加入組間線性趨勢i t D Trend 以控制組間線性時間趨勢的差異,從而緩解這一問題。②圖4a 給出了數(shù)值模擬的證據(jù),當處理組和控制組存在明顯的時間趨勢差異時,直接使用雙重差分法估計出的處理效應存在明顯偏誤,但控制組間線性時間趨勢后就能準確地估計處理效應。事實上,根據(jù)上述的分析,在雙重差分法中額外地控制住組間線性趨勢可以作為一種穩(wěn)健性檢驗:若平行趨勢假設(shè)滿足,那么是否加入組間線性時間趨勢不會對估計結(jié)果產(chǎn)生明顯影響;反之,若估計結(jié)果發(fā)生了明顯改變,則預示著組間時間趨勢可能存在差異,平行趨勢假設(shè)可能并不滿足。
然而,控制組間時間趨勢也是一把雙刃劍,可能會產(chǎn)生一些不合意的后果。第一,組間線性時間趨勢i t D Trend 和雙重差分的核心解釋變量 i t D ?Post 的構(gòu)造方式相似,因此二者存在比較明顯的共線性,控制組間線性時間趨勢會大大減少核心解釋變量的變動程度從而降低估計效率、提高標準誤。從圖4a 中可以發(fā)現(xiàn)加入線性時間趨勢后的估計系數(shù)分布明顯更加分散,這表明估計量效率降低、標準誤變得更大了。第二,如果處理效應不是一次性的,而是隨著時間推移逐步顯現(xiàn)出來,那么組間線性時間趨勢會吸收一部分處理效應,導致雙重差分法會低估真實效應。圖4b 的模擬結(jié)果說明了這一點:在處理效應存在動態(tài)變化時,加入組間線性時間趨勢會大大低估真實的處理效應。因此,是否控制組間時間趨勢需要研究者結(jié)合具體的研究情景仔細斟酌。
從本質(zhì)上看,組間時間趨勢存在差異的根本原因是存在某些可觀測或不可觀測的前定變量在處理組和控制組之間存在差異或者是存在隨時間變化的混淆因素。比如前面提到的貧困縣的例子,貧困縣和非貧困縣的經(jīng)濟發(fā)展趨勢差異是由當?shù)氐某跏冀?jīng)濟發(fā)展水平、地理條件、文化等一系列因素綜合造成的。對于可觀測的因素,可以通過添加控制變量的方法加以控制,但對于不可觀測的因素則一般很難直接處理,通過控制組間線性趨勢差異可以部分緩解這一問題,然而當組間時間趨勢差異和動態(tài)處理效應同時存在時也無法完全解決這一問題。針對這種復雜情況,目前主要有兩種處理思路。一種思路是在雙重差分的框架下,通過使用未受處理的樣本來更為干凈地估計和剔除掉時間趨勢。①另一種思路可能需要超越雙重差分法,尋找工具變量或使用空間斷點回歸設(shè)計等方法,不過這些問題超出了本文的范圍,這里不再加以討論。
四、動態(tài)雙重差分法和事件研究法
(一)交錯雙重差分法
在標準的雙重差分法中處理組在同一個時間點受到干預,然而現(xiàn)實中有相當多的政策并非是一次性全面實施,而是先在某些地區(qū)試點后再分批逐步推廣,處理時點并不一致。一個典型的例子是增值稅轉(zhuǎn)型改革:2004 年7 月首先在東北地區(qū)開始試點,2007 年7 月擴大至中部6 省,2008 年7 月推廣至內(nèi)蒙古以及汶川地震受災地區(qū),2009 年1 月1 日起覆蓋全國。標準的雙重差分法并不適用于這樣的政策。一個常用的方法是交錯雙重差分法(staggered DiD),“交錯”一詞表明該方法適用于干預時點有前后差異的政策。交錯雙重差分法的回歸方程設(shè)定為如下形式:
(二)從動態(tài)雙重差分法到事件研究法
動態(tài)雙重差分法可以被視作交錯雙重差分法的動態(tài)效應檢驗。與標準雙重差分法檢驗動態(tài)效應的基本思路一致,也是通過檢驗處理組和控制組在干預前和干預后的組間均值差異變化來識別政策的動態(tài)效應。與標準雙重差分法不同的是,在干預時點交錯發(fā)生的情境下無法定義一個絕對的時間參照點作為處理前和處理后的分界線。因此,動態(tài)雙重差分法不再以絕對時間為參照系,而是以干預發(fā)生時點作為相對時間參照系(圖6)。動態(tài)雙重差分法的計量方程設(shè)定形式為:
那么,一個自然延伸出的問題是,既然可以使用當期未受處理但在未來會受到處理的處理組個體作為控制組,那么是否可以在沒有從未接受處理的控制組樣本的情形下使用動態(tài)雙重差分法?答案是可以,這種情形就是經(jīng)典的事件研究法(event study)。事實上事件研究法在公司金融、資產(chǎn)定價等領(lǐng)域的應用要遠早于雙重差分法,早期的代表性文獻有Fama 等(1969)的研究。事件研究法的計量模型設(shè)定為
式(6)中的符號定義與式(5)相同。比較式(5)和式(6)可以發(fā)現(xiàn)二者本質(zhì)上是一致的:如果所有個體都會受到處理(但處理時點不同)、沒有從未受到處理的控制組,那么樣本中全部觀測值的i D 都等于1,式(5)就會變化為式(6)。因此,事件研究法本質(zhì)上可以近似為去除了控制組的動態(tài)雙重差分法。圖7 使用了同一組模擬數(shù)據(jù)分別應用動態(tài)雙重差分法和事件研究法,可以看到兩種方法的系數(shù)估計結(jié)果幾乎完全一致,只不過由于事件研究法剔除了控制組樣本使得樣本量偏小、估計系數(shù)的標準誤更大。從計量方法的發(fā)展歷程看,事件研究法出現(xiàn)的時間要更早,動態(tài)雙重差分法是事件研究法在樣本包含未接受干預的處理組情形下的自然拓展。
使用動態(tài)雙重差分法或事件研究法需要注意事件窗口的選擇,這里主要指窗口時間寬度的選擇。一般來說,干預交錯發(fā)生的數(shù)據(jù)結(jié)構(gòu)涉及到的事件窗口寬度要更長一些。比如若數(shù)據(jù)集包含10 期的觀測值,其中既有第1 期就接受干預的個體,也有到第10 期才接受干預的個體,那么該樣本涉及到的窗口寬度為干預前9 期、干預發(fā)生當期以及干預發(fā)生后9 期,共19 期。①由于窗口寬度大于樣本時間跨度,觀測值在干預前后各期的分布是不平衡的,一般而言距離干預時點越遠的樣本越少。不平衡樣本可能帶來樣本選擇偏誤(selection bias)和樣本消耗(attrition)問題的困擾。選擇的事件窗口越寬,樣本不平衡現(xiàn)象越嚴重,會愈發(fā)加劇上述擔憂。此外,事件窗口越長,越有可能受到同時期發(fā)生的其他事件和混雜因素的干擾。如果從時間斷點(time cut-off)回歸設(shè)計的角度理解事件研究法,可以將時間視為驅(qū)動變量(running variable),一般來說窗寬選擇越寬則樣本規(guī)模越大、估計越有效(efficient),但可能會有更大的偏誤(bias)??傮w來看事件窗口的寬度不宜過長。由于事件研究法的估計結(jié)果對事件窗口的選擇較為敏感,在實際研究中通常需要更換事件窗口寬度來做一些穩(wěn)健性檢驗。目前,學界仍在不斷完善這一方法,Sun 和Abraham(2020)、Borusyak等(2021)的研究圍繞事件分析法中的異質(zhì)性處理等問題進一步進行了拓展與討論。
五、雙重差分法研究中的其他問題
(一)制度背景和政策實施真實情況
雙重差分法應用最多的場景是評估政策效應。對于制度背景的清晰梳理和政策真實實施情況的正確觀察應該是政策評估類實證研究的基石。一項政策可能發(fā)布了卻沒有很好地實施,也可能受政策影響的個體采取了“上有政策,下有對策”的策略式行動影響了政策實施真實效果,如果研究者沒有很好地厘清這些制度背景和政策實施的真實情況,就不可能準確地評估政策效應,甚至可能得到誤導性的研究結(jié)論。
這里舉一個實例。相當多的研究發(fā)現(xiàn)地方政府的財政補貼相當?shù)托?,企業(yè)獲得了大量的財政補貼卻并沒有激勵企業(yè)的研發(fā)創(chuàng)新能力,甚至會引起企業(yè)尋租(王紅建等,2014;張杰等,2015)。然而,范子英和王倩(2019)通過對地方政府稅收征管實務的觀察,發(fā)現(xiàn)財政補貼實施過程中存在相當明顯的“列收列支”問題:地方政府為了增加名義上的稅收收入,會先向企業(yè)多征收一部分稅款,再以財政補貼的名義返還回去。所以,相當一部分名義上為財政補貼的資金實際上是企業(yè)自有資金,而這部分“虛假”的財政補貼自然不會對企業(yè)經(jīng)營行為產(chǎn)生影響。因此,財政補貼的低效率很可能是由于對政策實施真實情況的把握不夠深入導致的錯誤結(jié)果。總體而言,使用雙重差分法評估政策效應要求對政策的具體實施情況有深入、清晰的了解:政策什么時候開始真正實施?政策是否按照要求得到了準確執(zhí)行?行為主體是否采取了一些應對措施?等等。這一系列問題與雙重差分法是否合理、可行程度密切相關(guān),也是進一步深入分析政策機制效應的良好開端。因此,政策評估類的實證研究有必要高度重視制度背景和政策實施情況。
(二)干預政策需要嚴格外生或隨機分配嗎?
在第二部分雙重差分法的識別假設(shè)部分,我們強調(diào)了雙重差分法本身并沒有解決內(nèi)生性問題,而是“假設(shè)”干預政策是外生,內(nèi)生性問題的解決仍然依賴于干預政策本身的外生性。然而,這里的外生性是什么意義上的外生性?換言之,雙重差分法下需要干預政策和誰之間是外生的?一種看法認為干預政策必須是完全隨機(自然實驗)或者近似隨機分配(準自然實驗),即干預政策和模型未考慮的所有因素(擾動項)之間不相關(guān),只有在這種情況下才適用雙重差分法(陳林和伍海軍,2015)。但是,現(xiàn)實中的任何一項政策幾乎都有特定的政策目標和政策對象,完全隨機分配的政策幾乎并不存在,那么這類政策是否完全不適用雙重差分法呢?本文認為并非如此。第二部分對識別假設(shè)的討論清楚地表明,雙重差分法所需要的外生性是干預政策和擾動項在差分意義上的外生性,這與水平意義上的外生性顯然并非是等價的。①
我們以貧困縣政策的經(jīng)濟發(fā)展效應評估為例。水平意義上的外生性要求貧困縣名額的分配過程要近似完全隨機,無論是貧困地區(qū)還是富裕地區(qū)都有差不多的機會入選貧困縣,顯然這并不符合現(xiàn)實——貧困縣的選取標準主要是人均GDP、人均財政收入等指標,被選為貧困縣的地區(qū)都是經(jīng)濟發(fā)展十分落后的縣域,因此貧困縣政策并不滿足水平意義上的外生性。但是,差分意義上的外生性是有可能滿足的,即貧困縣可能和非貧困縣有相同的經(jīng)濟發(fā)展趨勢。如果研究設(shè)計能夠盡量滿足這一識別假設(shè),就可以使用雙重差分法。例如黃志平(2018)的做法是首先使用傾向得分匹配法(PSM)對數(shù)據(jù)預處理,在非貧困縣中盡量選取與貧困縣的各方面稟賦條件類似的控制組,從而盡可能地使得平行趨勢假設(shè)成立(等價于差分意義上的外生性),而后使用雙重差分法估計因果效應。
(三)溢出效應
雙重差分法的另一個核心識別假設(shè)是SUTVA,即干預不存在一般均衡效應或溢出效應。然而,現(xiàn)實中的各項政策幾乎或多或少都會存在一定的一般均衡效應,例如前文提到的上游省份加強水質(zhì)環(huán)境規(guī)制會影響下游省份水質(zhì)的例子。特別是在長期中,當處理組個體的決策發(fā)生變化時,控制組個體一定會隨之調(diào)整自身的行為決策。因此,干預政策是否存在溢出效應是任何一個使用雙重差分法的實證研究必須考慮的潛在威脅。
不過,檢驗溢出效應是否存在并非一項簡單的工作,研究者需要根據(jù)制度背景仔細識別可能受到溢出效應影響的控制組個體,而后檢驗溢出效應。Lu 等(2019)研究中國經(jīng)濟開發(fā)區(qū)對當?shù)亟?jīng)濟發(fā)展的影響,其對溢出效應的討論和處理是一個較為成功的范例。他們采取了兩種識別策略檢驗溢出效應,第一種是檢驗與經(jīng)濟開發(fā)區(qū)所屬村莊鄰近的同縣其他村莊經(jīng)濟發(fā)展是否也得到了提高,第二種是檢驗經(jīng)濟開發(fā)區(qū)對經(jīng)濟發(fā)展的激勵效應是否隨著村莊離經(jīng)濟開發(fā)區(qū)越來越遠而減弱。第一種方法的結(jié)果表明同縣其他村莊的總產(chǎn)出、就業(yè)等僅有略微的提高且統(tǒng)計上不顯著,第二種方法的結(jié)果表明距離經(jīng)濟開發(fā)區(qū)2 千米之外的村莊基本上不受經(jīng)濟開發(fā)區(qū)的影響,兩種方法都提供了證據(jù)表明經(jīng)濟開發(fā)區(qū)政策的溢出效應并不顯著。
還需要強調(diào)的一點是,如果研究重點本身就是政策的溢出效應的話,那么是不適用雙重差分法的。例如一些研究試圖探討地區(qū)產(chǎn)業(yè)政策對企業(yè)選擇效應和集聚效應的影響:本地擁有更加優(yōu)惠的產(chǎn)業(yè)政策(如稅收優(yōu)惠)會吸引相鄰地區(qū)的企業(yè)遷移到本地區(qū),產(chǎn)生選擇效應和集聚效應。這里的選擇效應和集聚效應就是溢出效應的一個典型表現(xiàn):本地區(qū)的政策對鄰近地區(qū)的企業(yè)產(chǎn)生了影響,因此該話題顯然不適合使用雙重差分法。研究者需要注意避免類似的問題。
(四)一般均衡視角下的成本收益分析
雙重差分法廣泛應用于各類公共政策的評估,如果估計得到了政策效應符合預期,是否就意味著政策達到了初始目標或是政策本身就是有效的呢?不是。一般而言,雙重差分法只能評估干預政策對研究者感興趣的結(jié)果變量的影響,但研究者并不清楚政策本身的機會成本有多大,也不清楚政策的凈收益到底是多少。評估政策效應整體上是否符合預期或是政策是否有效率,并不能僅根據(jù)估計結(jié)果就判斷政策是否有效,而是需要從更廣泛的一般均衡角度,從整體上對政策進行成本收益分析。
Duflo(2001)是在政策效用評估類文獻中成功應用成本收益分析的早期經(jīng)典代表,她研究了印度尼西亞修建學校對當?shù)貎和拈L期勞動力市場的影響。根據(jù)雙重差分法的基準結(jié)果,她估計了印度尼西亞政府投資學校建設(shè)的成本和對兒童未來的工資收益,發(fā)現(xiàn)投資學校建設(shè)的內(nèi)部回報率為8.8%-12%,遠高于當?shù)貙嶋H利率,因此投資教育是一個非常高收益的投資項目。①Lu 等(2019)對中國經(jīng)濟開發(fā)區(qū)的政策效應同樣進行了成本收益分析,他們根據(jù)雙重差分法的估計結(jié)果計算得到2006-2008 年間經(jīng)濟開發(fā)區(qū)為當?shù)鼐用窈推髽I(yè)提高的工資和利潤總額約為1 807 億元,付出的稅收成本則為558 億元,凈收益高達1 249 億元。上述例子都體現(xiàn)了研究者在一般均衡的視角下,從機會成本和政策收益兩個角度對政策效果進行完整的評估。研究者在完成雙重差分法的估計后,通常需要對政策進行成本收益分析,在此基礎(chǔ)上才能更為完整地回答政策是否達到預期目標、是否有效率等問題,并提供合理、可行的政策建議。否則,若研究者過于關(guān)注政策的直接效果而忽略了潛在的政策成本,就可能對政策的整體效果產(chǎn)生錯誤判斷,將整體上無效率的政策判定為有效政策,最終導致錯誤的政策建議。
六、總結(jié)性評論
本文結(jié)合近年來國內(nèi)外關(guān)于雙重差分法的理論和實證研究文獻,系統(tǒng)梳理了雙重差分法的基本計量設(shè)定、識別假設(shè)和雙重差分法的各個類型變體,著重分析了雙重差分法實際應用中面臨的控制變量選擇、平行趨勢檢驗和組間時間趨勢差異等容易混淆或理解不準確的問題。特別是近年來交錯雙重差分法逐漸得到廣泛使用,但最新的一些理論計量研究成果表明交錯雙重差分法在異質(zhì)性處理效應下存在著一系列不合意之處,可能導致錯誤的因果效應估計結(jié)果,因此,本文建議研究者可以考慮使用動態(tài)雙重差分法或事件研究法來替代交錯雙重差分法作為基準識別策略和實證結(jié)果展示方法。本文詳細介紹了動態(tài)雙重差分法和事件研究法的計量實現(xiàn)以及兩者的區(qū)別和聯(lián)系,通過數(shù)值模擬方法揭示了二者本質(zhì)上的等價性。本文還強調(diào)了實踐中使用動態(tài)雙重差分法和事件研究法時對窗寬選擇的重要性。最后,本文從政策評估實證研究的角度提出了研究者在使用雙重差分法進行實證研究時需要注意的幾個重要問題,包括重視制度背景和政策真實效應的梳理和確認、對于政策干預隨機性的準確理解、重視對溢出效應的處理和討論,以及從一般均衡視角對政策效應的收益和成本進行全面評估等。
近年來使用雙重差分法進行的實證研究呈現(xiàn)爆發(fā)式增長,近乎泛濫,但若深究其中,許多研究并沒有正確地理解雙重差分法基本識別假設(shè)和需要注意的問題,產(chǎn)生了各式各樣的偏差與錯誤。并且,許多學術(shù)期刊的匿名審稿人也出現(xiàn)了這些錯誤和問題,使得一些匿名審稿人提出沒有意義甚至是錯誤的修改建議,而論文作者多數(shù)時候只能將錯就錯去迎合匿名審稿人,甚至將原本正確的做法被迫修改為錯誤的做法,可謂是見笑于大方之家。長期來看這種錯誤會極大阻礙我國經(jīng)濟學研究與國際一流研究接軌的腳步,產(chǎn)生的傷害不可謂不嚴重。本文試圖對上述錯誤和問題在一定程度上進行歸納、總結(jié)、厘清和解決,如果能對未來的研究者提供一些參考,為我國經(jīng)濟學研究進步提供些微助力,本文的目的就完全達到了。
當然,本文的觀點均是由作者從自身的理解和實踐經(jīng)驗中提取總結(jié)而來,作為一家之言,必定有謬誤或不足之處,僅為拋磚引玉。期待后續(xù)學界同行的進一步研究,促成我國經(jīng)濟學界的共同進步。