蔡 俊, 楊 嵐, 周亞虹
(1. 華中科技大學(xué)管理學(xué)院, 武漢 430074; 2. 西南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院, 成都 611130 ;3. 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)學(xué)院及上海財(cái)經(jīng)大學(xué)滴水湖高級(jí)金融學(xué)院, 上海 200433)
最近十幾年來,傾向得分匹配-雙重差分(propensity score matching-difference in differences, PSM-DID)在政策評(píng)價(jià)因果效應(yīng)識(shí)別和估計(jì)中得到了越來越多的關(guān)注.傾向得分匹配的基本原理是,將原本基于多維控制變量的處理組和控制組的匹配轉(zhuǎn)變?yōu)榛谝痪S傾向得分的匹配,從而使匹配維度大大降低,而匹配質(zhì)量和效果卻得到顯著提升.基于匹配后的樣本進(jìn)行分析,能夠克服樣本自選擇偏差,從而使得因果估計(jì)更為準(zhǔn)確.而雙重差分則可以通過控制時(shí)間和個(gè)體兩個(gè)維度的不可觀測(cè)異質(zhì)性,在反事實(shí)的框架下來評(píng)估政策發(fā)生和不發(fā)生這兩種情況下被觀測(cè)結(jié)果的變化,得到因果推斷.
本文統(tǒng)計(jì)和梳理了自2012年—2022年間國內(nèi)部分經(jīng)濟(jì)學(xué)管理學(xué)權(quán)威期刊,即《經(jīng)濟(jì)研究》、《管理世界》、《管理科學(xué)學(xué)報(bào)》、《經(jīng)濟(jì)學(xué)(季刊)》、《世界經(jīng)濟(jì)》、《中國工業(yè)經(jīng)濟(jì)》中使用了傾向得分匹配的文章.在這十年間,共有169篇文章使用了傾向得分匹配方法,其中118篇將其作為主回歸或者主回歸之一,51篇使用該方法進(jìn)行穩(wěn)健性檢驗(yàn).通過文獻(xiàn)梳理,本文發(fā)現(xiàn):
第一,傾向得分匹配在經(jīng)濟(jì)管理各個(gè)領(lǐng)域的應(yīng)用都較為廣泛,特別是在政策評(píng)估時(shí)成為一種重要的因果效應(yīng)估計(jì)方法而廣為人知.由于通常能獲取到的數(shù)據(jù)大多為觀測(cè)數(shù)據(jù),利用觀測(cè)數(shù)據(jù)進(jìn)行政策評(píng)價(jià)時(shí)首先要解決的問題就是樣本的自選擇性,而傾向得分匹配能夠在利用已有數(shù)據(jù)的基礎(chǔ)上較好的處理樣本的自選擇性.例如:孫亮等[1]采用PSM-DID方法,系統(tǒng)考察了我國資本市場(chǎng)中政府賦予型聲譽(yù)的激勵(lì)效果和作用機(jī)理.黃俊等[2]以第一巡回法庭和第二巡回法庭管轄范圍內(nèi)的上市公司為實(shí)驗(yàn)組,采用PSM方法構(gòu)建對(duì)照組樣本,探究巡回法庭的設(shè)立對(duì)企業(yè)投資的影響.吳要武[3]基于PSM方法估計(jì)跨省遷移者相比于省內(nèi)遷移者真實(shí)的收入優(yōu)勢(shì).賈俊雪和秦聰[4]利用2 126個(gè)村莊的調(diào)查數(shù)據(jù)進(jìn)行傾向得分匹配實(shí)證檢驗(yàn),識(shí)別專業(yè)協(xié)會(huì)建立對(duì)處理組農(nóng)戶人均純收入的平均處理效應(yīng).
第二,傾向得分匹配方法常與雙重差分法結(jié)合使用.由于原理和模型設(shè)置容易理解和運(yùn)用,雙重差分法成為政策效應(yīng)評(píng)估方法中的最流行的方法之一.十年間,使用傾向得分匹配-雙重差分法(PSM-DID)進(jìn)行反事實(shí)估計(jì)的文章有107篇,占到發(fā)文總數(shù)的63.3%(其中宏觀政策效應(yīng)評(píng)估有22篇,占20.6%;微觀政策效應(yīng)評(píng)估有85篇,占79.4%).例如:宏觀政策層面的分析中,萬海遠(yuǎn)和李實(shí)[5]采用傾向得分匹配與雙重差分的方法來構(gòu)造反事實(shí),從而在擬實(shí)驗(yàn)環(huán)境下評(píng)估戶籍歧視對(duì)城鄉(xiāng)收入差距產(chǎn)生的影響.王庶和岳希明[6]使用PSM-DID評(píng)估退耕還林在農(nóng)民增收、非農(nóng)就業(yè)和扶貧開發(fā)等方面的政策效果.龍玉等[7]利用PSM-DID模型考察在高鐵開通前后的高鐵沿線各城市風(fēng)險(xiǎn)投資項(xiàng)目和投資金額的變化,來檢驗(yàn)高鐵對(duì)風(fēng)險(xiǎn)投資區(qū)域特征的影響.微觀政策層面的分析中,孫文凱和王乙杰[8]采用PSM-DID方法估計(jì)父母外出務(wù)工對(duì)留守兒童自評(píng)健康的影響.張杰等[9]利用PSM-DID模型系統(tǒng)地檢驗(yàn)了出口與生產(chǎn)率的關(guān)系.王桂軍和張輝[10]使用PSM-DID評(píng)估了“一帶一路”倡議對(duì)中國OFDI企業(yè)全要素生產(chǎn)率的影響.
第三,傾向得分匹配作為一種數(shù)據(jù)預(yù)處理方法,能讓處理組和對(duì)照組的可觀測(cè)特征盡可能接近,從而克服樣本自選擇帶來的估計(jì)偏誤,但是使用傾向匹配得分需要滿足兩個(gè)前提:一是平衡性假定,在計(jì)算傾向得分后,需要評(píng)估匹配的質(zhì)量如何,即檢驗(yàn)可觀測(cè)特征是否均衡;二是共同支撐假設(shè),也即評(píng)估控制組和處理組傾向得分的分布,若兩組樣本沒有重合的傾向得分,或者重合的樣本量太小,就會(huì)導(dǎo)致無法匹配或匹配偏差較大.在梳理文獻(xiàn)時(shí),本文發(fā)現(xiàn)僅有82篇文章(占比48.5%)在正文中匯報(bào)了平衡性假定檢驗(yàn)的結(jié)果,有29篇文章(占比17.2%)未匯報(bào)具體檢驗(yàn)統(tǒng)計(jì)指標(biāo),僅指出通過該檢驗(yàn)或者檢驗(yàn)結(jié)果備索,有58篇文章(占比34.3%)未進(jìn)行平衡性檢驗(yàn).同時(shí),本文還發(fā)現(xiàn),十年間文獻(xiàn)進(jìn)行平衡性檢驗(yàn)基本都是基于比較處理組和對(duì)照組樣本均值是否存在統(tǒng)計(jì)意義上的差異,若兩組的均值差的t統(tǒng)計(jì)量顯示實(shí)驗(yàn)組和對(duì)照組均值沒有顯著差異,則認(rèn)為通過平衡性檢驗(yàn),使用傾向得分匹配后得到的樣本較為均衡.但是,僅僅基于均值的差異判斷兩組樣本的平衡性較為片面,一種可能的情況是雖然均值較為接近,但是方差差異很大,例如處理組的方差較小,控制組的方差較大,此時(shí),將兩組進(jìn)行比較得出的結(jié)論有較大偏差.因此,本文認(rèn)為目前文獻(xiàn)中廣泛使用的平衡性檢驗(yàn)方法存在不足,需要進(jìn)行更多維度平衡性檢驗(yàn)指標(biāo)的檢測(cè),只有確保處理組和對(duì)照組的樣本實(shí)現(xiàn)平衡后,基于匹配后的樣本所估計(jì)的因果效應(yīng)才有意義[11, 12].
鑒于該方法的廣泛應(yīng)用性和既有研究的不足,本文在梳理國內(nèi)既有使用傾向得分匹配的文章的基礎(chǔ)上,首先對(duì)目前廣泛使用的平衡性測(cè)度指標(biāo)進(jìn)行總結(jié),對(duì)文獻(xiàn)中普遍使用的均值差t檢驗(yàn)方法進(jìn)行回顧并說明其缺陷,然后推薦了六種多維度測(cè)度指標(biāo),分別基于標(biāo)準(zhǔn)化距離和分位數(shù)距離的視角對(duì)平衡性進(jìn)行測(cè)度.第二,利用兩個(gè)實(shí)例(一個(gè)微觀層面的實(shí)證分析,一個(gè)宏觀層面實(shí)證分析)說明和驗(yàn)證既有平衡性測(cè)度指標(biāo)的不足,并計(jì)算新的平衡性測(cè)度指標(biāo),基于這些指標(biāo)判斷樣本間的平衡性,研究發(fā)現(xiàn)均值差t檢驗(yàn)可能將非平衡的樣本判定為平衡,因此單純基于均值差t檢驗(yàn)判定平衡性比較片面且可能有誤導(dǎo)性.第三,若樣本匹配后在多種平衡性測(cè)度指標(biāo)的判斷下顯示為不平衡,傳統(tǒng)估計(jì)方法將有較大偏誤,本文創(chuàng)新性地提出了一種新的更穩(wěn)健的估計(jì)方法:傾向得分匹配-逆概率加權(quán)-雙重差分(PSM-IPW-DID),并基于蒙特卡洛模擬比較本文提出的PSM-IPW-DID估計(jì)量與傳統(tǒng)PSM-DID估計(jì)量的優(yōu)劣.最后對(duì)兩個(gè)實(shí)例使用該新方法重新進(jìn)行分析,以進(jìn)一步說明使用PSM-DID和PSM-IPW-DID方法時(shí)估計(jì)結(jié)果的差異.
因此,本文的創(chuàng)新性體現(xiàn)在:一是明確指出既有文獻(xiàn)中廣泛使用的平衡性測(cè)度指標(biāo)的不足,并給出了更為全面的平衡性測(cè)度指標(biāo).二是提出適用于非均衡樣本的新的估計(jì)方法:傾向得分匹配-逆概率加權(quán)-雙重差分(PSM-IPW-DID).逆概率加權(quán)(inverse probability weighting, IPW)由于其基于樣本對(duì)總體的還原,可以使模型推斷結(jié)果具有總體代表性,被廣泛地應(yīng)用于缺失數(shù)據(jù)時(shí)的統(tǒng)計(jì)分析和因果推斷的計(jì)量估計(jì)中[13-15].文獻(xiàn)中已有證據(jù)表明在傾向得分重合度(overlap)較好時(shí),IPW方法比PSM方法占優(yōu)(有更小的方差);在傾向得分重合度比較差時(shí),PSM比IPW更穩(wěn)健[16-18].本文提出的新方法結(jié)合傾向得分匹配和逆概率加權(quán)的長處,規(guī)避其短處,在不進(jìn)一步刪除樣本的情況下得到一種綜合更穩(wěn)健的雙重差分估計(jì)方法.另一方面,已有的文獻(xiàn)或是單純比較傾向得分匹配和傾向得分逆概率加權(quán)的聯(lián)系與區(qū)別,如King 和Richard[19];或是探討在一般回歸模型中考慮傾向得分的使用,如Wooldridge[20]中的逆概率加權(quán)-回歸調(diào)整的估計(jì)量(IPWRA);本文將PSM-IPW與DID回歸模型結(jié)合起來,既考慮傾向得分重合度(overlap)對(duì)估計(jì)的影響,也為平衡多維控制變量提供了新的思路.(1)最新的相關(guān)文獻(xiàn)為 Arkhangelsky和Imbens[21],他們發(fā)現(xiàn)在存在組間異質(zhì)性時(shí),逆傾向得分加權(quán)使固定效應(yīng)模型估計(jì)值更加穩(wěn)健.
本節(jié)首先介紹文獻(xiàn)常用的平衡性檢驗(yàn)實(shí)施方法,然后推薦6種本文認(rèn)為應(yīng)該更多關(guān)注的多維度平衡性測(cè)度.
基于對(duì)既有文獻(xiàn)的梳理和總結(jié),本文發(fā)現(xiàn)既有文獻(xiàn)一般將傾向得分匹配后樣本每一個(gè)控制變量的處理組和控制組之間的加權(quán)均值差異(mean difference)進(jìn)行t檢驗(yàn),以此作為平衡性檢驗(yàn).文獻(xiàn)中該方法的流行得益于Stata中pstest命令的便利性,該命令輸出結(jié)果呈現(xiàn)了各變量匹配前后的均值,并輸出加權(quán)均值差t檢驗(yàn)的結(jié)果(如表1).(2)Stata程序pstest一般在psmatch2后使用,其匹配權(quán)重也來自于psmatch2中的_weight.關(guān)于匹配權(quán)重詳情,請(qǐng)見psmatch2的幫助文件.同時(shí),文獻(xiàn)中通常會(huì)畫出匹配前后的傾向得分核概率密度分布圖用以支持共同支撐假設(shè)(如圖1和圖2).基于這兩步操作,既有文獻(xiàn)認(rèn)為驗(yàn)證了傾向得分匹配的有效性.然而,簡(jiǎn)單的匹配加權(quán)均值差t檢驗(yàn)只能反映加權(quán)總體控制變量分布平衡性的一個(gè)維度,比較片面.而傾向得分概率密度圖只是一種簡(jiǎn)單的圖示,可能無法反映變量之間真實(shí)的匹配程度.
(a)匹配前
(a)匹配前
表1 匹配前后平衡性檢驗(yàn)結(jié)果
簡(jiǎn)單的加權(quán)均值差異t檢驗(yàn),只能反映控制變量的均值在處理組和控制組之間有無顯著性差異,且由于目標(biāo)總體會(huì)隨著匹配權(quán)數(shù)的選擇而改變,容易忽略處理組和控制組樣本數(shù)量的差異,忽略對(duì)處理組控制變量和控制組處理變量的方差、分位數(shù)、分布高階矩等信息的考察.而平衡性要求(關(guān)鍵)控制變量的分布盡可能一致,所以僅僅依靠一種均值檢驗(yàn)可能并不能說明平衡性的好壞,更無法判斷研究設(shè)計(jì)的優(yōu)劣.特別地,在實(shí)證研究中,由于傾向得分模型可能被誤設(shè),僅依靠?jī)A向得分的平衡性并不足以判斷研究設(shè)計(jì)如“準(zhǔn)自然實(shí)驗(yàn)”構(gòu)造的好壞,構(gòu)造多種多維度的平衡性測(cè)度就顯得尤為迫切.基于此,本文參考前沿文獻(xiàn)[12],推薦以下六種值得關(guān)注的控制變量平衡性測(cè)度指標(biāo):
1.2.1 標(biāo)準(zhǔn)化均值差異
標(biāo)準(zhǔn)化均值差異是指經(jīng)過處理組和控制組組間標(biāo)準(zhǔn)誤標(biāo)準(zhǔn)化后的組間均值差異,具體公式如下
(1)
(2)
(3)
使用樣本方差的優(yōu)點(diǎn)是考慮了處理組和控制組之間的樣本數(shù)量的差異.在大多數(shù)政策評(píng)價(jià)實(shí)例中,處理組的個(gè)體數(shù)量一般遠(yuǎn)小于控制組的個(gè)體數(shù)量.文獻(xiàn)經(jīng)驗(yàn)顯示,標(biāo)準(zhǔn)化均值差異和平均處理效應(yīng)(ATE)的估計(jì)偏差高度相關(guān),絕對(duì)標(biāo)準(zhǔn)化均值差異(即標(biāo)準(zhǔn)化均值差異的絕對(duì)值)在百分之十以下才能認(rèn)為是達(dá)到一個(gè)比較好的平衡性[22].
1.2.2 馬氏距離
馬氏距離(Mahalanobis Distance),也稱馬哈拉諾比斯距離,是一種有效的衡量?jī)蓚€(gè)樣本相似度的測(cè)度.與歐氏距離不同的是它考慮到了各個(gè)控制變量之間的聯(lián)系,并且是尺度獨(dú)立的(scale-invariant).其表達(dá)式為
(4)
1.2.3 線性化傾向得分的標(biāo)準(zhǔn)化均值差
(5)
1.2.4 對(duì)數(shù)樣本標(biāo)準(zhǔn)誤比
對(duì)數(shù)樣本標(biāo)準(zhǔn)誤比(Ln Ratio of Standard Deviations),即對(duì)處理組與控制組控制變量樣本標(biāo)準(zhǔn)誤比值取對(duì)數(shù),主要反映樣本間控制變量的分散程度(spread dispersion)差異.數(shù)學(xué)表達(dá)式為
(6)
其中St、Sc分別為處理組、控制組的樣本標(biāo)準(zhǔn)誤.對(duì)數(shù)樣本標(biāo)準(zhǔn)誤比是一個(gè)控制變量分散度的測(cè)量,它也是尺度獨(dú)立的.與簡(jiǎn)單的樣本標(biāo)準(zhǔn)誤差值或者樣本標(biāo)準(zhǔn)誤比值相比,對(duì)數(shù)樣本標(biāo)準(zhǔn)誤比值更接近于服從正態(tài)分布,便于下一步的判定.
1.2.5 分位數(shù)差異
(7)
(8)
1.2.6qc&qt
與分位數(shù)差異類似,另外一種直接的測(cè)度就是基于線性化傾向得分的分位數(shù)差異qc&qt,用以測(cè)量控制組和處理組的共同支撐.若至少能找到一個(gè)對(duì)照組(i′∶Wi′=1-Wi)中樣本和其有接近的線性化傾向得分值,也即線性化傾向得分差異小于一個(gè)門檻值lu(通常設(shè)為0.1或者0.05),定義二值變量ζi為1,否則為0.具體數(shù)學(xué)表達(dá)式如下
(9)
基于此,qc&qt具體表達(dá)式為
(10)
(11)
其中Nt是處理組樣本數(shù),Nc是控制組樣本數(shù),qc和qt反映的是控制組(和處理組)中能找到參照組中類似個(gè)體的樣本數(shù)占該組總樣本的比例.
總體上來看,以上推薦的六種測(cè)度中,測(cè)度(1)、測(cè)度(2)和測(cè)度(5)是針對(duì)每一個(gè)控制變量的度量;測(cè)度(3)、測(cè)度(4)和測(cè)度(6)是針對(duì)所有控制變量的多維平衡性測(cè)度.測(cè)度(1)~測(cè)度(4)是標(biāo)準(zhǔn)化距離的度量,測(cè)度(5)~測(cè)度(6)是控制組和處理組分位數(shù)差異的度量.這些測(cè)度方法更注重控制組和處理組整體分布的平衡性,比傳統(tǒng)的(加權(quán))均值t檢驗(yàn)更加全面與客觀.但是,要求所提出的六種平衡性檢驗(yàn)全部滿足在觀測(cè)數(shù)據(jù)實(shí)證分析中難以實(shí)現(xiàn),研究者可以根據(jù)樣本量和研究需要,盡可能滿足多種平衡性指標(biāo),如Imbens[22]和 Athey 和 Imbens[23]推薦至少滿足標(biāo)準(zhǔn)化均值差異、對(duì)數(shù)樣本標(biāo)準(zhǔn)誤和分位數(shù)差異這三種指標(biāo).
通過兩個(gè)實(shí)例來說明本文推薦的多種平衡性測(cè)度的有效性和實(shí)用性.
2.1.1 政策背景
為克服傳統(tǒng)稅制重復(fù)征稅的缺陷[24],國務(wù)院批準(zhǔn)自2012 年1月1日起,率先在上海實(shí)施了交通運(yùn)輸業(yè)和部分現(xiàn)代服務(wù)業(yè)營改增試點(diǎn).在原有17% 和13%兩檔增值稅稅率下,新增了11% 和6%兩檔較低稅率.在上海試點(diǎn)的基礎(chǔ)上,2012年9月1日~2012年12月1日,“營改增”試點(diǎn)擴(kuò)大至北京市、天津市、江蘇省、安徽省、浙江省、福建省、湖北省與廣東省8 個(gè)省份.一年后,“1+6”行業(yè)“營改增”推廣至全國所有地區(qū).并逐步推廣至全國和其他服務(wù)部門.下面將基于我國“營改增”稅制試點(diǎn)政策這一“準(zhǔn)自然實(shí)驗(yàn)”,將2012年進(jìn)行試點(diǎn)的上海市制造業(yè)上市公司作為處理組,使用PSM方法匹配其他未進(jìn)行“1+6”行業(yè)“營改增”試點(diǎn)省份的制造企業(yè)作為控制組,探究稅制改革對(duì)制造業(yè)經(jīng)營多元化的影響.
2.1.2 數(shù)據(jù)與模型
1)數(shù)據(jù)來源
數(shù)據(jù)來源Wind數(shù)據(jù)庫,使用2008年—2014年全部制造業(yè)行業(yè)的上市公司相關(guān)數(shù)據(jù).從收集的數(shù)據(jù)中可以看出,非試點(diǎn)省份中有3 288個(gè)上市制造業(yè)公司觀測(cè)值,政策處理節(jié)點(diǎn)2012年以前觀測(cè)值1 794個(gè),2012年以后1 494個(gè);處理組(上海市)有475個(gè)上市制造業(yè)公司觀測(cè)值,其中政策時(shí)間節(jié)點(diǎn)2012年以前觀測(cè)值259個(gè),2012年后216個(gè).
2)實(shí)證模型
采用雙重差分方法來估計(jì)“營改增”試點(diǎn)政策的因果效應(yīng),并應(yīng)用傾向得分匹配(PSM)來構(gòu)造可比較的處理組和控制組,即在上海的制造業(yè)上市公司和非試點(diǎn)省份的上市制造業(yè)公司,減少由于樣本選擇所帶來的內(nèi)生性風(fēng)險(xiǎn).具體而言,使用的模型如下
PilotVATi=α0+α1Lnassetit+α2Inexrit+
α3Levit+α4Profitit+
α5Marketit+α6Intassetit+εi
(12)
Revstruraipt=β0+β1Treatp×Postt+
β2Xipt+ηi+γt+ζit
(13)
其中,下表i,p,t分別表示企業(yè),省份和年份.具體地,方程(12)為估計(jì)傾向得分的選擇方程(Selection Equation),是用于PSM匹配的Pooling Logit回歸模型,被解釋變量PilotVATi為是否加入政策試點(diǎn)的虛擬變量.若企業(yè)i位于“營改增”政策試點(diǎn)地區(qū)則為1,否則為0.參照已有文獻(xiàn)[25],本文匹配變量選擇了可能影響“營改增”試點(diǎn)地區(qū)選擇的企業(yè)特征變量:Lnasset(對(duì)數(shù)資產(chǎn)總額),Inexr(投資支出比,用于購建固定資產(chǎn)、無形資產(chǎn)以及其他長期資產(chǎn)支付的現(xiàn)金與總資產(chǎn)之比),Lev(資產(chǎn)負(fù)債率,為企業(yè)年末負(fù)債總額與資產(chǎn)總額之比),Profit(利潤率,營業(yè)利潤與營業(yè)收入之比),Market(市場(chǎng)勢(shì)力,用勒納指數(shù)衡量,指產(chǎn)品價(jià)格與邊際成本間的差額,本文采用主營業(yè)務(wù)收入減主營業(yè)務(wù)成本之差除以主營業(yè)務(wù)收入之比獲得),Intasset(無形資產(chǎn)占比,企業(yè)的無形資產(chǎn)總額與總資產(chǎn)之比).
方程(13)是評(píng)估政策的結(jié)果方程(Outcome Equation),是一個(gè)雙重差分模型.其中選取Revstrura(主營構(gòu)成第一名在營業(yè)收入中占比)為因變量,反映制造業(yè)公司的營業(yè)集中度.Treat為政策試點(diǎn)地區(qū)的虛擬變量,如果制造業(yè)上市公司所在地為上海則Treat為1,否則Treat為0;Post為政策實(shí)施年份前后的虛擬變量,2012年以前年份為0,2012年及以后為1.因此,雙重差分交互項(xiàng)Treat×Post前的系數(shù)為雙重差分估計(jì)的“營改增”對(duì)試點(diǎn)地區(qū)制造業(yè)上市公司的凈效應(yīng).Xipt為控制變量,即方程(12)中的6個(gè)企業(yè)特征(Lnasset、Inexr、Lev、Profit、Market、Intasset).在結(jié)果方程中,本文控制了公司層面?zhèn)€體固定效應(yīng)ηi和年份固定效應(yīng)γt.
2.1.3 傾向得分匹配結(jié)果
如前所述,本文先進(jìn)行傾向得分匹配,在估計(jì)完傾向得分值之后,常用的匹配方法有以下幾種:1)有放回的最近臨近匹配,通常選擇1∶4[26]或者1∶1(最優(yōu)的情況,但是會(huì)損失一定樣本)同時(shí)限制最大卡尺(Caliper)距離為0.05; 2)半徑匹配,即選擇一個(gè)傾向得分匹配所能允許的最大半徑值,可以選擇0.05或者選擇一個(gè)傾向得分的標(biāo)準(zhǔn)誤;3)核加權(quán)匹配,需要選擇一個(gè)匹配的核函數(shù),一般選高斯核函數(shù)(Gaussian)或者雙權(quán)重核函數(shù)(Biweight).本文選擇文獻(xiàn)中常用的1∶1臨近匹配方法(用psmatch2實(shí)現(xiàn)).(4)考慮到估計(jì)的傾向得分所帶來的不確定性,1∶1近鄰匹配嚴(yán)格意義上應(yīng)該使用teffect psmatch程序包,但是使用teffect psmatch時(shí)無法獲得控制變量的回歸系數(shù)及顯著性。鑒于此,本文采用了文獻(xiàn)中常用的psmatch2程序包中1∶1匹配方法,得到基于均值平衡性檢驗(yàn)表及傾向得分重合度檢驗(yàn)圖,并加上共同支撐假設(shè)進(jìn)行樣本刪減,以便進(jìn)行后續(xù)回歸分析.匹配前后控制變量的均值差異如表1所示.
表1中第二列為匹配前后標(biāo)識(shí)變量,U代表未匹配(Unmatched),M代表匹配后(Matched).第三列、第四列為匹配權(quán)重加權(quán)后的均值,第三列為處理組均值,第四列為控制組均值.第五列%bias是標(biāo)準(zhǔn)化平均值差異.公式為(Weighted Mean_T-Weighted Mean_UT)/SD,即用表格中處理組與控制組的加權(quán)均值之差,除以該變量加權(quán)樣本的標(biāo)準(zhǔn)誤.(5)這里的加權(quán)樣本標(biāo)準(zhǔn)誤為控制組和處理組加權(quán)樣本方差的均值開根號(hào),詳見Stata軟件中pstest幫助文件.第六列%reduct |bias|是匹配后標(biāo)準(zhǔn)化平均值差異下降的幅度,其數(shù)值是通過前面 %bias一列得到的,公式為(| UnMatched %bias |-|Matched % bias | ) / |UM%bias|,度量匹配之后處理組和控制組間的bias減少了多少.第七列、第八列的t-test,用于判斷前述的 %bias 是否顯著,若顯著則說明針對(duì)該變量而言,處理組和控制組的加權(quán)均值差異是顯著的.最后一列V(T)/V(C)為控制變量方差比.星號(hào)表示控制變量方差比值超過F統(tǒng)計(jì)量2.5%和97.5%分位值,表示值得關(guān)注的控制變量,詳見Austin[27].
從上表中可以看出匹配完后的樣本,加權(quán)均值差異的t檢驗(yàn)都通過,加權(quán)均值差異在統(tǒng)計(jì)意義上都不顯著,但是方差比值(Varianceratio:=V(T)/V(C))仍然比較顯著,如Lnasset,Inexr,Profit,而且加權(quán)總體可能并不是政策研究所關(guān)注的總體.然而,在實(shí)證中這些通常被忽略.本文將在平衡性檢驗(yàn)中使用更多的直觀測(cè)度來檢驗(yàn)控制變量的平衡性.
圖1展示了匹配前后控制組和處理組傾向得分的核密度分布圖.圖1(a)中匹配前處理組的傾向得分分布和控制組的并不完全重合(特別是眾數(shù)明顯不一致),且有一些傾向得分較小或者較大的個(gè)體無法找到匹配個(gè)體(匹配奇異值).但是匹配后,從圖1(b)中可以看出處理組的傾向得分分布和控制組基本重合(眾數(shù)和分布區(qū)間基本一致),共同支撐假設(shè)基本成立.值得注意的是,匹配過程中刪掉了36個(gè)匹配奇異值.下文實(shí)例分析中本文將基于此匹配樣本比較常用的PSM-DID估計(jì)方法和本文提出的新方法.
2.1.4 平衡性測(cè)度
此處將第一章中推薦的六種平衡性測(cè)度方法應(yīng)用到“營改增”的數(shù)據(jù)中,以期從多方面來衡量控制變量的平衡性,并從不同側(cè)面考察控制組和處理組的可比性.
表2中前4列為控制組均值、控制組標(biāo)準(zhǔn)誤、處理組均值和處理組標(biāo)準(zhǔn)誤.從表2第5列開始,匯報(bào)了四種新的平衡性測(cè)度:標(biāo)準(zhǔn)化差值、對(duì)數(shù)標(biāo)準(zhǔn)誤比、控制組5%分位點(diǎn)對(duì)應(yīng)值和處理組5%分位點(diǎn)對(duì)應(yīng)值.從表中可以發(fā)現(xiàn),通過傾向得分匹配后,處理組與控制組均值和標(biāo)準(zhǔn)誤都比較接近,但是從新的測(cè)度指標(biāo)發(fā)現(xiàn),有些變量并沒有如預(yù)期的那樣完全平衡.例如,對(duì)數(shù)資產(chǎn)總額lnasset標(biāo)準(zhǔn)化差值和處理組5%分位點(diǎn)對(duì)應(yīng)值都比較高,說明控制組在2.5%分位數(shù)以下及97.5%分位數(shù)以上的制造業(yè)上市企業(yè)很難找到與其匹配的處理組;資產(chǎn)負(fù)債率Lev對(duì)數(shù)標(biāo)準(zhǔn)誤比較大,說明盡管處理組和控制組均值接近,但是分布比較不均;利潤率Profit和無形資產(chǎn)占比Intasst也存在類似的問題;最后,本文發(fā)現(xiàn)即使將所有控制變量單一化為傾向得分,估計(jì)的傾向得分在處理組5%分位點(diǎn)對(duì)應(yīng)值為0.098,表明控制組的傾向得分在2.5%分位數(shù)以下及97.5%分位數(shù)以上的制造業(yè)上市企業(yè)很難找到與其匹配的處理組.(6)這對(duì)于估計(jì)ATT來說問題不大,但是對(duì)估計(jì)ATE或者ATUT來說會(huì)產(chǎn)生一些偏誤.這從側(cè)面反映匹配后的樣本也存在一定程度的不平衡性.如果在實(shí)際測(cè)算中發(fā)現(xiàn)其值偏離0.05較多,則可依據(jù)更嚴(yán)格標(biāo)準(zhǔn)進(jìn)行匹配或者加權(quán).
表2 多維度平衡性檢驗(yàn)
本文還計(jì)算了其他兩種平衡性的測(cè)度:Mahalanobis得分和qc&qt.計(jì)算得到的Mahalanobis得分是0.292 1,大于經(jīng)驗(yàn)值0.1.當(dāng)固定最大傾向得分間距為0.1時(shí),得到qt=0.981,qc=0.979,即有1.9%的處理組個(gè)體找不到匹配的控制組個(gè)體,有2.1%的控制組個(gè)體找不到匹配的處理組的個(gè)體.這些都從不同側(cè)面說明傾向得分匹配后樣本的平衡性還有進(jìn)一步提高的空間或者模型還有待進(jìn)一步改進(jìn).
2.2.1 政策背景
2010年開始,中央及地方政府就分別從頂層設(shè)計(jì)到具體應(yīng)用不斷推出指導(dǎo)和鼓勵(lì)智慧城市建設(shè)的相關(guān)政策.2012 年 12 月 5 日正式發(fā)布“關(guān)于開展國家智慧城市試點(diǎn)工作的通知”,并印發(fā)《國家智慧城市試點(diǎn)暫行管理辦法》和《國家智慧城市(區(qū)、鎮(zhèn))試點(diǎn)指標(biāo)體系(試行)》.首批國家智慧城市試點(diǎn)共涉及 90 個(gè)地、縣級(jí)城市.本小節(jié)將基于我國首批智慧城市試點(diǎn)政策這一“準(zhǔn)自然實(shí)驗(yàn)”,以首批試點(diǎn)城市作為處理組,采用PSM方法選擇合適的非試點(diǎn)城市作為對(duì)照組,考察智慧城市試點(diǎn)對(duì)空氣污染物PM2.5排放量的影響,從側(cè)面檢驗(yàn)數(shù)字化發(fā)展對(duì)環(huán)境保護(hù)的影響.
2.2.2 數(shù)據(jù)與模型
1)數(shù)據(jù)來源
PM2.5數(shù)據(jù)來自于哥倫比亞大學(xué)國際地球科學(xué)信息網(wǎng)絡(luò)中心(CIESIN)所屬的社會(huì)經(jīng)濟(jì)數(shù)據(jù)和應(yīng)用中心(SEDAC)公布的相關(guān)數(shù)據(jù).城市層面控制變量數(shù)據(jù)來自 2006年—2016 年《中國城市統(tǒng)計(jì)年鑒》.智慧城市名單來自住建部公布名單,將其與中國城市統(tǒng)計(jì)年鑒、PM2.5數(shù)據(jù)匹配,最終得到 2005年—2016 年中國 278個(gè)地級(jí)市 12年的面板數(shù)據(jù)3 332個(gè)樣本.
2)實(shí)證模型
為探究智慧城市試點(diǎn)對(duì)城市PM2.5排放的影響,使用PSM-DID,基于具有可比性的處理組和控制組分析被處理城市的平均處理效應(yīng)(ATT),減少由于樣本自選擇所帶來的內(nèi)生性風(fēng)險(xiǎn).具體來講,以省內(nèi)試點(diǎn)城市為處理組,以省內(nèi)非試點(diǎn)城市為對(duì)照組,構(gòu)建模型如下
Smart_Cityc=α0+α1Popct+α3Economicct+
α4Financect+α5Urbanct+
α6Openct+εc
(14)
PM2.5ct=β0+β1TreatC×Postt+
β2Xct+δc+γt+ζit
(15)
其中,方程(14)為估計(jì)傾向得分的選擇方程(Selection Equation),采用logit回歸模型,被解釋變量Smart_CityC為是否加入政策試點(diǎn)的虛擬變量:若城市c為試點(diǎn)城市則為1,否則為0.參考既有文獻(xiàn)[28],本文控制了以下城市特征變量(Xct):人口規(guī)模(Pop),計(jì)算方式為ln(年末總?cè)丝?;經(jīng)濟(jì)發(fā)展水平(Economic),計(jì)算方式為ln(人均地區(qū)生產(chǎn)總值);金融發(fā)展水平(Finance),計(jì)算方式為ln(年末金融機(jī)構(gòu)人民幣各項(xiàng)貸款余額);城市化水平(Urban),計(jì)算方式為100×非農(nóng)業(yè)人口/年末總?cè)丝?市對(duì)外開放程度(Open),計(jì)算方式為外商實(shí)際投資額/地區(qū)生產(chǎn)總值.
方程(15)為評(píng)估政策的結(jié)果方程(Outcome Equation),基于匹配后樣本進(jìn)行雙重差分回歸.被解釋變量為城市年平均PM2.5.TreatC為智慧城市二值變量:若為智慧城市試點(diǎn)城市,則為1,反之則為0.Postt為政策前后虛擬變量,若年份大于2011年,則為1,反之為0.因此,核心解釋變量為雙重差分交互項(xiàng)TreatC×Postt.Xct為城市層面控制變量.δc為城市層面固定效應(yīng),控制了不隨時(shí)間變化的城市特征.γt為年份固定效應(yīng),控制了宏觀趨勢(shì)對(duì)回歸結(jié)果的影響.
2.2.3 傾向得分匹配結(jié)果
由表3,對(duì)比傾向得分匹配完后的各變量的加權(quán)樣本均值,實(shí)驗(yàn)組和對(duì)照組的均值差異在統(tǒng)計(jì)意義上都不顯著(p值都大于0.1),因此若按照文獻(xiàn)中廣泛使用的簡(jiǎn)單比較均值差異將得出匹配后樣本滿足平衡性假定的結(jié)論.但是僅從表中信息看,城市化變量方差比值(Varianceratio:=V(T)/V(C))部分顯著,顯示出兩組分布的非均衡性,然而在實(shí)證中方差比值通常被忽略.后文將在平衡性檢測(cè)中使用更多的測(cè)度來檢驗(yàn)控制變量的平衡性.
表3 匹配前后平衡性檢驗(yàn)結(jié)果
更進(jìn)一步,圖2展示的是匹配前后控制組和處理組傾向得分的核密度分布圖.圖2(a)中匹配前處理組的傾向得分分布和控制組的并非完全重合,眾數(shù)和均值表現(xiàn)出明顯不一致,且存在匹配奇異值(Outlier),有一些傾向得分較小或者較大的個(gè)體無法找到匹配個(gè)體.但是匹配后,從圖2(b)中可以看出處理組的傾向得分分布和控制組基本重合,眾數(shù)和分布區(qū)間基本一致.值得注意的是,匹配過程中刪掉了255個(gè)的匹配奇異值.類似地,在后文將基于此匹配樣本對(duì)常用的PSM-DID估計(jì)方法與本文提出的新方法進(jìn)行比較.
2.2.4 平衡性測(cè)度
在此將第一章中推薦的六種平衡性測(cè)度方法應(yīng)用到本案例中,以期從多方面來衡量控制變量的平衡性,也從側(cè)面考察控制組和處理組的可比性.
表4中前4列為控制組均值、控制組標(biāo)準(zhǔn)誤、處理組均值和處理組標(biāo)準(zhǔn)誤.從第5列開始,匯報(bào)了四種新的平衡性測(cè)度:標(biāo)準(zhǔn)化差值、對(duì)數(shù)標(biāo)準(zhǔn)誤比、控制組5%分位點(diǎn)對(duì)應(yīng)值和處理組5%分位點(diǎn)對(duì)應(yīng)值.表4顯示,經(jīng)過傾向得分匹配后,處理組與控制組的均值和標(biāo)準(zhǔn)誤都比較接近,然而考察新的測(cè)度發(fā)現(xiàn),部分變量并未實(shí)現(xiàn)完全平衡.例如,除對(duì)外開放水平外,其余控制變量的標(biāo)準(zhǔn)化差值都較高,說明盡管處理組和控制組均值接近,但是分布比較不均.城市化、對(duì)外開放水平的對(duì)數(shù)標(biāo)準(zhǔn)誤差比也都較高.經(jīng)濟(jì)發(fā)展水平、金融發(fā)展、城市化水平控制組5%分位點(diǎn)對(duì)應(yīng)值都比較高,說明處理組的2.5%分位數(shù)以下與97.5%分位數(shù)以上的城市很難找到與其匹配的控制組.人口規(guī)模、經(jīng)濟(jì)發(fā)展水平處理組5%分位點(diǎn)對(duì)應(yīng)值都比較高,說明控制組的2.5%分位數(shù)以下與97.5%分位數(shù)以上的制造業(yè)上市企業(yè)很難找到與其匹配的處理組.最后,表中結(jié)果顯示即使將所有控制變量單一化為傾向得分,估計(jì)的傾向得分在控制組和處理組5%分位點(diǎn)對(duì)應(yīng)值都較大(相對(duì)于理想情況0.05而言),說明處理組和控制組的傾向得分都在2.5%分位數(shù)以下與97.5%分位數(shù)以上的制造業(yè)上市企業(yè)很難找到與其匹配的處理組.
表4 多維度平衡性檢驗(yàn)
本案例仍計(jì)算了其他兩種平衡性的測(cè)度:Mahalanobis得分和qc&qt.計(jì)算得到的Mahalanobis得分是1.108,遠(yuǎn)高于經(jīng)驗(yàn)值0.1.當(dāng)最大傾向得分間距固定為0.1時(shí),qt=0.988,qc=0.546,即有1.12%的處理組未能與控制組匹配,而有45.4%的控制組個(gè)體未能與處理組匹配,進(jìn)一步說明了控制組與處理組之間樣本的不平衡性.以上案例分析結(jié)論進(jìn)一步驗(yàn)證了僅考察均值差異的片面性和誤導(dǎo)性,顯示出采用更為全面的平衡性測(cè)度指標(biāo)的重要性和必要性.
通過前面的實(shí)例可以看出,僅僅只對(duì)均值差異(Mean Difference)做t檢驗(yàn)只是一種方便性的選擇,遠(yuǎn)不足以驗(yàn)證控制變量的(分布)平衡性.對(duì)于平衡性的檢驗(yàn),研究者需要從多個(gè)角度多個(gè)維度來衡量,例如本文推薦的標(biāo)準(zhǔn)化均值差,分位數(shù)測(cè)度和離算程度差異等等.但是由于研究中通常使用觀測(cè)數(shù)據(jù),使用多個(gè)平衡性測(cè)度后常常會(huì)發(fā)現(xiàn)有些控制變量不能完全平衡甚至分布相差很大,隨之而來的問題就是:怎樣提升平衡性呢?怎樣提升所估計(jì)因果效應(yīng)(Causal Effect)的可靠性呢?
在引入多種平衡性測(cè)度后,可能會(huì)出現(xiàn)PSM很難滿足(絕對(duì)的)控制變量平衡性.為了達(dá)到更好的平衡性,一種直接的方法是使用嚴(yán)格的匹配的標(biāo)準(zhǔn)(Criterion),但是這樣不僅會(huì)使得樣本量大量減少,還可能導(dǎo)致后續(xù)的雙重差分估計(jì)結(jié)果不顯著.樣本量的減少會(huì)使得估計(jì)結(jié)果沒有代表性,雙重差分結(jié)果不顯著表明政策效應(yīng)無法被干凈的識(shí)別和估計(jì).
為了克服以上問題,本文提出了一種傾向得分匹配-逆概率加權(quán)-雙重差分(PSM-IPW-DID)的方法.逆概率加權(quán)(IPW)由Horvitz 和 Thompson[29]提出來(HT估計(jì)量),隨后被計(jì)量經(jīng)濟(jì)學(xué)家廣泛引用,如Hahn[30]、Hirano等[31]、Fr?lich[16]、 Huber 等[17]、Busso 等[18]等等.類似地,文獻(xiàn)中用逆傾向得分概率加權(quán)來計(jì)算處理組和控制組的樣本均值,這樣能有效地去除處理組和控制組由于控制變量的不平衡性和差異性所帶來的處理效應(yīng)估計(jì)誤差.具體來講,在非混淆假設(shè)(Confoundedness)下,利用重復(fù)期望法則能得到
(16)
(17)
基于此,兩個(gè)直接樣本的估計(jì)量為
(18)
(19)
因此,所感興趣的平均處理效應(yīng)估計(jì)量(也是一個(gè)HT估計(jì)量)可寫為
(20)
在實(shí)際操作中,可對(duì)逆傾向得分權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理,使得其加總和為1
(21)
(22)
(23)
這是一種雙重穩(wěn)健(Double Robust)的分析,詳見Sloczynski 和 Wooldridge[32].具體體現(xiàn)在
(24)
(25)
本質(zhì)上,本文提出的方法結(jié)合了傾向得分匹配和逆概率加權(quán)的長處,規(guī)避了二者短處,得到了一種更為穩(wěn)健的估計(jì)方法.傾向得分匹配會(huì)刪除掉一些樣本來增加控制變量的平衡性(從而克服樣本自選擇帶來的內(nèi)生性)和滿足共同支撐(common support)的假設(shè),而逆概率加權(quán)則可以在不減少樣本的情況下控制變量的不平衡性,基于(已匹配)樣本還原總體,通過概率加權(quán)的方法使得控制組和處理組更加可比,估計(jì)結(jié)果更有效.傾向得分匹配和逆概率加權(quán)的結(jié)合使用既能克服控制變量的不平衡性又能減少刪除樣本數(shù)量,而且克服了單獨(dú)使用傾向得分匹配(PSM)不足以平衡所有控制變量的短板,也規(guī)避了單獨(dú)使用逆概率加權(quán)(IPW)出現(xiàn)極端概率導(dǎo)致估計(jì)值方差過大的風(fēng)險(xiǎn).具體來講,本文提出以下估計(jì)方法:
第二步,運(yùn)用本文提出的多種平衡性測(cè)度衡量控制變量的平衡性,選出需要特別關(guān)注的不能平衡的控制變量Xub(控制變量X的一個(gè)子集);(7)對(duì)于這些通過PSM不能平衡的控制變量,需要將其加入到后續(xù)的DID回歸中,甚至考慮其高階形式.為了方便起見,后續(xù)實(shí)例研究中,本文只比較了不加入控制變量和加入所有控制變量?jī)煞N情況.
第四步,基于匹配后的樣本S和得到的逆概率加權(quán),進(jìn)行包含控制變量X(包含Xub)的加權(quán)雙重差分回歸,如下所示
Yit=α0+α1Treat+α2Post+α3Treat×
Post+Xit’β+εit
(26)
值得注意的是,本文提出的PSM-IPW也可應(yīng)用于直接估計(jì)ATT的(均值相減)模型估計(jì)中.如引言中所述,在近十年發(fā)表在經(jīng)濟(jì)學(xué)管理學(xué)主要期刊上的169篇使用傾向得分匹配的論文中,62篇是將傾向得分匹配直接應(yīng)用于均值相減的處理效應(yīng)ATT估計(jì)中.對(duì)于這些實(shí)例,本文提出的方法只需將第四步的估計(jì)方法中雙重差分模型改為一個(gè)加權(quán)均值相減模型使用加權(quán)最小二乘法(Weighted OLS)即可.
本文提出的方法既使用了逆概率加權(quán),也加入了(不平衡的)控制變量進(jìn)行回歸,得到的估計(jì)量是一個(gè)逆概率加權(quán)-回歸調(diào)整的估計(jì)量(IPWRA,詳見Wooldridge[20]).如上文所述,在處理選擇模型設(shè)定有誤而回歸模型是正確時(shí),逆概率加權(quán)不會(huì)影響包含控制變量調(diào)整的回歸模型分析;另一方面如果處理選擇模型設(shè)定正確而回歸模型有誤時(shí),逆概率加權(quán)可以糾正回歸模型,得到一致性的估計(jì)值.從這個(gè)意義上來講,該估計(jì)量沿襲了逆傾向得分加權(quán)回歸的優(yōu)點(diǎn),具有雙重穩(wěn)健的性質(zhì)(double robustness)[12].
同時(shí),和其他DID的改進(jìn)方法如Abadie[33]和Sant’Anna等[34]類似,本文提出的改進(jìn)方法適用于面板數(shù)據(jù),也適用于重復(fù)橫截面數(shù)據(jù)(repeated cross sectional data).基于DID設(shè)計(jì),在處理重復(fù)橫截面數(shù)據(jù)時(shí),需要構(gòu)造一個(gè)“偽”面板數(shù)據(jù)(psudo panel data).如果不考慮DID設(shè)計(jì),本文提出的加權(quán)方法也適用于截面數(shù)據(jù),如文獻(xiàn)中Soczyński等[35]文章中提出的在截面數(shù)據(jù)中適用的類似方法.具體來講,首先估計(jì)傾向得分,以處理組為基礎(chǔ),通過傾向得分來匹配控制組樣本,然后構(gòu)造逆傾向得分權(quán)重(IPW),通過加權(quán)最小二乘回歸(OLS)估計(jì)處理組的平均處理效應(yīng),即ATT.
與Kang和Schafer[36]和Sant’Anna等[34]等文獻(xiàn)類似,本文考慮以下四種數(shù)據(jù)生成過程(data generating process)
DGP1:Y0(0)=freg(X)+v(X,D)+ε0,
Y1(d)=2freg(X)+v(X,D)+ε1(d),d=0,1
D=1{p(X)≥U}
DGP2:Y0(0)=freg(X)+v(X,D)+ε0,
Y1(d)=2freg(X)+v(X,D)+ε1(d),d=0,1
D=1{p(Z)≥U}
DGP3:Y0(0)=freg(Z)+v(Z,D)+ε0,
Y1(d)=2freg(Z)+v(Z,D)+ε1(d),d=0,1
D=1{p(X)≥U}
DGP4:Y0(0)=freg(Z)+v(Z,D)+ε0,
Y1(d)=2freg(Z)+v(Z,D)+ε1(d),d=0,1
D=1{p(Z)≥U}
由于本文關(guān)注于所觀測(cè)到的控制變量X線性加入到回歸模型和logit傾向得分模型中的情景,因此DGP1中回歸模型和傾向得分方程都正確設(shè)定,DGP2中只有回歸模型是正確設(shè)定的,DGP3中只有傾向得分方程是正確設(shè)定的,DGP4中回歸模型和傾向得分方程設(shè)定都不正確.蒙特卡洛數(shù)值模擬的結(jié)果如表5中所示.
表5 PSM-IPW-DID與PSM-DID估計(jì)值數(shù)值模擬分析
DGP2a:Y0(0)=frega(X)+va(X,D)+ε0,
Y1(d)=2frega(X)+va(X,D)+ε1(d),
d=0, 1
D=1{p(Z)≥U}
DGP2b:Y0(0)=fregb(X)+vb(X,D)+ε0,
Y1(d)=2fregb(X)+vb(X,D)+ε1(d),
d=0,1
D=1{p(Z)≥U}
表6 非平衡變量對(duì)PSM-IPW-DID估計(jì)值影響分析
表6中數(shù)值模擬結(jié)果顯示,控制非平衡變量的高階項(xiàng)的估計(jì)值與只控制非平衡變量的線性項(xiàng)估計(jì)值相比,其大小相同且均存在一定偏誤,但標(biāo)準(zhǔn)誤更小,回歸結(jié)果更顯著.更小的標(biāo)準(zhǔn)誤使得了無論是在5%還是10%顯著性水平上,控制非平衡變量的高階項(xiàng)的估計(jì)值都更顯著.比較兩種不同誤設(shè)程度的回歸模型DGP2a和DGP2b,可以發(fā)現(xiàn),誤設(shè)程度較高的DGP2b模型的估計(jì)值偏誤較大(|1.429|和|-0.539|),但是一旦控制非平衡變量的高階項(xiàng)后,標(biāo)準(zhǔn)誤就極大降低,而且顯著性水平極大提高.這些結(jié)論進(jìn)一步驗(yàn)證了考慮控制非平衡變量的非線性函數(shù)關(guān)系的重要性,對(duì)實(shí)證分析也有重要指導(dǎo)意義.
本節(jié)將提出的PSM-IPW-DID方法應(yīng)用于第二章所闡述的兩個(gè)政策評(píng)估實(shí)例中,并與文獻(xiàn)中常用的PSM-DID方法進(jìn)行比較.通過實(shí)例對(duì)比研究,加深對(duì)本文所提出方法的理解和應(yīng)用推廣.
首先,利用第三節(jié)中傾向得分匹配成功并依據(jù)共同支撐假設(shè)進(jìn)行刪減后的樣本進(jìn)行雙重差分估計(jì),結(jié)果如下表7中第(1)列、表7第(2)列所示.表7第(1)列中是不包括控制變量的固定效應(yīng)模型回歸結(jié)果,表7第(2)列中是包含了控制變量的回歸結(jié)果.回歸結(jié)果顯示,“營改增”政策對(duì)主營構(gòu)成第一名在營業(yè)收入占比有顯著的負(fù)向作用,其大小為3.4到3.7個(gè)百分點(diǎn).在加入所有企業(yè)層面控制變量和企業(yè)層面的固定效應(yīng)后,平均意義上來講,“營改增”政策減少了試點(diǎn)地區(qū)上市制造業(yè)公司3.7個(gè)百分點(diǎn)的主營構(gòu)成第一名在營業(yè)收入占比,這說明制造業(yè)上市公司有分散經(jīng)營的動(dòng)向.
表7 “營改增”對(duì)營業(yè)收入占比的影響
在表7第(3)列和表7第(4)列為使用本文提出的PSM-IPW-DID方法估計(jì)的政策處理效應(yīng).表7第(3)列中是不包括控制變量的固定效應(yīng)模型回歸結(jié)果,表7第(4)列中是包含了控制變量的回歸結(jié)果.具體地,表7第(4)列加入了所有控制變量以及表2中非平衡變量Lev,Profit,Intasst的二次項(xiàng),即Lev2,Profit2和Intasst2.回歸結(jié)果顯示,“營改增”政策對(duì)主營構(gòu)成第一名在營業(yè)收入占比有顯著的負(fù)向作用,其大小為4.1到4.3個(gè)百分點(diǎn).在加入所有企業(yè)控制變量和企業(yè)層面的固定效應(yīng)后,平均意義上來講,“營改增”政策減少了試點(diǎn)地區(qū)上市制造業(yè)公司4.3個(gè)百分點(diǎn)的主營構(gòu)成第一名在營業(yè)收入占比,這說明制造業(yè)上市公司經(jīng)營更為多元化.
值得注意的是,表7中第(4)列是考慮了企業(yè)個(gè)體固定效應(yīng)且加控制變量的IPW雙重差分模型,與表7第(2)列相比,控制變量的顯著性明顯降低(表7第(2)列中有三個(gè)在1%的顯著性上顯著,表7第(4)列中只有一個(gè)在1%的顯著性上顯著).控制變量的顯著性大幅減少能有效緩解由于雙重差分模型誤設(shè)所導(dǎo)致的估計(jì)偏誤.這些都從實(shí)證上驗(yàn)證了本文所提出來的PSM-IPW-DID比PSM-DID更加穩(wěn)健.
類似地,首先,利用傾向得分匹配成功的樣本進(jìn)行雙重差分估計(jì),結(jié)果如表8中第(1)列、表8第(2)列所示.表8中第(1)列、表8第(2)列為使用固定效應(yīng)方法進(jìn)行面板數(shù)據(jù)回歸的結(jié)果,其中表8第(1)列未控制城市層面控制變量,僅控制了年份固定效應(yīng)和城市固定效應(yīng),表8第(2)列在其基礎(chǔ)上加入了城市控制變量.盡管表8第(1)列回歸結(jié)果仍然顯示該政策對(duì)城市PM2.5沒有顯著影響,但表8第(2)列為最為嚴(yán)格控制的模型,其回歸結(jié)果顯示相比非試點(diǎn)城市,試點(diǎn)城市的PM2.5顯著降低0.904,所有城市PM2.5的均值為36.68,因此平均而言,城市的PM2.5顯著降低2.5%.
表8 “智慧城市”對(duì)PM2.5的影響
隨后,將本文提出的PSM-IPW-DID的方法應(yīng)用在上述的“智慧城市”數(shù)據(jù)上,得到的結(jié)果如表8中第(3)列、表8第(4)列所示.表8第(3)列未加入城市層面控制變量,僅控制了年份固定效應(yīng)和城市固定效應(yīng),表8第(4)列在其基礎(chǔ)上加入了城市控制變量,并加入表2中非平衡變量Economic,Finance,Urban的二次項(xiàng),即Economic2,Finance2和Urban2.回歸結(jié)果顯示,采用改進(jìn)后的PSM-IPW-DID方法后,智慧城市試點(diǎn)政策對(duì)城市PM2.5的排放量沒有顯著的影響,表明原PSM-DID方法簡(jiǎn)單平衡性測(cè)度錯(cuò)誤判斷了匹配前后樣本的平衡性,從而導(dǎo)致了估計(jì)結(jié)果并非真實(shí)的因果效應(yīng),呈現(xiàn)出了虛假的統(tǒng)計(jì)顯著性,得出了智慧城市對(duì)城市PM2.5有顯著降低作用的錯(cuò)誤結(jié)果.
值得注意的是,表8中第(4)列加入控制變量和非平衡變量二次項(xiàng)的IPW雙重差分模型與表8第(2)列傳統(tǒng)雙重差分模型相比,控制變量的顯著性減少了一半(粗略比較,表8第(2)列有4個(gè)顯著,表8第(4)列只有2個(gè)顯著,且前者顯著性明顯高于后者),與表8第(3)列不加控制變量的IPW雙重差分模型相比DID系數(shù)更加接近(-0.678和-0.332).控制變量的顯著性大幅減少能有效緩解由于雙重差分模型誤設(shè)所導(dǎo)致的估計(jì)偏誤.因此,本案例在城市層面的分析也驗(yàn)證了本文提出的PSM-IPW-DID比PSM-DID更加穩(wěn)健,PSM-DID現(xiàn)有平衡性測(cè)度導(dǎo)致樣本非均衡時(shí)可能呈現(xiàn)出虛假顯著性的回歸結(jié)果.
本文基于文獻(xiàn)中常用的PSM-DID估計(jì)方法及其平衡性檢驗(yàn)的不足,提出了多種平衡性測(cè)度方法,并在此基礎(chǔ)上提出了一種更加穩(wěn)健性的PSM-IPW-DID方法.在具體分析中,本文基于文獻(xiàn)中研究較多的“營改增”及“智慧城市”的政策評(píng)價(jià)分析進(jìn)行探討,以期能提供更多可操作性的指引和建議.總結(jié)下來,本文建議: 1)選擇合適的傾向得分匹配方法,如1∶4近鄰匹配、半徑匹配或者核匹配,以確保匹配后不丟失過多樣本; 2)在進(jìn)行傾向得分匹配后需要選用多種平衡性測(cè)度來檢驗(yàn)控制變量的平衡性,簡(jiǎn)單的均值差異t檢驗(yàn)是不全面的,本文推薦使用多種多維度平衡性測(cè)度; 3)如果發(fā)現(xiàn)平衡性無法滿足,建議采用本文所提出的PSM-IPW-DID方法進(jìn)行估計(jì),以期在不進(jìn)一步損失樣本情況下得到更加穩(wěn)健的估計(jì)結(jié)果.
本文關(guān)注的平衡性測(cè)度問題是在傾向得分匹配之后進(jìn)行的.在未來的研究中,研究者可以關(guān)注于傾向得分匹配的具體匹配操作,如基于橫截面估計(jì)的傾向得分在面板結(jié)構(gòu)的數(shù)據(jù)如何進(jìn)行精準(zhǔn)匹配(Matching),最新的研究如謝申詳?shù)萚37]就探討了該類問題.另外,傾向得分在固定效應(yīng)模型(不僅僅是雙重差分模型)中的應(yīng)用也是一個(gè)值得深入探討和研究的領(lǐng)域,如Arkhangelsky和Imben[21].以上有益的嘗試為未來傾向得分匹配方法的研究提供了新的視角和方向.