中國工業(yè)企業(yè)數(shù)據(jù)庫（1999~2013）的使用研究：基于插值處理方法的比較分析

2021-09-24 15:18張少華李蘇蘇

貴州財經(jīng)大學學報 2021年5期

張少華李蘇蘇

摘要：中國工業(yè)企業(yè)數(shù)據(jù)庫已經(jīng)成為研究中國微觀企業(yè)活動的首選數(shù)據(jù)庫，但是數(shù)據(jù)庫中關(guān)鍵指標的缺失嚴重影響了數(shù)據(jù)庫的更新和使用。本文在借鑒主要文獻處理方法的基礎(chǔ)上，先后采用單值移動時序平滑法、MICE1、MICE2、MMICE1和MMICE2五種插補方法對數(shù)據(jù)庫進行完善，從而將中國工業(yè)企業(yè)數(shù)據(jù)庫延伸至2013年，并通過計算企業(yè)全要素生產(chǎn)率來評估各種插補方法的相對有效性。研究表明：在這五種插值方法中，單值移動時序平滑法和MMICE1是兩種最為有效的插值方法，不僅可以實現(xiàn)插值前后的數(shù)據(jù)庫特征一致，而且能夠?qū)崿F(xiàn)所計算的全要素生產(chǎn)率的數(shù)據(jù)結(jié)構(gòu)特征一致。值得強調(diào)的是，在完善數(shù)據(jù)庫和計算全要素生產(chǎn)率方面，前者因為處理過程簡單因而是一種相對經(jīng)濟的方法，而后者因為能夠保留更多樣本信息因而是一種相對有效的方法。本文研究價值體現(xiàn)在對使用中國工業(yè)企業(yè)數(shù)據(jù)庫提供了基礎(chǔ)性研究工作。

關(guān)鍵詞：中國工業(yè)企業(yè)數(shù)據(jù)庫;單值移動時序平滑法;多重鏈式方程插補法;混合插補法;全要素生產(chǎn)率

文章編號：2095-5960（2021）05-0020-10;中圖分類號：F011;F016;F42

;文獻標識碼：A

一、引言

目前，中國工業(yè)企業(yè)數(shù)據(jù)庫已經(jīng)成為研究中國經(jīng)濟問題的一個非常重要的微觀數(shù)據(jù)庫，因其來源權(quán)威、統(tǒng)計規(guī)范、樣本巨大以及指標多樣等優(yōu)良特性而得到了海內(nèi)外學者的廣泛使用和認可。其研究成果不僅發(fā)表在《經(jīng)濟研究》《管理世界》《中國工業(yè)經(jīng)濟》《數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究》等國內(nèi)權(quán)威期刊，也大量出現(xiàn)在《美國經(jīng)濟評論》《政治經(jīng)濟學期刊》《經(jīng)濟學季刊》《金融研究》等國際頂級期刊。但是令人遺憾的是，目前學者們使用的中國工業(yè)企業(yè)數(shù)據(jù)庫樣本主要局限在1999年至2007年，盡管主要研究機構(gòu)已經(jīng)將數(shù)據(jù)庫更新至2013年，但是由于2008年之后的多個關(guān)鍵指標缺失問題，導致數(shù)據(jù)庫無法更新到2013年。因此，如何采用科學方法將數(shù)據(jù)庫進行完善和更新，是一項基礎(chǔ)性研究工作。

關(guān)于中國工業(yè)企業(yè)數(shù)據(jù)庫的使用問題，事實上國內(nèi)外學者已經(jīng)進行了大量深入研究和探討。例如，Brandt et al.最早規(guī)范使用該數(shù)據(jù)庫，其在面板構(gòu)建、行業(yè)調(diào)整、價格平減等方面的處理一直被后續(xù)學者采用。[1]而國內(nèi)學者聶輝華等在Brandt et al.基礎(chǔ)上，明確指出數(shù)據(jù)庫存在的樣本匹配混亂、變量大小異常、測量誤差嚴重以及指標缺失等問題[2]，并首次提出采用交叉匹配法來構(gòu)建面板。張?zhí)烊A和張少華則運用1998～2007年的中國工業(yè)企業(yè)數(shù)據(jù)庫討論了生產(chǎn)函數(shù)模型、樣本范圍和價格因子在不同估計方法中對企業(yè)全要素生產(chǎn)率估計的影響。[3]在近期數(shù)據(jù)的使用上，陳林對數(shù)據(jù)庫的真實性和系統(tǒng)性誤差進行了定量評估，并指出樣本范圍及統(tǒng)計口徑的變動，缺失值較多、“回避規(guī)模以上”以及“化整為零”等方面的數(shù)據(jù)問題，均會對數(shù)據(jù)規(guī)范使用產(chǎn)生一定的影響。[4]隨后其更進一步從中國工業(yè)統(tǒng)計的理論體系和制度變遷角度，探討了相對頻繁的統(tǒng)計制度變遷對樣本統(tǒng)計范圍和統(tǒng)計口徑產(chǎn)生的系統(tǒng)性誤差影響。[5]

本文在系統(tǒng)梳理使用中國工業(yè)企業(yè)數(shù)據(jù)庫的文獻后發(fā)現(xiàn)，1999～2007年區(qū)間的數(shù)據(jù)處理方式已逐漸形成共識，尤其體現(xiàn)在面板構(gòu)建、行業(yè)調(diào)整、價格平減以及樣本篩選等方面，正是因為2008年后數(shù)據(jù)庫關(guān)鍵指標的嚴重缺失，從而使得該數(shù)據(jù)庫的使用在時序上無法推進。為此，本文主要研究目標就是解決中國工業(yè)企業(yè)數(shù)據(jù)庫的關(guān)鍵指標缺失問題。在遵循文獻主要處理方法基礎(chǔ)上，先后采用五種插補方法：單值移動時序平滑法、多重鏈式方程插補法1（MICE1）、多重鏈式方程插補法2（MICE2）、混合插補法1（MMICE1）和混合插補法2（MMICE2），對中國工業(yè)企業(yè)數(shù)據(jù)庫進行更新和完善，并進一步通過計算全要素生產(chǎn)率這個使用數(shù)據(jù)庫最為頻繁的指標，實證評估各種插補方法的相對有效性。

二、插值處理方法

下文詳細介紹對中國工業(yè)企業(yè)數(shù)據(jù)庫中的缺失指標如何采用五種插補方法進行指標插補。事實上，對于中國工業(yè)企業(yè)數(shù)據(jù)庫的處理，還需要進行面板構(gòu)建、行業(yè)調(diào)整、價格平減、派生指標計算、樣本篩選等一系列的處理過程，本文在此處不進行詳細的介紹，這些處理過程可以參考李蘇蘇、葉祥松和張少華，以及李蘇蘇、張少華和周鵬[6，7]。在進行插值處理之前，首先需要進行面板數(shù)據(jù)構(gòu)建，本文改進了現(xiàn)有文獻的交叉識別方法，遵循盡量在數(shù)據(jù)庫中識別同一企業(yè)原則，采用三個步驟進行匹配，具體匹配效果見表1。

表1中的重復觀測值包括通常意義上的重復觀測值和上面所提到的同一年份同一企業(yè)ID有多個觀測值且法人代碼相同的情況;重復觀測值的比例指重復觀測值占原始觀測值總數(shù)的比例，匹配數(shù)據(jù)是指構(gòu)建面板后刪除重復觀測值后剩下的年度觀測值總數(shù);匹配比例指匹配數(shù)據(jù)占原始觀測值總數(shù)的比例。其中2004年數(shù)據(jù)融合了中國經(jīng)濟普查企業(yè)數(shù)據(jù)，故原始觀測值總數(shù)較多，匹配率相對較低。由于2010年數(shù)據(jù)異常，本文不予使用，在構(gòu)建面板的時候沒有刪除，是為了在匹配的時候保留更多的企業(yè)信息。構(gòu)建面板后本文借鑒王萬珺和劉小玄的做法，去掉2010年數(shù)據(jù)將2009年和2011年視為連續(xù)年份處理，原始數(shù)據(jù)觀測值總數(shù)為4936335，刪除重復值之后，匹配數(shù)據(jù)數(shù)量為3505053。[8]如果不考慮2004年數(shù)據(jù)融合的影響，數(shù)據(jù)庫總體匹配比例高達85%以上，而且匹配比例逐年提高，說明匹配效果穩(wěn)步提升。

（一）插值前的準備

中國工業(yè)企業(yè)數(shù)據(jù)庫自2008年始，數(shù)據(jù)庫中諸多關(guān)鍵指標缺失，這里將根據(jù)五種方法對數(shù)據(jù)庫缺漏值進行插補，每一種插補方法后文詳細說明。本文對缺失指標按照“先計算，后插補”的原則進行處理，并且以全要素生產(chǎn)率的估算為例進行詳細闡述。

1.先計算

具體過程如下：對2004年缺失的工業(yè)總產(chǎn)值與工業(yè)增加值，在使用2004年中國經(jīng)濟普查企業(yè)數(shù)據(jù)進行融合后還缺少工業(yè)增加值指標，通過“工業(yè)增加值=工業(yè)總產(chǎn)值-工業(yè)中間投入+增值稅”計算得出。關(guān)于本年折舊，對2007年前本年折舊缺失的樣本以及2008～2009年的數(shù)據(jù)進行補全處理，若上一年存在固定資產(chǎn)總值，采用“固定資產(chǎn)投資=當年固定資產(chǎn)總值-（1-折舊率）×上年固定資產(chǎn)總值”來補充計算，折舊率折中取10%。[2，9]這樣可以利用固定資產(chǎn)投資推算2008～2009年的本年折舊。

關(guān)于缺失的2008～2013年的工業(yè)中間投入和工業(yè)增加值，借鑒余淼杰等的方法，采用“工業(yè)中間投入=產(chǎn)出值×銷售成本/銷售收入-工資支付-本年折舊”和“工業(yè)增加值=工業(yè)總產(chǎn)值+增值稅-工業(yè)中間投入”先后得出。[10]由于2009年工資支付缺失，這樣，在計算企業(yè)全要素生產(chǎn)率指標中，還缺失2009年的工業(yè)中間投入和工業(yè)增加值，需要通過插值方法來獲得。

2.離群值、異常值缺漏化處理

為保留盡可能多的觀測值，在插值前本文對異常值做如下處理：①通過畫指標的核密度函數(shù)圖，將工業(yè)增加值a17、固定資產(chǎn)合計a25、工業(yè)中間投入a70左右端十萬分之一的離群值設(shè)為缺漏值。②將關(guān)鍵指標如工業(yè)總產(chǎn)值、從業(yè)人員年平均人數(shù)、固定資產(chǎn)合計、職工人數(shù)缺失或者小于等于0的觀測值設(shè)為缺漏值。③對于所用到的明顯不符合會計原則的觀測值，如“資產(chǎn)總計<固定資產(chǎn)合計”“工業(yè)增加值>工業(yè)總產(chǎn)值”“工業(yè)中間投入>工業(yè)總產(chǎn)值”的觀測值，保留理論上相對較大的指標值，將對應(yīng)的固定資產(chǎn)合計、工業(yè)增加值、工業(yè)中間投入設(shè)為缺漏值。

經(jīng)過如上處理，總樣本和工業(yè)增加值、工業(yè)中間投入和本年折舊的觀測樣本發(fā)生了一系列變化，具體如表2所示。從表2最后一列的缺失率計算結(jié)果來看，需要插值處理的工業(yè)增加值a17、本年折舊a28、工業(yè)中間投入a70指標的缺失率分別由46.93%、23%、46.84%降低為15.98%、5.42%、16.25%。很大程度上對數(shù)據(jù)庫進行了完善，也為接下來插值處理與效果評估提供了基礎(chǔ)。

（二）五種插補方法

經(jīng)過一系列數(shù)據(jù)分析與處理，可以觀察到要計算全要素生產(chǎn)率關(guān)鍵在于對2008～2009年本年折舊和2009年工業(yè)中間投入和工業(yè)增加值缺失值的處理。關(guān)于本年折舊缺失值的處理，王萬珺和劉小玄提到采用固定資產(chǎn)和兩位數(shù)行業(yè)信息，利用單值插補和多元線性回歸重復插值十次，以第十次的插值替代缺失值。[8]究竟這種多重插補在大樣本數(shù)據(jù)中是否合適？是否較單值插補法更為優(yōu)越？通過不斷的嘗試，本文最終采用單一插補中的單值移動時序平滑法、和多重插補中的鏈式方程法以及這兩者的混合插補對數(shù)據(jù)庫進行處理，并比較它們的效果。具體介紹如下：

單值插補（移動平滑插補）：原始數(shù)據(jù) 公式計算1 移動平滑插值公式計算2 插值結(jié)果1

多重插補（MICE1）：原始數(shù)據(jù) 公式計算1 分省份分行業(yè)多重插值MICE 插值結(jié)果2

多重插補（MICE2）：原始數(shù)據(jù) 公式計算1 分省份多重插值MICEI 插值結(jié)果3

混合插補（MMICE1）：原始數(shù)據(jù) 公式計算1 移動平滑插值分省份分行業(yè)多重插值MICH 插值結(jié)果4

混合插補（MMICE2）：原始數(shù)據(jù) 公式計算1 移動平滑插值分省份多重插值MICEH 插值結(jié)果5

1.單值移動時序平滑插補

單一插補（Single Imputation）就是給一個缺失單元（變量）補上一個合理的值。本文通過移動時序平滑插值法來獲得2009年工資支付，進而利用“工業(yè)中間投入=產(chǎn)出值×銷售成本/銷售收入-工資支付-本年折舊”和“工業(yè)增加值=工業(yè)總產(chǎn)值+增值稅-工業(yè)中間投入”計算出缺失的工業(yè)中間投入和工業(yè)增加值。

然后再對于數(shù)據(jù)庫中存在缺漏的主要變量使用單值移動時序平滑插補法進行均值插補處理。在插補的基礎(chǔ)上再通過上面公式計算出部分缺漏的本年折舊、工業(yè)中間投入與工業(yè)增加值。經(jīng)過如上兩輪的計算和插補后，將工業(yè)總產(chǎn)值a14還存在缺失的觀測值進行刪除處理，其原因在于a14作為多數(shù)研究的核心指標，從數(shù)據(jù)庫本身的情況來看a14缺失的觀測變量相應(yīng)地其他指標也缺失嚴重，這樣的觀測值并不能為研究提供更多的信息。最終得到數(shù)據(jù)結(jié)果如表3所示。

2.多重插補

根據(jù)經(jīng)驗，如果大樣本數(shù)據(jù)某個或某些變量的缺失比例超過5%，則可能需要進行多重插補。多重插補（multiple imputation）是給每個缺失單元（變量）插補上多個值，并將這些值合并為一個綜合的結(jié)果，進而運用這個被綜合處理的數(shù)據(jù)集對變量進行描述或者研究變量之間的關(guān)系。多重插補以完全隨機缺失、隨機缺失機制為前提，要求盡可能保證數(shù)據(jù)缺失與觀測來的數(shù)據(jù)有關(guān)，與未觀測到的數(shù)據(jù)無關(guān)。如果說單一插補的假定是從回答數(shù)據(jù)中能夠預測出缺失數(shù)據(jù)的“最佳值”，那么多重插補則的假定是從回答數(shù)據(jù)中能夠找出缺失數(shù)據(jù)的概率分布。

本文運用了MICE（Multivariate Imputation by Chained Equations）鏈式方程法對缺漏值進行插值處理。在進行MICE 插值前，我們對參考指標和插值指標進行了共線性測度，對VIF值超過10的參考指標如工業(yè)銷售總產(chǎn)值a14b、流動資產(chǎn)合計a18、資產(chǎn)總計a31、所有者權(quán)益合計a36、主營業(yè)務(wù)收入a39、主營業(yè)務(wù)成本a40等進行剔除。在進行MICE插值時，我們作了兩種處理以作對比，第一種為同時控制行業(yè)與地區(qū)，將數(shù)據(jù)集分為30×31個子數(shù)據(jù)集來進行處理，在文中我們記為MICE1。第二種為控制地區(qū)的同時將行業(yè)設(shè)為啞變量，將數(shù)據(jù)集分為31個子數(shù)據(jù)集來進行插值處理，記為MICE2。在插補時，對于使用同類回歸方法的變量可以排列在一起，程序在執(zhí)行插補的時候會自動按照缺失值從低到高的順序依次執(zhí)行。我們分別運用這兩種方法對數(shù)據(jù)庫中主要的關(guān)鍵變量進行10次插補取平均值。插補觀測值的變化情況歸納為表5所示。由于鏈式方程法與單值移動時序平滑法的插值原則不同，在鏈式方程法前需對參考變量中存在缺失值的觀測值作刪除處理，因此得出采用MICE1和MICE2進行插值前的觀測值數(shù)量分別為3，293，169和3，381，821。由表4可見，經(jīng)MICE1和MICE2多重插補以后，缺失值相較于插值前的觀測值數(shù)量得到完全的填充。

3.混合插補

考慮到單純進行單值移動時序平滑插值以后還存在較多的缺失值，而單純的多重插值因數(shù)據(jù)量過于龐大不可能對單個個體進行控制使得插值效果不盡人意，經(jīng)不斷實踐，本文發(fā)現(xiàn)在進行單值移動時序平滑法插值后，再進行如上相應(yīng)的多重插補能夠獲得很好的效果，且各自變量的相對效率均高于98.6%，在單純的多重插補92.8%的基礎(chǔ)上提高不少。我們將相應(yīng)的插補方式記為MMICE1和MMICE2。在單值移動時序平滑法的插值之后鏈式方程法插值之前需對參考變量中存在缺失值的作刪除處理，因此得出MMICE1和MMICE2插值前的觀測值數(shù)量為3，381，791和3，382，121，具體如表5所示?？梢?，經(jīng)MMICE1和MMICE2多重插補以后，缺失值相較于插值前的觀測值數(shù)量得到完全的填充。

（三）五種插值方法效果比較

在完成插值以后，需要對插值效果進行檢驗。首先，我們從感性的角度上來考察它們分別對數(shù)據(jù)庫的補充程度，即比較它們的插值后數(shù)據(jù)庫的完善情況，本文將結(jié)果歸納如表6所示。可見，在對數(shù)據(jù)庫的完善程度來看，原始觀測值為3，505，053，單值插補的插值后存在值占原始觀測值的比例為63.95%～94.42%，多重插補MICE1、MICE2的比例分別達到93.95%和96.48%，混合插補因其結(jié)合了單值插補和多重插補的優(yōu)點，MMICE1、MMICE2的比例分別達到96.48%和96.49%。從對數(shù)據(jù)庫指標完善的程度上來看，混合插補具有相對優(yōu)勢。

上面我們對插值后觀測值統(tǒng)計量變化情況進行了比較。因在插值前我們對異常值進行了缺漏設(shè)定，現(xiàn)在具體考察插值后異常值的統(tǒng)計情況，如表7所示。從中可以看出，采用MMICE1方案所得到的正常樣本的比例最高（94.45%），其次是MICE1（93.49%），然后是MICE2（91.83%）和MMICE2（91.16%），最后是移動平滑插補（83.68%）。移動平滑插補所得到的正常樣本比例最低，主要源于它對缺漏值所做的插補有限，在計算后的數(shù)據(jù)基礎(chǔ)上只增加了4528個觀測樣本。同樣地，我們可以衡量其他四種插值方法的插值效果，其中MMICE1在計算后的數(shù)據(jù)基礎(chǔ)上增加了123262個觀測樣本且正常樣本達到94.45%。從這個意義上來說，MMICE1的插值效果具有相對優(yōu)勢。

上面兩種方式主要是從對數(shù)據(jù)完整程度的改善和插補后異常值/正常值的對比情況來反應(yīng)插值的效果，并不能準確判別出哪種方式更好。具體哪種插補方法能被應(yīng)用于實證研究，關(guān)鍵還在于插值前后具體指標數(shù)據(jù)的結(jié)構(gòu)是否改變。如何考察這樣龐大的數(shù)據(jù)集指標結(jié)構(gòu)的變化，我們嘗試考察插值前后的指標分布結(jié)構(gòu)是否有較大差異，具體參見表8。

根據(jù)已有文獻的做法，我們以MICE1和MICE2多重插補下的估計結(jié)果作為參考基準。發(fā)現(xiàn)個案刪除（表中原始列）、移動時序平滑插值法的估計都是有偏的，只有混合插補MMICE1和MMICE2的插補結(jié)果較為接近多重插補下的估計結(jié)果，與多重插補相比，刪除個案、移動時序平滑插補方法在多數(shù)樣本上均顯示出低估了樣本的標準差。

具體多重插補和混合插補哪一種更適合我們后續(xù)的實證研究，我們還將多重插補MICE1及混合插補MMICE1、MMICE2插值前后的a17、a28、a70對數(shù)的核密度函數(shù)圖與原始數(shù)據(jù)計算補充后相應(yīng)指標的核密度函數(shù)圖進行擬合，發(fā)現(xiàn)雖然擬合程度都很高，但MMICE1基本上能與原始數(shù)據(jù)所得出的核密度函數(shù)圖相重合，如圖1所示。在插補過程的檢驗中自變量的相對效率也體現(xiàn)出混合插補相對于多重插補的優(yōu)越性。因此，我們認為MMICE1的插值結(jié)果最有效合理。遂將MMICE1插值后的數(shù)據(jù)庫用于下文企業(yè)全要素生產(chǎn)率的測度。

三、插值效果評估

鑒于全要素生產(chǎn)率的測度是使用中國工業(yè)企業(yè)數(shù)據(jù)庫進行的最為廣泛的一個研究領(lǐng)域，本文在上述兩種相對最有效的插補方法建立的數(shù)據(jù)庫基礎(chǔ)上，分別采用OLS、FE、OP方法、LP方法來計算中國工業(yè)企業(yè)的TFP，以進一步評估不同插補方法的效果。表9是基于單值移動平滑和MMICE1插補后采用如上四種方法估計的結(jié)果。研究表明，采用OLS回歸與FE方法計算的勞動產(chǎn)出彈性系數(shù)高于資本產(chǎn)出彈性系數(shù)，采用OP方法和LP方法計算的資本產(chǎn)出彈性系數(shù)則高于勞動產(chǎn)出彈性系數(shù)。根據(jù)現(xiàn)有研究可知，OLS回歸與FE 方法計算TFP會產(chǎn)生聯(lián)立性偏誤和樣本選擇性偏誤這兩種重要問題，因此會導致勞動產(chǎn)出彈性系數(shù)被高估。與此同時，我們發(fā)現(xiàn)OP 方法計算的資本產(chǎn)出彈性系數(shù)和勞動產(chǎn)出彈性系數(shù)均顯著高于LP方法計算結(jié)果。

表10是基于兩種主要插補方法建立數(shù)據(jù)庫基礎(chǔ)上，進而采用四種TFP計算方法對中國工業(yè)企業(yè)的全要素生產(chǎn)率進行重新測度，最后得出表中的描述性統(tǒng)計數(shù)據(jù)，并且分別畫出了四種TFP估計方法估計結(jié)果的核密度分布函數(shù)圖，如圖2所示。從表10以及圖2可以看出，基于兩種插值方法建立的數(shù)據(jù)庫無

論是在計算TFP的資本和勞動彈性系數(shù)上，還是在計算TFP的數(shù)據(jù)分布特征上，兩種插值方法呈現(xiàn)出來的差異都非常小，這一方面驗證了我們數(shù)據(jù)處理過程的合理性，另一方面說明了兩種插補方法的相對有效性。值得強調(diào)的是，盡管這兩種插補方法建立的數(shù)據(jù)庫在計算TFP的效果上的差異較?。ㄟ@說明這兩種方法建立的數(shù)據(jù)庫都能夠捕捉到TFP的基本分布特征信息），但是由于混合插補法的MMICE1能夠在保證計算指標有效性的同時保留更大的數(shù)據(jù)樣本，進而保留更多的關(guān)鍵數(shù)據(jù)信息。因此，本文認為相對于移動平滑法，混合插補法MMICE1在數(shù)據(jù)庫完善和關(guān)鍵指標獲取方面更為有效。同時，考慮到移動平滑法是一種最為簡單的插補方法，即使沒有過多的技術(shù)處理仍然可以取得相當完美的計算結(jié)果，因為本文認為移動平滑法是一種更加經(jīng)濟有效的插補方法。

參考文獻：

[1]Brandt Loren，Biesebroeck Johannes Van， and Zhang Yifan. Creative accounting or creativedestruction？ Firm-level productivity growth in China[J]. Journal of DevelopmentEconomics， 2012， 97：339～351.

[2]聶輝華，江艇，楊汝岱.中國工業(yè)企業(yè)數(shù)據(jù)庫的使用現(xiàn)狀和潛在問題[J].世界經(jīng)濟，2012（5）.

[3]張?zhí)烊A，張少華.中國工業(yè)企業(yè)全要素生產(chǎn)率的穩(wěn)健估計[J].世界經(jīng)濟，2016（4）.

[4]陳林.中國工業(yè)企業(yè)數(shù)據(jù)庫的使用問題再探[J].經(jīng)濟評論，2018（6）.

[5]陳林.中國工業(yè)統(tǒng)計的理論體系和制度變遷：兼議中國工業(yè)企業(yè)數(shù)據(jù)的部分系統(tǒng)性誤差[J].經(jīng)濟科學，2019（4）.

[6]李蘇蘇，葉祥松，張少華.中國制造業(yè)企業(yè)全要素生產(chǎn)率測度研究[J].學術(shù)研究，2020（3）.

[7]李蘇蘇，張少華，周鵬.中國企業(yè)出口生產(chǎn)率優(yōu)勢的識別與分解研究[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究，2020（2）.

[8]王萬珺，劉小玄.為什么僵尸企業(yè)能夠長期生存[J].中國工業(yè)經(jīng)濟，2018（10）.

[9]蘇錦紅，蘭宜生，夏怡然.異質(zhì)性企業(yè)全要素生產(chǎn)率與要素配置效率——基于1999～2007年中國制造業(yè)企業(yè)微觀數(shù)據(jù)的實證分析[J].世界經(jīng)濟研究，2015（11）.

[10]余淼杰，金洋，張睿.工業(yè)企業(yè)產(chǎn)能利用率衡量與生產(chǎn)率估算[J].經(jīng)濟研究，2018（5）.

Research on the use of China industrial enterprise database （1999～2013）：

Comparative analysis of missing value processing methods

ZHANG Shao-hua，LI Su-su

（Guangzhou University，Guangzhou，Guangdong 510006，China;Guangdong University of Finance and Economics，Guangzhou，Guangdong 510320，China）

Abstract：

China industrial enterprise database has become the preferred database to study China's micro enterprise activities. However， the lack of key indicators in the database seriously affects the update and use of the database. On the basis of referring to the main literature processing methods， this paper uses five interpolation methods to improve the database， including single imputation， MICE1、MICE2、MMICE1和MMICE2， so as to extend the Chinese industrial enterprise database to 2013， and evaluate the relative effectiveness of various interpolation methods by calculating the total enterprise productivity. The results show that： In the five interpolation methods， the single imputation method and MMICE1 are the two most effective interpolation methods， which can not only achieve the consistency of database features before and after interpolation， but also achieve the consistency of data structure features of total factor productivity. It is worth emphasizing that in terms of improving the database and calculating the total factor productivity， the former is a relatively economic method because of its simple process， while the latter is a relatively effective method because it can retain more sample information The research value of this paper is to provide basic research work for the use of Chinese industrial enterprise database.

Key words：

chinese industrial enterprise database;single imputation;multivariate imputation by chained equations;mixed interpolation method;total factor productivity

責任編輯：吳錦丹

收稿日期：2021-03-05

基金項目：國家社會科學基金重大攻關(guān)項目“全面建成小康社會背景下新型城鄉(xiāng)關(guān)系研究”（17ZDA067）;國家自然科學基金常規(guī)面上項目“中國的“中部迷失”問題：典型事實、形成機理及宏觀后果”（批準號：71673253）、“中國企業(yè)和城市規(guī)模分布異化的政策根源、形成機制與效率評估”（批準號：72073038），以及廣州市宣傳文化人才培養(yǎng)專項經(jīng)費資助的成果之一。

作者簡介：張少華（1975—），男，山西陽城人，廣州大學經(jīng)濟與統(tǒng)計學院教授、博導，中山大學博士，浙江大學博士后，研究方向為資源錯配與全要素生產(chǎn)率研究;李蘇蘇（1984—）（通訊作者），女，湖南婁底人，廣東財經(jīng)大學講師，博士，研究方向為生產(chǎn)率測度與分解研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中國工業(yè)企業(yè)數(shù)據(jù)庫（1999~2013）的使用研究：基于插值處理方法的比較分析