張學(xué)立
摘要:隨著國際貿(mào)易理論的發(fā)展以及微觀計量經(jīng)濟學(xué)的引入,越來越多的研究關(guān)注到了微觀企業(yè)行為在國際貿(mào)易中起到的作用,中國經(jīng)濟學(xué)者越來越重視微觀數(shù)據(jù)的開發(fā)和使用。其中,中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)貿(mào)易數(shù)據(jù)庫成為國內(nèi)外學(xué)者研究中國企業(yè)在國際貿(mào)易中行為和績效的主要數(shù)據(jù)庫。但是,將企業(yè)層面的生產(chǎn)數(shù)據(jù)和產(chǎn)品層面的貿(mào)易數(shù)據(jù)合并會面臨一定的技術(shù)問題。兩組數(shù)據(jù)庫的編碼系統(tǒng)完全不同,企業(yè)數(shù)據(jù)庫中企業(yè)編號為9位,而貿(mào)易數(shù)據(jù)庫中企業(yè)編號為10位,將兩個數(shù)據(jù)庫匹配起來是有困難的。本文介紹了將兩個數(shù)據(jù)庫合并的幾種方法,并給出了各種方法匹配出來的效果。
關(guān)鍵詞:中國工業(yè)企業(yè)數(shù)據(jù)庫;海關(guān)貿(mào)易數(shù)據(jù)庫;合并
一、中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)貿(mào)易數(shù)據(jù)庫使用概況
在經(jīng)驗研究中,企業(yè)級和產(chǎn)品級的微觀數(shù)據(jù)正在受到越來越多的重視。數(shù)據(jù)是經(jīng)驗研究的根本,因此數(shù)據(jù)質(zhì)量的好壞直接決定了經(jīng)驗研究的質(zhì)量。其中,中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)貿(mào)易數(shù)據(jù)庫成為國內(nèi)外學(xué)者研究中國企業(yè)在國際貿(mào)易中行為和績效的主要數(shù)據(jù)庫。他們的研究成果廣泛的發(fā)表在國內(nèi)著名學(xué)術(shù)期刊上,包括《經(jīng)濟研究》、《管理世界》、《經(jīng)濟學(xué)(季刊)》、《世界經(jīng)濟》等。
楊汝岱在《區(qū)位地理與企業(yè)出口產(chǎn)品價格差異研究》中用兩個數(shù)據(jù)庫從區(qū)位地理的角度解釋中國出口產(chǎn)品的價格差異,越偏遠(yuǎn)的地方,企業(yè)出口產(chǎn)品的價格相對越低,初步反映出我國出口產(chǎn)業(yè)的梯度分工模式。余淼杰在《企業(yè)出口強度與進口中間品貿(mào)易自由化:來自中國企業(yè)的實證研究》一文中,使用中國制造企業(yè)數(shù)據(jù)和貿(mào)易數(shù)據(jù),發(fā)現(xiàn)企業(yè)面臨的中間品關(guān)稅的下降顯著提高了企業(yè)的出口強度,即出口占銷售的比例。戴覓在《中國出口企業(yè)生產(chǎn)率之謎:加工貿(mào)易的作用》一文中,通過2000—2006年企業(yè)—海關(guān)數(shù)據(jù)的分析表明,中國存在“出口企業(yè)生產(chǎn)率之謎”完全是由中國大量的加工貿(mào)易企業(yè)導(dǎo)致。除此之外,還有一系列研究運用中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)貿(mào)易數(shù)據(jù)庫得出了很好的結(jié)論。
但是,將企業(yè)層面的生產(chǎn)數(shù)據(jù)和產(chǎn)品層面的貿(mào)易數(shù)據(jù)合并會面臨一定的技術(shù)問題。兩組數(shù)據(jù)庫的編碼系統(tǒng)完全不同,企業(yè)數(shù)據(jù)庫中企業(yè)編號為9位,而貿(mào)易數(shù)據(jù)庫中企業(yè)編號為10位,將兩個數(shù)據(jù)庫匹配起來是有困難的。并且,兩個數(shù)據(jù)庫原始數(shù)據(jù)存在很多問題,如樣本匹配混亂、指標(biāo)缺失、變量大小異常、側(cè)度誤差明顯和變量定義模糊等嚴(yán)重問題。本文介紹了將兩個數(shù)據(jù)庫合并的幾種方法,并給出如何整理數(shù)據(jù),剔除異常值的步驟和建議。
文章余下部分安排如下:第二部分簡要介紹了兩個數(shù)據(jù)庫的特征;第三部分介紹了兩個數(shù)據(jù)庫的并方法;第四部分是結(jié)論和建議。
二、兩個數(shù)據(jù)庫基本介紹
(一)中國工業(yè)企業(yè)數(shù)據(jù)庫的基本介紹
中國制造業(yè)企業(yè)數(shù)據(jù)庫由國家統(tǒng)計局建立,它的數(shù)據(jù)主要來自于樣本企業(yè)提交給當(dāng)?shù)亟y(tǒng)計局的季報和年報匯總。包括2000年到2006年每年約230000個制造業(yè)企業(yè)的生產(chǎn)信息。這套數(shù)據(jù)包括了3張會計報表:損益表,資產(chǎn)負(fù)債表和現(xiàn)金流量表,共100多個會計變量。這套數(shù)據(jù)每年涵蓋的企業(yè)生產(chǎn)總值占中國總工業(yè)生產(chǎn)總值約95%,實際上《中國統(tǒng)計年鑒》中的加總的工業(yè)數(shù)據(jù)就是從這套數(shù)據(jù)加總而來。數(shù)據(jù)包括兩大類型企業(yè),所有國有企業(yè)以及年銷售額在500萬元以上的非國有企業(yè)。企業(yè)數(shù)目從2000年的162885家增長到了2006年的301961家。
(二)海關(guān)貿(mào)易數(shù)據(jù)庫的基本介紹
海關(guān)數(shù)據(jù)庫包括了2000-2006年產(chǎn)品層面交易的月度數(shù)據(jù)。每個產(chǎn)品都是在HS8位碼上,產(chǎn)品數(shù)量從2000年1月的78種增加到2006年12月的230種,每年平均的觀測值數(shù)目由2000年的1000萬增加到2006年的1600萬,最終這7年的觀測值總數(shù)約為118333831個,大約有286819家企業(yè)參與了國際貿(mào)易。
三、兩個數(shù)據(jù)庫合并的方法
(一)按企業(yè)名稱對接兩個數(shù)據(jù)庫
根據(jù)企業(yè)的姓名和年份匹配,在同一年的兩套數(shù)據(jù)中有相同的名字則認(rèn)為是同一個企業(yè)。年份這一變量對于匹配是重要的,因為一些企業(yè)在不同年份企業(yè)名稱可能不同,并且新進入的企業(yè)有可能采用他們原來的名稱。
《中國的多產(chǎn)品出口企業(yè)及其產(chǎn)品范圍:事實與解釋》采用此種方法,目的是為了剔除中間商。同時出現(xiàn)在海關(guān)數(shù)據(jù)庫和工業(yè)企業(yè)數(shù)據(jù)庫中的企業(yè)必然不是純粹的中間商,因此留下來的樣本就是剔除了中間商的樣本。用此種方法合并,最后得到2000-2005年的企業(yè)數(shù)量分別為22631,26038,30629,37103,42259,44136家。合并后的數(shù)據(jù)庫企業(yè)出口額達到了原海關(guān)數(shù)據(jù)中出口額的60%。這樣,合并后的數(shù)據(jù)就近包括有出口行為的工業(yè)企業(yè)的進出口和企業(yè)的投入產(chǎn)出信息。
兩篇文章匹配出的結(jié)果一樣。
(二)使用郵政編碼和電話號碼對企業(yè)進行識別
通過企業(yè)的郵政編碼和最后7位電話號碼進行匹配,因為在每一個郵政地區(qū)中,企業(yè)的號碼不同?!都庸べQ(mào)易、企業(yè)生產(chǎn)率和關(guān)稅減免——來自中國產(chǎn)品面的數(shù)據(jù)》一文采用此種方法。篩選之后,有218024家企業(yè)的產(chǎn)品貿(mào)易數(shù)據(jù)(海關(guān)貿(mào)易數(shù)據(jù))保持有效,占到了全部640352個企業(yè)樣本中的34%。同理,對企業(yè)數(shù)據(jù)集,剔除掉其中郵政編碼或電話號碼無效的樣本后,剩余的企業(yè)樣本數(shù)為973207。繼續(xù)按照先前的標(biāo)準(zhǔn)進行篩選,則還剩下433273個企業(yè)樣本,占到了973207家企業(yè)中的44.5%。在此基礎(chǔ)上,文章將產(chǎn)品貿(mào)易數(shù)據(jù)和企業(yè)生產(chǎn)數(shù)據(jù)歸并整合起來。
(三)采用企業(yè)名稱以及郵政編碼和電話號碼兩種方法匹配,然后取并集
《企業(yè)出口強度與進口中間品貿(mào)易自由化:來自中國企業(yè)的實證研究》一文首先根據(jù)企業(yè)的姓名和年份匹配,在同一年的兩套數(shù)據(jù)中有相同的名字則認(rèn)為是同一個企業(yè)。這樣如果使用原始的工業(yè)企業(yè)數(shù)據(jù),我們可以匹配到83679家企業(yè)。如果使用篩選(根據(jù)“通用會計準(zhǔn)則”(GAPP)中的規(guī)定)過后的,我們可以匹配到69623家企業(yè)。第二種方法通過企業(yè)的郵政編碼和最后7位電話號碼進行匹配。
一些企業(yè)有可能在工業(yè)庫或海關(guān)庫中沒有匯報企業(yè)名稱,同樣,其郵編和電話號碼也可能只出現(xiàn)在一套數(shù)據(jù)中。為了保證能匹配到更多的企業(yè),將兩種方法得到的數(shù)據(jù)取并集。如此,用原始工業(yè)企業(yè)數(shù)據(jù)成功匹配的企業(yè)數(shù)有90558個。篩選(根據(jù)“通用會計準(zhǔn)則”(GAPP)中的規(guī)定)后的有76823個。
(四)將企業(yè)名稱拆分成若干詞段,用這些詞段去搜尋匹配
在數(shù)據(jù)匹配上,首先按每家企業(yè)的企業(yè)名稱完全匹配,接下來將不能完全匹配上的海關(guān)庫企業(yè)中,按貿(mào)易額大小排序,將每家企業(yè)的企業(yè)名稱拆分成若干詞段,用這些詞段去和工業(yè)庫企業(yè)名稱搜尋匹配,如果每個詞段都能匹配上,賦值匹配類型為“1”,如果只有部分詞段匹配上,按匹配要求的精度可逐步賦值。
四、小結(jié)和建議
從現(xiàn)有文獻來看,合并兩個數(shù)據(jù)庫的主要方法有:1.通過企業(yè)名稱和年份進行匹配;2.郵政編碼和最后7位電話號碼進行匹配;3.將企業(yè)名稱分為若干詞段來匹配;4.代碼表轉(zhuǎn)換。由于第三種方法要求匹配的精度不好確定,以及第四種方法代碼表轉(zhuǎn)換不全面,不建議使用。建議使用第一種和第二種方法匹配所得到的數(shù)據(jù)取并集。
參考文獻:
[1]錢學(xué)鋒,王勝,陳勇兵.中國的多產(chǎn)品出口企業(yè)及其產(chǎn)品范圍:事實與解釋[J].管理世界,2013(01):9-27.
[2]楊汝岱,李艷.區(qū)位地理與企業(yè)出口產(chǎn)品價格差異研究[J]管理世界,2013(07):21-30.
[3]戴覓,余淼杰.中國出口企業(yè)生產(chǎn)率之謎:加工貿(mào)易的作用[J].經(jīng)濟學(xué):季刊,2014,13(02).
[4]陳勇兵,李燕,周世民.中國企業(yè)出口持續(xù)時間及其決定因素[J].經(jīng)濟研究,2012(07):48-61.