馮冬發(fā),張 濤,李 奧
(1.中國社會科學院大學(研究生院) 數(shù)量經濟與技術經濟系,北京 102488;2.中國社會科學院 數(shù)量經濟與技術經濟研究所,北京 100732)
隨機前沿模型假設其復合擾動項ε由相互獨立的兩部分v和u相減構成,其中v服從正態(tài)分布,刻畫了廠商無法控制的環(huán)境因素與被解釋變量的測量誤差,u服從半正態(tài)分布,刻畫了廠商的技術無效率,即實際產量與理想產量之間的差距[1]。在上述設定下,ε的偏度應始終小于零,但在實際測算過程中,回歸方程殘差項的偏度卻可能取值為正,由此產生正偏度問題,進而導致模型錯判樣本內廠商不存在技術無效率[2]。
早期研究認為正偏度問題是小樣本問題[3],可以通過擴充樣本量、適當變換生產函數(shù)形式、調整回歸元等方式來加以規(guī)避[4]。后續(xù)學者發(fā)現(xiàn)正偏度問題在大樣本中同樣時有出現(xiàn),該問題產生的根源在于模型對技術無效率的分布假設過緊,其偏度始終大于0,極大地限制了復合擾動項偏度的取值范圍[5]。如果假設技術無效率服從均勻分布或二項分布,則能夠在經典模型失效的情形下,依然取得廠商技術效率的合理估計值[6-7]。事實上,復合擾動項偏度受到v的偏度、u的偏度、v與u的相關性等三部分內容的影響[8],由于修改隨機擾動項v和u的分布設定往往缺乏經濟學理論的支持[9],所以研究者的目光逐漸轉向允許兩部分隨機擾動項之間存在相關性[10]。Copula方法可以描述變量之間的相關性,多用于金融領域研究[11],在解決隨機前沿模型的內生性問題上也有較多的應用[12-14],但將其用于研究正偏度問題的文獻尚不多見,這部分文獻為獲得參數(shù)估計量的解析解,往往對v和u的分布施加一些不常見的分布設定,限制了這些研究成果的應用前景。
數(shù)值模擬方法的廣泛應用為處理隨機前沿模型的正偏度問題提供了新的思路[15]。本文將在保留經典模型關于隨機擾動項v和u各自分布設定的前提下,使用Copula方法刻畫兩者之間的相關性,基于極大模擬似然估計法給出模型參數(shù)與廠商技術效率的估計值。該模型設定具有兩處優(yōu)點:一是假設兩部分隨機擾動項之間存在相關性,即允許來自廠商控制之外的環(huán)境沖擊對廠商的技術效率產生影響,顯然具備合理的經濟學含義。二是保留了經典模型中關于隨機擾動項分布的設定,是對經典模型的自然拓展,當兩部分擾動項v和u相互獨立時,本文使用的模型設定便與經典模型完全一致,可以使用標準統(tǒng)計檢驗程序來判斷兩部分隨機擾動項之間相關程度的顯著性,以此作為模型選擇的依據(jù)。
借鑒Aigner等的模型設定[1],給出如下形式的隨機前沿模型:
yi=f(xi;β)+εi
εi=vi-ui
(1)
Sklar定理指出:任意一個多元聯(lián)合分布函數(shù)均可分解為其邊緣分布和一個刻畫相依結構的Copula函數(shù),如果邊緣分布連續(xù),則Copula函數(shù)能夠被唯一確定[16]。假設vi的密度函數(shù)為g(vi),分布函數(shù)為G(vi),ui的密度函數(shù)為h(ui),分布函數(shù)為H(ui)。由Sklar定理可將vi和ui的聯(lián)合分布函數(shù)M(vi,ui)表示為:
M(vi,ui)=Cθ[G(vi),H(ui)]
(2)
式(2)的Cθ(·,·)是刻畫了vi和ui相依結構的Copula函數(shù),θ為該Copula函數(shù)的參數(shù)向量,假設該參數(shù)向量與模型的參數(shù)向量β之間不存在相同元素。如果Copula函數(shù)取乘積Copula,即Cθ(x,y)=xy,則有聯(lián)合分布函數(shù)M(vi,ui)=G(vi)H(ui),意味著vi和ui相互獨立,此時式(1)所描述模型與經典隨機前沿模型完全一致。當Copula函數(shù)取其它形式更為復雜的設定方式時,模型便允許兩部分隨機擾動項之間存在相關性,更加貼近現(xiàn)實。
由vi和ui的聯(lián)合分布函數(shù)可以給出兩者的聯(lián)合概率密度函數(shù)m(vi,ui),如式(3)所示:
(3)
式(3)的cθ(·,·)被稱為Copula密度函數(shù),式(3)實際上將隨機變量的聯(lián)合概率密度函數(shù)分解成了邊緣密度函數(shù)和一個刻畫相依結構的Copula密度函數(shù)。
Copula函數(shù)刻畫了隨機擾動項vi和ui之間的相關性,其強弱與參數(shù)向量θ有關。但Smith指出θ并非良好的相關性度量指標,建議使用Spearman相關系數(shù)Sρ來度量隨機變量間的相關性[10],其具體形式如式(4)所示:
(4)
Spearman相關系數(shù)有兩處優(yōu)點:一是非常直觀。取值范圍為[-1,1],隨機變量正相關時取值為正,負相關時取值為負,不相關時取值為0,絕對值越大代表相關性越強。二是Sρ的數(shù)值大小僅與所選擇的Copula函數(shù)及其參數(shù)向量θ相關,與隨機變量服從的邊緣分布無關,具有不變性(invariance)。
不同的Copula函數(shù)選擇會對估計結果產生影響,本文將根據(jù)赤池信息準則(AIC)在若干常用的Copula函數(shù)中選擇最合適的一個。估計出模型參數(shù)后,可以對Sρ做原假設為H0:Sρ=0的假設檢驗,如果拒絕原假設,認為隨機前沿模型中兩部分擾動項之間存在顯著的相關性,應考慮使用本文的模型設定。如果無法拒絕原假設,則使用經典的隨機前沿模型仍是合理的。
將式(1)代入到式(3)中得到vi和ui的聯(lián)合概率密度函數(shù)m(vi,ui),調整變量后計算出εi和ui的聯(lián)合概率密度函數(shù)m(εi,ui),如式(5)所示:
m(εi,ui)=g(εi+ui)h(ui)cθ(G(εi+ui),H(ui))
(5)
對式(5)做關于ui的積分,可以求出εi的邊緣分布,如式(6)所示:
=Eu[g(εi+u)cθ(G(εi+u),H(u))]
(6)
式(6)中的Eu是關于隨機變量u的數(shù)學期望算子,求得復合擾動項εi的概率密度函數(shù)后,可以給出模型的對數(shù)似然函數(shù),如式(7)所示:
(7)
基于式(7)使用極大似然法估計模型參數(shù)的難點在于:式(6)只有在少數(shù)特殊情形下才有解析解。本文將借鑒Greene提出的極大模擬似然估計法來完成模型的參數(shù)估計,這種方法的核心思路是使用大樣本抽樣的樣本均值來近似總體分布的期望值[15]。式(6)已將mθ(εi)改寫成數(shù)學期望的形式,只要在技術無效率項u服從的總體分布中抽樣R次,計算函數(shù)g(εi+u)cθ(G(εi+u),H(u))的樣本均值,由大數(shù)定理可知:
(8)
據(jù)此可以給出mθ(εi)的模擬數(shù)值解,在此基礎上使用極大似然估計法便可以給出模型的參數(shù)估計值,這種基于大樣本模擬抽樣的估計方法就被稱為極大模擬似然估計法。
隨機前沿模型的核心在于估計廠商的技術效率值,正偏度問題帶來的最大影響正是無法給出合理的技術效率估計值。借鑒Battese和Coelli提出的廠商技術效率最優(yōu)預測值[17],給出如式(9)所示的廠商技術效率值估算方法:
(9)
式(9)的分母與式(6)完全相同,分子可以參照式(8)給出的模擬抽樣方法進行估計,兩相結合可以計算出廠商技術效率的最優(yōu)預測值。
引入如式(10)所示的單投入單產出隨機前沿模型:
yi=β0+xiβ1+vi-ui
(10)
蒙特卡洛實驗首先考察兩部分隨機擾動項之間相關性強弱對于模型最小二乘殘差項的偏度及廠商的平均技術效率估計值的影響,以此說明正偏度問題的存在及其引發(fā)的后果。取樣本容量為N={50,500},將θ的取值范圍[-1,1]均等分為1 000個子區(qū)間,取每個區(qū)間的中點作為θ的實際取值,使用R語言的frontier包完成模型參數(shù)的估計并計算廠商的平均技術效率。對于每一個θ的取值,模擬實驗均重復100次,取其平均值用于最終的結果展示。
此外,蒙特卡洛實驗還需要驗證本文所提出估計方法的有效性與穩(wěn)健性。為考察不同程度相關性的影響,令θ={0,0.5,0.9},相應的Spearman相關系數(shù)為{0,0.48,0.89},分別代表兩部分隨機變量之間不存在相關性、存在中等程度相關性和存在高度相關性三種情形。此外,本文還設計了三種不同的樣本容量N={20,300,1 000},分別代表了小樣本、中等樣本和大樣本三種情形,模擬實驗均重復1 000次,取其平均值用于最終的結果展示。
本文在模擬實驗中具體考察了三種不同估計方法,分別是:經典隨機前沿模型估計法(以下簡稱SF),這種估計方法假設vi和ui相互獨立,是目前學術界使用的最為廣泛的估計方法;基于Normal Copula的極大模擬似然估計法(以下簡稱NC);基于FGM Copula的極大模擬似然估計法(以下簡稱FC)。NC選擇的Copula函數(shù)是用于生成模擬數(shù)據(jù)的Copula函數(shù),FC選擇的Copula函數(shù)則與設定的總體分布不符,后者往往是現(xiàn)實中最常見的情形,即允許隨機擾動項之間存在相關性,但選擇了不準確的刻畫方式。通過考察FC估計量的統(tǒng)計性質,可以在一定程度上評估本文所提出估計方法的穩(wěn)健性。兩個Copula函數(shù)之間不存在相互嵌套的關系,分別以不同的方式刻畫了兩部分隨機擾動項之間的相關性,但都將乘積Copula視為其特殊情形,即將經典隨機前沿模型作為它們的特例,據(jù)此可以通過標準統(tǒng)計檢驗程序判斷兩部分隨機擾動項之間是否存在相關性,進而評估使用經典隨機前沿模型的合理性。
模擬實驗具體考察的內容是模型參數(shù)和廠商技術效率的估計精度。借鑒蔣青嬗等人的做法,本文將從偏差、標準差和均方誤差三個方面來評價模型參數(shù)的估計精度,使用均方誤差來判斷廠商技術效率的估計精度[12]。所謂的偏差是參數(shù)估計量與其真實值之差,其本身有正有負,為防止參數(shù)估計量的正向偏差與負向偏差之間存在中和抵消,本文使用的是偏差的絕對值。標準差計算的是每次模擬實驗得到的1 000個估計量的標準差,而非參數(shù)標準差估計量的均值。均方誤差指的是參數(shù)估計量與其真值之間差距的平方的均值,對于技術效率而言,其真值為exp(-ui)。顯然,本文計算得出的偏差、標準差和均方誤差均為大于零的正數(shù),數(shù)值越小代表估計精度越高,反之則代表估計精度越低。
圖1和圖2分別給出了樣本容量為50和500時,第一部分模擬實驗的結果。圖形的橫軸代表Normal Copula的Spearman相關系數(shù)Sρ,其取值范圍為[-1,1],刻畫了隨機前沿模型中兩部分隨機擾動項之間的相關性,取值為0代表兩者不相關,正值代表正相關,負值代表負相關,數(shù)值越大代表相關性越強,反之則越弱。圖形中由上至下的四條曲線分別代表了SF估計的廠商效率均值、模擬樣本中廠商真實技術效率的均值、最小二乘殘差項出現(xiàn)正偏度的頻率以及殘差項的偏度均值。
圖1 樣本量為50時,隨機擾動項相關性對正偏度問題的影響
圖2 樣本量為500時,隨機擾動項對正偏度問題的影響
廠商的真實技術效率均值僅與技術無效率項服從的總體分布有關,在模擬實驗中半正態(tài)分布的參數(shù)被設置為固定值,使得技術效率平均值為常數(shù),在圖形上表現(xiàn)為一條水平橫直線。SF估計出來的廠商效率均值與廠商的真實效率均值接近但并不重合,在兩部分隨機擾動項時存在較大程度的負相關時,SF會低估廠商的技術效率水平,除此以外,均存在著不同程度的高估。小樣本情形下,即便Spearman相關系數(shù)取值為0,代表SF正確地設定了總體回歸方程,模型對于廠商技術效率的估計依然存在向上的偏誤,隨著樣本量的逐漸增加,這種偏誤會逐漸減小。但如果模型中兩部分隨機擾動項存在相關性,SF對于廠商平均技術效率的估計始終有偏。
小樣本情形下,模擬樣本殘差項的平均偏度與Spearman相關系數(shù)之間存在倒U型非線性關系,平均偏度會在Spearman相關系數(shù)的取值在0.5左右時到達峰值,盡管此時的平均偏度仍小于零,但樣本殘差項出現(xiàn)正偏度的頻率到達峰值,數(shù)值在50%左右,意味著經典隨機前沿模型將有一半的概率會失效。大樣本情形下,兩部分隨機擾動項之間存在負相關時,出現(xiàn)正偏度的頻率會大幅降低,接近于零;兩部分隨機擾動項之間存在正相關時,出現(xiàn)正偏度的頻率要低于小樣本情形下的頻率,但依然接近40%,依然有較大的概率出現(xiàn)正偏度問題,進而造成對技術效率的高估。
綜上所述,擴大樣本量可以降低出現(xiàn)正偏度問題的概率,這和Waldman的研究結論保持一致,認為正偏度問題是小樣本問題[3]。但在實際的研究中,樣本量往往是相對固定、難以擴充的。此外,如果模型的兩部分隨機擾動項之間存在中等程度的正相關,即便擴充了樣本量,經典隨機前沿模型仍有較大概率出現(xiàn)正偏度問題,故而有必要通過拓展模型設定的方式來解決這一問題。
表1展示的是θ=0時的參數(shù)估計精度,此時兩部分隨機擾動項之間不存在相關性,經典的隨機前沿模型是正確的模型設定,NC和FC則假設兩者之間存在相關性。從表中結果能夠看出,SF估計量的偏差、標準差與均方誤差最大,尤其是對技術無效率項的分布參數(shù)σu的估計偏誤較大,這與第一部分蒙特卡洛實驗的結論保持一致,認為SF方法在實際應用中會存在一些問題,尤其是在小樣本情形下。比較NC和FC可以看出,在樣本量較小的情形下,NC估計量的估計精度并不一定高于FC估計量,這可能是因為NC的模型設定要比FC更復雜,參數(shù)估計的穩(wěn)定性要稍差一些。大樣本情形下,NC估計量的估計精度要顯著高于FC。由此可知,使用Copula函數(shù)來刻畫隨機擾動項之間的相關性能夠帶來更精確的參數(shù)估計值,即便所選擇的刻畫方式并不吻合數(shù)據(jù)生成過程,有充分的理由使用Copula函數(shù)來刻畫隨機擾動項之間的相關性。比較不同樣本情形下,各個估計量的偏差、標準差與均方誤差的變化情況,可以發(fā)現(xiàn),這些估計方法相應估計量的估計精度都隨樣本量的增加而提升,具有良好的大樣本性質。
表2展示的是θ=0.5時的參數(shù)估計精度,此時兩部分隨機擾動項之間存在中等程度的相關性,SF的模型設定不再正確,相應估計量的估計精度最差,認為SF并不適用于此類模型的估計。比較NC和FC可以看出,NC估計量的估計精度總體上高于FC估計量,大樣本情形下的對比要更為明顯。與θ=0時的參數(shù)估計精度對比,發(fā)現(xiàn)存在中等程度相關性情形下的NC估計量的偏差、標準差和均方誤差都變小了,說明估計精度變得更高了。比較不同樣本情形下,各個估計量的偏差、標準差與均方誤差的變化情況,可以發(fā)現(xiàn),NC和FC估計量的估計精度都隨樣本量的增加而提升,具有良好的大樣本性質,SF則存在著顯著的偏誤,尤其是對于技術無效率項的分布參數(shù)σu而言。
表3展示的是θ=0.9時的參數(shù)估計精度,此時兩部分隨機擾動項之間存在較高程度的相關性。總體上來看,SF依然具有最差的估計精度,NC具有最高的估計精度,FC則次之。與θ=0.5時的估計結果對比,發(fā)現(xiàn)隨兩部分隨機擾動項之間相關性的增強,NC和FC估計量的估計精度會進一步提高。比較不同樣本情形下,各個估計量的偏差、標準差與均方誤差的變化情況,可以發(fā)現(xiàn),NC和FC估計量的估計精度都在隨樣本量的增加而提升,具有良好的大樣本性質。而SF關于σv的估計在大樣本下依然存在著顯著的偏誤,結合表2的模擬結果,認為兩部分隨機擾動項之間存在相關性會導致SF失效。
表3 θ=0.5時,三種估計方法的參數(shù)估計精度
測度廠商的技術效率是隨機前沿模型的核心,進一步評估本文所提出估計方法的估計精度,將N=1 000時廠商技術效率估計值的均方誤差以箱線圖的形式匯總在圖3中,由左至右,分別代表了FC、NC和SF三種估計方法在θ取值為0、0.5和0.9的情形下的技術效率估計量的均方誤差箱線圖。
從圖3中能夠看出,當θ取值為0,即隨機擾動項之間不存在相關性時,SF是正確的模型設定,其對應的箱線圖位置最低,箱寬最窄且全距最小,但拖尾嚴重,說明其具有較高的估計精度,但仍有可能會錯估廠商的技術效率。當隨機擾動項之間存在中等程度的相關性時,SF對于廠商技術效率的估計精度急劇下降,NC和FC估計量的估計精度則有所提升,總體而言要優(yōu)于SF估計量。正確地設定了Copula函數(shù)形式的NC估計量具有更低的位置、更窄的箱寬及更小的全距,表明其具有更高的估計精度。當θ=0.9時,兩部分擾動項之間存在著較高程度的相關性,NC估計量具有最高的估計精度,FC估計量的估計精度次之,但差距不大。綜上所述,除非有較大把握認為隨機擾動項之間不存在相關性,否則基于Copula方法估計隨機前沿模型總能獲得一些估計精度上的提升,且相關性越大,帶來的估計精度提升越大。
圖3 廠商技術效率估計量的均方誤差箱線圖
上市公司的技術效率歷來都是學者們關注的熱門話題,正確地測度其技術效率是其中不可或缺的一環(huán)。本文從Wind金融終端中收集了2018年中國滬深股市所有A股的部分年報數(shù)據(jù),構建了如下形式的隨機前沿模型:
ln revenuei=ln capitali+ln labori+vi-ui
(11)
——AMH估計量,------SF估計量圖4 技術效率估計值的核密度圖
式(11)中的i=1,2,…,N,N代表樣本容量,revenuei代表第i家上市公司的主營業(yè)務收入,capitali代表上市公司的資本投入,由上市公司的固定資產凈額加流動資產合計計算得出,labori代表上市公司的勞動力投入,使用員工人數(shù)加以度量。vi和ui則分別代表了隨機前沿模型的白噪聲項和技術無效率項。去掉數(shù)據(jù)集中存在數(shù)據(jù)缺失的上市公司,將處理后數(shù)據(jù)的描述性統(tǒng)計匯報在表4當中。
表4 對數(shù)變量的描述性統(tǒng)計
除前文已經提及的SF、NC和FC以外,本文還額外選擇了AMH Copula和Frank Copula來刻畫隨機擾動項之間的相關性,將相應的估計結果匯總在表5當中。不難看出,AMH估計量具有最小的AIC,其參數(shù)θ與相應的Spearman相關系數(shù)能夠通過顯著性檢驗,表明上市公司的兩部分隨機擾動項之間存在正相關關系,即來自廠商控制之外的環(huán)境沖擊會影響企業(yè)的技術效率,進而造成經典隨機前沿模型的不適用,基于此技術效率估計值的研究結果將不再可靠。
為進一步考察兩部分擾動項之間的相關性給測度上市公司的技術效率帶來的影響,將由SF和AMH估計出的廠商技術效率的核密度圖繪制在圖4中。從圖中不難看出,SF較之AMH估計量具有更大的眾數(shù)與均值,傾向于高估企業(yè)的技術效率,可能會對基于此技術效率估計值的后續(xù)研究造成不良影響。
表5 2018年上市公司數(shù)據(jù)的模型參數(shù)估計結果
正偏度問題的存在使得經典的隨機前沿模型無法給出合理的廠商技術效率估計值,可以通過修改模型設定,允許兩部分隨機擾動項之間存在相關性以規(guī)避該問題。本文使用Copula方法刻畫了隨機擾動項之間的相關性,基于極大模擬似然估計法給出了模型參數(shù)的估計量及廠商技術效率的最優(yōu)預測值。蒙特卡洛實驗證明:經典的隨機前沿模型在樣本量較小,或兩部分隨機擾動項之間存在相關性的情形下表現(xiàn)不佳,有較大概率產生正偏度問題;使用Copula函數(shù)刻畫擾動項之間的相關性可以提高模型參數(shù)和廠商技術效率的估計精度,隨相關性的增強,估計精度的提高會更顯著;本文所提出估計方法具有良好的大樣本性質,估計精度會隨樣本容量的擴充而提高。
本文的實例研究表明上市公司的技術效率會受到外部沖擊的影響,經典的隨機前沿模型會高估它們的技術效率,不應忽視隨機擾動項之間可能存在的相關性。