李璐伊
【摘要】本文使用Stata14軟件,42 368個(gè)樣本容量,運(yùn)用線性回歸的方法對(duì)美國(guó)個(gè)人收入影響因素進(jìn)行了實(shí)證分析。文章分別分析了地區(qū)與教育,工作時(shí)間結(jié)合年齡和受教育情況,以及婚姻狀況對(duì)美國(guó)個(gè)人收入的影響。經(jīng)過(guò)計(jì)算分析,模型的結(jié)果能夠解釋以上所有因素對(duì)19.4%的個(gè)人收入的影響。除此之外,可能影響收入的因素還包括工種,種族,是否接受工作培訓(xùn)和健康狀況。
【關(guān)鍵詞】美國(guó)個(gè)人收入線性回歸影響因素Stata14
【中圖分類(lèi)號(hào)】F817
一、引言
在文章《美國(guó)各州間收入不均衡:進(jìn)一步證據(jù)》中,作者Ram指出美國(guó)個(gè)人的收入不均衡已成為當(dāng)代社會(huì)的熱點(diǎn),并且各州間高度的收入不均衡很有可能降低美國(guó)的經(jīng)濟(jì)年增長(zhǎng)率(Ramet al.,2015)。鑒于收入平等的重要性,筆者發(fā)現(xiàn)能夠影響個(gè)人收入的因素包括所處地區(qū),年齡,工作時(shí)間等。研究的目的是指出有可能縮小個(gè)人收入的差距的方法來(lái)實(shí)現(xiàn)收入均衡。
文章專(zhuān)注于分析2015年影響美國(guó)個(gè)人收入的因素。具體來(lái)說(shuō),筆者運(yùn)用多次回歸的方法,用地區(qū),工作時(shí)間和婚姻狀態(tài)作為解釋變量。人們所處的地區(qū)是否會(huì)對(duì)收入有影響?如果是,地區(qū)會(huì)如何影響收入?已婚人士是否更有可能掙得更多?這些問(wèn)題都會(huì)在文章中一一解答。
二、經(jīng)濟(jì)理論的應(yīng)用
本文中使用的經(jīng)濟(jì)學(xué)概念與研究方法包括:多次回歸,假設(shè)檢驗(yàn),(當(dāng)兩個(gè)回歸量出現(xiàn)時(shí))使用交互項(xiàng),以及使用工具變量(James Stock et al.,2015)。通過(guò)建立虛變量來(lái)給變量編號(hào),并且為了避免多重共線性,建立的虛變量的個(gè)數(shù)會(huì)比參加回歸的變量總個(gè)數(shù)少一個(gè)。
三、實(shí)證分析
(一)數(shù)據(jù)來(lái)源
本文中的數(shù)據(jù)來(lái)源于IPUMS CPS(美國(guó)當(dāng)代人口調(diào)查)(https://cps.ipums.org/cps/),該數(shù)據(jù)庫(kù)是一個(gè)整合了美國(guó)當(dāng)代人口調(diào)查信息的公用微觀數(shù)據(jù)庫(kù)。對(duì)于樣本容量的選擇,一開(kāi)始選擇了從2000~ 2015年的所有數(shù)據(jù)以觀察這15年來(lái)人們的收入變化。然而,這樣巨大的樣本數(shù)量不但增加結(jié)論的不確定性,而且會(huì)削弱線性回歸的準(zhǔn)確性。因此,根據(jù)樣本數(shù)據(jù)的完整性與多樣性,選擇了2015年的42 368個(gè)有效樣本容量來(lái)進(jìn)行分析。
(二)變量選擇
本文共選取了4個(gè)因素:所處地區(qū),性別,婚姻狀態(tài)與受教育程度。這些因素可能導(dǎo)致人們收入變化的相關(guān)因素。為了更好的管理數(shù)據(jù),建立需變量并相應(yīng)地歸類(lèi)了數(shù)據(jù)。例如,建立需變量“l(fā)onghr? swork”(較長(zhǎng)工作時(shí)間)并讓其等于0。根據(jù)該方法將那些每周工作超過(guò)40小時(shí)的人的需變量改成了1,而工作時(shí)間小于或等于40小時(shí)的則被標(biāo)為0。這種方法在其他變量的分類(lèi)中也被應(yīng)用了。下圖是對(duì)所有回歸量和收入的概述。
四、實(shí)證結(jié)論
(一)所處地區(qū)和教育水平對(duì)收入的影響
根據(jù)美國(guó)的地域,劃分為美國(guó)東北部,中西部,西部和南部。將東北部設(shè)為需變量,并標(biāo)注為1,其余地區(qū)的需變量標(biāo)注為0。研究美國(guó)東北部相對(duì)其余三個(gè)地區(qū)的收入情況。結(jié)果如表1所示。
教育在決定人們的收入水平中扮演著不可或缺的作用。通過(guò)觀察變量“教育”的t檢驗(yàn)值并且通過(guò)假設(shè)檢驗(yàn),可以總結(jié)出教育在決定收入水平方面的重要作用。
鑒于教育的重要性,獲得高等教育的機(jī)會(huì)是否與人們所處的地區(qū)(美國(guó)東北部,中西部,等等)有關(guān)。通過(guò)聯(lián)合假設(shè)檢驗(yàn)可以得到:獲得高等教育的機(jī)會(huì)與人們所處的地區(qū)高度正相關(guān)。因此,對(duì)在個(gè)人收入,教育水平,與交互項(xiàng)(教育*地區(qū))之間進(jìn)行了多次回歸:
預(yù)計(jì)收入=常數(shù)項(xiàng)+β1教育+β2東北部+β3交互項(xiàng)(教育×東北部)+其他因素
其中,交互項(xiàng)(教育×東北部)代表了在不同地區(qū),是否接受高等教育對(duì)于收入的影響。因此,預(yù)計(jì)收入不僅取決于教育,也取決于交互項(xiàng)。為了簡(jiǎn)化,現(xiàn)在只有東北部的需變量包括在內(nèi),所以研究的是在美國(guó)東北部的人們相比在美國(guó)其他地區(qū)的人們,其教育對(duì)收入的影響。結(jié)果顯示,個(gè)人收入的各因素系數(shù)為:教育水平(大學(xué))系數(shù)為40 425.47,東北部系數(shù)為2 836.433,教育×東北部系數(shù)為2 053.75,常數(shù)系數(shù)為32 476.58。
Stata顯示:
預(yù)計(jì)收入(東北部) =β0+β2+(β1+β3)教育=35 313.013+42 479.22教育
預(yù)計(jì)收入(全國(guó)其他地區(qū)) =β0+β1教育=32 476.58+40 425.47教育
如果將該結(jié)果用圖像表示,東北部的回歸線會(huì)有更高的截距與更大的斜率。這個(gè)結(jié)論意味著因?yàn)闁|北部的人們受教育的程度高而有更高的收入,因此身處東北部的人們意味著有更高的收入。
然而,只包含了“東北部”與“全國(guó)其他地區(qū)”的線性回歸會(huì)帶來(lái)片面的結(jié)論。這是因?yàn)樵摶貧w僅僅對(duì)比了身處東北部與全國(guó)其他地區(qū)在收入方面的表現(xiàn),而實(shí)際上,全國(guó)其他地區(qū)包含了南部,西部和中西部。因此,作為參照對(duì)象的“全國(guó)其他地區(qū)”本身就是多種多樣的。例如,如果在南部和中西部的人們掙得比東北部的人要少,而西部的人們掙得比東北部的人們要多,那么在“全國(guó)其他地區(qū)”里上上下下的變化會(huì)導(dǎo)致變量“東北部”前的系數(shù)不準(zhǔn)確,產(chǎn)生有傾向性的結(jié)果。解決這類(lèi)問(wèn)題最好的辦法是將參照對(duì)象“全國(guó)其他地區(qū)”拆解開(kāi),給每個(gè)地區(qū)(南部,西部,中西部)各設(shè)一個(gè)變量(這樣就擁有了同質(zhì)的參照量),并且為了避免多重共線性而省略一個(gè)地區(qū)變量。
為了擁有一個(gè)同質(zhì)的參照量,給每個(gè)地區(qū)都建了單獨(dú)的需變量。此外,仍然保留了“教育”這個(gè)需變量。采用前面的數(shù)據(jù)歸類(lèi)方法,獲得高等教育的人被編為1,而沒(méi)有獲得高等教育的人被編為0。
在新的回歸中,設(shè)置了四個(gè)地區(qū)變量“西部”、“南部”、“中西部”和“東北部”,參照量是“中西部”。為了避免多重共線性,省略了變量“中西部”來(lái)觀察身處非中西部地區(qū)時(shí)地區(qū)和教育程度對(duì)收入水平的影響。根據(jù)軟件Stata14建立的模型,結(jié)果顯示,個(gè)人收入各因素的系數(shù)為:教育水平(大學(xué))系數(shù)為40 811.28;東北部系數(shù)為5740.014;南部系數(shù)為2 636.747;西部系數(shù)為2640.162;常數(shù)系數(shù)為30 369.3。
預(yù)計(jì)收入=β0+β1教育+β2東北部+β3南部+β4西部+其他因素
預(yù)計(jì)收入=30 369+40 811教育+5740東北部+ 2 636南部+2 640西部+其他因素
因?yàn)樵谒械貐^(qū)變量前的系數(shù)(例:教育水平系數(shù)=40811.28)都為正,身處東北部,南部和西部都比中西部更有可能提高個(gè)人收入。為了驗(yàn)證在非中西部地區(qū)比中西部地區(qū)能夠顯著的提高收入,對(duì)數(shù)據(jù)進(jìn)行了顯著性測(cè)定,發(fā)現(xiàn)t檢驗(yàn)值落在了否性區(qū)域中(假設(shè)該分布為正態(tài)分布)。因此,可以總結(jié)出受過(guò)高等教育且身處非中西部地區(qū)的勞動(dòng)者能夠顯著地提高個(gè)人收入,而身處中西部的勞動(dòng)者的收入相比于非中西部的會(huì)更低。
(二)工作時(shí)間對(duì)收入的影響
除了所處地理位置可以影響個(gè)人收入外,工作時(shí)間也是影響收入水平的因素之一。而且,工作時(shí)間越長(zhǎng)對(duì)提高收入有更積極的作用。為了驗(yàn)證這個(gè)假設(shè),將工作時(shí)間與年齡和教育水平捆綁來(lái)分析工作時(shí)間對(duì)收入的影響。
首先,將工作時(shí)間與年齡捆綁并分析了他們對(duì)收入的影響。將那些每周工作超過(guò)40小時(shí)的人編號(hào)為1,而那些工作時(shí)間等于或少于40小時(shí)的人編號(hào)為0。同樣的,年齡高于30歲的勞動(dòng)力被編為1,而年齡等于或小于30歲的被編為0。并且建了交互項(xiàng)(年齡*工作時(shí)間)來(lái)顯示隨著年齡的變化,工作時(shí)間的長(zhǎng)短是怎樣影響收入的,結(jié)果顯示,個(gè)人收入因素的系數(shù)為:工作時(shí)間(>40小時(shí)/周)系數(shù)為21 516.1;年齡(>30)系數(shù)為22 996.31;年齡×工作時(shí)間系數(shù)為22 970.97;常數(shù)系數(shù)為25 063.91。
預(yù)計(jì)收入=β0+β1工作時(shí)間+β2年齡+β3交互項(xiàng)(年齡×工作時(shí)間)
年齡大于30且工作時(shí)間高于40小時(shí)/周:
預(yù)計(jì)收入=β0+β1工作時(shí)間+β2年齡+β3交互項(xiàng)(年齡×工作時(shí)間)=92 547.29
年齡大于30且工作時(shí)間低于等于40小時(shí)/周:預(yù)計(jì)收入=β0+β2年齡=48 060.22
結(jié)果顯示,在回歸方程中,保持年齡不變,工作時(shí)間每周高于40小時(shí)的人比工作時(shí)間低于40小時(shí)的人的工資高了將近兩倍。結(jié)果表明,工作時(shí)間長(zhǎng)對(duì)于提高人們的收入有著積極的影響。除此之外,聯(lián)合假設(shè)檢驗(yàn)中落在否定區(qū)域中的t檢驗(yàn)值意味著長(zhǎng)時(shí)間工作和收入水平的重要關(guān)系。
第二,除了年齡與工作時(shí)間對(duì)收入的影響,筆者結(jié)合了工作時(shí)間和教育水平分析了他們和收入之間的關(guān)系。建立交互項(xiàng)來(lái)顯示微分效應(yīng)。具體地說(shuō),保持教育程度不變,分析了工作時(shí)間如何影響個(gè)人收入。在分析中,學(xué)歷為本科及以上的人的編號(hào)為1,否則為0。結(jié)果顯示,個(gè)人收入各因素系數(shù)為:工作實(shí)際(>40小時(shí)/周)系數(shù)為21 600.89;教育水平(大學(xué))系數(shù)為31 723.52;大學(xué)×工作時(shí)間系數(shù)為23 698.74;常數(shù)系數(shù)為30 372.61。
預(yù)計(jì)收入=β0+β1工作時(shí)間+β2教育+β3交互項(xiàng)(教育×工作時(shí)間)
本科學(xué)歷及以上且工作時(shí)間高于40小時(shí)/周:預(yù)計(jì)收入=β0+β1工作時(shí)間+β2教育+β3交互項(xiàng)(教育×工作時(shí)間)=107 395.76
本科學(xué)歷及以上且工作時(shí)間等于小于40小時(shí)/周:預(yù)計(jì)收入=β0+β2教育=62 096.13
因此,盡管兩個(gè)回歸方程中的對(duì)象都有本科學(xué)歷(教育=1),更長(zhǎng)的工作時(shí)間意味著更高的收入。除此之外,工作時(shí)間長(zhǎng)的人有更高的收入不僅僅是因?yàn)樗麄児ぷ髁烁L(zhǎng)時(shí)間,還因?yàn)榻换ロ?xiàng)前的系數(shù)為正。
總而言之,工作時(shí)間高于每周40小時(shí)在統(tǒng)計(jì)上對(duì)于提高個(gè)人收入有顯著地正面影響。更重要的是,如果高學(xué)歷與長(zhǎng)時(shí)間工作相結(jié)合,個(gè)人收入會(huì)有更顯著的提升。
(三)婚姻狀態(tài)對(duì)收入的影響
婚姻不僅會(huì)影響人的情感狀態(tài),還會(huì)對(duì)收入與社會(huì)地位產(chǎn)生重要影響,這一點(diǎn)在男性身上尤其突出,因此將婚姻狀態(tài)列為影響個(gè)人收入的最重要的因素。將婚姻狀態(tài)變量作為內(nèi)衍變量,使用年齡作為工具,運(yùn)用了工具變量的方法。具體來(lái)說(shuō),年齡是一個(gè)很好的工具,出于以下兩個(gè)原因。第一,年齡和婚姻狀態(tài)密切相關(guān)(往往當(dāng)人們年齡增長(zhǎng)時(shí),婚姻狀態(tài)也隨之改變);第二,年齡與回歸方程中的其他因素不相關(guān)。因此,年齡是預(yù)測(cè)婚姻狀態(tài)的一個(gè)很好的工具。這種關(guān)系可以被寫(xiě)成:
預(yù)估婚姻狀態(tài)=π0+π1年齡+vi,vi是誤差項(xiàng)
通過(guò)預(yù)測(cè)婚姻狀態(tài),使用回歸方程來(lái)分析婚姻狀態(tài)對(duì)個(gè)人收入的影響。內(nèi)衍變量是通過(guò)婚姻狀態(tài)和年齡預(yù)測(cè)出來(lái)。此回歸方程同樣包括其他的外變量:性別,受教育程度,工作時(shí)間,所處地區(qū)。如果已婚,婚姻狀態(tài)被編為1,否則為0。結(jié)果顯示個(gè)人收入在美國(guó)各地區(qū)與婚姻狀況的相關(guān)影響系數(shù)為:婚姻系數(shù)為50 964.69;南部系數(shù)為-2 999.916;西部系數(shù)為:-3 247.854;性別(男性)15 588.76;教育水平(大學(xué))系數(shù)為27 059.81;工作時(shí)間(>40小時(shí)/周)系數(shù)為27 750.87;中西部系數(shù)為-7 922.997;常數(shù)系數(shù)為1 769.368。
預(yù)計(jì)收入=β0+β1婚姻狀態(tài)+β2性別+β3教育+β4工作時(shí)間+β5南部+β6西部+β7中西部
從回歸方程中可以得到,考慮到將婚姻狀態(tài)作為內(nèi)衍變量,已婚人士每年相對(duì)于未婚人士收入高$50695。假設(shè)該分布為正態(tài)分布,z檢測(cè)值是47.61并在3個(gè)標(biāo)準(zhǔn)偏差之外。該結(jié)果的置信度為99%,因此,得出已婚人士更有可能有更高的個(gè)人收入的結(jié)論。在運(yùn)行了回歸方程之后,為了檢驗(yàn)婚姻狀態(tài)變量是否真的為一個(gè)內(nèi)衍變量進(jìn)行了內(nèi)衍變量測(cè)試,并得到了以下結(jié)果:
假設(shè):婚姻狀態(tài)是外生的。檢驗(yàn)這一假設(shè)后得到的兩個(gè)檢驗(yàn)值(Durbin and Wu-Hausman)都有很小的p值,那么就有理由推翻虛假設(shè)并總結(jié)出婚姻狀態(tài)是個(gè)內(nèi)衍變量并和年齡密切相關(guān)。因此,統(tǒng)計(jì)分析顯示已婚人士更有可能有更高的個(gè)人收入。
五、總結(jié)與討論
本文使用Stata14軟件,對(duì)2015年美國(guó)個(gè)人收入的相關(guān)數(shù)據(jù),運(yùn)用線性回歸的方法重點(diǎn)分析了地區(qū),工作時(shí)間與婚姻狀態(tài)對(duì)個(gè)人收入的影響。得到結(jié)論為:身處美國(guó)東北部更有可能有更高的收入,而處于中西部的收入會(huì)偏低;工作時(shí)間越長(zhǎng)和已婚都能夠提高個(gè)人收入。雖然該模型分析結(jié)論比較可靠,但是也有一定的局限性。比如模型中解釋收入變化的因素,R-決定系數(shù)只有0.194(所有因素只能夠解釋19.4%的收入變化)。說(shuō)明還有許多其他能夠解釋收入變化的因素沒(méi)有被包括進(jìn)來(lái)。例如,人們的工種,種族,能否參加工作訓(xùn)練,健康狀況都可能解釋收入變化。如果能夠更深入的研究分析數(shù)據(jù),可以對(duì)影響收入變化的因素有更全面的分析。
主要參考文獻(xiàn):
[1]Ram, Rati. Real and Nominal Interstate Income inequality in the United States: Further Evidence[J].United States. International Advances in Economic Research .2015,21.1:131-132.
[2]James Stock,Mark Watson.Introduction to Econometrics[J].England.PearsonEducationLimited.2015:407-461.