李 宏,李建武,莫 榮,宋玉龍
(1.中國(guó)人民大學(xué)勞動(dòng)人事學(xué)院北京,100872;2.人力資源和社會(huì)保障部勞動(dòng)科學(xué)研究所,北京,100029;3.北京理工大學(xué)計(jì)算機(jī)學(xué)院智能信息技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100081)
失業(yè)問(wèn)題既是綜合性的經(jīng)濟(jì)問(wèn)題,又是復(fù)雜的社會(huì)問(wèn)題。西方發(fā)達(dá)國(guó)家和許多發(fā)展中國(guó)家,都把實(shí)現(xiàn)“充分就業(yè)”作為社會(huì)經(jīng)濟(jì)發(fā)展的重要目標(biāo)之一。
當(dāng)前,我國(guó)經(jīng)濟(jì)面臨十分復(fù)雜的國(guó)際經(jīng)濟(jì)環(huán)境,人民幣升值、原材料價(jià)格上漲、通脹輸入壓力增加等等,導(dǎo)致出口和經(jīng)濟(jì)增速下降、部分小企業(yè)倒閉,其可能帶來(lái)的失業(yè)問(wèn)題值得關(guān)注,政府對(duì)此問(wèn)題也高度重視。如何對(duì)失業(yè)狀況進(jìn)行科學(xué)預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果適時(shí)發(fā)出警報(bào),并制定有針對(duì)性的預(yù)案,對(duì)之進(jìn)行及時(shí)有效的調(diào)控,是我國(guó)在經(jīng)濟(jì)轉(zhuǎn)軌時(shí)期必須認(rèn)真對(duì)待解決的客觀現(xiàn)實(shí)問(wèn)題。
在我國(guó),黨的十六屆三中全會(huì)第一次提出,要建立和健全各種預(yù)警和應(yīng)急制度,提高政府應(yīng)對(duì)突發(fā)事件和風(fēng)險(xiǎn)的能力。2008年1月1日開(kāi)始施行的《中華人民共和國(guó)就業(yè)促進(jìn)法》第四十二條明確規(guī)定:“縣級(jí)以上人民政府建立失業(yè)預(yù)警制度,對(duì)可能出現(xiàn)的較大規(guī)模的失業(yè),實(shí)施預(yù)防、調(diào)節(jié)和控制”。第四十三條規(guī)定:“國(guó)家建立勞動(dòng)力調(diào)查統(tǒng)計(jì)制度和就業(yè)登記、失業(yè)登記制度,開(kāi)展勞動(dòng)力資源和就業(yè)、失業(yè)狀況調(diào)查統(tǒng)計(jì),并公布調(diào)查統(tǒng)計(jì)結(jié)果”。
建立一整套失業(yè)監(jiān)測(cè)、預(yù)警和預(yù)案的體系,對(duì)于促進(jìn)社會(huì)穩(wěn)定與和諧發(fā)展,具有重大現(xiàn)實(shí)意義。建立失業(yè)監(jiān)測(cè)預(yù)警系統(tǒng),完善失業(yè)統(tǒng)計(jì)和預(yù)警制度,掌握勞動(dòng)力資源和勞動(dòng)力市場(chǎng)供求狀況,對(duì)各級(jí)政府制定就業(yè)政策,兼顧效益與安定,控制失業(yè)規(guī)模,保持社會(huì)穩(wěn)定具有重要意義。
國(guó)外失業(yè)預(yù)警模型主要建立在宏觀經(jīng)濟(jì)預(yù)警系統(tǒng)的基礎(chǔ)之上。在20世紀(jì)60年代前,西方國(guó)家對(duì)經(jīng)濟(jì)預(yù)警系統(tǒng)的研究停留在經(jīng)濟(jì)循環(huán)和經(jīng)濟(jì)晴雨表(Economic Barometer)等預(yù)測(cè)研究的層面上[1]。1950年 Moore的擴(kuò)散指數(shù)和 1960年Shiskin的綜合指數(shù)成為美國(guó)構(gòu)造預(yù)警系統(tǒng)的兩大基本方法[1-3]。采用時(shí)間序列分析建模是該領(lǐng)域中的一類重要方法,已經(jīng)取得了豐富的成果,如Jeffrey等人采用的移動(dòng)平均模型[4]、Enriquede 采用的自回歸模型[5]、Hansen采用的門(mén)限自回歸模型[6]、Van Dijk等人采用的基于分?jǐn)?shù)協(xié)整與平滑轉(zhuǎn)換自回歸相結(jié)合的模型[7]以及Harvey的時(shí)間序列自回歸移動(dòng)平均模型結(jié)合Kalman濾波及季節(jié)性調(diào)整的技術(shù)[8]。Engle于1982年提出了ARCH(AutoRegressive Conditional Heteroskedasticity)類模型[9],大大改進(jìn)了預(yù)警風(fēng)險(xiǎn)的評(píng)估方法。進(jìn)一步,Bollerslev于1986提出了 GARCH模型(Generalized ARCH)[10]。Kaminsky,Lizondo 與 Reinhart于1997年創(chuàng)建了KLR信號(hào)分析法[11],其基本思想是選擇一系列指標(biāo)并根據(jù)其歷史數(shù)據(jù)確定其臨界值,當(dāng)某個(gè)指標(biāo)的臨界值在某個(gè)時(shí)期被突破,就意味著該指標(biāo)發(fā)出了一個(gè)危機(jī)信號(hào)。
1988年,本文作者所在的勞動(dòng)科學(xué)研究所失業(yè)預(yù)警課題組首次倡導(dǎo)“勞動(dòng)部門(mén)應(yīng)建立包括失業(yè)預(yù)警系統(tǒng)在內(nèi)的六大勞動(dòng)預(yù)警系統(tǒng)”[12]。經(jīng)過(guò)多年的潛心研究,該課題組于2001年完成“我國(guó)失業(yè)預(yù)警與就業(yè)對(duì)策研究報(bào)告”,該工作以失業(yè)率或失業(yè)人數(shù)作為自變量,使用了數(shù)學(xué)建模方法和數(shù)據(jù)庫(kù)技術(shù)[13]。劉偉等人對(duì)深圳市失業(yè)預(yù)警監(jiān)測(cè)系統(tǒng)進(jìn)行了研究[14]。首都經(jīng)貿(mào)大學(xué)的紀(jì)韶教授經(jīng)過(guò)多年的研究,出版了專著《中國(guó)失業(yè)預(yù)警—理論視角、研究模型》[1]。秦開(kāi)運(yùn)對(duì)構(gòu)建失業(yè)預(yù)警系統(tǒng)需要的指標(biāo)進(jìn)行了分析[15],而丁立宏等人對(duì)完善我國(guó)失業(yè)統(tǒng)計(jì)指標(biāo)體系給出了若干建議[16]。劉紅霞從勞動(dòng)力市場(chǎng)、勞動(dòng)力構(gòu)成、經(jīng)濟(jì)發(fā)展三維度出發(fā),設(shè)計(jì)了失業(yè)預(yù)警指標(biāo)體系[17]。陳仲常等人采用BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)對(duì)我國(guó)失業(yè)預(yù)警系統(tǒng)進(jìn)行了建模[18]。李永捷通過(guò)建立徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型,對(duì)成都市的失業(yè)狀況進(jìn)行了分析與建模[19]。張興會(huì)等人則分別采用遞階對(duì)角神經(jīng)網(wǎng)絡(luò)[20]與對(duì)角 Elman神經(jīng)網(wǎng)絡(luò)模型[21]對(duì)失業(yè)預(yù)測(cè)系統(tǒng)進(jìn)行了建模。向小東等人采用機(jī)器學(xué)習(xí)與模式識(shí)別領(lǐng)域中的核技巧,對(duì)失業(yè)預(yù)警系統(tǒng)進(jìn)行了非線性建模分析,使用支持向量機(jī)建立了回歸預(yù)測(cè)模型[22]。趙建國(guó)等人基于擴(kuò)散指數(shù)法與逐步回歸技術(shù)改進(jìn)了失業(yè)預(yù)警模型,進(jìn)行了實(shí)證分析[2-3];并對(duì)我國(guó)現(xiàn)行失業(yè)警戒線確定方法進(jìn)行了探討,構(gòu)建了基于綜合指數(shù)的失業(yè)預(yù)警模型[23]。黃波等人基于排序logit模型對(duì)城鎮(zhèn)就業(yè)進(jìn)行了風(fēng)險(xiǎn)分析及預(yù)測(cè)[24]。
由上可見(jiàn),當(dāng)前國(guó)內(nèi)外學(xué)術(shù)界已經(jīng)采用了多種定量分析方法對(duì)失業(yè)預(yù)警系統(tǒng)進(jìn)行建模,可歸納為兩大類方法:一大類方法是采用基于時(shí)間序列分析的計(jì)量經(jīng)濟(jì)模型,如自回歸滑動(dòng)平均模型、ARCH模型等等;另一大類則是采用回歸分析的技術(shù),如線性回歸、各種神經(jīng)網(wǎng)絡(luò)模型等等。同時(shí),這些技術(shù)在我國(guó)不同的城市或地區(qū)得到了初步的嘗試。
盡管我國(guó)在失業(yè)預(yù)警系統(tǒng)研究方面已取得了初步的成就,但仍然存在很大的不足。具體表現(xiàn)為:當(dāng)前可獲得的與失業(yè)預(yù)警相關(guān)的樣本數(shù)據(jù)非常有限,是典型的小樣本建模問(wèn)題;涉及到的社會(huì)經(jīng)濟(jì)指標(biāo)眾多,需要面臨高維數(shù)據(jù)建模的難題;該系統(tǒng)也包含了復(fù)雜的非線性數(shù)學(xué)模型,通常的線性建模技術(shù)并不適用;由于社會(huì)經(jīng)濟(jì)調(diào)查數(shù)據(jù)中會(huì)存在多種噪音,還可能存在部分調(diào)查數(shù)據(jù)的缺失,進(jìn)一步加大了失業(yè)預(yù)警建模的難度。
眾多的社會(huì)經(jīng)濟(jì)指標(biāo)使得失業(yè)率的概率分布復(fù)雜,很難成為平穩(wěn)分布,再加上調(diào)查中存在的誤差及各種噪音數(shù)據(jù)的存在,使得傳統(tǒng)的各種時(shí)間序列分析模型(如ARCH模型、GARCH模型等)的使用受到了極大的限制。
另外,不同的研究人員分別采用了不同的失業(yè)預(yù)警建模方法,目前仍然沒(méi)有對(duì)各種方法進(jìn)行過(guò)系統(tǒng)的比較,很難判斷出各種方法的性能優(yōu)劣,這給失業(yè)預(yù)警用戶對(duì)不同模型的選擇帶來(lái)了困惑。
在失業(yè)預(yù)警系統(tǒng)建模中,數(shù)據(jù)的預(yù)處理非常重要。本文首先討論了常用的缺失數(shù)據(jù)處理機(jī)制、數(shù)據(jù)歸一化方法以及高維數(shù)據(jù)降維與數(shù)據(jù)去噪聲技術(shù)。
鑒于回歸技術(shù)是失業(yè)預(yù)警建模的重要途徑,本文采用五種回歸技術(shù)對(duì)失業(yè)預(yù)警系統(tǒng)進(jìn)行建模,包括:最小二乘回歸、Logistic回歸、嶺回歸、BP神經(jīng)網(wǎng)絡(luò)以及支持向量回歸。
基于廣東省與失業(yè)相關(guān)的社會(huì)經(jīng)濟(jì)調(diào)查數(shù)據(jù)(2000—2010年),對(duì)上述5種回歸方法進(jìn)行了實(shí)證分析,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)各種方法的性能進(jìn)行了比較與評(píng)價(jià),旨在為相關(guān)部門(mén)對(duì)失業(yè)預(yù)警模型的選擇提供參考。
本文作者中的莫榮、李宏于2001年完成了國(guó)家科委軟科學(xué)研究項(xiàng)目“我國(guó)失業(yè)預(yù)警系統(tǒng)與對(duì)策研究”(K97-10-50),對(duì)失業(yè)預(yù)警所需指標(biāo)體系進(jìn)行了系統(tǒng)的分析。本文直接采用其中的指標(biāo)體系,具體選擇如下的25個(gè)宏觀經(jīng)濟(jì)指標(biāo)作為調(diào)查變量:
失業(yè)指標(biāo)1個(gè):城鎮(zhèn)登記失業(yè)率;
國(guó)民經(jīng)濟(jì)發(fā)展指標(biāo)5個(gè):國(guó)內(nèi)生產(chǎn)總值(GDP)、第一產(chǎn)業(yè)生產(chǎn)總值、第二產(chǎn)業(yè)生產(chǎn)總值、第三產(chǎn)業(yè)生產(chǎn)總值、工業(yè)增加值;
勞動(dòng)力資源指標(biāo)2個(gè):勞動(dòng)年齡人口、普通高等學(xué)校學(xué)生數(shù);
投資指標(biāo)1個(gè):基本建設(shè)投資總額;
能源和材料指標(biāo)4個(gè):能源生產(chǎn)總量、發(fā)電量、鋼產(chǎn)量、水泥產(chǎn)量;
貿(mào)易指標(biāo)4個(gè):商品銷售現(xiàn)金收入、海關(guān)統(tǒng)計(jì)進(jìn)出口總額、進(jìn)口總額、出口總額;
財(cái)政貨幣指標(biāo)4個(gè):金融機(jī)構(gòu)企業(yè)存款、市場(chǎng)貨幣流通量、貨幣供給M1、貨幣供給M2;
生活和價(jià)格指標(biāo)4個(gè):銀行工資性現(xiàn)金支出、居民人均收入、居民消費(fèi)價(jià)格總指數(shù)、商品銷售價(jià)格指數(shù)。
數(shù)據(jù)缺失是一種在失業(yè)預(yù)警系統(tǒng)數(shù)據(jù)采集過(guò)程中常見(jiàn)的問(wèn)題,缺失數(shù)據(jù)是指由于各種原因本應(yīng)該得到而實(shí)際上沒(méi)有得到的數(shù)據(jù)。
處理缺失數(shù)據(jù)的方法[25-26]可分為3類:加權(quán)方法、填補(bǔ)方法和參數(shù)似然方法。
加權(quán)方法的本質(zhì)是將賦予缺失數(shù)據(jù)的權(quán)數(shù)分擔(dān)到非缺失數(shù)據(jù)身上。
填補(bǔ)方法的核心問(wèn)題是為缺失數(shù)據(jù)尋找一個(gè)最佳的“替代值”。填補(bǔ)方法包括傳統(tǒng)的數(shù)據(jù)填補(bǔ)方法和多重填補(bǔ)方法。傳統(tǒng)數(shù)據(jù)填補(bǔ)方法包括刪除法、回歸填補(bǔ)法、均值填補(bǔ)法等;常用的多重填補(bǔ)方法包括回歸填補(bǔ)法、預(yù)測(cè)均值匹配法、Logistic回歸填補(bǔ)法等。
參數(shù)似然方法與加權(quán)方法和填補(bǔ)方法相比,其處理缺失數(shù)據(jù)往往能產(chǎn)生更好的估計(jì)量,但需要知道數(shù)據(jù)分布的具體參數(shù)模型。
在失業(yè)預(yù)警系統(tǒng)建模過(guò)程中,所涉及到的各個(gè)社會(huì)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)的量綱往往會(huì)存在很大的差異。例如,失業(yè)率的統(tǒng)計(jì)數(shù)值介于0與1之間,而建設(shè)投資總額的量度可以達(dá)到千萬(wàn),城鎮(zhèn)人均收入則以千為單位。如果直接采用各個(gè)社會(huì)經(jīng)濟(jì)指標(biāo)的原始數(shù)值去建模,各個(gè)指標(biāo)量綱之間的巨大差異會(huì)直接影響所建模型的性能。因此,在建模之前,必須對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
數(shù)據(jù)的歸一化是通過(guò)函數(shù)變換將數(shù)值映射到某個(gè)數(shù)值區(qū)間,通常把數(shù)據(jù)歸一化到區(qū)間[-1,1]或[0,1]中。常用的歸一化方法[27-28]包括:min -max歸一化方法、零均值歸一化方法、Decimal Scaling歸一化方法、對(duì)數(shù)函數(shù)轉(zhuǎn)換、反正切函數(shù)轉(zhuǎn)換。
在失業(yè)預(yù)警系統(tǒng)建模中,當(dāng)前可以獲得的數(shù)據(jù)非常有限。從我國(guó)各省統(tǒng)計(jì)信息網(wǎng)上公開(kāi)的社會(huì)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)來(lái)看,很多數(shù)據(jù)是直接從2000年開(kāi)始公布的。就以本文對(duì)廣東省進(jìn)行失業(yè)預(yù)警系統(tǒng)建模為例,該省是我國(guó)一個(gè)經(jīng)濟(jì)與人口大省,該省統(tǒng)計(jì)信息網(wǎng)上也僅僅公開(kāi)發(fā)布了從2000年到目前的大部分社會(huì)經(jīng)濟(jì)指標(biāo)數(shù)據(jù),如果我們以季度為時(shí)間周期進(jìn)行建模,所獲得的社會(huì)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)也只有40多組。另外,與失業(yè)預(yù)警系統(tǒng)建模相關(guān)的社會(huì)經(jīng)濟(jì)指標(biāo)眾多,選出20多個(gè)與失業(yè)相關(guān)性強(qiáng)的社會(huì)經(jīng)濟(jì)指標(biāo)。根據(jù)回歸的理論分析,為保證所建預(yù)測(cè)模型的有效性,建模數(shù)據(jù)的指標(biāo)越多,所需要的建模數(shù)據(jù)也就應(yīng)該越多。
此外,社會(huì)經(jīng)濟(jì)調(diào)查數(shù)據(jù)受客觀環(huán)境的限制,存在一定的不精確性或誤差,我們把此稱為數(shù)據(jù)噪聲。數(shù)據(jù)中存在的噪聲一定程度上會(huì)影響所建失業(yè)預(yù)警模型的性能。
為此,可以采用主成分分析[29]或獨(dú)立成分分析[30]來(lái)對(duì)所獲得的調(diào)查統(tǒng)計(jì)數(shù)據(jù)進(jìn)行處理。這樣做的原因有兩點(diǎn):第一、失業(yè)預(yù)警系統(tǒng)建模中所涉及的各項(xiàng)社會(huì)經(jīng)濟(jì)指標(biāo)之間存在一定的相關(guān)性,通過(guò)主成分分析或獨(dú)立成分分析可以提取這些相關(guān)數(shù)據(jù)中的主要成分或獨(dú)立成分,從而達(dá)到降維的目的;第二、社會(huì)經(jīng)濟(jì)調(diào)查統(tǒng)計(jì)數(shù)據(jù)中往往存在數(shù)據(jù)缺失與各種調(diào)查誤差,通過(guò)提取主成分或獨(dú)立成分,去掉的部分可以認(rèn)為是調(diào)查數(shù)據(jù)中存在的各種噪聲。
回歸分析是數(shù)理統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)研究中的重要內(nèi)容,近些年來(lái),相關(guān)研究成果層出不窮。本文著重探討最小二乘回歸、Logistic回歸、嶺回歸、BP神經(jīng)網(wǎng)絡(luò)以及支持向量回歸等模型。
最小二乘回歸[31]是一種線性回歸模型,線性回歸是使用線性函數(shù)從現(xiàn)有的數(shù)據(jù)中估計(jì)出模型中所包含的未知參數(shù)的過(guò)程,基于所建立的回歸模型可以對(duì)未來(lái)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
給定訓(xùn)練樣本集{xi,yi},xi∈Rd,i=1,2,…,n,xi=(xi1,xi2,…,xid)T,yi∈R,尋找一個(gè)線性函數(shù)(常數(shù)項(xiàng)作為w的一個(gè)維度出現(xiàn),不再顯式給出,以下均如此)
使損失函數(shù)L(f(x),y)達(dá)到最小值,即尋找一個(gè)最優(yōu)的向量w使損失函數(shù)最小。這里取損失函數(shù)為對(duì)訓(xùn)練樣本預(yù)測(cè)的誤差平方和,即
對(duì)w求偏導(dǎo)并令其為零,最終可得線性回歸方程為:
其中,X為n×d矩陣,它的每一行由列向量xi的轉(zhuǎn)置構(gòu)成,i=1,2,…,n,w 為 d維列向量,y為 n 維列向量,y=(y1,y2,…,yn)T,x為測(cè)試樣本。若XTX不可逆,可以計(jì)算XTX的偽逆。
Logistic回歸[28]以兩類別標(biāo)志0與1作為回歸目標(biāo),其中一個(gè)重要概念就是優(yōu)勢(shì)比(Odds Ratio),假設(shè)Logistic回歸中的一個(gè)類別輸出的概率為P,則另一個(gè)類別輸出的概率為1-P,則優(yōu)勢(shì)比可以定義為:
用輸出1與0分別表示兩個(gè)類別,假設(shè)輸出y=1的概率為P,則y=0的概率為1-P,自變量為x,則建立Logistic回歸模型為:
其中,w是接下來(lái)要估計(jì)的未知參數(shù)。假設(shè)所有訓(xùn)練樣本的個(gè)數(shù)為n,yi是第i個(gè)訓(xùn)練樣本,i=1,2,…,n,服從伯努利分布。用最大似然估計(jì)法估計(jì)其中的參數(shù)w。似然函數(shù)為:
對(duì)似然函數(shù)取對(duì)數(shù),并對(duì)w求偏導(dǎo)令其為零,可解出待估參數(shù)。
嶺回歸(Ridge Regression)[32]是對(duì)基本的最小二乘回歸的一種改進(jìn),最小二乘回歸使用的是傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,而嶺回歸技術(shù)采用的是正則化的思想。
對(duì)于公式(1)中給出的待求解的線性回歸方程,嶺回歸的目的就是尋找最優(yōu)的w使得下面的目標(biāo)函數(shù)最小,即
其中,λ為正則項(xiàng)參數(shù),控制著正則化程度,起到平衡兩項(xiàng)的作用。相對(duì)應(yīng)的Lagrange函數(shù)為:
其中,ai為L(zhǎng)agrange乘子。分別對(duì)w和ξi求偏導(dǎo)并令等式為零,可以獲得最終的解。
1986年,David E.Rumelhart等學(xué)者提出多層感知器的反向傳播(Backpropogation,簡(jiǎn)稱BP)算法,這種學(xué)習(xí)算法使得多層感知器可以逼近任意復(fù)雜的非線性函數(shù)。BP學(xué)習(xí)算法要求激活函數(shù)是可微的。BP神經(jīng)網(wǎng)絡(luò)是一種采用BP學(xué)習(xí)算法的前饋神經(jīng)網(wǎng)絡(luò),拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
BP算法采用梯度下降方法試圖最小化網(wǎng)絡(luò)輸出值和期望輸出值之間的誤差平方,詳細(xì)計(jì)算過(guò)程參見(jiàn)文獻(xiàn)[28]。
支持向量回歸(Support Vector Regression,簡(jiǎn)稱SVR)[33]方法是由Vapnik等人在1996年提出。
假設(shè)給定訓(xùn)練樣本集合{xi,yi},xi∈Rd,i=1,2,…,n,xi=(xi1,xi2,…,xid)T,yi∈R。尋找最優(yōu)的w,使回歸函數(shù)
對(duì)所有的訓(xùn)練樣本,在ε不敏感損失準(zhǔn)則下訓(xùn)練誤差最小。用約束最優(yōu)化模型描述該問(wèn)題為:
利用上式對(duì)應(yīng)的對(duì)偶最優(yōu)化問(wèn)題以及KKT條件最終可求得回歸方程為:
其中,x為新輸入的測(cè)試樣本,
xj為任意一個(gè)支持向量。
如果在原空間中的數(shù)據(jù)不滿足線性關(guān)系,可以使用核技巧,將原空間中的樣本映射到一個(gè)高維特征空間中,即定義一個(gè)核函數(shù)K(x,y),用核函數(shù)代替兩個(gè)原始向量在特征空間中像的內(nèi)積,此時(shí),式(11)變?yōu)?
其中,
廣東省作為外來(lái)勞動(dòng)力輸入的大省,吸納了幾千萬(wàn)外來(lái)勞動(dòng)力就業(yè)。但該省經(jīng)濟(jì)以外向經(jīng)濟(jì)為主,不僅受國(guó)際經(jīng)濟(jì)發(fā)展的影響很大,而且受到部分國(guó)家貿(mào)易保護(hù)和貿(mào)易壁壘的影響也很大,因此,在局部行業(yè)、產(chǎn)業(yè)和地區(qū)將存在造成大規(guī)模失業(yè)的可能性。因此,在該省建立一整套失業(yè)監(jiān)測(cè)與預(yù)警體系,具有重大的現(xiàn)實(shí)意義。
1.失業(yè)基準(zhǔn)指標(biāo)
預(yù)測(cè)失業(yè)的變化,失業(yè)基準(zhǔn)指標(biāo)的選擇是非常重要的環(huán)節(jié),在這里直接采用城鎮(zhèn)登記失業(yè)率作為基準(zhǔn)指標(biāo)。
2.數(shù)據(jù)來(lái)源和預(yù)處理
城鎮(zhèn)登記失業(yè)率數(shù)據(jù)來(lái)自于廣東省人力資源和社會(huì)保障廳失業(yè)保障處。我們從該省統(tǒng)計(jì)信息網(wǎng)得到2000年第1季度到2010年第3季度的17個(gè)經(jīng)濟(jì)指標(biāo)的季度或月度數(shù)據(jù)(前面部分提到了除失業(yè)率外的24個(gè)社會(huì)經(jīng)濟(jì)指標(biāo)數(shù)據(jù),但剩余的7個(gè)指標(biāo)數(shù)據(jù)難以獲得),分別為:生產(chǎn)總值(GDP)、第一產(chǎn)業(yè)生產(chǎn)總值、第二產(chǎn)業(yè)生產(chǎn)總值、第三產(chǎn)業(yè)生產(chǎn)總值、工業(yè)增加值、單位從業(yè)人員、建設(shè)投資總額、能源生產(chǎn)總量、發(fā)電量、鋼產(chǎn)量、水泥產(chǎn)量、進(jìn)出口總額、進(jìn)口總額、出口總額、城鎮(zhèn)單位職工平均工資、居民消費(fèi)價(jià)格總指數(shù)和商品零售價(jià)格指數(shù)。其中居民消費(fèi)價(jià)格總指數(shù)和商品零售價(jià)格指數(shù)指標(biāo)體系要求提供季度資料,但只查閱到月度資料,對(duì)于這兩個(gè)指標(biāo),我們對(duì)其每個(gè)季度三個(gè)月的數(shù)據(jù)求均值得到季度數(shù)據(jù)。此外居民消費(fèi)價(jià)格總指數(shù)2006年至2008年的數(shù)據(jù)以及商品零售價(jià)格指數(shù)2003年至2008年的數(shù)據(jù)來(lái)源于國(guó)家統(tǒng)計(jì)數(shù)據(jù)庫(kù)。其余的月度數(shù)據(jù),我們直接求該季度所包含的月度數(shù)據(jù)的和得到季度數(shù)據(jù)。用每個(gè)季度的經(jīng)濟(jì)指標(biāo)加上城鎮(zhèn)登記失業(yè)率作為行向量,這樣可以構(gòu)成43×18的矩陣。
由于統(tǒng)計(jì)數(shù)據(jù)存在缺失,在此統(tǒng)一采用均值填補(bǔ)法進(jìn)行填補(bǔ)。
處理完缺失數(shù)據(jù)后,由于各個(gè)經(jīng)濟(jì)指標(biāo)的單位不統(tǒng)一,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。在此采用零均值歸一化方法,即采用下面公式:
其中,x、y分別為轉(zhuǎn)換前和轉(zhuǎn)換后的值,ā是屬性A原始值的均值,σA是屬性A原始值的標(biāo)準(zhǔn)差。
由于采集到的數(shù)據(jù)較少,而每組數(shù)據(jù)的指標(biāo)眾多,同時(shí)考慮到社會(huì)經(jīng)濟(jì)數(shù)據(jù)調(diào)查中存在一定的噪聲以及缺失數(shù)據(jù),因此接下來(lái)對(duì)數(shù)據(jù)進(jìn)行主成分分析,對(duì)數(shù)據(jù)進(jìn)行降維與去噪聲。首先我們?nèi)サ舫擎?zhèn)登記失業(yè)率數(shù)據(jù),將數(shù)據(jù)變成43×17的矩陣。我們?nèi)?000年第1季度的數(shù)據(jù)到2008年第3季度的數(shù)據(jù)作為訓(xùn)練樣本集,取2008年第4季度的數(shù)據(jù)到2010年第3季度的數(shù)據(jù)作為測(cè)試樣本。然后對(duì)訓(xùn)練樣本進(jìn)行主成分分析,設(shè)置貢獻(xiàn)率閾值為95%,即至少保持原始數(shù)據(jù)的95%的信息。經(jīng)過(guò)處理后,將原來(lái)的17維數(shù)據(jù)降到4維,原始數(shù)據(jù)的協(xié)方差矩陣最大的4個(gè)特征值為
最后對(duì)訓(xùn)練樣本和測(cè)試樣本進(jìn)行降維,將它們投影到由這4個(gè)特征向量張成的子空間中,這樣就得到了降維后的數(shù)據(jù)。
1.構(gòu)造訓(xùn)練樣本集和測(cè)試樣本集
數(shù)據(jù)經(jīng)過(guò)預(yù)處理之后,用本季度的經(jīng)濟(jì)指標(biāo)加上當(dāng)前季度之前三個(gè)季度的失業(yè)率和本季度失業(yè)率來(lái)對(duì)下一個(gè)季度的失業(yè)率進(jìn)行預(yù)測(cè),故樣本集可表示為
<Xi,Yi> = < 本季度的經(jīng)濟(jì)指標(biāo) +前三個(gè)季度的失業(yè)率 +本季度的失業(yè)率,下一季度的失業(yè)率>
取2000年第1季度到2008年第4季度的數(shù)據(jù)作為訓(xùn)練樣本集,取2009年第1季度到2010年第3季度的數(shù)據(jù)作為測(cè)試樣本集,根據(jù)所計(jì)算的預(yù)測(cè)結(jié)果與實(shí)際調(diào)查數(shù)據(jù)來(lái)統(tǒng)計(jì)預(yù)測(cè)精度。
2.最小二乘回歸實(shí)驗(yàn)結(jié)果
失業(yè)率的最小二乘回歸模型如下
其中,ai為所求系數(shù),i=0,2,…,8;U1代表失業(yè)率;Xi代表影響失業(yè)的各種經(jīng)濟(jì)因素(此處為經(jīng)過(guò)主成分提取后得到的降維數(shù)據(jù)),i=1,2,3,4,Xj為當(dāng)前季度之前三個(gè)季度的失業(yè)率,j=5,6,7,X8代表當(dāng)前季度的失業(yè)率。
根據(jù)最小二乘回歸算法,得到失業(yè)率模型的參數(shù),列在表1中。
圖2展示了2009年第1季度到2010年第3季度失業(yè)率的預(yù)測(cè)值與真實(shí)值的比較,其中橫坐標(biāo)軸給出的是從2009年第1季度到2010年第3季度的時(shí)間跨度,分別對(duì)應(yīng)了數(shù)值1~7,以下各圖坐標(biāo)軸的含義相同,不再重復(fù)說(shuō)明。
3.Logistic回歸模型實(shí)驗(yàn)結(jié)果
失業(yè)率的Logistic回歸模型如下:
其中,U1為失業(yè)率,
W=(w1,w2,w3,w4,w5,w6,w7,w8),為待估參數(shù),
X=(X1,X2,X3,X4,X5,X6,X7,X8),Xi代表影響失業(yè)的各種經(jīng)濟(jì)因素(此處為經(jīng)過(guò)主成分提取后得到的降維數(shù)據(jù)),i=1,2,3,4,Xj為前三個(gè)季度的失業(yè)率,j=5,6,7,X8代表當(dāng)前季度的失業(yè)率。
經(jīng)過(guò)計(jì)算,得到失業(yè)率模型的待估參數(shù)值,見(jiàn)表2。
表1 基于最小二乘回歸的失業(yè)率模型參數(shù)值
圖2 基于最小二乘回歸的失業(yè)率模型真實(shí)值與預(yù)測(cè)值比較
表2 基于Logistic回歸的失業(yè)率模型的參數(shù)值
圖3 基于Logistic回歸的失業(yè)率預(yù)測(cè)值和真實(shí)值的比較
表3 基于嶺回歸的失業(yè)率模型的參數(shù)值
圖4 基于嶺回歸的失業(yè)率模型的真實(shí)值與預(yù)測(cè)值比較
圖3為2009年第1季度到2010年第3季度失業(yè)率的預(yù)測(cè)值與真實(shí)值的比較。
4.嶺回歸模型實(shí)驗(yàn)結(jié)果
失業(yè)率的嶺回歸模型如下:
其中,U1為失業(yè)率,
W=(w0,w1,w2,w3,w4,w5,w6,w7,w8),為待估參數(shù),
X=(1,X1,X2,X3,X4,X5,X6,X7,X8),Xi代表影響失業(yè)的各種經(jīng)濟(jì)因素(此處為經(jīng)過(guò)主成分提取后得到的降維數(shù)據(jù)),i=1,2,3,4,Xj為前三個(gè)季度的失業(yè)率,j=5,6,7,X8代表當(dāng)前季度的失業(yè)率。
根據(jù)嶺回歸算法,得到待估系數(shù)值,見(jiàn)表3。
圖4為2009年第1季度到2010年第3季度失業(yè)率的預(yù)測(cè)值與真實(shí)值的比較。
5.BP神經(jīng)網(wǎng)絡(luò)回歸模型實(shí)驗(yàn)結(jié)果
根據(jù)BP神經(jīng)網(wǎng)絡(luò),得到2009年第1季度到2010年第3季度失業(yè)率的預(yù)測(cè)值與真實(shí)值的比較,見(jiàn)圖5。
6.支持向量回歸模型實(shí)驗(yàn)結(jié)果
支持向量回歸模型采用2階多項(xiàng)式核函數(shù)。
根據(jù)支持向量回歸算法,我們得到2009年第1季度到2010年第3季度失業(yè)率的預(yù)測(cè)值與真實(shí)值的比較,見(jiàn)圖6。
圖5 基于BP神經(jīng)網(wǎng)絡(luò)模型的失業(yè)率真實(shí)值與預(yù)測(cè)值比較
圖6 基于支持向量回歸的失業(yè)率真實(shí)值與預(yù)測(cè)值比較
我們對(duì)上述失業(yè)率回歸模型的均方誤差和相對(duì)誤差進(jìn)行比較,列在表4中。
表4 失業(yè)率回歸模型的均方誤差和相對(duì)誤差比較
根據(jù)均方誤差、相對(duì)誤差以及前面各個(gè)圖形可知:Logistic回歸模型對(duì)失業(yè)率的預(yù)測(cè)效果最差,支持向量回歸模型對(duì)失業(yè)率的預(yù)測(cè)效果最好,最小二乘回歸、嶺回歸和BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果介于Logistic回歸與支持向量回歸之間。
由于BP神經(jīng)網(wǎng)絡(luò)的性能受隨機(jī)初始值的影響較大,導(dǎo)致結(jié)果不穩(wěn)定且可能陷入局部極小點(diǎn)。由于支持向量回歸只采用了二階多項(xiàng)式核函數(shù),就能夠得到相比于其他回歸方法較好的效果,如果采用精細(xì)設(shè)計(jì)的核函數(shù)(如多核設(shè)計(jì)),支持向量回歸有望得到更好的失業(yè)率預(yù)測(cè)效果。
另外,我們也基于獨(dú)立成分分析對(duì)原始數(shù)據(jù)提取獨(dú)立成分,并對(duì)多種回歸分析模型進(jìn)行了相應(yīng)的建模,得到了與采用主成分分析方法相當(dāng)?shù)挠?jì)算結(jié)果,由于文章篇幅有限,在此不再對(duì)該部分實(shí)驗(yàn)結(jié)果詳述。
本文對(duì)基于回歸分析的失業(yè)預(yù)警建模過(guò)程進(jìn)行了系統(tǒng)分析,包括缺失數(shù)據(jù)的處理、數(shù)據(jù)的歸一化、高維數(shù)據(jù)的降維與去噪聲、回歸分析模型等環(huán)節(jié),最終基于廣東省的社會(huì)經(jīng)濟(jì)調(diào)查數(shù)據(jù)對(duì)五種回歸模型的失業(yè)率預(yù)測(cè)效果進(jìn)行了綜合比較。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):(1)主成分分析能夠有效地對(duì)高維的調(diào)查數(shù)據(jù)進(jìn)行維數(shù);(2)采用回歸技術(shù)可以對(duì)失業(yè)率發(fā)展趨勢(shì)進(jìn)行一定程度的預(yù)測(cè);(3)在五種回歸分析模型中,支持向量回歸模型預(yù)測(cè)效果最好,Logistic回歸模型預(yù)測(cè)性能最差,最小二乘回歸、嶺回歸和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度介于Logistic回歸與支持向量回歸的預(yù)測(cè)精度之間。
下一步的工作將基于集成學(xué)習(xí)技術(shù)對(duì)多個(gè)回歸模型進(jìn)行集成,把每個(gè)單獨(dú)的回歸函數(shù)看作為一個(gè)專家,把多個(gè)專家的預(yù)測(cè)結(jié)果綜合到一起有望獲得更好的預(yù)測(cè)效果。
[1]紀(jì) 韶.中國(guó)失業(yè)預(yù)警—理論視角、研究模型[M].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2008.
[2]趙建國(guó),苗 莉.基于擴(kuò)散指數(shù)的逐步回歸改進(jìn)失業(yè)預(yù)警模型及實(shí)證分析[J].中國(guó)人口科學(xué),2008(5):52-57.
[3]趙建國(guó).基于擴(kuò)散指數(shù)法的失業(yè)預(yù)警模型及實(shí)證分析[J].財(cái)經(jīng)問(wèn)題研究,2005(11):81-84.
[4]Jeffrey L R,Tang K.Simple Rules for Combining Forecasts:Some Empirical Results[J].Socio - Economic Planning Sciences,1987,21(4):239 -243.
[5]Enriquede A.Constrained Forecasting in Autoregressive Time Series Models:A Bayesian Analysis[J].International Journal of Forecasting,1993,9(1):95 -108.
[6]Hansen B E.Inference in TAR Models[J].Studies Nonlinear Dynamics Econometrics,1997,2:1 -14.
[7]Van Dijk D,F(xiàn)ranses PHPaap R.A Nonlinear Long Memory Model with an Application to US Unemployment[J],Journal of Econometrics,2002,110:135 -165.
[8]Harvey A C.Forecasting Structural Time Series Models and the Kalman Filter[M].Cambridge:Cambridge University Press,1989.
[9]Robert F Engle.Autoregressive Conditional Heteroscedasticity with Estimates of Variance of United Kingdom Inflation[J].Econometrica,1982,50:987 -1008.
[10]Tim Bollerslev.Generalized Autoregressive Conditional Heteroskedasticity[J].Journal of Econometrics,1986,31:307-327.
[11]Kaminsky,Lizondo,Reinhart.Leading Indicators of Currency Crises[Z].IMF Working Paper,1997:97 - 99.
[12]莫 榮.2003-2004年:中國(guó)就業(yè)報(bào)告[M].北京:中國(guó)勞動(dòng)社會(huì)保障出版社,2004.
[13]勞動(dòng)和社會(huì)保障部勞動(dòng)科學(xué)研究所課題組.我國(guó)失業(yè)預(yù)警系統(tǒng)與就業(yè)對(duì)策研究[J].經(jīng)濟(jì)研究參考,2002,(34):11-26.
[14]劉 偉,陸 華.深圳市失業(yè)監(jiān)測(cè)預(yù)警系統(tǒng)的研究[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2001(2):106-109.
[15]秦開(kāi)運(yùn).我國(guó)失業(yè)保障監(jiān)測(cè)預(yù)警指標(biāo)體系的構(gòu)建[J].統(tǒng)計(jì)與決策,2007(21):81 -82.
[16]丁立宏,王 靜.完善我國(guó)失業(yè)統(tǒng)計(jì)指標(biāo)體系的構(gòu)想[J].經(jīng)濟(jì)與管理研究,2009(7):15-20.
[17]劉紅霞.失業(yè)風(fēng)險(xiǎn)預(yù)警模型構(gòu)建研究[J].現(xiàn)代財(cái)經(jīng),2008,28(11):28 -32.
[18]陳仲常,吳永球.失業(yè)風(fēng)險(xiǎn)預(yù)警系統(tǒng)研究[J].當(dāng)代財(cái)經(jīng),2008(5):5-10.
[19]李永捷.基于RBF網(wǎng)絡(luò)的成都市失業(yè)預(yù)警模型[J].湖南醫(yī)科大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2007,9(4):159-162.
[20]張興會(huì),李 翔,陳增強(qiáng),袁著祉.基于遞階對(duì)角神經(jīng)網(wǎng)絡(luò)的失業(yè)預(yù)測(cè)研究[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2002,19(9):114-117.
[21]張興會(huì),杜升之,陳增強(qiáng),袁著祉,莫 榮.基于對(duì)角Elman神經(jīng)網(wǎng)絡(luò)的失業(yè)預(yù)測(cè)模型[J].南開(kāi)大學(xué)學(xué)報(bào):自然科學(xué),2002,35(2):60 -64.
[22]向小東,宋 芳.基于核主成分與加權(quán)支持向量機(jī)的福建省城鎮(zhèn)登記失業(yè)率預(yù)測(cè)[J].系統(tǒng)工程理論與實(shí)踐,2009,29(1):73 -80.
[23]趙建國(guó).綜合失業(yè)警戒指數(shù)的構(gòu)建及其失業(yè)警報(bào)分析[J].財(cái)經(jīng)問(wèn)題研究,2009(7):94-98.
[24]黃 波,王楚明.基于排序logit模型的城鎮(zhèn)就業(yè)風(fēng)險(xiǎn)分析與預(yù)測(cè)——兼論金融信用危機(jī)情形下促進(jìn)我國(guó)就業(yè)的應(yīng)對(duì)措施[J].中國(guó)軟科學(xué)2010,(4):146-154.
[25]Little RJA,Rubin DB.Statistical Analysis with Missing Data[M].New York:John Wiley and Sons,2002.
[26]Allison P D.Missing Data[M].Thousand Oaks,Cali:Sage Publications,2002.
[27]Jiawei Han,Micheline Kamber,Jian Pei.Data Mining:Concepts and Techniques[M].2nd Edition.Elsevier:Morgan Kaufmann,2006.
[28]Christopher M.Bishop.Pattern Recognition and Machine Learning[M].Berlin:Springer,2006.
[29]JOLLIFFE IT.Principal Component Analysis[M].Lnd ed.New York:Springer- Verlag,2002.
[30]Pierre Comon.Independent Component Analysis:A New concept?[J].Signal Processing,1994,36(3):287 -314.
[31]Kutner M H.Applied Linear Regression Models[M].4th ed.McGraw - Hill,2004.
[32]Arthur E Hoerl,Robert W Kennard.Ridge Regression:Applications to Nonorthogonal Problems[J].Technometrics,1970,12(1):69 -82.
[33]Vladimir N.Vapnik.Statistical Learning Theory[M].New York:John Wiley & Sons,1998.