陳通寶,溫亮明,黎建輝
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190
2.中國(guó)科學(xué)院大學(xué),北京 100049
聯(lián)合國(guó)可持續(xù)發(fā)展目標(biāo)(SDGs)已經(jīng)成為國(guó)際社會(huì)上最重要的科學(xué)議題之一,其主要目的是號(hào)召世界各國(guó)通過(guò)采取措施消除貧窮、保護(hù)地球進(jìn)而確保到2030年時(shí)全人類能夠?qū)崿F(xiàn)和平以及繁榮[1]。如何通過(guò)相應(yīng)措施實(shí)現(xiàn)科學(xué)地監(jiān)測(cè)和評(píng)估SDGs 進(jìn)而據(jù)此作出相應(yīng)戰(zhàn)略,是世界各國(guó)摸索的重大議題。由國(guó)務(wù)委員王毅對(duì)外發(fā)布的《地球大數(shù)據(jù)支撐可持續(xù)發(fā)展目標(biāo)報(bào)告》在揭示了地球大數(shù)據(jù)相關(guān)技術(shù)對(duì)監(jiān)測(cè)評(píng)價(jià)SDGs的應(yīng)用價(jià)值和前景的同時(shí)也為國(guó)際社會(huì)填補(bǔ)了數(shù)據(jù)和方法論的空白,進(jìn)而推動(dòng)落實(shí)2030年議程[2]。由此可見數(shù)據(jù)在監(jiān)測(cè)評(píng)估SDGs中的重要支撐作用,但是數(shù)據(jù)缺失問(wèn)題嚴(yán)重影響了聯(lián)合國(guó)對(duì)各國(guó)目標(biāo)實(shí)行過(guò)程的有效監(jiān)測(cè)。
針對(duì)缺失數(shù)據(jù)的處理措施主要可以劃分為刪除法、加權(quán)法以及插補(bǔ)法三種,而插補(bǔ)法通常又可分為統(tǒng)計(jì)學(xué)插補(bǔ)法以及機(jī)器學(xué)習(xí)插補(bǔ)法兩種[3]。刪除法主要適用于數(shù)據(jù)缺失比例較低的大數(shù)據(jù)集,當(dāng)數(shù)據(jù)集的缺失值較多,或者數(shù)據(jù)集中包含的樣本量很少時(shí),采用刪除法可能會(huì)丟失過(guò)多的樣本,導(dǎo)致較大誤差[4]。均值插補(bǔ)法、回歸插補(bǔ)法以及最近鄰插補(bǔ)法是統(tǒng)計(jì)學(xué)插補(bǔ)法中具有代表性的三種。其中,均值插補(bǔ)法的主要思想是運(yùn)用所研討屬性(或變量)的已觀測(cè)數(shù)據(jù)的均值作為缺失值的代替值,適用于分布集中、缺失率較低的數(shù)據(jù)集;而回歸插補(bǔ)法則利用無(wú)缺失值且與缺失數(shù)據(jù)相關(guān)的變量作為輔助變量來(lái)建立適當(dāng)?shù)幕貧w模型,并根據(jù)得到的模型插補(bǔ)缺失值,適用于有多個(gè)輔助變量的數(shù)據(jù)集,但若輔助變量與目標(biāo)變量間不存在可靠的相關(guān)關(guān)系則會(huì)使得結(jié)果存在較大誤差[5];最近鄰插補(bǔ)法由Hodges 等人在20世紀(jì)初提出,其原理在于通過(guò)利用不存在缺失數(shù)據(jù)的變量作為輔助變量并基于定義的距離函數(shù)來(lái)對(duì)目標(biāo)變量的缺失值進(jìn)行填充。機(jī)器學(xué)習(xí)插補(bǔ)法適用于各種分布類型的數(shù)據(jù),對(duì)高維數(shù)據(jù)的插補(bǔ)有較好的處理效果[6],Jerez 等通過(guò)將機(jī)器學(xué)習(xí)插補(bǔ)法和統(tǒng)計(jì)學(xué)習(xí)插補(bǔ)法進(jìn)行詳細(xì)對(duì)比,進(jìn)而得出機(jī)器學(xué)習(xí)插補(bǔ)法具有較為明顯優(yōu)勢(shì)的結(jié)論[7],Eirola 等人提出的一種將高斯混合模型以及極限學(xué)習(xí)機(jī)(ELM)應(yīng)用于數(shù)據(jù)補(bǔ)全的方法能在大量數(shù)據(jù)的情景下具有較好的泛化性能,但該方法需要耗費(fèi)較長(zhǎng)的運(yùn)行時(shí)間且不適用于小樣本的情景[8];Kumar S 等人提出了一種基于遷移學(xué)習(xí)的GDP 預(yù)測(cè)方法[9],該方法使用與GDP 正相關(guān)的二氧化碳排放量作為特征,通過(guò)發(fā)達(dá)國(guó)家或發(fā)展中國(guó)家的二氧化碳排放量預(yù)測(cè)人均國(guó)內(nèi)生產(chǎn)總值,但該方法并無(wú)涉及如何在高維數(shù)據(jù)中進(jìn)行特征選擇;而在SDGs 情境下,許多目標(biāo)變量所能收集到的樣本量少,同時(shí)并沒有給定與變量相關(guān)的特征,故傳統(tǒng)的數(shù)據(jù)補(bǔ)全方法受到限制。
針對(duì)SDGs 中存在的問(wèn)題,本文提出了一種基于特征選擇和遷移學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)方法TLM。該方法利用最大信息系數(shù)Maximal Information Coefficient(MIC) 從其它數(shù)據(jù)源中為目標(biāo)變量構(gòu)造出具有代表性的特征,達(dá)到特征增強(qiáng)的目的,然后將源域數(shù)據(jù)和少量目標(biāo)域數(shù)據(jù)進(jìn)行混合以建立回歸預(yù)測(cè)模型,這強(qiáng)化了模型的魯棒性和自適應(yīng)性,在改善由于源域數(shù)據(jù)不足而導(dǎo)致的性能受限問(wèn)題的同時(shí)能較好地處理源域和目標(biāo)域之間的分布差異,最終使得模型對(duì)缺失值的預(yù)測(cè)準(zhǔn)確率上升。
MIC是一種能被應(yīng)用于衡量?jī)蓚€(gè)變量X與Y之間的線性或非線性強(qiáng)度的方法,是基于信息的非參數(shù)性探索[10]。
假設(shè)用a乘b的網(wǎng)格對(duì)存在于二維空間中的數(shù)據(jù)點(diǎn)集進(jìn)行劃分,以網(wǎng)格(x,y)中數(shù)據(jù)點(diǎn)落下的頻率估計(jì)P(x,y),以第x行數(shù)據(jù)點(diǎn)落下的頻率估計(jì)P(x),同樣估計(jì)P(y),進(jìn)而基于所獲得的量推算出隨機(jī)變量X和Y之間的互信息。由于用a乘b劃分?jǐn)?shù)據(jù)點(diǎn)的方法有很多種,因此需要尋求一種具有最大互信息的網(wǎng)格劃分模式。通過(guò)運(yùn)用歸一化因子將互信息的值轉(zhuǎn)換至(0,1)間,最終挖掘出能最大化歸一化互信息的網(wǎng)格分辨率,并視其為MIC的測(cè)量值。
MIC 測(cè)量既擁有普適性,也具備均衡性。它能夠在找到變量之間的線性函數(shù)關(guān)系的同時(shí)挖掘出變量之間的非線性函數(shù)關(guān)系,此外,其能夠在縱向?qū)Ρ韧魂P(guān)系的強(qiáng)度的同時(shí)對(duì)不同關(guān)系的強(qiáng)度進(jìn)行橫向?qū)Ρ取?/p>
遷移學(xué)習(xí)(TL):對(duì)于源域Ds及其學(xué)習(xí)任務(wù)Ts、目標(biāo)域Dt及其學(xué)習(xí)任務(wù)Tt,遷移學(xué)習(xí)的基本原理是利用Ds在解決Ts的過(guò)程中所獲得的一些知識(shí)協(xié)助目標(biāo)任務(wù)Dt學(xué)習(xí)到較優(yōu)的預(yù)測(cè)函數(shù)F(x)[11]。
源域指用于訓(xùn)練的訓(xùn)練集,目標(biāo)域指用于預(yù)測(cè)的測(cè)試數(shù)據(jù)。域的差異可以分為兩種情況:其中一種是特征空間存在差異,另一種是邊緣概率分布存在差異。任務(wù)的差異體現(xiàn)在兩個(gè)層面:其中一方面是標(biāo)簽空間存在差異,另一方面是條件概率存在差異。
從遷移內(nèi)容來(lái)看,遷移學(xué)習(xí)可分為樣本遷移、特征遷移以及參數(shù)遷移[12]。
一般來(lái)說(shuō),樣本遷移將源域的樣本作為目標(biāo)域的加權(quán)樣本集成到目標(biāo)域中,直接用于訓(xùn)練,經(jīng)過(guò)不同的算法能夠調(diào)整目標(biāo)域中樣本的權(quán)重。特征遷移包括兩種方式,第一種方式的主要思想是在調(diào)整訓(xùn)練權(quán)重后將特征加入到目標(biāo)域中,第二種方式是通過(guò)利用映射建立源域和目標(biāo)域之間的特征關(guān)聯(lián)進(jìn)而達(dá)到減小源域和目標(biāo)域之間的分布差異的目的。參數(shù)遷移的主要思想是在源域和目標(biāo)域之間應(yīng)用參數(shù)共享,或者結(jié)合多個(gè)源域模型來(lái)解決目標(biāo)域問(wèn)題。
TLM(a method of incorporating transfer learning and MIC)的主要思想是利用最大信息系數(shù)來(lái)進(jìn)行特征選擇,然后結(jié)合樣本遷移的思想來(lái)建立數(shù)據(jù)預(yù)測(cè)模型,其主要過(guò)程如下所示:
算法1 TLM(Om,Dm,Tm,Dt,Tt)輸入:Om:公開數(shù)據(jù)源Dm:混合的源域數(shù)據(jù)和少量 目標(biāo)域數(shù)據(jù);Tm:與Dm中每個(gè)樣本相對(duì)應(yīng)的目標(biāo)變量的取值;Dt:目標(biāo)域數(shù)據(jù)中除了Dm外的剩余部分;Tt:與Dt中每個(gè)樣本相對(duì)應(yīng)的目標(biāo)變量的取值;輸出: Tt':由預(yù)測(cè)模型預(yù)測(cè)而得的目標(biāo)變量的預(yù)測(cè)結(jié)果開始:{Step1:利用Om,通過(guò)MIC構(gòu)造特征.Step2:構(gòu)建Dm Step3:根據(jù)(Dm,Tm)訓(xùn)練回歸模型Model Step4:使用訓(xùn)練得到的Model在Dt上進(jìn)行預(yù)測(cè)得到Tt'Step5:根據(jù)Tt對(duì)Tt'進(jìn)行評(píng)估}
在步驟1中,使用MIC 從公開數(shù)據(jù)源中為目標(biāo)變量構(gòu)造具有代表性的特征。
在步驟2中,使用完整的源域數(shù)據(jù)和少量的目標(biāo)域數(shù)據(jù)進(jìn)行混合構(gòu)成訓(xùn)練數(shù)據(jù)Dm。其中Dm為k 維,且其對(duì)應(yīng)的輸出標(biāo)簽為Tm。
在步驟3中,使用回歸技術(shù),以Dm作為輸入向量,Tm作為標(biāo)簽,訓(xùn)練所選回歸器。
在步驟4中,使用步驟2 中經(jīng)過(guò)訓(xùn)練得到的回歸器對(duì)目標(biāo)域數(shù)據(jù)Dt進(jìn)行預(yù)測(cè),得到T't。其中Dt的數(shù)據(jù)特征維度與Dm的相同。
在步驟5中,使用MAE和RMSE 兩種度量標(biāo)準(zhǔn)并根據(jù)真實(shí)的標(biāo)簽值Tt對(duì)預(yù)測(cè)值T't的效果進(jìn)行評(píng)估。
迭代步驟2至步驟5,針對(duì)目標(biāo)域數(shù)據(jù),得出效果最優(yōu)的源域數(shù)據(jù)及其MAE和RMSE。
支持向量機(jī)是在統(tǒng)計(jì)學(xué)習(xí)理論下提出來(lái)的一種可應(yīng)用于小樣本機(jī)器學(xué)習(xí)相關(guān)問(wèn)題的通用方法,而支持向量回歸(SVR)旨在應(yīng)用支持向量機(jī)的思想解決回歸問(wèn)題。在SDGs 情景下,考慮到一般的回歸模型容易由于樣本量小而導(dǎo)致模型泛化效果差,故步驟3中的回歸技術(shù)采用徑向基核函數(shù)的SVR,記為TLM-SVR。
由于使用誤差評(píng)估能夠更加直觀地衡量模型的預(yù)測(cè)性能,故大多數(shù)研究者在機(jī)器學(xué)習(xí)中均采用誤差評(píng)估,本文應(yīng)用平均絕對(duì)誤差(MAE)以及均方根誤差(RMSE)兩種常用的誤差評(píng)價(jià)指標(biāo)。
這兩種統(tǒng)計(jì)方法定義如下:
2.1.1 RMSE
表示預(yù)測(cè)值,Yi表示實(shí)際值,n表示樣本數(shù)。則
模型預(yù)測(cè)精度與RMSE的值成反比,即RMSE越小,模型性能越好。
2.1.2 MAE
表示預(yù)測(cè)值,Yi表示實(shí)際值,n表示樣本數(shù)。
模型預(yù)測(cè)精度與MAE的值成反比,即MAE 越小,模型性能越好。
2017年,可持續(xù)發(fā)展目標(biāo)指標(biāo)機(jī)構(gòu)間專家組(以下簡(jiǎn)稱“IAEGSDGs”)發(fā)布了包括232個(gè)指標(biāo)在內(nèi)的可持續(xù)發(fā)展目標(biāo)官方指標(biāo)體系,用來(lái)監(jiān)測(cè)全球可持續(xù)發(fā)展目標(biāo)的施行進(jìn)程。
根據(jù)定義和統(tǒng)計(jì)方法,IAEGSDGs 將232個(gè)指標(biāo)分為三類。截至2019年12月,類別一有指標(biāo)116項(xiàng),這些指標(biāo)都明確了定義,同時(shí)在規(guī)范了相應(yīng)的統(tǒng)計(jì)方法的基礎(chǔ)上收集了相應(yīng)的統(tǒng)計(jì)數(shù)據(jù);類別二有指標(biāo)92項(xiàng),這些指標(biāo)雖然明確了定義,同時(shí)建立了規(guī)范的統(tǒng)計(jì)方法,但是缺乏必要的相關(guān)統(tǒng)計(jì)數(shù)據(jù);類別三有指標(biāo)20項(xiàng),這些指標(biāo)或沒有明確定義或沒有建立規(guī)范的統(tǒng)計(jì)方法;除此之外,還有4個(gè)指標(biāo)有多個(gè)層次(指標(biāo)的不同組成部分分為不同的層次)。在類別一的116項(xiàng)指標(biāo)中,有些指標(biāo)的組成部分在不同國(guó)家中存在不同程度的統(tǒng)計(jì)值缺失率[13]。
本文擬以SDGs 3.2為例,其中指標(biāo)3.2.1為“五歲以下兒童死亡率”,即Under-five mortality rate,其下有統(tǒng)計(jì)變量“五歲以下兒童的死亡率(每千名活產(chǎn)嬰兒死亡)”,表1展示了部分國(guó)家于1950年-2016年間在該統(tǒng)計(jì)變量上的缺失率(缺失率=該統(tǒng)計(jì)值缺失的年份數(shù)/年份跨度)。
從表1中可以看出,部分國(guó)家,如Costa Rica、Germany 等在目標(biāo)值上的缺失率超過(guò)20%以上。由于世界各國(guó)和地區(qū)的發(fā)展?fàn)顩r不同,所處的社會(huì)穩(wěn)定情況不同,如有的國(guó)家因?yàn)槌D晏幱趹?zhàn)亂狀態(tài)而難以收集到該國(guó)家在相關(guān)可持續(xù)發(fā)展指標(biāo)上的統(tǒng)計(jì)數(shù)據(jù)等,個(gè)別國(guó)家和地區(qū)在可持續(xù)發(fā)展指標(biāo)上相關(guān)統(tǒng)計(jì)數(shù)據(jù)的缺失率較高,這限制了聯(lián)合國(guó)對(duì)相應(yīng)國(guó)家在可持續(xù)發(fā)展目標(biāo)上進(jìn)行有效監(jiān)測(cè)。
表1 SDGs 指標(biāo)3.2.1 缺失率Table1 Missing rate of SDGs indicator 3.2.1
在缺失率大于0的19個(gè)國(guó)家中隨機(jī)挑選8個(gè)國(guó)家作為待預(yù)測(cè)填充缺失值的目標(biāo)域。
表2展示了隨機(jī)抽取而得的8個(gè)國(guó)家:Bahrain、Botswana、Brazil、Colombia、Costa Rica、Romania、Uruguay、El Salvador 在1950-2016年間的缺失情況。
表2 1950-2016年間的數(shù)據(jù)缺失情況Table2 Time period of missing values during 1950 to 2016
本文采用的實(shí)驗(yàn)環(huán)境為1臺(tái)windows10 64
位操作系統(tǒng)的PC,運(yùn)行內(nèi)存8GB,編程環(huán)境是Python3.6。
2.3.1 為SDGs 指標(biāo)3.2.1構(gòu)造特征
首先,數(shù)據(jù)收集。從公開數(shù)據(jù)集OECD[14]、ITU[15]、Fund for Peace[16]、World Bank Open Data[17]上收集整理255個(gè)國(guó)家和地區(qū)于2000年的統(tǒng)計(jì)數(shù)據(jù),共涉及統(tǒng)計(jì)變量1601個(gè)。
其次,特征選擇。為了從以上1601個(gè)統(tǒng)計(jì)變量中找到與指標(biāo)3.2.1(5歲以下死亡率 Under 5 mortality rate)相關(guān)的統(tǒng)計(jì)變量,我們以國(guó)家為維度形成維度為255的統(tǒng)計(jì)變量x,接著采用MIC 計(jì)算指標(biāo)與統(tǒng)計(jì)變量之間的相關(guān)度。最終得到與指標(biāo)3.2.1 相關(guān)性最高的三個(gè)變量分別為“女性出生時(shí)的預(yù)期壽命”、“政府在醫(yī)療保健上的人均支出PPP”、“35-59歲間女性由傳染病引起的死亡(相關(guān)年齡組的百分比)”。鑒于數(shù)據(jù)的可獲取性和完整性等現(xiàn)實(shí)客觀原因,最終采用“女性出生時(shí)的預(yù)期壽命”作為指標(biāo)3.2.1的特征。
2.3.2 實(shí)驗(yàn)結(jié)果和性能分析
我們以表1中的28個(gè)國(guó)家在1970-2016年間的數(shù)據(jù)為實(shí)驗(yàn)樣本,共1 316個(gè)樣本。其中取出1970-2012年間的數(shù)據(jù)作為訓(xùn)練集,2013-2016年的數(shù)據(jù)作為測(cè)試集,以此數(shù)據(jù)進(jìn)行模型訓(xùn)練和性能測(cè)試。針對(duì)表2中的每一個(gè)特定的國(guó)家,使用該國(guó)家的數(shù)據(jù)作為目標(biāo)域,分別將剩余27個(gè)國(guó)家作為源域訓(xùn)練預(yù)測(cè)模型TLM-SVR,并對(duì)測(cè)試集進(jìn)行測(cè)試,然后將TLMSVR模型與廣為采用的均值插補(bǔ)法和SVR 方法進(jìn)行對(duì)比,分析三種不同方法對(duì)同一測(cè)試集的效果。
SVR模型和TLM-SVR模型均有兩個(gè)重要的參數(shù),分別為C和gamma,其中C為懲罰系數(shù),即模型對(duì)誤差的容忍度,gamma是選擇RBF(徑向基核函數(shù))作為核函數(shù)之后,該函數(shù)自帶的一個(gè)重要參數(shù)。在SVR模型和TLM-SVR模型中,根據(jù)經(jīng)驗(yàn)和實(shí)驗(yàn)調(diào)參,最終將參數(shù)設(shè)置為:SVR(kernel ='rbf',C =1e3,gamma = 0.01)
圖1、圖2分別展示了由本文所提出的TLM 方法訓(xùn)練所得的均值插補(bǔ)方法、SVR 方法與TLM-SVR模型在Bahrain、Botswana、Brazil、Colombia、Costa Rica、Romania、Uruguay、El Salvador 八個(gè)國(guó)家的測(cè)試集上所取得的MAE和RMSE。從圖1、圖2可以看出,在8 組實(shí)驗(yàn)中,相比較于傳統(tǒng)的均值插補(bǔ)法和SVR模型,TLM-SVR模型能有效地提升模型的預(yù)測(cè)性能。
圖1 三種方法在同一測(cè)試集上的MAEFig.1 The MAE of three methods on the same test set
圖2 三種方法在同一測(cè)試集上的RMSEFig.2 The RMSE of three methods on the same test set
表3 三種方法分別在8個(gè)國(guó)家的測(cè)試集中得到的MAE和RMSETable3 MAE and RMSE obtained by three methods in the test set of eight countries
表3表示針對(duì)以上八個(gè)國(guó)家,均值插補(bǔ)方法、SVR 方法和TLM-SVR模型對(duì)同一測(cè)試集的效果,其中,TLM-SVR(Finland-Bahrain)表示以Finland的數(shù)據(jù)作為源域數(shù)據(jù)并融合Bahrain的已有數(shù)據(jù)進(jìn)而經(jīng)過(guò)TLM-SVR 訓(xùn)練而得的模型。從表3可以看出,針對(duì)Bahrain 這個(gè)國(guó)家而言,均值插補(bǔ)法在測(cè)試集上的MAE和RMSE的值均最大,且SVR模型相比均值插補(bǔ)法,明顯提升了預(yù)測(cè)精準(zhǔn)度,MAE和RMSE分別從17.910465和17.910814降至0.243053和0.296189,而TLM-SVR(Finland-Bahrain) 在 測(cè)試集上的MAE和RMSE 均比SVR的小,MAE和RMSE分別降至0.23997和0.288697,說(shuō)明TLMSVR(Finland-Bahrain)的泛化能力更強(qiáng)(即對(duì)測(cè)試集的效果更好)。綜合起來(lái)看,可見TLM-SVR(Finland-Bahrain)取得了更好的預(yù)測(cè)效果,這表明了TLMSVR(Finland-Bahrain)的有效性。
其余七個(gè)國(guó)家也可從表3中得到與Bahrain 相似的結(jié)論。
在衡量SDGs 指標(biāo)3.2.1的實(shí)例中,通過(guò)8 組實(shí)驗(yàn),我們看到:
針對(duì)同一測(cè)試集,當(dāng)采用傳統(tǒng)的均值插補(bǔ)法時(shí),誤差較大,而使用TLM 方法,通過(guò)MIC 進(jìn)行特征選擇,進(jìn)而采用回歸模型SVR 對(duì)缺失值進(jìn)行預(yù)測(cè)時(shí),其預(yù)測(cè)誤差取得一定下降;而當(dāng)采用樣本遷移訓(xùn)練得到回歸模型TLM-SVR,進(jìn)而對(duì)缺失值進(jìn)行預(yù)測(cè)時(shí),其預(yù)測(cè)誤差得到顯著下降,比使用均值插補(bǔ)法和SVR模型要好。這是因?yàn)門LM 方法通過(guò)MIC 進(jìn)行特征選擇后在增強(qiáng)了特征的同時(shí)利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)進(jìn)行混合來(lái)訓(xùn)練預(yù)測(cè)模型,最終使得設(shè)計(jì)出的模型有更好的魯棒性和自適應(yīng)性,能夠進(jìn)一步較好地處理源域和目標(biāo)域兩者間的分布差異,從而增強(qiáng)模型的預(yù)測(cè)性能。
根據(jù)表3,可知針對(duì)Bahrain、Botswana、Brazil、Colombia、Costa Rica、Romania、Uruguay、El Salvador,作為其最佳源數(shù)據(jù)的國(guó)家分別為Finland、Australia、Costa Rica、Canada、Poland、Japan、Chile、Austria。現(xiàn)針對(duì)八個(gè)國(guó)家在SDGs 指標(biāo)3.2.1于1950-2016年間的缺失值,采用TLM-SVR 方法對(duì)其進(jìn)行預(yù)測(cè)。
圖3-10分別表示采用TLM-SVR 方法對(duì)八個(gè)國(guó)家中缺失值的預(yù)測(cè)結(jié)果。其中,橙色的線代表該變量可獲取到的真實(shí)值,藍(lán)色的線代表模型對(duì)缺失值的預(yù)測(cè)。
圖3 Chile-Uruguay 缺失值預(yù)測(cè)Fig.3 The prediction of missing value in “Chile-Uruguay”
圖4 Costa Rica-Brazil 缺失值預(yù)測(cè)Fig.4 The prediction of missing value in “Costa Rica-Brazil”
圖5 Finland-Bahrain 缺失值預(yù)測(cè)Fig.5 The prediction of missing value in “Finland-Bahrain”
圖6 Australia-Botswana 缺失值預(yù)測(cè)Fig.6 The prediction of missing value in “Australia- Botswana”
圖7 Canada-Colombia 缺失值預(yù)測(cè)Fig.7 The prediction of missing value in “Canada-Colombia”
圖8 Poland-Costa Rica 缺失值預(yù)測(cè)Fig.8 The prediction of missing value in “Poland-Costa Rica”
圖9 Japan-Romania 缺失值預(yù)測(cè)Fig.9 The prediction of missing value in “Japan-Romania”
圖10 Austria-El Salvador 缺失值預(yù)測(cè)Fig.10 The prediction of missing value in “Austria-El Salvador ”
SDGs 指標(biāo)數(shù)據(jù)缺失率過(guò)高的現(xiàn)狀大大地影響了聯(lián)合國(guó)對(duì)各國(guó)可持續(xù)發(fā)展目標(biāo)實(shí)行過(guò)程的有效監(jiān)測(cè)。本文提出了一種基于特征選擇和遷移學(xué)習(xí)來(lái)對(duì)缺失值進(jìn)行數(shù)據(jù)預(yù)測(cè)的方法(TLM)。首先利用非線性相關(guān)分析方法從收集到的大量統(tǒng)計(jì)數(shù)據(jù)中挖掘出與SDGs 指標(biāo)3.2.1 中相關(guān)性較高的統(tǒng)計(jì)變量,接著以隨機(jī)選擇的8個(gè)國(guó)家作為目標(biāo)域,通過(guò)實(shí)驗(yàn)驗(yàn)證了由TLM 建立的TLM-SVR模型的預(yù)測(cè)性能比傳統(tǒng)的均值填充和SVR 回歸預(yù)測(cè)效果更好,最終利用TLM-SVR模型對(duì)8個(gè)國(guó)家在1950-2016年間的缺失值進(jìn)行了預(yù)測(cè)。
本文為相關(guān)領(lǐng)域的工作者提供了一種處理SDGs相關(guān)指標(biāo)缺失問(wèn)題的新思路。當(dāng)然,影響SDGs 指標(biāo)3.2.1的波動(dòng)因素眾多,且隨著時(shí)間的推移,各種可變因素可能隨時(shí)發(fā)生變化,因此,如何進(jìn)一步收集更多的統(tǒng)計(jì)變量,探索更多相關(guān)性分析方法來(lái)豐富SDGs 指標(biāo)3.2.1的特征,進(jìn)而采
用TLM 方法對(duì)缺失值進(jìn)行更加精確的預(yù)測(cè),是今后研究的重點(diǎn)方向。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。