高天,張麗麗,黎建輝*
1.中國科學院計算機網(wǎng)絡(luò)信息中心,北京 100190
2.中國科學院大學,北京 100049
聯(lián)合國可持續(xù)發(fā)展目標(Sustainable Development Goals,SDGs)是聯(lián)合國在《2030 議程》中提出的一系列新的發(fā)展目標[1],全球發(fā)達國家和發(fā)展中國家均將其作為社會經(jīng)濟協(xié)調(diào)發(fā)展的重要指導,來保障人類社會的長期穩(wěn)定和健康發(fā)展。由于SDGs 的3 級指標主要支撐2 級具體目標的落實,且用于評估《2030 年議程》未來的落實情況[2],學界已經(jīng)廣泛地展開關(guān)于SDGs 目標和指標之間關(guān)聯(lián)性的研究。
可持續(xù)發(fā)展目標的相關(guān)性分析需要以統(tǒng)計的指標數(shù)據(jù)為基礎(chǔ)。《可持續(xù)發(fā)展報告2020》[3](以下簡稱報告)中提供的聯(lián)合國全體193 個成員國的統(tǒng)計數(shù)據(jù)包括了每項指標從2000-2020 年的具體數(shù)值,但有些指標的數(shù)據(jù)不完整,個別年份存在缺失。且指標的時間序列數(shù)據(jù)只能反映指標本身隨年份變化的結(jié)果,而無法看出與其他指標之間的關(guān)聯(lián)性。因此,基于報告中已統(tǒng)計的元數(shù)據(jù),通過分析計算得出指標的關(guān)聯(lián)性數(shù)據(jù),不僅可以直觀反映出SDGs 整體指標框架之間的聯(lián)系,還可以為各國的政策實施和完善提供方法學的支持。
本文涉及的SDGs 的3 級指標數(shù)據(jù)包含基于對比分析所得的最優(yōu)相關(guān)分析算法——MIC 算法計算得出的指標對之間的相關(guān)系數(shù)和基于Spearman 算法計算得到的指標對相關(guān)方向,全面地描述了SDGs 指標數(shù)據(jù)之間的關(guān)聯(lián)性,為聯(lián)合國各成員國未來進一步研究和實施可持續(xù)發(fā)展目標提供了可靠的數(shù)據(jù)支撐。
基于數(shù)據(jù)的規(guī)律性和可用性,本文所使用的SDGs 指標的時間序列數(shù)據(jù)來自于《可持續(xù)發(fā)展報告2020》數(shù)據(jù)[3]。其中包含聯(lián)合國成員國家一共193 個,時間跨度為2000-2020 年共21 年,指標從SDG1 到SDG17 共包含85 項。
數(shù)據(jù)處理方法一共有4 階段:數(shù)據(jù)預處理,相關(guān)性算法對比,基于最優(yōu)相關(guān)性算法MIC 的指標對相關(guān)系數(shù)的計算,和基于Spearman 算法的指標對相關(guān)方向的計算,以及南半球20 個國家的SDGs指標對系數(shù)可視化,整體流程如圖1 所示。
1.2.1 數(shù)據(jù)預處理
(1)代碼名稱統(tǒng)一規(guī)范化
本文首先對原始數(shù)據(jù)中不一致的指標代碼進行名稱統(tǒng)一。原始數(shù)據(jù)中共有3 處指標代碼不一致,統(tǒng)一后的結(jié)果為:“sdg2_stunting”修改為“sdg2_stuntihme”,“sdg2_wasting”修改為“sdg2_wasteihme”,“sdg5_familypl”修改為“sdg5_fplmodel”。
(2)數(shù)據(jù)組織
按照國家將指標數(shù)據(jù)分別進行存儲,對每個國家的指標進行處理。
①完整性查驗與預處理
處理規(guī)則為:a.對于21 年之中超過5 年以上沒有數(shù)據(jù)的指標進行直接刪除;b.根據(jù)每個國家每年的數(shù)據(jù)缺失率,最終選定了2000-2017 年的指標數(shù)據(jù)。
② 數(shù)據(jù)補全與存儲
a.對于有一些年份缺失數(shù)據(jù)的指標利用Python 的Sklearn 庫中KNNImputer 函數(shù)進行補全,其中k 的參數(shù)設(shè)為3;b.最后將每個國家預處理好的數(shù)據(jù)存儲成CSV 格式的文件,方便未來對于數(shù)據(jù)的計算。
圖1 SDGs 指標數(shù)據(jù)處理流程
1.2.2 相關(guān)性算法性能對比分析和選擇
有代表性的相關(guān)性算法有以下4 種,其各自的優(yōu)缺點如表1 所示。
表1 4 種相關(guān)性算法對比
SDGs 指標數(shù)據(jù)存在多種函數(shù)和非函數(shù)關(guān)系,由表1 可知,MIC 在與其他相關(guān)性算法相比之下,可以探測到更多的相關(guān)關(guān)系。無論兩個變量是線性、立方、指數(shù)、周期,還是非線性關(guān)系,MIC 都可以探測出來,且可以給到較高的分數(shù)[7]。因此本文先將MIC 作為探測SDGs 指標對之間相關(guān)性的最優(yōu)算法測度。但MIC 無法檢測到相關(guān)方向,因此我們選取Spearman 相關(guān)系數(shù)來補充衡量指標對之間的相關(guān)方向。
1.2.3 基于MIC 算法的指標對相關(guān)系數(shù)計算
本研究利用MIC 算法,對193 個聯(lián)合國成員國的共62 項可實際使用指標進行了相關(guān)系數(shù)的計算。根據(jù)每個國家的指標對,將每項指標兩兩配對,共有1766 個指標對。分別對每個國家的指標對進行MIC 的相關(guān)系數(shù)計算,每個國家的數(shù)據(jù)為一列,對193 個國家的數(shù)據(jù)進行合并存儲。
1.2.4 基于Spearman 算法的指標對相關(guān)方向計算
由MIC 的定義和性質(zhì)可知,MIC 系數(shù)的范圍在0-1 之間,本質(zhì)上提供了相關(guān)程度的參考,而對于相關(guān)方向,其并無法表示。Spearman 算法可以衡量2 個變量之間的單調(diào)性,且不受變量的分布和樣本容量影響。因此本研究利用Spearman 算法,對每個指標對進行相關(guān)方向的判定,輸出結(jié)果1 表示正相關(guān),?1 表示負相關(guān)(1 和?1 與Spearman 的相關(guān)系數(shù)取值無關(guān),僅為相關(guān)方向的符號),作為MIC 算法的補充。每個國家的處理過程和1.2.3 一樣,最終結(jié)果存儲到一個CSV 格式的文件中。
1.2.5 南半球20 個國家的SDGs 指標對系數(shù)可視化
SDGs 指標對相關(guān)系數(shù)可用于缺失數(shù)據(jù)補全,提供SDGs 實施方向指南,發(fā)掘SDGs 發(fā)展進程,有助于對SDGs 問題的及時發(fā)現(xiàn)與政策校準,這在發(fā)展中國家的意義尤為突出。由于地理位置和歷史原因,南半球的國家絕大部分都是發(fā)展中國家,其更應(yīng)該受到國際的關(guān)注。因此本研究根據(jù)南半球各國的指標數(shù)量,選取聯(lián)合國成員國南半球國家中數(shù)據(jù)完整性前20 的國家,以熱力圖形式按國別展示其SDGs 指標對的相關(guān)關(guān)系,圖片存儲在數(shù)據(jù)集中。(注:圖片中為顯示出指標對的相關(guān)方向的顏色差異,因此將負相關(guān)的MIC 系數(shù)取負,負號僅代表相關(guān)方向。)
本數(shù)據(jù)包括2000-2017 年間,共193 個聯(lián)合國成員國的SDGs 的指標對的MIC 相關(guān)系數(shù),以及相關(guān)方向。為方便計算和應(yīng)用,本研究將數(shù)據(jù)存儲名為Correlation coefficient of Indicator pairs.csv 的文件,橫軸代表國家,縱軸代表指標對相關(guān)系數(shù)的和得分。原始數(shù)據(jù)集由文獻[3]所提供,該數(shù)據(jù)集包括About、Overview、Codebook、SDR2020 Data、Raw Trend Data 4 共5 張子表。其中Codebook表中詳細描述了每一項指標的特征,Raw Trend Data 是193 個國家2000-2020 年的指標原始數(shù)據(jù)集。根據(jù)預處理后所得數(shù)據(jù)集,最終一共有62 項可用指標,經(jīng)無重復互相配對后共有1766 個指標對。為展示數(shù)據(jù)集樣本,此節(jié)隨機選取南半球的一個成員國“安哥拉(Angola)”的數(shù)據(jù)集以及其可視化結(jié)果,如表2 和圖2 所示。整體數(shù)據(jù)集內(nèi)指標對出現(xiàn)的國家數(shù)量和缺失國家部分結(jié)果見表3。
表2 SDGs 指標對相關(guān)系數(shù)和相關(guān)方向(Angola,前15 個指標對)
圖2 SDGs 指標對相關(guān)系數(shù)熱力圖(Angola)
表3 SDGs 指標對出現(xiàn)國家數(shù)量和缺失國家(部分)
本數(shù)據(jù)集的質(zhì)量控制體現(xiàn)在兩方面:一是數(shù)據(jù)預處理中對原始指標時間序列的名稱統(tǒng)一、刪減和補全;二是對選取MIC 算法進行實際的驗證。
對于原始數(shù)據(jù)的預處理是后期SDGs 指標數(shù)據(jù)相關(guān)性分析的必須前提,名稱不統(tǒng)一和缺失的數(shù)據(jù)會對后續(xù)的分析產(chǎn)生很大影響。其中名稱統(tǒng)一詳見第1.2.1 節(jié)。Olga Troyanskaya 和Michael Cantor等人[8]基于無噪聲的時間序列、有噪聲的時間序列和非時間序列3 組基因微矩陣的數(shù)據(jù)集,利用KNN算法、SVD 算法和行平均算法進行對比驗證,證實了KNN 算法在估算缺失值方面具有更好的穩(wěn)定性和健壯性。因此本文選用KNN 填補法對SDGs 指標數(shù)據(jù)進行缺失值估算填充。
由于國家數(shù)量較多,本研究依據(jù)每個大洲的GDP 排名[9],選取了排名靠前的20%的國家(共43個)的指標數(shù)據(jù)對4 種相關(guān)性算法進行了對比實驗。對SDGs 指標數(shù)據(jù)的相關(guān)性研究從根本上是要探索和發(fā)現(xiàn)指標之間更多的關(guān)聯(lián)性,在此基礎(chǔ)上本文提出了兩種評價維度用來評價4 種相關(guān)性算法的優(yōu)劣。43 個國家的名字如表4 所示。
表4 43 個國家(排名不分先后)
兩種評價維度:公式(1)代表廣度覆蓋,公式(2)、(3)代表深度覆蓋[10]。
其中,Sa代表利用Ma算法對相關(guān)系數(shù)矩陣進行閾值λ(|λ|∈[0,1])篩選后得到的指標對集合(其中不包含同一指標與本身的相關(guān)性得分),Sb同理。S代表總指標對的集合。廣度覆蓋表示在Ma方法下探測到的有效的指標對占總體指標對的比例;深度覆蓋表示在Ma和Mb方法都能探測到的有效指標對中,分別占Ma方法下的指標對和Mb方法下的指標對的比例。
43 個國家的總指標對數(shù)量如圖3 所示。
圖3 43 個國家的總指標對數(shù)量
對于前3 種傳統(tǒng)的統(tǒng)計學相關(guān)性算法進行顯著性檢驗,Pearson、Spearman、Kendall 在顯著性水平α=0.05的條件下,分別查表[11-12]得到相關(guān)系數(shù)臨界值為:rp=0.468,rs=0.503,rk=0.317,自由度均為18-2=16。根據(jù)3 種測度算法的相關(guān)系數(shù)臨界值,可以計算指標對在3 種算法測度下的相關(guān)系數(shù)滿足|rp|>0.468,|rs|>0.503,|rk|>0.317 (包括了正相關(guān)和負相關(guān)兩種相關(guān)方向)的條件下,指標對之間拒絕零假設(shè),存在相關(guān)關(guān)系。
MIC 和其他3 種相關(guān)性算法測度的廣度覆蓋和深度覆蓋分別如圖4 和圖5 所示。從圖中分布可以看出,對于兩種評價維度,MIC 對于其他3 種測度的覆蓋,明顯優(yōu)于其他3 種測度對MIC 的覆蓋。這說明MIC 可以探測到更廣泛的相關(guān)關(guān)系,因此選取MIC 算法作為SDGs 指標數(shù)據(jù)相關(guān)性分析的最優(yōu)算法。
圖4 43 個國家廣度覆蓋評價維度對比結(jié)果
圖5 43 個國家深度評價維度對比結(jié)果
SDGs 的目標涵蓋了經(jīng)濟、政治、人文等多個領(lǐng)域,截止到2020 年,SDGs 共有17 個總體目標,169 個相關(guān)目標和230 多個用來監(jiān)測實施進展情況的指標。從出現(xiàn)國家次數(shù)排名前20 的總指標對中可以看出,科技期刊論文數(shù)量、與能源相關(guān)的二氧化碳排放量和物種生存指數(shù)紅色名單這3 個指標均被所有國家統(tǒng)計,這意味著這些指標對所有國家都具有廣泛的影響效應(yīng)??梢愿顚哟蔚胤从吵觯鲊鴮τ诳萍?、能源和生物的重視應(yīng)不亞于經(jīng)濟發(fā)展的重視。對于出現(xiàn)次數(shù)較少的指標如sdg9_netacc〔Gap in internet access by income (percentage points)〕和sdg10_adjgini(Gini coefficient adjusted for top income)等,可能與數(shù)據(jù)缺失量較大有關(guān)。需要各國政府進一步加強對這些問題的關(guān)注,督促有關(guān)部門盡快制定和完善監(jiān)測工作和統(tǒng)計方案,以保障從各個方面推進可持續(xù)發(fā)展議程的實質(zhì)進展。
本數(shù)據(jù)集包括聯(lián)合國193 個成員國的2000-2017 年的SDGs 62 項可利用指標對相關(guān)系數(shù)和相關(guān)方向,以及南半球數(shù)據(jù)量排名前20 的國家的相關(guān)系數(shù)可視化結(jié)果。數(shù)據(jù)集存儲在CAB 格式的文件中。相關(guān)系數(shù)和相關(guān)方向包含了SDGs 指標數(shù)據(jù)較為有價值的相關(guān)性信息,其中相關(guān)系數(shù)反映了指標之間的相關(guān)程度,進而反映了指標之間影響作用的大??;相關(guān)方向反映了指標之間互相影響的方向,揭示了SDGs 指標之間的促進和制約關(guān)系。本數(shù)據(jù)集為SDGs 指標監(jiān)測和實施提供了一定的參考價值,用戶既可用來分析SDGs 指標之間促進和制約的關(guān)系,亦可參考制定相應(yīng)政策。
致 謝
感謝基金項目對于本研究的支持,以及感謝Sachs J、Schmidt-Traub 等人提供的原始數(shù)據(jù)。
數(shù)據(jù)作者分工職責
高天(1995—),男,內(nèi)蒙古呼和浩特市人,在讀碩士研究生,研究方向為大數(shù)據(jù)挖掘與應(yīng)用。主要承擔工作:數(shù)據(jù)處理、論文撰寫。
張麗麗(1984—),女,高級工程師,研究方向為開放科學、開放數(shù)據(jù)技術(shù)政策,信息經(jīng)濟學。主要承擔工作:數(shù)據(jù)校核、質(zhì)量控制。
黎建輝(1973—),男,研究員,研究方向為大數(shù)據(jù)資源開放共享、大數(shù)據(jù)管理技術(shù)、大數(shù)據(jù)計算與分析技術(shù)等。主要承擔工作:文章框架和方向的把握。