国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于工作流的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型構(gòu)建

2021-12-03 08:51:34李丹丹張玉堯鄭國(guó)清
河南農(nóng)業(yè)科學(xué) 2021年10期
關(guān)鍵詞:年鑒單元格計(jì)量單位

張 輝,魏 東,喬 璐,李丹丹,張玉堯,鄭國(guó)清,馮 曉

(1. 河南省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與信息研究所,河南鄭州 450002;2. 河南省智慧農(nóng)業(yè)工程技術(shù)研究中心,河南鄭州 450002)

隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)清洗逐漸成為各行各業(yè)數(shù)據(jù)治理中面臨的重要工作[1?4]。統(tǒng)計(jì)年鑒是我國(guó)重要的基礎(chǔ)性數(shù)據(jù)資源,涉及眾多行業(yè)和領(lǐng)域,具有權(quán)威性和廣泛性。農(nóng)業(yè)領(lǐng)域宏觀決策及科學(xué)研究往往需要大量多種類統(tǒng)計(jì)年鑒數(shù)據(jù)作為支撐[5?8]。然而,各種類統(tǒng)計(jì)年鑒分年度獨(dú)立成冊(cè),經(jīng)多年積累,具有體量大、文件格式多樣、指標(biāo)名稱不一致等特征,提取跨年鑒、跨年度、多指標(biāo)數(shù)據(jù)工作量大且繁瑣,嚴(yán)重阻礙了統(tǒng)計(jì)年鑒的分析利用效率。目前,運(yùn)用大數(shù)據(jù)理念實(shí)現(xiàn)統(tǒng)計(jì)年鑒傳統(tǒng)功能的突破和拓展已成為年鑒工作者的共識(shí)[9?10],數(shù)據(jù)清洗在其中扮演了關(guān)鍵角色。將分散的多年、多種類統(tǒng)計(jì)年鑒數(shù)據(jù)清洗整合成1 套高標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)集,以實(shí)現(xiàn)綜合快速查詢,對(duì)于提升統(tǒng)計(jì)年鑒分析利用效率具有重要作用。

國(guó)內(nèi)外很多學(xué)者對(duì)結(jié)構(gòu)化數(shù)據(jù)清洗技術(shù)開展了研究,郝爽等[11]深入總結(jié)了數(shù)據(jù)缺失、數(shù)據(jù)冗余、數(shù)據(jù)沖突、數(shù)據(jù)錯(cuò)誤等數(shù)據(jù)噪音的檢測(cè)及消除技術(shù)研究進(jìn)展,已有研究成果表明,統(tǒng)計(jì)年鑒數(shù)據(jù)清洗已具備技術(shù)基礎(chǔ)。但是,統(tǒng)計(jì)年鑒數(shù)據(jù)的清洗涉及多類數(shù)據(jù)噪音的檢測(cè)及消除,并需經(jīng)過一系列數(shù)據(jù)抽取、轉(zhuǎn)換、比對(duì),過程繁雜。采用流程化集成清洗是完成過程繁雜清洗任務(wù)的有效手段。工作流建模技術(shù)是實(shí)現(xiàn)業(yè)務(wù)流程優(yōu)化和整合,提高工作效率的核心技術(shù)[12],在網(wǎng)絡(luò)安全漏洞管理[13]、建筑市場(chǎng)監(jiān)管[14]、工業(yè)設(shè)計(jì)過程管理[15]、ERP 實(shí)施流程和業(yè)務(wù)管理[16]等眾多領(lǐng)域得到了成功應(yīng)用。武小平等[17]使用JavaEE 的分層模式和組件技術(shù)構(gòu)建了一個(gè)基于工作流程的通用、可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng),但該系統(tǒng)通過編程實(shí)現(xiàn),技術(shù)門檻高。近年來,OpenRefine、Trifacta Wrangler、DataKleenr、Alteryx、KNIME、Rapid Miner、Weka 等非編程式可視化數(shù)據(jù)清洗、挖掘軟件的出現(xiàn),使得不懂編程的業(yè)務(wù)人員零代碼完成數(shù)據(jù)清洗成為可能。其中,OpenRefine、Trifacta Wrangler、DataKleenr 功能較為單一,完成復(fù)雜的數(shù)據(jù)清洗任務(wù)需聯(lián)合多個(gè)軟件;Alteryx、KNIME、Rapid Miner、Weka 為綜合型數(shù)據(jù)自助分析平臺(tái),可完成數(shù)據(jù)清洗、挖掘、分析、可視化展示等全過程[18?19]?;谝陨戏治觯岢霾捎肁lteryx 建立基于工作流的數(shù)據(jù)清洗模型的方案清洗統(tǒng)計(jì)年鑒數(shù)據(jù)。

《中國(guó)統(tǒng)計(jì)年鑒》及《河南統(tǒng)計(jì)年鑒》等全國(guó)31個(gè)?。ㄊ?、區(qū))統(tǒng)計(jì)年鑒是我國(guó)最全面、最具權(quán)威性的綜合統(tǒng)計(jì)年鑒,全面反映全國(guó)及各?。ㄊ小^(qū))經(jīng)濟(jì)和社會(huì)發(fā)展情況,被農(nóng)業(yè)領(lǐng)域研究人員廣泛引用。鑒于此,以2000—2018 年上述統(tǒng)計(jì)年鑒為例,研究基于工作流的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型構(gòu)建方法,以期實(shí)現(xiàn)統(tǒng)計(jì)年鑒數(shù)據(jù)的高效整合,并為其他各類復(fù)雜數(shù)值類型結(jié)構(gòu)化數(shù)據(jù)的清洗提供參考。

1 材料和方法

1.1 數(shù)據(jù)來源及預(yù)處理

通過統(tǒng)計(jì)局官網(wǎng)下載、購買等方式收集2000—2018 年《中國(guó)統(tǒng)計(jì)年鑒》及《河南統(tǒng)計(jì)年鑒》等全國(guó)31 個(gè)省(市、區(qū))統(tǒng)計(jì)年鑒。年鑒數(shù)據(jù)整體情況如下:(1)數(shù)據(jù)體量大。包含33 萬個(gè)文件、120 萬張表單,總?cè)萘窟_(dá)21 GB。(2)數(shù)據(jù)更新速度快。每年新增6 萬多張表單。(3)數(shù)據(jù)格式多樣。包含html、xml、xls、xlsx、pdf 等多種格式。(4)文件呈現(xiàn)形式不確定。每個(gè)文件包含單張或多張表單,每張表單也可能由單張或多張表組成,例如從河南省統(tǒng)計(jì)局官網(wǎng)下載《河南統(tǒng)計(jì)年鑒(2017)》中“表7-13 河南與國(guó)外結(jié)成友好城市一覽表”得到的“0713.xls”文件中包含了1 張表單“Sheet1”,“Sheet1”由左右排列的2張表組成。為便于清洗,采用開源的第三方工具DocToText 和基于Visual Basic 的腳本語言(Microsoft Visual Basic Script Edition,VBS)編程的方式將統(tǒng)計(jì)年鑒原始文件批量轉(zhuǎn)換成xlsx 格式,按省份和年度分類存放于統(tǒng)一目錄。

1.2 數(shù)據(jù)特征分析

《中國(guó)統(tǒng)計(jì)年鑒》與各?。ㄊ小^(qū))統(tǒng)計(jì)年鑒存在整體架構(gòu)、統(tǒng)計(jì)口徑及數(shù)據(jù)不一致等問題;不同省(市、區(qū))統(tǒng)計(jì)年鑒,也存在內(nèi)容設(shè)置、整體架構(gòu)、統(tǒng)計(jì)專題、指標(biāo)內(nèi)容不一致等問題[20]。隨著經(jīng)濟(jì)社會(huì)發(fā)展變化,同一年鑒不同年度部分統(tǒng)計(jì)指標(biāo)也發(fā)生了變遷[21]。正確解讀統(tǒng)計(jì)年鑒內(nèi)容架構(gòu)[22]、主體分類[23]、指標(biāo)體系[24]等特征是做好統(tǒng)計(jì)年鑒數(shù)據(jù)清洗工作的前提。另外,統(tǒng)計(jì)年鑒還具有如下特征:指標(biāo)數(shù)值有整數(shù)、科學(xué)計(jì)數(shù)、小數(shù)、分?jǐn)?shù)、比值、字符等多種類型;不同年度、不同種類年鑒同一指標(biāo)的計(jì)量單位可能存在不一致現(xiàn)象;指標(biāo)在時(shí)間上包含年鑒年度、統(tǒng)計(jì)年度、指標(biāo)期間、月份數(shù)據(jù)等各種類型;指標(biāo)在空間上除按全國(guó)和各省、自治區(qū)、直轄市、市(縣)分組外,還有按東、中、西部及東北地區(qū)分組,按京津冀及長(zhǎng)江經(jīng)濟(jì)帶分組等多種分組方式。經(jīng)分析,統(tǒng)計(jì)年鑒數(shù)據(jù)可通過指標(biāo)名稱、計(jì)量單位、指標(biāo)數(shù)值、時(shí)間特征、空間特征和數(shù)據(jù)來源6個(gè)維度來規(guī)范標(biāo)識(shí)。

對(duì)單表數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范化處理及提取是統(tǒng)計(jì)年鑒數(shù)據(jù)清洗的關(guān)鍵。統(tǒng)計(jì)年鑒典型單表如圖1所示,依據(jù)圖1 中的十字線可將單表拆分為4 個(gè)區(qū)域。左上部分為表指標(biāo)區(qū)域,通常包含表名稱、表年度、表單位、表計(jì)算方法、表空間;左下部分為行指標(biāo)區(qū)域,通常包含行名稱、行單位、行年度、行計(jì)算方法、行空間;右上部分為列指標(biāo)區(qū)域,通常包含列名稱、列單位、列年度、列計(jì)算方法、列空間。從以上3 個(gè)區(qū)域提取指標(biāo)名稱、計(jì)量單位及數(shù)據(jù)對(duì)應(yīng)的時(shí)間和空間特征。右下部分為數(shù)值區(qū)域,提取指標(biāo)數(shù)值。

圖1 《河南統(tǒng)計(jì)年鑒(2013)》典型單表示例Fig.1 Typical sigle table example in Henan Statistical Yearbook(2013)

指標(biāo)名稱提取較為復(fù)雜,通常涉及到行指標(biāo)、列指標(biāo)甚至表指標(biāo)信息。如《中國(guó)統(tǒng)計(jì)年鑒(2017)》中“12—4 主要農(nóng)業(yè)機(jī)械擁有量(年底數(shù))”的指標(biāo)名稱來自行指標(biāo),并被拆分在多個(gè)單元格中;“20—18 按國(guó)際標(biāo)準(zhǔn)分類的發(fā)明和實(shí)用新型專利申請(qǐng)受理數(shù)與授權(quán)數(shù)”的指標(biāo)名稱需要將表指標(biāo)、行指標(biāo)和列指標(biāo)組合后形成。同一指標(biāo)名稱在不同表中的提取方式也有所不同。如《中國(guó)統(tǒng)計(jì)年鑒(2017)》中“12—1 農(nóng)業(yè)生產(chǎn)條件與農(nóng)作物播種面積”和“12—4主要農(nóng)業(yè)機(jī)械擁有量(年底數(shù))”的“大中型拖拉機(jī)”“大中型拖拉機(jī)配套農(nóng)具”等指標(biāo)名稱需分別在行指標(biāo)和列指標(biāo)中提取。不同年度年鑒中同一指標(biāo)名稱的表述也可能不一致。如《中國(guó)統(tǒng)計(jì)年鑒(2017)》中“1—2 國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展總量與速度指標(biāo)”的指標(biāo)名稱“總?cè)丝冢昴薄俺擎?zhèn)人口”“就業(yè)人員數(shù)”分別等同《中國(guó)統(tǒng)計(jì)年鑒(2001)》中“2—3 國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展總量與速度指標(biāo)”的指標(biāo)名稱“年底總?cè)丝凇薄笆墟?zhèn)人口”“從業(yè)人員數(shù)”。除上述情況外,還有其他特殊情況導(dǎo)致指標(biāo)名稱提取復(fù)雜。

1.3 數(shù)據(jù)清洗模型構(gòu)建

在分析統(tǒng)計(jì)年鑒數(shù)據(jù)特征后,采用Alteryx Designer 2019.2 學(xué)習(xí)版,基于工作流技術(shù)構(gòu)建統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型。Alteryx Designer 的基本工作原理是將數(shù)據(jù)處理過程工具化,將輸入、轉(zhuǎn)換、取樣、模型、匹配、評(píng)估、驗(yàn)證、導(dǎo)出等數(shù)據(jù)清洗過程通過其內(nèi)置工具或自定義宏采用流的方式關(guān)聯(lián)起來,實(shí)現(xiàn)數(shù)據(jù)清洗全過程自動(dòng)化。本研究構(gòu)建的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型如圖2所示。模型包含提取目錄及文件、提取文件中的表單、提取表單中表的內(nèi)容、數(shù)據(jù)清洗及規(guī)范、規(guī)范標(biāo)識(shí)數(shù)據(jù)的6個(gè)維度、數(shù)據(jù)重組和數(shù)據(jù)輸出共7個(gè)步驟。

圖2 統(tǒng)計(jì)年鑒數(shù)據(jù)清洗工作流模型Fig.2 Workflow model of statistical yearbook data cleaning

模型建立匹配數(shù)據(jù)字典對(duì)統(tǒng)計(jì)年鑒中指標(biāo)名稱、計(jì)量單位及空間區(qū)域表述等不一致問題進(jìn)行了規(guī)范。為實(shí)現(xiàn)數(shù)據(jù)清洗全過程可追溯,模型所有中間步驟及最終清洗結(jié)果均記錄了每條數(shù)據(jù)的文件及表單來源,所在表的行、列等原始信息,建模中可隨時(shí)對(duì)各階段清洗結(jié)果進(jìn)行驗(yàn)證。為提高數(shù)據(jù)清洗效率,將提取目錄及文件等重復(fù)流程制作成自定義宏,進(jìn)行循環(huán)調(diào)用。

1.4 數(shù)據(jù)質(zhì)量控制

1.4.1 重復(fù)指標(biāo)數(shù)據(jù)處理 對(duì)于指標(biāo)數(shù)值一致的重復(fù)數(shù)據(jù)刪除重復(fù)即可,對(duì)于指標(biāo)數(shù)值不一致的重復(fù)數(shù)據(jù),取值規(guī)則為:(1)出版時(shí)間不同,取最新版年鑒的指標(biāo)數(shù)值。(2)同期出版,取高級(jí)別年鑒的指標(biāo)數(shù)值。(3)有修訂說明,取修訂后年鑒的指標(biāo)數(shù)值。(4)重復(fù)多次,取出現(xiàn)次數(shù)最多的指標(biāo)數(shù)值。(5)有多個(gè)不同指標(biāo)數(shù)值,指標(biāo)數(shù)值取中位數(shù)。

1.4.2 數(shù)據(jù)清洗質(zhì)量驗(yàn)證 從以下3個(gè)方面對(duì)數(shù)據(jù)清洗質(zhì)量進(jìn)行驗(yàn)證:(1)模型構(gòu)建過程中的隨機(jī)驗(yàn)證。隨機(jī)驗(yàn)證數(shù)據(jù)清洗階段性成果的正確性及匹配數(shù)據(jù)字典設(shè)置的全面性,隨時(shí)修改模型及完善匹配數(shù)據(jù)字典,及時(shí)避免錯(cuò)誤發(fā)生。(2)最終清洗結(jié)果的單指標(biāo)驗(yàn)證。在最終清洗結(jié)果中選擇單個(gè)指標(biāo)名稱,從時(shí)間和空間2 個(gè)維度對(duì)統(tǒng)一計(jì)量單位后的指標(biāo)數(shù)值進(jìn)行時(shí)序比較驗(yàn)證。如指標(biāo)數(shù)值序列通常隨時(shí)間呈規(guī)律性變化,若某一指標(biāo)數(shù)值某年度發(fā)生超出正常范圍的突變,則追溯檢查該指標(biāo)數(shù)值出現(xiàn)質(zhì)量問題的原因,從而修正完善模型。(3)最終清洗結(jié)果中關(guān)聯(lián)關(guān)系指標(biāo)的驗(yàn)證。如人均國(guó)民生產(chǎn)總值與國(guó)民生產(chǎn)總值和常住人口之間具有關(guān)聯(lián)關(guān)系,當(dāng)由國(guó)民生產(chǎn)總值和常住人口計(jì)算得到的人均國(guó)民生產(chǎn)總值與清洗提取的人均國(guó)民生產(chǎn)總值差距較大時(shí),則需追溯檢查這3 個(gè)指標(biāo)數(shù)據(jù)出現(xiàn)偏差或錯(cuò)誤的原因。

2 統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型構(gòu)建關(guān)鍵技術(shù)實(shí)現(xiàn)及結(jié)果分析

2.1 單表數(shù)據(jù)分區(qū)拆分

單表數(shù)據(jù)分區(qū)拆分的關(guān)鍵是標(biāo)識(shí)出數(shù)值區(qū)域,如圖1中十字線右下角第1個(gè)數(shù)字(284 152)對(duì)應(yīng)的單元格為數(shù)值區(qū)域的起始單元格,即表4 個(gè)區(qū)域拆分點(diǎn)所在單元格。單表分區(qū)拆分流程如圖3 所示。首先,提取單表數(shù)據(jù),新增2列用于標(biāo)識(shí)表中每個(gè)單元格數(shù)據(jù)對(duì)應(yīng)的行列序號(hào)。然后,取第1 個(gè)數(shù)值所在單元格作為初始拆分點(diǎn)進(jìn)行拆分,定位數(shù)值區(qū)域每個(gè)單元格數(shù)值對(duì)應(yīng)的行和列屬性,將2 維矩陣表按行和列轉(zhuǎn)置為1維表來表達(dá)每個(gè)數(shù)值與其對(duì)應(yīng)行區(qū)域和列區(qū)域的關(guān)系(圖4)。轉(zhuǎn)置的同時(shí),新增1列對(duì)單元格中的數(shù)值進(jìn)行字符轉(zhuǎn)數(shù)值再轉(zhuǎn)字符操作,若新增列值與單元格中的數(shù)值相同,則此單元格中數(shù)值為有效數(shù)值,否則為非數(shù)值區(qū)域數(shù)據(jù)。另外,為區(qū)分行指標(biāo)區(qū)域和列指標(biāo)區(qū)域出現(xiàn)的數(shù)值為年度信息還是指標(biāo)數(shù)值,還需判別整行及整列的數(shù)值是否全在1900—2020內(nèi),若是則標(biāo)識(shí)該行或列為年度信息,否則標(biāo)識(shí)為指標(biāo)數(shù)值。最后,依據(jù)最終獲取的數(shù)值區(qū)域的行最小值和列最小值所對(duì)應(yīng)的單元格作為拆分點(diǎn),將單表拆分為表指標(biāo)、列指標(biāo)、行指標(biāo)、數(shù)值區(qū)域四部分。

圖3 單表分區(qū)拆分流程Fig.3 Partitioning process of single table

圖4 單表數(shù)據(jù)矩陣轉(zhuǎn)置Fig.4 Data matrix transposition of single table

2.2 單表數(shù)據(jù)分區(qū)提取

首先,提取表指標(biāo)區(qū)域數(shù)據(jù),提取流程如圖5所示。使用正則表達(dá)式(表|d+-d+.*)提取“以數(shù)字開頭+中文”或“表+數(shù)字+中文”的表名稱信息為table_name 列,表名稱中通常含有指標(biāo)名稱、指標(biāo)年度、指標(biāo)所屬區(qū)域等信息。使用正則表達(dá)式(19|20d{2})提取年度信息為table_year 列;使用正則表達(dá)式((?<=單位:).*)提取計(jì)量單位信息為table_unit列。

圖5 單表表指標(biāo)區(qū)域數(shù)據(jù)提取流程Fig.5 Table indicator regional data extraction process of single table

其次,提取行、列指標(biāo)區(qū)域數(shù)據(jù)。以列指標(biāo)區(qū)域數(shù)據(jù)提取為例,因列指標(biāo)信息通常分散于同一列的不同行單元格內(nèi),要先將同一列不同行的單元格數(shù)據(jù)進(jìn)行合并,提取列名稱信息為col_name 列;再用正則表達(dá)式提取列年度信息為col_year 列、列計(jì)量單位信息為col_unit 列,若無這些信息則輸出空值null。類似,提取行名稱信息row_name 列、行年度信息row_year列、行計(jì)量單位信息row_unit列。

最后,以文件名FileName 為關(guān)鍵列,對(duì)表指標(biāo)區(qū)域、行指標(biāo)區(qū)域和列指標(biāo)區(qū)域數(shù)據(jù)進(jìn)行交集處理。合并table_name、col_name 和row_name 列為con_name 列,合并table_year、col_year 和row_year 列為con_year 列,合并table_unit、col_unit 和row_unit列為con_unit 列。 再以con_name、con_year 和con_unit 列為關(guān)鍵列與數(shù)值區(qū)域進(jìn)行交集運(yùn)算,初步完成單表提取。圖6為年鑒單表數(shù)據(jù)提取流程。

2.3 制作單表數(shù)據(jù)提取宏批量提取單表數(shù)據(jù)

鑒于單表數(shù)據(jù)提取方法基本一致,將單表數(shù)據(jù)提取流程制作成自定義宏,即可將所有類似單表通過循環(huán)調(diào)用宏的方式進(jìn)行數(shù)據(jù)批量提取及合并輸出。圖7為年鑒單表數(shù)據(jù)提取宏的工作流程。為節(jié)約時(shí)間,可先隨機(jī)提取33萬個(gè)原始文件中的1%,利用制作的宏提取數(shù)據(jù)后追溯驗(yàn)證并修正宏,之后再進(jìn)行所有單表數(shù)據(jù)的正式提取。圖8為隨機(jī)抽取文件循環(huán)調(diào)用宏批量提取單表數(shù)據(jù)的流程。

圖7 單表數(shù)據(jù)提取宏Fig.7 Data extraction macro of single table

圖8 隨機(jī)抽取文件循環(huán)調(diào)用宏批量提取單表數(shù)據(jù)Fig.8 Randomly extracting file and recycling macro to extract data of single table

2.4 建立匹配數(shù)據(jù)字典規(guī)范標(biāo)識(shí)數(shù)據(jù)

2.4.1 指標(biāo)名稱匹配數(shù)據(jù)字典 鑒于不同年度、不同年鑒統(tǒng)計(jì)指標(biāo)名稱表述上略有差別,建立指標(biāo)名稱匹配數(shù)據(jù)字典進(jìn)行規(guī)范(表1)。如將國(guó)民生產(chǎn)總值、國(guó)內(nèi)生產(chǎn)總值、GDP統(tǒng)一規(guī)范為國(guó)民生產(chǎn)總值。

表1 指標(biāo)名稱匹配數(shù)據(jù)字典(部分內(nèi)容)Tab.1 Indicator name matching data dictionary(partial contents)

2.4.2 計(jì)量單位匹配數(shù)據(jù)字典 為統(tǒng)一指標(biāo)計(jì)量單位,以基本計(jì)量單位作為清洗后的計(jì)量單位,按照計(jì)量單位與基本計(jì)量單位的換算系數(shù),建立計(jì)量單位匹配數(shù)據(jù)字典進(jìn)行規(guī)范(表2)。如某指標(biāo)計(jì)量單位在某些年度為萬元,而在另一些年度為億元,將基本計(jì)量單位設(shè)置為元,則換算系數(shù)分別是10 000和100 000 000。

表2 計(jì)量單位匹配數(shù)據(jù)字典(部分內(nèi)容)Tab.2 Measurement unit matching data dictionary(partial contents)

2.4.3 空間區(qū)域名稱匹配數(shù)據(jù)字典 為統(tǒng)一年鑒空間區(qū)域名稱,建立空間區(qū)域名稱匹配數(shù)據(jù)字典進(jìn)行規(guī)范(表3)。如將內(nèi)蒙、內(nèi)蒙古、內(nèi)蒙古自治區(qū)、內(nèi)蒙自治區(qū)、蒙統(tǒng)一規(guī)范為內(nèi)蒙古自治區(qū)。

表3 空間區(qū)域名稱匹配數(shù)據(jù)字典(部分內(nèi)容)Tab.3 Spatial region name matching data dictionary(partial contents)

2.4.4 利用匹配數(shù)據(jù)字典規(guī)范標(biāo)識(shí)數(shù)據(jù) 圖9為利用匹配數(shù)據(jù)字典規(guī)范標(biāo)識(shí)數(shù)據(jù)的流程。在用匹配數(shù)據(jù)字典對(duì)提取的原始數(shù)據(jù)進(jìn)行匹配前,要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,其中,主要包括將所有全角字符轉(zhuǎn)換為半角,去掉所有空格和非法字符(如換行符、回車符)等。

圖9 利用匹配數(shù)據(jù)字典規(guī)范標(biāo)識(shí)數(shù)據(jù)Fig.9 Identifying data by matching data dictionary

2.5 年鑒清洗結(jié)果

利用構(gòu)建的數(shù)據(jù)清洗模型將本研究中分散獲取的容量達(dá)21 GB、包含33 萬個(gè)文件和120 萬張表單的統(tǒng)計(jì)年鑒原始數(shù)據(jù)最終整合成1 套包含6 000多萬條指標(biāo)數(shù)據(jù)序列的高標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)集。每條指標(biāo)數(shù)據(jù)都清楚地由指標(biāo)名稱、計(jì)量單位、指標(biāo)數(shù)值等6個(gè)維度標(biāo)識(shí),實(shí)現(xiàn)了不同年度、不同年鑒數(shù)據(jù)的綜合快速查詢。圖10 為最終輸出的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗結(jié)果。采用Win10 操作系統(tǒng),16 GB 內(nèi)存的筆記本電腦,構(gòu)建的基于工作流的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型,用時(shí)4~5 h 即完成本研究中統(tǒng)計(jì)年鑒數(shù)據(jù)清洗任務(wù),高效便捷。

圖10 統(tǒng)計(jì)年鑒數(shù)據(jù)最終清洗結(jié)果Fig.10 Final cleaning results of statistical yearbook data

3 結(jié)論與討論

目前,對(duì)多年度、多種類統(tǒng)計(jì)年鑒數(shù)據(jù)清洗的研究較少。本研究采用Alteryx Designer 2019.2 學(xué)習(xí)版,以拖拽控件到面板并設(shè)置控件屬性的可視化操作方式構(gòu)建了基于工作流的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型,實(shí)現(xiàn)了2000—2018 年《中國(guó)統(tǒng)計(jì)年鑒》及《河南統(tǒng)計(jì)年鑒》等全國(guó)31 個(gè)?。ㄊ?、區(qū))統(tǒng)計(jì)年鑒數(shù)據(jù)的清洗。經(jīng)測(cè)試,模型同樣勝任《中國(guó)城市統(tǒng)計(jì)年鑒》《中國(guó)旅游年鑒》等其他統(tǒng)計(jì)年鑒數(shù)據(jù)的清洗。本研究為統(tǒng)計(jì)年鑒數(shù)據(jù)清洗及整合提供了一套易操作且靈活性強(qiáng)的解決方案。

另外,本研究建立的模型還有如下不足之處有待解決:對(duì)于Excel 中的嵌套表和含有多張表的表單,需拆分成單張表處理。不適用于非數(shù)值型數(shù)據(jù)的清洗。數(shù)據(jù)清洗過程高度依賴人工建立的匹配數(shù)據(jù)字典規(guī)范標(biāo)識(shí)數(shù)據(jù),字典完備性直接決定數(shù)據(jù)清洗準(zhǔn)確性。下一步計(jì)劃開展Alteryx Designer 掛接人工智能(Artificial intelligence,AI)開展結(jié)構(gòu)化數(shù)據(jù)自動(dòng)處理方面的研究,以期進(jìn)一步提升數(shù)據(jù)清洗模型構(gòu)建效率。

猜你喜歡
年鑒單元格計(jì)量單位
感謝《年鑒》
免年鑒
——卯年大事件
源流(2023年2期)2023-03-29 05:46:58
四川31部年鑒獲全國(guó)獎(jiǎng)項(xiàng)
巴蜀史志(2023年6期)2023-03-18 05:11:26
瘋狂的計(jì)量單位
瘋狂的計(jì)量單位
瘋狂的計(jì)量單位
2016—2019年全國(guó)獲得“中國(guó)精品年鑒”名錄
玩轉(zhuǎn)方格
玩轉(zhuǎn)方格
淺談Excel中常見統(tǒng)計(jì)個(gè)數(shù)函數(shù)的用法
西部皮革(2018年6期)2018-05-07 06:41:07
连江县| 吴忠市| 昆明市| 景德镇市| 麻江县| 洞口县| 焦作市| 清丰县| 喀什市| 安远县| 日喀则市| 淳安县| 乐清市| 龙游县| 年辖:市辖区| 周宁县| 田东县| 乐至县| 工布江达县| 汉阴县| 新田县| 枞阳县| 永康市| 酒泉市| 麻城市| 乾安县| 呼图壁县| 高台县| 永川市| 汕尾市| 额尔古纳市| 广南县| 绥棱县| 博兴县| 个旧市| 罗城| 通化县| 错那县| 佛坪县| 巴林左旗| 南澳县|