国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)下政府統(tǒng)計調(diào)查升級

2020-08-10 09:23張雯婷徐映梅
合作經(jīng)濟與科技 2020年16期
關(guān)鍵詞:大數(shù)據(jù)

張雯婷 徐映梅

[提要] 統(tǒng)計調(diào)查是統(tǒng)計活動中非常重要的一項基礎(chǔ)性工作。大數(shù)據(jù)時代的來臨使傳統(tǒng)統(tǒng)計調(diào)查的內(nèi)容、方式、技術(shù)已經(jīng)或?qū)⒁l(fā)生根本性改變。在梳理傳統(tǒng)統(tǒng)計調(diào)查概念基礎(chǔ)上,就大數(shù)據(jù)對統(tǒng)計調(diào)查產(chǎn)生的影響和面臨的問題進行歸納,給出大數(shù)據(jù)統(tǒng)計調(diào)查的定義和特點,比較傳統(tǒng)統(tǒng)計調(diào)查與大數(shù)據(jù)統(tǒng)計調(diào)查的差異,概述統(tǒng)計調(diào)查中的大數(shù)據(jù)技術(shù)。

關(guān)鍵詞:大數(shù)據(jù);政府統(tǒng)計;統(tǒng)計調(diào)查

中圖分類號:F222.1 文獻標識碼:A

收錄日期:2020年5月18日

大數(shù)據(jù)涌現(xiàn)對統(tǒng)計工作產(chǎn)生了較大影響,這使傳統(tǒng)統(tǒng)計調(diào)查工作面臨新的挑戰(zhàn)。統(tǒng)計調(diào)查是統(tǒng)計工作中非常重要的一項基礎(chǔ)性工作。對此,統(tǒng)計工作者非常關(guān)心:大數(shù)據(jù)對統(tǒng)計調(diào)查有什么影響?統(tǒng)計調(diào)查將遇到什么新問題?統(tǒng)計調(diào)查如何應對?大數(shù)據(jù)時代的統(tǒng)計調(diào)查與傳統(tǒng)統(tǒng)計調(diào)查有什么不同?其特點是什么?未來統(tǒng)計調(diào)查工作將面臨什么挑戰(zhàn)?諸如此類的問題研究不僅具有較強的理論意義,也有重要的實用價值。

一、引言

傳統(tǒng)調(diào)查一直是我國統(tǒng)計工作的基礎(chǔ),它建立在國家逐漸完善的統(tǒng)計調(diào)查制度基礎(chǔ)之上。然而其統(tǒng)計調(diào)查體系在實踐中卻時常遭遇質(zhì)疑,比如“統(tǒng)計調(diào)查方法相對單一,對全面統(tǒng)計調(diào)查方法過于依賴;統(tǒng)計報表由下而上逐級匯報使統(tǒng)計數(shù)據(jù)失真;統(tǒng)計調(diào)查不夠系統(tǒng)和規(guī)范”。大數(shù)據(jù)時代到來,對統(tǒng)計調(diào)查工作既是挑戰(zhàn)也是機遇。為此,有學者提出了大數(shù)據(jù)時代統(tǒng)計學研究的若干理論問題。針對大數(shù)據(jù)時代下的政府統(tǒng)計工作,有學者提出了若干建議,比如政府統(tǒng)計工作的改革,其工作評價、應用路徑、應用瓶頸與融合問題。近年的大數(shù)據(jù)統(tǒng)計調(diào)查工作主要涉及宏觀政府統(tǒng)計調(diào)查體系改革和統(tǒng)計調(diào)查工作的完善。胡海靖從多個角度就中國政府統(tǒng)計調(diào)查體系提出一系列改革設(shè)想。另外,還涉及價格調(diào)查和我國CPI調(diào)查方面的應用。而米子川的研究則是大數(shù)據(jù)指數(shù)是否可以替代統(tǒng)計調(diào)查指數(shù)的討論。更進一步的研究涉及統(tǒng)計數(shù)據(jù)資源整合、數(shù)據(jù)融合與質(zhì)量評價、大數(shù)據(jù)分析方法和算法。

以上研究為深入展開大數(shù)據(jù)時代統(tǒng)計調(diào)查方面的研究奠定了良好的基礎(chǔ),但未見大數(shù)據(jù)時代統(tǒng)計調(diào)查可能遇到問題的系統(tǒng)闡述,也未見科學大數(shù)據(jù)時代統(tǒng)計調(diào)查準確定義、特點、與傳統(tǒng)統(tǒng)計調(diào)查比較方面的文獻。本文將在梳理傳統(tǒng)統(tǒng)計調(diào)查概念的基礎(chǔ)上,分析大數(shù)據(jù)對統(tǒng)計調(diào)查的影響及其可能面臨的問題,給出大數(shù)據(jù)時代統(tǒng)計調(diào)查的定義,并比較它與傳統(tǒng)統(tǒng)計調(diào)查的差異,概述統(tǒng)計調(diào)查中需要應用的大數(shù)據(jù)技術(shù)。

二、大數(shù)據(jù)時代統(tǒng)計調(diào)查新變化

(一)傳統(tǒng)統(tǒng)計調(diào)查概念的梳理。在定義大數(shù)據(jù)統(tǒng)計調(diào)查概念之前,先就傳統(tǒng)統(tǒng)計調(diào)查概念進行梳理。盡管學者對統(tǒng)計調(diào)查概念沒有統(tǒng)一的定義,各自表述不同,但其總體核心內(nèi)容基本一致。

對傳統(tǒng)統(tǒng)計調(diào)查概念在論文中定義的梳理。國家統(tǒng)計局制度方法司方法研究處(1991),給出了統(tǒng)計調(diào)查的定義。有學者認為,統(tǒng)計調(diào)查實際上就是從目標總體中獲得數(shù)據(jù)。類似的定義如學者李瑞軍(2012)、馬天芳(2015)的定義強調(diào)搜集統(tǒng)計資料時應采用對比方法,強調(diào)定量分析和統(tǒng)計匯總的重要性。

以上統(tǒng)計調(diào)查的定義基本概況了其本質(zhì),但只從目的、方法和結(jié)果幾個方面進行了闡述,這些定義均不夠全面。比較2017年8月1日實施的《中華人民共和國統(tǒng)計法實施條例》第二章統(tǒng)計調(diào)查項目的規(guī)定,筆者認為,統(tǒng)計調(diào)查比較完善的定義應該為:它是根據(jù)統(tǒng)計調(diào)查的目的和任務,經(jīng)統(tǒng)計調(diào)查項目審批、備案和公布,采用科學方法和調(diào)查組織方式,依據(jù)預先設(shè)計的調(diào)查表式和規(guī)范標準,在財政預算范圍內(nèi),有計劃、系統(tǒng)地搜集、整理和分析統(tǒng)計資料,并通過計算機網(wǎng)絡(luò)報送的工作過程。

(二)大數(shù)據(jù)時代統(tǒng)計調(diào)查應注意的問題。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別在于其各自的特點,大數(shù)據(jù)有很多異于傳統(tǒng)數(shù)據(jù)的特點。IBM在總結(jié)其他學者觀點的基礎(chǔ)上,提出了大數(shù)據(jù)的5V特征,即Volume(大體量)、Variety(多樣性,數(shù)據(jù)各種格式和形態(tài))、Velocity(時效性)、Veracity(真實性,數(shù)據(jù)質(zhì)量)和Value(大價值)。有學者從統(tǒng)計視角強調(diào)其異構(gòu)、高維、稀疏的特點,實際上這些特點均包含在以上五個特點中。在進行了大數(shù)據(jù)影響分析后,筆者認為,在進行統(tǒng)計調(diào)查時,應該注意以下問題:

1、數(shù)據(jù)采集的問題。傳統(tǒng)統(tǒng)計調(diào)查,以人工方式獲取數(shù)據(jù)為主,以計算機為輔;而大數(shù)據(jù)時代統(tǒng)計調(diào)查則應該是以計算機方式獲取數(shù)據(jù)為主,以人工為輔。這是因為通過傳感器、設(shè)備儀表、手機、互聯(lián)網(wǎng)等采集數(shù)據(jù)的方式已開始逐漸普及,這給政府統(tǒng)計調(diào)查工作提出了新的問題和挑戰(zhàn)。

2、數(shù)據(jù)質(zhì)量的問題。對于大數(shù)據(jù)時代的海量數(shù)據(jù),筆者認為,有三個方面值得注意:一是數(shù)據(jù)中有噪聲。如果獲取的統(tǒng)計調(diào)查數(shù)據(jù)有噪聲,顯然其數(shù)據(jù)質(zhì)量不高。對大數(shù)據(jù)來說有噪聲是很正常的現(xiàn)象,因為它是“全息”記錄。解決問題的方法就是去燥,使統(tǒng)計調(diào)查數(shù)據(jù)的質(zhì)量到達規(guī)定標準。二是部分數(shù)據(jù)詳細,部分數(shù)據(jù)稀疏的問題。對于過于詳細的大數(shù)據(jù),統(tǒng)計調(diào)查應注意邊際效應的問題;對于數(shù)據(jù)稀疏的問題,可以適度增加抽樣調(diào)查、重點調(diào)查和科學估算方法等手段補齊。三是大數(shù)據(jù)不能覆蓋全部對象。也就是“互聯(lián)網(wǎng)外有大魚”,“數(shù)據(jù)再大也是相對的”,這是統(tǒng)計學者邱東提出的觀點。這也意味著大數(shù)據(jù)不能完全滿足統(tǒng)計調(diào)查的要求,這時,統(tǒng)計調(diào)查就必須采用其他非大數(shù)據(jù)技術(shù)的方法(比如統(tǒng)計方法和數(shù)學方法)解決問題。

3、數(shù)據(jù)整理與整合的問題。數(shù)據(jù)整理是統(tǒng)計調(diào)查中的一個過程。傳統(tǒng)統(tǒng)計調(diào)查的數(shù)據(jù)整理是預先設(shè)計好的方法梳理和分類數(shù)據(jù),并使其結(jié)構(gòu)化。但大數(shù)據(jù)多為半結(jié)構(gòu)化或非結(jié)構(gòu)的。如果用傳統(tǒng)方法進行數(shù)據(jù)整理,顯然行不通。由于大數(shù)據(jù)來源不同,結(jié)構(gòu)不同,因此統(tǒng)計調(diào)查的數(shù)據(jù)“整理”通常采用數(shù)據(jù)整合的方法。除統(tǒng)計學外,其他學科也有數(shù)據(jù)整合方法已被提出,但這類方法總體上來看卻十分有限。

三、大數(shù)據(jù)時代統(tǒng)計調(diào)查的新內(nèi)涵

(一)大數(shù)據(jù)時代統(tǒng)計調(diào)查的新概念。根據(jù)以上分析,筆者認為,大數(shù)據(jù)時代的統(tǒng)計調(diào)查,仍然采用傳統(tǒng)統(tǒng)計調(diào)查的定義。為了區(qū)別兩者的差異,現(xiàn)給出大數(shù)據(jù)時代統(tǒng)計調(diào)查更詳細的定義:它是根據(jù)統(tǒng)計調(diào)查的目的和任務,經(jīng)相應等級的統(tǒng)計調(diào)查項目審批、備案及公示,采用統(tǒng)計、數(shù)學、數(shù)據(jù)科學和計算機等學科的技術(shù)手段和科學方法,以及某種調(diào)查組織方式(統(tǒng)計報表還是專門調(diào)查;普查、抽樣調(diào)查、全面調(diào)查、重點調(diào)查、典型調(diào)查或行政記錄,還是綜合其應用),依據(jù)規(guī)定的調(diào)查表式和統(tǒng)計標準要求,在財政預算范圍內(nèi),有計劃、系統(tǒng)地搜集、整理和分析統(tǒng)計資料,并通過計算機網(wǎng)絡(luò)報送的活動。

根據(jù)以上定義,有幾個方面值得注意:第一,對于計劃展開的統(tǒng)計調(diào)查,在法治社會逐步完善的今天,先要確定調(diào)查的級別,是國家統(tǒng)計調(diào)查項目、部門統(tǒng)計調(diào)查項目還是地方統(tǒng)計調(diào)查項目,并根據(jù)相應的等級進行統(tǒng)計調(diào)查項目審批、備案和網(wǎng)上公示。這是政府信息公開的要求。第二,與傳統(tǒng)統(tǒng)計調(diào)查不同,大數(shù)據(jù)時代的統(tǒng)計調(diào)查,除了采用統(tǒng)計、數(shù)學、計算機科學等方法外,還應注意數(shù)據(jù)科學方法,計算機技術(shù)、大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)等手段和方法的使用。第三,關(guān)于調(diào)查組織方式,先要確定是統(tǒng)計報表方式還是專門調(diào)查。另外,調(diào)查過程是否采用普查、抽樣調(diào)查、全面調(diào)查、重點調(diào)查、典型調(diào)查或行政記錄,還是綜合其應用。在統(tǒng)計調(diào)查初期就應該設(shè)計和確定。這里要特別注意統(tǒng)計調(diào)查資料的搜集方式,比如,針對某些調(diào)查對象的大數(shù)據(jù)詳細記錄,某些記錄稀缺的問題,調(diào)查中應采用什么策略和方法都應事先設(shè)計和確認。第四,調(diào)查表式必須在統(tǒng)計調(diào)查初期就要進行設(shè)計和確定,以及統(tǒng)計調(diào)查標準和規(guī)范的制定,特別是數(shù)據(jù)質(zhì)量的規(guī)定。第五,在統(tǒng)計調(diào)查設(shè)計的基礎(chǔ)上,有計劃、系統(tǒng)地搜集、整理和分析統(tǒng)計資料,將獲得的調(diào)查結(jié)果通過計算機網(wǎng)絡(luò)報送相關(guān)部門。

(二)大數(shù)據(jù)時代統(tǒng)計調(diào)查的新內(nèi)容。根據(jù)大數(shù)據(jù)時代的統(tǒng)計調(diào)查定義,從四個方面進行比較,以闡述大數(shù)據(jù)時代統(tǒng)計調(diào)查的新內(nèi)容。

1、統(tǒng)計調(diào)查方法比較與創(chuàng)新。傳統(tǒng)統(tǒng)計調(diào)查采用的多為統(tǒng)計方法,而大數(shù)據(jù)統(tǒng)計調(diào)查將采用信息技術(shù)、大數(shù)據(jù)技術(shù)、統(tǒng)計方法、數(shù)學方法和數(shù)據(jù)挖掘方法等多種手段。前者側(cè)重《統(tǒng)計法》要求的普查、抽樣、統(tǒng)計報表、重點調(diào)查、典型調(diào)查、綜合分析等方法搜集統(tǒng)計資料。后者部分統(tǒng)計調(diào)查資料通過從大數(shù)據(jù)源中提取,其手段可以是軟件工具,然后通過分析和挖掘從大數(shù)據(jù)源中搜集統(tǒng)計調(diào)查資料。當然,當大數(shù)據(jù)源中某些數(shù)據(jù)稀疏不足時,可借助傳統(tǒng)統(tǒng)計調(diào)查方法補充。

2、數(shù)據(jù)采樣方式比較與創(chuàng)新。傳統(tǒng)統(tǒng)計調(diào)查是一種“直接”獲取統(tǒng)計調(diào)查資料的方法,大數(shù)據(jù)統(tǒng)計調(diào)查是一種“間接”獲取統(tǒng)計調(diào)查資料的方法。前者是調(diào)查人員針對被調(diào)查對象,通過詢問、問卷、觀察、交流等方式獲取統(tǒng)計調(diào)查資料;后者是操作人員借助計算機從大數(shù)據(jù)源中獲取統(tǒng)計調(diào)查資料。因為大數(shù)據(jù)源是連續(xù)記錄被調(diào)查的某些對象全工作狀態(tài)的數(shù)據(jù)集合。因此,大數(shù)據(jù)統(tǒng)計調(diào)查也可以看成為一種“經(jīng)常性的普查”。由于這種“普查”沒有針對性,至少不是針對某個統(tǒng)計調(diào)查主題的,它只是針對某一對象工作狀態(tài)的記錄,因此這樣的記錄數(shù)據(jù)針對性(對統(tǒng)計調(diào)查)不強。對此,應特別注意其數(shù)據(jù)邊際的把控,避免過量統(tǒng)計調(diào)查資料搜集而增加不必要的工作負擔。與此同時,也應注意大數(shù)據(jù)源的不足而必須進行的補充統(tǒng)計抽樣等方法的配合應用。傳統(tǒng)統(tǒng)計調(diào)查的地點是搜索統(tǒng)計調(diào)查資料的地點,統(tǒng)計調(diào)查的時間涉及調(diào)查的標準時間和期限。而大數(shù)據(jù)統(tǒng)計調(diào)查地點多半不夠明確,甚至被分離,因為搜集統(tǒng)計資料的地點即操作計算機位置,與實際被調(diào)查對象工作狀態(tài)的地點不同。這樣的地點有兩個:一是被調(diào)查對象的地點;二是調(diào)查員操作計算機的位置。相比之下,大數(shù)據(jù)統(tǒng)計調(diào)查的時間通常非常精確,可以到分秒,而且可以由操作者自己在計算機上設(shè)定時間區(qū)間值。而傳統(tǒng)統(tǒng)計調(diào)查的時間多半以年月為單位,采集的數(shù)據(jù)有時還存在滯后性。這一特點預示,未來可以開發(fā)一種計算機統(tǒng)計軟件,根據(jù)用戶的要求,隨時提供針對某一固定主題的統(tǒng)計調(diào)查服務。比如,全國各行各業(yè)完全聯(lián)網(wǎng)后,特別是人口宏觀數(shù)據(jù)建成后,因為衛(wèi)生(醫(yī)院)計生、公安系統(tǒng)中人口出生和死亡數(shù)據(jù)實時更新,教育部學歷信息、民政部婚姻狀態(tài)、房地產(chǎn)信息、人社部社保(就業(yè)狀態(tài))信息、稅務局個人收入信息等等,均為實時更新數(shù)據(jù),這時,統(tǒng)計部門很容易隨時獲得全國人口實時統(tǒng)計調(diào)查數(shù)據(jù)。屆時,全國性的人口普查次數(shù)可以適度減少,人口變動抽樣調(diào)查也可不斷完善。

3、高質(zhì)量數(shù)據(jù)獲取比較與創(chuàng)新。與傳統(tǒng)統(tǒng)計調(diào)查相比,大數(shù)據(jù)時代的統(tǒng)計調(diào)查直接獲取的數(shù)據(jù)質(zhì)量不高是一個不爭的事實。所以,應注意統(tǒng)計調(diào)查數(shù)據(jù)質(zhì)量的把控。大數(shù)據(jù)中的噪聲和虛假信息使統(tǒng)計調(diào)查獲取的數(shù)據(jù)可信度不高。這就要求統(tǒng)計調(diào)查員在進行資料搜集的過程中,應特別注意虛假信息的甄別,通過科學的方法將大數(shù)據(jù)中的噪聲去除。調(diào)查員可以事先對不同的大數(shù)據(jù)源進行評價,以確定其可信度級別,為后續(xù)統(tǒng)計調(diào)查工作奠定基礎(chǔ)。

4、統(tǒng)計調(diào)查設(shè)計比較與創(chuàng)新。與傳統(tǒng)統(tǒng)計調(diào)查相同,大數(shù)據(jù)時代的統(tǒng)計調(diào)查需要根據(jù)調(diào)查的目的與要求展開工作,也需要有計劃和有組織地進行統(tǒng)計調(diào)查數(shù)據(jù)、信息和資料的搜集、整理和分析。但在進行統(tǒng)計調(diào)查時,必須預先設(shè)計統(tǒng)計調(diào)查的技術(shù)手段和科學方法、調(diào)查組織方式、調(diào)查表式和統(tǒng)計標準,以及財政預算。其重點是根據(jù)大數(shù)據(jù)的特點進行統(tǒng)計調(diào)查的設(shè)計。

大數(shù)據(jù)時代的統(tǒng)計調(diào)查與傳統(tǒng)統(tǒng)計調(diào)查的不同特點決定了未來的統(tǒng)計調(diào)查可能是兩種方法的結(jié)合,即取長補短、優(yōu)勢互補,借助各自的特點使統(tǒng)計調(diào)查工作能更快更順利地完成。兩種統(tǒng)計調(diào)查方法都有自己的優(yōu)缺點,在進行統(tǒng)計調(diào)查時,可采用兩種方法的綜合,具體以哪種方案為主,需要根據(jù)情況有針對性的設(shè)計。在近未來,應以傳統(tǒng)統(tǒng)計調(diào)查方法為主,以大數(shù)據(jù)統(tǒng)計調(diào)查方法為輔。在遠未來,可以以大數(shù)據(jù)統(tǒng)計調(diào)查方法為主,以傳統(tǒng)統(tǒng)計調(diào)查方法為輔。

四、大數(shù)據(jù)時代統(tǒng)計調(diào)查新技術(shù)

大數(shù)據(jù)技術(shù)的快速發(fā)展,將對統(tǒng)計調(diào)查工作產(chǎn)生巨大影響,具體表現(xiàn)在以下幾個方面:

(一)統(tǒng)計調(diào)查資料搜集新技術(shù)。大數(shù)據(jù)源一般可分為以下幾類:一是對外開放的大數(shù)據(jù)平臺,比如百度,這類平臺不僅提供大數(shù)據(jù)源,也提供數(shù)據(jù)處理軟件。二是專業(yè)大數(shù)據(jù)平臺,比如國家經(jīng)濟信息中心、中國知網(wǎng)、新華社等,這類半開放的數(shù)據(jù)平臺需要付費才能使用,它提供大數(shù)據(jù)源,也提供數(shù)據(jù)處理軟件。三是部門專業(yè)大數(shù)據(jù)平臺,比如各大部委的專業(yè)數(shù)據(jù)庫,這類數(shù)據(jù)庫是不對外開放的。統(tǒng)計部門可以通過《統(tǒng)計法》的規(guī)定,要求其提供所需的電子形式的數(shù)據(jù)。四是互聯(lián)網(wǎng)上雜亂無序的數(shù)據(jù),其數(shù)據(jù)質(zhì)量很低,比如某些網(wǎng)頁上web形式的超文本數(shù)據(jù),它需要采用網(wǎng)絡(luò)爬蟲軟件抓取;傳感器上的數(shù)據(jù),比如某些公司完全對外開放的實時監(jiān)控攝像頭;微博和網(wǎng)絡(luò)日志之類的數(shù)據(jù)。對于第四類數(shù)據(jù),建議政府統(tǒng)計調(diào)查時盡量不用,因為其數(shù)據(jù)質(zhì)量低,數(shù)據(jù)處理非常困難,技術(shù)要求比較高。由于統(tǒng)計部門的經(jīng)費有限,在進行統(tǒng)計調(diào)查時,應盡量選擇數(shù)據(jù)質(zhì)量高,數(shù)據(jù)易于獲取的大數(shù)據(jù)源,避免陷入數(shù)據(jù)邊際過寬的陷阱。

在統(tǒng)計調(diào)查設(shè)計階段,可根據(jù)統(tǒng)計調(diào)查的目標和任務,設(shè)定其規(guī)范和標準,在互聯(lián)網(wǎng)中確定大數(shù)據(jù)源。在條件允許的情況下,大數(shù)據(jù)的采集工作部分可以交由被調(diào)查對象單位的專業(yè)人員配合,根據(jù)統(tǒng)計調(diào)查表要求他們提供從大數(shù)據(jù)源中抽取數(shù)據(jù),一來可以避免數(shù)據(jù)泄密,二來可以減少調(diào)查員的負擔。如果必須由統(tǒng)計調(diào)查員在計算機上操作的,可以在系統(tǒng)中設(shè)置所需搜索統(tǒng)計資料的條件要求,比如時間段、區(qū)域、對象等參數(shù),然后應盡量交給計算機軟件去完成。

(二)數(shù)據(jù)清洗與ETL技術(shù)。統(tǒng)計調(diào)查資料搜索工作完成后,可通過計算機輔助完成統(tǒng)計調(diào)查資料的清洗和ETL處理。數(shù)據(jù)清洗(Data Cleaning)指發(fā)現(xiàn)并糾正不完整數(shù)據(jù)、錯誤數(shù)據(jù)、重復記錄和不一致性數(shù)據(jù)的過程。具體方法包括數(shù)據(jù)插值、異常檢查與偏差分析、用數(shù)據(jù)庫范式規(guī)則剔除重復數(shù)據(jù)、語義和完整性檢查。ETL(Extract-Transform-Load)技術(shù)是將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。數(shù)據(jù)清洗工具與ETL工具通常是二合一的平臺,常見工具包括:Datastage、Informatica、ODI(Oracle Data Integrator)、OWB(Oracle Warehouse Builder)、Cognos和Beeload等。這部分工作建議交給統(tǒng)計部門中的計算機專業(yè)人員或統(tǒng)計專用軟件處理。

(三)數(shù)據(jù)整合技術(shù)。數(shù)據(jù)整合即把從不同數(shù)據(jù)源收集的數(shù)據(jù),通過整理、清洗,轉(zhuǎn)換后加載到一個新的數(shù)據(jù)源內(nèi),并為用戶提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式。具體技術(shù)包括構(gòu)建聯(lián)邦式數(shù)據(jù)庫系統(tǒng)、利用數(shù)據(jù)倉庫整合和加載多源數(shù)據(jù)、開發(fā)中間件整合并連接異構(gòu)數(shù)據(jù)庫、應用Web技術(shù)整合來自于不同數(shù)據(jù)源的應用等。但在具體操作層面,最好方法是采購統(tǒng)計應用整合平臺,它可以將不同來源、不同結(jié)構(gòu)的統(tǒng)計資料進行整合并對外開放,以便統(tǒng)計用戶獲取,這方面的研究微軟、Google、IBM等公司正在進行。一個簡單的方法是購買統(tǒng)計公有云服務,將統(tǒng)計調(diào)查運行環(huán)境、大數(shù)據(jù)超級計算等交給計算機專業(yè)公司處理。但其統(tǒng)計調(diào)查數(shù)據(jù)的安全很難得到保證,一個折中的方法是混合云的實施,即需要保密的數(shù)據(jù)放置在統(tǒng)計局信息中心的私有云內(nèi),其他部分交給公有云處理。

(四)大數(shù)據(jù)統(tǒng)一平臺。大數(shù)據(jù)不同于傳統(tǒng)統(tǒng)計調(diào)查,其采集、處理、存儲和應用自然不能用傳統(tǒng)方式解決。最終的解決方案是在統(tǒng)計局信息中心構(gòu)建一個大數(shù)據(jù)統(tǒng)一平臺。目前,很多企事業(yè)單位都相繼在原有信息中心硬件設(shè)施的基礎(chǔ)上增加了大數(shù)據(jù)統(tǒng)一平臺環(huán)境。這是一項不可缺少的工作,建議各統(tǒng)計局信息中心加緊部署實施。其總體框架應該是以Hadoop為核心,包括Hadoop內(nèi)核,分布式數(shù)據(jù)庫HDFS,分布式計算MapReduce和群集資源管理器YARN。Hadoop是一個生態(tài)系統(tǒng),包括很多組件,除HDFS、MapReduce和YARN外,還有NoSQL數(shù)據(jù)庫Hbase、數(shù)據(jù)倉庫工具Hive、工作流引擎語言Pig、機器學習算法庫Mahout、數(shù)據(jù)庫連接器Sqoop、日志數(shù)據(jù)采集系統(tǒng)Flume、流處理平臺Kafka、流數(shù)據(jù)計算框架Storm、分布式協(xié)調(diào)服務ZooKeeper、HBase SQL搜索引擎Phoenix、全文搜索引擎Elasticsearch、安裝部署配置管理器Ambari、新分布式執(zhí)行框架Tez等。(圖1)

主要參考文獻:

[1]季曉晶.大數(shù)據(jù)時代統(tǒng)計調(diào)查工作的挑戰(zhàn)與思考[J].統(tǒng)計與咨詢,2013(5).

[2]段學有.透過大數(shù)據(jù)看統(tǒng)計調(diào)查數(shù)據(jù)[J].中國統(tǒng)計,2014(7).

[3]宋立京.大數(shù)據(jù)時代如何開展統(tǒng)計調(diào)查工作[J].時代金融,2016(5).

[4]李金昌.基于大數(shù)據(jù)思維的統(tǒng)計學若干理論問題[J].統(tǒng)計研究,2016.33(11).

[5]姜澍.大數(shù)據(jù)時代下的政府統(tǒng)計[J].調(diào)研世界,2014(4).

[6]李婧婧,王磊.政府統(tǒng)計部門應對大數(shù)據(jù)挑戰(zhàn)的幾點思考[J].調(diào)研世界,2017(1).

[7]許小樂.“大數(shù)據(jù)”與政府統(tǒng)計改革[J].調(diào)研世界,2013(5).

[8]何志紅,陽志鋒.大數(shù)據(jù)背景下政府統(tǒng)計工作執(zhí)行力的評價模型[J].統(tǒng)計與管理,2017(11).

[9]“大數(shù)據(jù)在政府統(tǒng)計中的應用研究”課題組,鮮祖德,董倩,姜澍.互聯(lián)網(wǎng)大數(shù)據(jù)在政府統(tǒng)計中的應用路徑研究[J].調(diào)研世界,2015(9).

[10]余芳東.大數(shù)據(jù)在政府統(tǒng)計中的應用、瓶頸及融合路徑[J].調(diào)研世界,2018(11).

[11]陳光慧.大數(shù)據(jù)時代中國政府統(tǒng)計調(diào)查體系改革研究[J].商業(yè)經(jīng)濟與管理,2016(6).

[12]胡海靖.對大數(shù)據(jù)背景下完善政府統(tǒng)計調(diào)查工作的研究[J].統(tǒng)計與管理,2015(10).

[13]國家統(tǒng)計局重慶調(diào)查總隊課題組,朋琳.大數(shù)據(jù)在價格調(diào)查中的應用研究[J].調(diào)研世界,2017(4).

[14]喬晗.大數(shù)據(jù)在我國CPI調(diào)查中的應用研究[J].調(diào)研世界,2015(9).

[15]米子川,姜天英.大數(shù)據(jù)指數(shù)是否可以替代統(tǒng)計調(diào)查指數(shù)[J].統(tǒng)計研究,2016(11).

[16]蘇州市統(tǒng)計局課題組.“大數(shù)據(jù)”背景下統(tǒng)計數(shù)據(jù)資源整合探索[J].統(tǒng)計科學與實踐,2018(10).

[17]李紅,牛成英,孫秋碧,林嘉燕.大數(shù)據(jù)時代數(shù)據(jù)融合質(zhì)量的評價模型[J].統(tǒng)計與決策,2018.34(21).

[18]Chun Wang,Ming-Hui Chen,Elizabeth Schifano,Jing Wu and Jun Yan.Statistical Methods and Computing for Big Data[J].Statistics,2015.

[19]Konstantinos Slavakis,Georgios B.Giannakis,and Gonzalo Mateos,Modeling and Optimization for Big Data Analytics:(Statistical) learning tools for our era of data deluge,IEEE Signal Processing Magazine,2014.31(5).

[20]李揚,張長,朱建平.融合統(tǒng)計思想的大數(shù)據(jù)算法[J].統(tǒng)計研究,2018.35(7).

[21]國家統(tǒng)計局制度方法司方法研究處.我國統(tǒng)計調(diào)查體系的現(xiàn)狀及改革意見[J].統(tǒng)計研究,1991(4).

[22]黃恒君,傅德印.對統(tǒng)計調(diào)查質(zhì)量特性的探討[J].統(tǒng)計研究,2009.26(11).

[23]李瑞軍.企業(yè)管理中統(tǒng)計調(diào)查及統(tǒng)計調(diào)查誤差的分析[J].統(tǒng)計與管理,2012(2).

[24]馬天芳.如何區(qū)別統(tǒng)計調(diào)查與實地研究[J].中國統(tǒng)計,2015(4).

[25]大數(shù)據(jù)中的統(tǒng)計方法課題組,馬雙鴿.大數(shù)據(jù)時代統(tǒng)計學發(fā)展的若干問題[J].統(tǒng)計研究,2017(1).

[26]馬雙鴿,王小燕,方匡南.大數(shù)據(jù)的整合分析方法[J].統(tǒng)計研究,2015(11).

[27]邱東.大數(shù)據(jù)時代對統(tǒng)計學的挑戰(zhàn)[J].統(tǒng)計研究,2014(1).

[28]朱建平,張悅涵.大數(shù)據(jù)時代對傳統(tǒng)統(tǒng)計學變革的思考[J].統(tǒng)計研究,2016(2).

[29]宋曉紅,張立朝,祿豐年,等.地理國情普查中多源異構(gòu)數(shù)據(jù)整合研究[J].測繪通報,2014(9).

[30]白如江,冷伏海.“大數(shù)據(jù)”時代科學數(shù)據(jù)整合研究[J].情報理論與實踐,2014 (1).

[31]楊鹍.基于語義的金融行業(yè)大數(shù)據(jù)整合及處理技術(shù)[D].浙江大學,2013.

[32]耿直.大數(shù)據(jù)時代統(tǒng)計學面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014(1).

猜你喜歡
大數(shù)據(jù)
淺談大數(shù)據(jù)在出版業(yè)的應用
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
南部县| 五家渠市| 承德市| 霍州市| 谢通门县| 海宁市| 天水市| 宜宾市| 耿马| 和龙市| 旺苍县| 商都县| 周宁县| 合江县| 铜梁县| 临武县| 大邑县| 甘谷县| 台湾省| 景泰县| 湘潭县| 虎林市| 台安县| 屯留县| 梓潼县| 同江市| 哈巴河县| 祁连县| 伊川县| 桃园县| 景德镇市| 黄大仙区| 呼玛县| 浏阳市| 顺平县| 嘉荫县| 柘城县| 巍山| 乳源| 本溪| 雷波县|