廖勁為 于娟
摘 要:大數(shù)據(jù)是信息技術(shù)發(fā)展融合的新焦點和新引擎,正深刻影響著經(jīng)濟和社會的發(fā)展。為了促進(jìn)我國大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,首先從國內(nèi)外大數(shù)據(jù)產(chǎn)業(yè)概況、相關(guān)政策規(guī)劃、大數(shù)據(jù)技術(shù)等三方面概述大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀,然后從我國信息化水平建設(shè)現(xiàn)狀出發(fā),從數(shù)據(jù)開放、人才培養(yǎng)和技術(shù)研發(fā)三方面給出我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的建議。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)產(chǎn)業(yè);產(chǎn)業(yè)政策;大數(shù)據(jù)技術(shù)
中圖分類號:F2 文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.1672-3198.2018.06.003
1 引言
大數(shù)據(jù)(Big Data),是指利用傳統(tǒng)數(shù)據(jù)處理應(yīng)用捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的巨量數(shù)據(jù)集。大數(shù)據(jù)是信息技術(shù)發(fā)展融合的新焦點,是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎,正深刻影響著經(jīng)濟和社會的發(fā)展。自2012年起,美、英、德、日等發(fā)達(dá)國政府紛紛發(fā)布大數(shù)據(jù)相關(guān)的綱領(lǐng)性文件,意圖通過實施大數(shù)據(jù)戰(zhàn)略改善社會生產(chǎn)力、創(chuàng)造新的經(jīng)濟社會價值,進(jìn)而提升國家核心競爭力。2015年9月,我國國務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,將發(fā)展大數(shù)據(jù)產(chǎn)業(yè)上升到我國國家戰(zhàn)略。
2 大數(shù)據(jù)產(chǎn)業(yè)
大數(shù)據(jù)產(chǎn)業(yè)主要特征:(1)數(shù)據(jù)資產(chǎn)化。數(shù)據(jù)滲透到社會的方方面面,逐漸成為各組織的核心資產(chǎn)之一,是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的核心驅(qū)動力。(2)技術(shù)高創(chuàng)新性。大數(shù)據(jù)產(chǎn)業(yè)的關(guān)鍵技術(shù)包括高效率低成本的大數(shù)據(jù)存儲、索引查詢、數(shù)據(jù)清洗、異構(gòu)數(shù)據(jù)集成以及數(shù)據(jù)可視化等。(3)決策智能化。組織決策從業(yè)務(wù)層到戰(zhàn)略層均需利用數(shù)據(jù)支持決策,“用數(shù)據(jù)說話”,克服決策者的有限理性,推動決策朝著科學(xué)化、智能化的方向發(fā)展。(4)服務(wù)個性化。通過數(shù)據(jù)挖掘用戶的興趣和偏好,提供個性化服務(wù),提高服務(wù)質(zhì)量,滿足用戶更高層次需求并獲得更高的經(jīng)濟收益。
2.1 大數(shù)據(jù)產(chǎn)業(yè)鏈
大數(shù)據(jù)產(chǎn)業(yè)鏈?zhǔn)且源髷?shù)據(jù)產(chǎn)品價值鏈為線索沿橫向從數(shù)據(jù)收集、存儲、分析到應(yīng)用逐級遞進(jìn),以大數(shù)據(jù)技術(shù)為中心沿縱向從底層的基礎(chǔ)硬件設(shè)施、大數(shù)據(jù)軟件技術(shù)到頂層的完整IT解決方案服務(wù),大數(shù)據(jù)產(chǎn)業(yè)鏈各環(huán)節(jié)如圖1所示。
2.2 大數(shù)據(jù)產(chǎn)業(yè)規(guī)模
隨著大數(shù)據(jù)成為國家戰(zhàn)略以及大數(shù)據(jù)技術(shù)和商業(yè)模式的逐漸成熟,大數(shù)據(jù)在各行業(yè)、各領(lǐng)域快速拓展。市場焦點從概念炒作迅速轉(zhuǎn)移到實際應(yīng)用,大數(shù)據(jù)進(jìn)入全面發(fā)展的快車道,呈現(xiàn)出應(yīng)用創(chuàng)新成為主要驅(qū)動力、融資并購成為市場熱點、產(chǎn)業(yè)生態(tài)不斷優(yōu)化和基礎(chǔ)設(shè)施建設(shè)更加合理等特點。
美國憑借信息技術(shù)優(yōu)勢和軟硬件核心技術(shù)基礎(chǔ)占據(jù)了大數(shù)據(jù)產(chǎn)業(yè)鏈前端;歐洲、日本、韓國和澳大利亞等國家處于政府引導(dǎo)和基礎(chǔ)研究階段。目前我國大數(shù)據(jù)發(fā)展屬于初級階段,但各地開展大數(shù)據(jù)研究和應(yīng)用的積極性高漲,都在加速推廣大數(shù)據(jù)的理論研究和實踐開發(fā),近幾年市場規(guī)模明顯增速。2016年我國大數(shù)據(jù)市場規(guī)模約168億,同比增長45%,預(yù)計2017-2020年增速保持在30%以上。但目前不可忽視的是我國還未形成完整成熟的大數(shù)據(jù)產(chǎn)業(yè)鏈,尤其缺少成熟的高端產(chǎn)品和配套服務(wù)。大數(shù)據(jù)存儲和云計算服務(wù)仍是目前的主流產(chǎn)品,而數(shù)據(jù)收集和集成的前端服務(wù),數(shù)據(jù)挖掘分析和可視化的后端產(chǎn)品,及大數(shù)據(jù)整體解決方案仍存在巨大空白。
目前我國大數(shù)據(jù)產(chǎn)業(yè)鏈呈現(xiàn)初級階段發(fā)展不均衡,區(qū)域分布明顯等特征:(1)京津冀,集聚效應(yīng)開始顯現(xiàn),產(chǎn)業(yè)鏈條初步健全;(2)長三角,開展布局城市增多,智慧城市、云計算成重要支撐;(3)珠三角,政策扶持持續(xù)發(fā)力,產(chǎn)業(yè)發(fā)展進(jìn)入良性循環(huán);(4)中西部,鼎足之勢初現(xiàn)端倪,漸成產(chǎn)業(yè)發(fā)展新增長點。
2.3 大數(shù)據(jù)產(chǎn)業(yè)實踐
大數(shù)據(jù),在經(jīng)濟預(yù)警、輿情分析、健康醫(yī)療、農(nóng)業(yè)精準(zhǔn)管理、城市綜合治理、電信運營、互聯(lián)網(wǎng)金融、電子商務(wù)等領(lǐng)域已出現(xiàn)先導(dǎo)應(yīng)用并在不斷深化。大數(shù)據(jù)產(chǎn)業(yè)實踐主要由數(shù)據(jù)擁有者、技術(shù)提供商、數(shù)據(jù)運營商和數(shù)據(jù)應(yīng)用者四個主要角色構(gòu)成。
(1)數(shù)據(jù)擁有者是指擁有數(shù)據(jù)的組織,包括有數(shù)據(jù)且運用較成熟的互聯(lián)網(wǎng)企業(yè),如百度、Google;有數(shù)據(jù)但運用不好的傳統(tǒng)組織,例如政府、銀行;采集開放數(shù)據(jù)或與其他數(shù)據(jù)擁有者合作而獲得數(shù)據(jù)資源的大數(shù)據(jù)服務(wù)商,如九次方。
(2)技術(shù)提供商是為數(shù)據(jù)擁有者提供數(shù)據(jù)采集、存儲、計算、分析、咨詢等服務(wù)的企業(yè),包括提供基礎(chǔ)軟硬件領(lǐng)域的IBM和華為等,計算服務(wù)領(lǐng)域的Amazon和微軟等,大數(shù)據(jù)分析領(lǐng)域的Palantir和Splunk等。
(3)數(shù)據(jù)運營商是對數(shù)據(jù)進(jìn)行加工處理后,以數(shù)據(jù)產(chǎn)品、數(shù)據(jù)應(yīng)用等形式直接為需求方提供服務(wù)的企業(yè),如阿里巴巴和沃爾瑪?shù)龋赡芡瑫r擁有大數(shù)據(jù)資源、大數(shù)據(jù)核心分析技術(shù)和大數(shù)據(jù)場景化應(yīng)用能力。
(4)數(shù)據(jù)應(yīng)用者是大數(shù)據(jù)價值的最終受益者,通過對自有數(shù)據(jù)資源的開發(fā)、重用或者從外部購買數(shù)據(jù)產(chǎn)品,將其應(yīng)用于自身的業(yè)務(wù)場景或服務(wù)場景中創(chuàng)造新的價值,如信貸服務(wù)和智能交通領(lǐng)域。
3 大數(shù)據(jù)產(chǎn)業(yè)政策規(guī)劃
3.1 國外相關(guān)政策規(guī)劃
為了充分利用大數(shù)據(jù)的潛在價值,美、英、德、日等發(fā)達(dá)國政府均制定了大數(shù)據(jù)相關(guān)的綱領(lǐng)性文件,并啟用官方數(shù)據(jù)開放門戶,助力大數(shù)據(jù)從收集、集成到分析等的大數(shù)據(jù)處理過程。本文依據(jù)相關(guān)信息整理了主要發(fā)達(dá)國家發(fā)展大數(shù)據(jù)的戰(zhàn)略文件,如表1所示。
表1說明,國外政府大數(shù)據(jù)政策措施具有以下特征:
(1)從戰(zhàn)略層面規(guī)劃布局我國大數(shù)據(jù)產(chǎn)業(yè)鏈。為搶占大數(shù)據(jù)發(fā)展主動性,多數(shù)國家搶先頒布國家戰(zhàn)略層面規(guī)劃推動國內(nèi)大數(shù)據(jù)理論研究、技術(shù)研發(fā)、產(chǎn)業(yè)發(fā)展和交叉領(lǐng)域應(yīng)用,以確保國家在大數(shù)據(jù)領(lǐng)域的國際領(lǐng)先地位。
(2)重視政策輔助。具體來說包括數(shù)據(jù)開放共享、產(chǎn)業(yè)扶持、人才培養(yǎng)、資金保障等,力求構(gòu)筑良性生態(tài)環(huán)境。
3.2 我國相關(guān)政策規(guī)劃
各部委大數(shù)據(jù)相關(guān)政策與規(guī)劃。在2010年后,特別是2014年以后各部委密集制定出臺了諸多關(guān)于大數(shù)據(jù)產(chǎn)業(yè)的決定、規(guī)劃和指導(dǎo)意見,對大數(shù)據(jù)產(chǎn)業(yè)進(jìn)行明確的支持和鼓勵。詳見表2。
地方政府大數(shù)據(jù)相關(guān)政策與規(guī)劃。大數(shù)據(jù)產(chǎn)業(yè)野蠻生長的同時,我國一些地方政府也開始密集出臺相關(guān)政策,對大數(shù)據(jù)產(chǎn)業(yè)進(jìn)行支持、規(guī)劃和指導(dǎo)。依據(jù)我國信息化水平較高地區(qū)的政府網(wǎng)站,整理相關(guān)政策如表3。
表2和表3說明,我國從中央政府到地方政府均積極推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)建設(shè)。但相比歐美等發(fā)達(dá)國家,我國信息化總體水平比較落后,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展起步較晚,導(dǎo)致配套規(guī)劃與政策存在較多缺口。
4 大數(shù)據(jù)技術(shù)
大數(shù)據(jù)產(chǎn)業(yè)發(fā)展以大數(shù)據(jù)技術(shù)為基礎(chǔ),包括:針對大數(shù)據(jù)“4V”特征的大數(shù)據(jù)收集、存儲、分析與可視化等大數(shù)據(jù)處理技術(shù)。大數(shù)據(jù)處理流程是指:在合適工具的輔助下,按照一定的標(biāo)準(zhǔn)對廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行收集和集成,并統(tǒng)一存儲;利用恰當(dāng)?shù)臄?shù)據(jù)處理技術(shù)分析提取存儲數(shù)據(jù)中有益的知識信息,并通過恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。Hadoop作為一個可開發(fā)與運行處理大數(shù)據(jù)的軟件平臺,解決了大數(shù)據(jù)處理流程的一些關(guān)鍵問題。按照圖1所示大數(shù)據(jù)產(chǎn)業(yè)鏈的大數(shù)據(jù)處理流程,分析大數(shù)據(jù)技術(shù)研究現(xiàn)狀。
4.1 大數(shù)據(jù)收集
大數(shù)據(jù)收集是指對組織內(nèi)部已有數(shù)據(jù)和組織外部數(shù)據(jù)等進(jìn)行收集、整合的過程。這些數(shù)據(jù)包括組織原有信息系統(tǒng)的數(shù)據(jù),以及通過網(wǎng)絡(luò)爬蟲、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等各種方式收集的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。
(1)數(shù)據(jù)倉庫技術(shù)。利用ETL(數(shù)據(jù)抽取、轉(zhuǎn)換和加載)技術(shù)對不同數(shù)據(jù)源中的異構(gòu)數(shù)據(jù)抽取到臨時中間層進(jìn)行清洗、轉(zhuǎn)換、集成,然后加載到數(shù)據(jù)倉庫中,作為OLAP(聯(lián)機分析處理)、數(shù)據(jù)分析的基礎(chǔ)。
(2)網(wǎng)絡(luò)爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲和主題爬蟲能夠自動有效地提取萬維網(wǎng)上的相關(guān)網(wǎng)頁,是大數(shù)據(jù)收集的核心技術(shù)之一。Nutch是一種基于Java開源的完全分布式爬蟲,可以在Hadoop的分布式集群上運行,并實現(xiàn)大規(guī)模信息收集。
(3)物聯(lián)網(wǎng)技術(shù)。物聯(lián)網(wǎng)結(jié)合硬件和軟件兩方面來實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、監(jiān)控、接入、傳輸、初步處理和管理等。
4.2 大數(shù)據(jù)存儲
大數(shù)據(jù)存儲是指把不同來源、不同格式及不同類型的數(shù)據(jù)在邏輯上或物理上有機的集中,并納入到數(shù)據(jù)聚合平臺中,方便數(shù)據(jù)的輸入和輸出。大數(shù)據(jù)存儲技術(shù)分為文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng)兩部分。
大數(shù)據(jù)文件系統(tǒng)解決海量且形態(tài)各異的數(shù)據(jù)存儲問題,分布式系統(tǒng)的容錯問題及大數(shù)據(jù)中的冗余問題等。目前典型的大數(shù)據(jù)文件系統(tǒng)有:分布式文件系統(tǒng)GFS(Google File System)和Ceph、以流數(shù)據(jù)訪問模式存儲超大文件的HDFS(Hadoop Distributed File System)、基于分布式內(nèi)存的“低延遲”文件系統(tǒng)Tachyou。
在數(shù)據(jù)庫系統(tǒng)方面,相對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫技術(shù),大數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)更重視分布式數(shù)據(jù)存儲的一致性問題。根據(jù)一致性要求的強弱不同,分布式數(shù)據(jù)存儲策略可分為ACID和BASE兩類。ACID是指數(shù)據(jù)庫事務(wù)具有的4個特性:原子性(atomicity)、一致性(consistency)、隔離性(isolation)、持久性(durability),對一致性要求比較強。BASE則指:基本可用(basically available)、柔性事務(wù)/軟狀態(tài)(soft-state,允許暫時不同步)和最終一致性(eventual consistency),對一致性要求較弱。表4列舉了常見的分布式數(shù)據(jù)庫系統(tǒng)。
基于BASE的數(shù)據(jù)庫系統(tǒng)主要強調(diào)可用性和弱一致性,這種系統(tǒng)無法較好地處理分布式數(shù)據(jù)存儲的一致性問題。為此,Google研發(fā)了基于ACID的具有高可擴展性和高可用性的Megastore、Spanner和Mesa系統(tǒng):Megastore系統(tǒng)基于Bigtable,能夠?qū)崿F(xiàn)類似關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的數(shù)據(jù)模型;Spanner系統(tǒng)彌補了Megastore在吞吐量方面的缺陷,支持細(xì)粒度控制副本以及讀和寫的外部一致性;Mesa系統(tǒng)是一個具備跨地域復(fù)制和近實時特性的可伸縮數(shù)據(jù)倉庫,具有PB級數(shù)據(jù)處理能力和亞秒級響應(yīng)能力。
4.3 大數(shù)據(jù)分析
大數(shù)據(jù)分析是指利用機器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計學(xué)等方法挖掘潛藏在數(shù)據(jù)中的深度信息,為商務(wù)智能、決策支持、信息預(yù)測等提供有用信息,實現(xiàn)數(shù)據(jù)的增值。由于數(shù)據(jù)來源的多樣性、數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性、數(shù)據(jù)量的快速增長,大數(shù)據(jù)建模完全超出傳統(tǒng)技術(shù)能夠處理的范圍,目前尚未見有效的多源異構(gòu)數(shù)據(jù)分析模型。
目前,大數(shù)據(jù)計算框架主要有:批處理框架、流處理框架、交互式計算框架和圖處理框架等。
(1)批處理框架。Google的Map-Reduce編程模型是最具代表性的批處理框架。其核心設(shè)計思想是:將問題分而治之,以及通過將計算推導(dǎo)數(shù)據(jù)而不是數(shù)據(jù)推導(dǎo)計算,有效避免了因數(shù)據(jù)傳輸產(chǎn)生的大量通信開銷。Map-Reduce模型簡單,且現(xiàn)實中很多問題都可用Map-Reduce模型來表示,在生物信息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用。
(2)流處理框架。Twitter的Storm是最具代表性的流處理框架之一,其工作流程是:主控節(jié)點接受提交的任務(wù),并負(fù)責(zé)將該任務(wù)分發(fā)給工作節(jié)點執(zhí)行;工作節(jié)點上運行的后臺程序Supervisor調(diào)度該任務(wù)去執(zhí)行特定的代碼。Storm編程模型簡單、容錯性高,且可快速可靠地處理消息。除此之外,常見的流處理框架還有Facebook的Scribe和Linkedin的Samza等。
(3)交互式計算框架。Spark是最具代表性的交互式計算框架之一,提出了一個新的數(shù)據(jù)存儲概念RDD,能夠在并行計算的各個階段進(jìn)行有效的數(shù)據(jù)共享,極大提高了數(shù)據(jù)存儲和查詢效率。
(4)圖處理框架。Pregel是Google針對分布式圖計算、BSP(Bulk Synchronous Parallel,整體同步并行計算模型)研發(fā)的計算框架,其基本思想是以節(jié)點(有活躍及不活躍兩種狀態(tài),初始狀態(tài)為活躍狀態(tài))為中心進(jìn)行計算,完成計算后每個節(jié)點主動進(jìn)入不活躍狀態(tài),如果接收到信息,則激活,沒有活躍節(jié)點和消息時,整個算法結(jié)束。Pregel主要用于BFS圖遍歷、最短路、PageRank計算等。
在實際的生產(chǎn)環(huán)境中,為解決不同問題,常常需要將多種大數(shù)據(jù)計算框架部署在統(tǒng)一的集群中,共享集群資源,為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,是集群實現(xiàn)更好的資源管理利用和數(shù)據(jù)共享。典型的統(tǒng)一資源管理與調(diào)度平臺有YARN和Mesos。
4.4 大數(shù)據(jù)可視化
數(shù)據(jù)可視化,是指數(shù)據(jù)及數(shù)據(jù)分析結(jié)果的視覺表現(xiàn)形式和相應(yīng)的人機交互技術(shù),是將數(shù)據(jù)以清晰、簡單易懂的圖形圖像等形式進(jìn)行展示,以便更直觀和高效地洞悉大數(shù)據(jù)背后的信息和發(fā)現(xiàn)其中未知信息的處理過程。相比傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)的可視化,大數(shù)據(jù)可視化更著重于文本等非結(jié)構(gòu)化數(shù)據(jù)的可視化技術(shù)的研發(fā)。
文本可視化是指將文本中蘊含的語義特征(如詞頻、主題、邏輯結(jié)構(gòu)等)直觀地展示出來。典型的文本可視化技術(shù)是標(biāo)簽云,將關(guān)鍵詞根據(jù)詞頻或其他特征按照一定規(guī)律進(jìn)行布局排列,用字體、顏色、大小等圖形屬性對關(guān)鍵詞進(jìn)行可視化。除此之外,還有DAViewer和DocuBurst等語義結(jié)構(gòu)可視化技術(shù)。
網(wǎng)絡(luò)的圖可視化,基于網(wǎng)絡(luò)節(jié)點和連接的拓?fù)潢P(guān)系,直觀展示網(wǎng)絡(luò)中的潛在模式關(guān)系。典型的圖可視化技術(shù)TreeNetViz,綜合了放射圖、基于空間填充法的樹圖等技術(shù),直觀展示了圖節(jié)點之間的關(guān)系,但缺乏對大數(shù)據(jù)環(huán)境下的可視化支持,在此基礎(chǔ)上,Hurter等人提出基于邊捆綁的方法,使得復(fù)雜網(wǎng)絡(luò)可視化效果更為清晰。
此外,大數(shù)據(jù)背景下,多維數(shù)據(jù)的數(shù)據(jù)項分布規(guī)律及其屬性之間的潛在關(guān)系的可視化也是當(dāng)前的研究熱點之一。投影是多維數(shù)據(jù)可視化的代表性技術(shù)之一,將各維度屬性集合通過投影函數(shù)映射到一個方塊形圖形標(biāo)記中,并根據(jù)維度之間的關(guān)聯(lián)度對各個小方塊進(jìn)行布局,既反映了維度屬性值的分布規(guī)律,也直觀展示了多維度之間的語義關(guān)系。除此之外,還有散點圖和平行坐標(biāo)(parallel coordinates)等技術(shù)。
5 我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展建議
依據(jù)國內(nèi)外大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀,從我國信息化水平現(xiàn)狀的實際出發(fā),結(jié)合我國大數(shù)據(jù)產(chǎn)業(yè)相關(guān)的政策與規(guī)劃,對我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)提出相應(yīng)對策和建議如下幾點。
5.1 適度開放數(shù)據(jù)資源
數(shù)據(jù)的開放與整合是大數(shù)據(jù)開發(fā)利用的先決條件。如何突破“不愿、不敢、不會”開放數(shù)據(jù)的瓶頸,是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重點和難點。
政府是大規(guī)模原始數(shù)據(jù)的采集者??梢孕姓行臄?shù)據(jù)系統(tǒng)為依托,推進(jìn)公共數(shù)據(jù)資源的集中與適度開放。在已出臺的《政務(wù)信息資源共享管理暫行辦法》的基礎(chǔ)上,進(jìn)一步細(xì)化政府部門以及事業(yè)單位等公共機構(gòu)數(shù)據(jù)資源清單和格式標(biāo)準(zhǔn)。在政務(wù)數(shù)據(jù)系統(tǒng)的基礎(chǔ)上,集合匯聚各部門包括垂直部門及各市的政務(wù)數(shù)據(jù),建立各級政府和部門間的數(shù)據(jù)交換共享機制,建設(shè)統(tǒng)一的政務(wù)數(shù)據(jù)資源庫,設(shè)立面向社會的政府?dāng)?shù)據(jù)服務(wù)網(wǎng),進(jìn)一步推進(jìn)政務(wù)公開工作。
此外,還應(yīng)建設(shè)企事業(yè)單位的大數(shù)據(jù)庫,推進(jìn)行業(yè)內(nèi)數(shù)據(jù)資源的共享和分析??梢越梃b“廣東省企業(yè)情況綜合數(shù)據(jù)平臺”的做法,分塊和集中管理相結(jié)合,綜合政府部門、社會、互聯(lián)網(wǎng)等不同渠道數(shù)據(jù),建設(shè)政府統(tǒng)一的經(jīng)濟管理大數(shù)據(jù)庫,通過ETL技術(shù)重點集成企業(yè)的幾個關(guān)鍵維度數(shù)據(jù),完善政府企業(yè)綜合數(shù)據(jù)收集工作,掌握和分析企業(yè)生產(chǎn)經(jīng)營情況,繪制經(jīng)濟地圖,發(fā)布產(chǎn)業(yè)數(shù)據(jù),適度促進(jìn)數(shù)據(jù)的開放、分析與再利用。
5.2 引培大數(shù)據(jù)人才
大數(shù)據(jù)建設(shè)的各個環(huán)節(jié)都依賴專業(yè)人員完成,但我國大數(shù)據(jù)人才缺口很大。為此,應(yīng)充分發(fā)揮高等院校的科研力量和師資優(yōu)勢,增設(shè)大數(shù)據(jù)相關(guān)專業(yè)和體系,同時加大科研投入。培養(yǎng)我國本土信息化高素質(zhì)復(fù)合人才,重點加快加強信息管理、統(tǒng)計學(xué)領(lǐng)域碩士生和博士生等高端人才的培養(yǎng)。加大在職信息領(lǐng)域工程碩士的招生力度,力求培養(yǎng)高層次大數(shù)據(jù)管理和技術(shù)人才。另一方面,擴大人才基數(shù),對各行業(yè)在崗在職的社會人員進(jìn)行大數(shù)據(jù)繼續(xù)教育和培訓(xùn),使其認(rèn)清大數(shù)據(jù)的價值,提升大數(shù)據(jù)素養(yǎng),明晰大數(shù)據(jù)需求與應(yīng)用理念。
此外,還可制定對口優(yōu)惠的人才引進(jìn)政策,在已有“千人計劃”上更有針對性地從國外引進(jìn)建設(shè)與發(fā)展大數(shù)據(jù)所需的各類高層次人才。各地政府還可以借鑒北京市建立的“首都信息化人才培養(yǎng)基地”對精英人才進(jìn)行培訓(xùn),通過加強類似同類型基地的建設(shè),筑巢引鳳以吸引海內(nèi)外人才和項目,并能夠?qū)λ麄冞M(jìn)行系統(tǒng)性的本土化培育,了解我國整體背景,讓人才更有方向性地投入我國發(fā)展大數(shù)據(jù)的實踐中。
5.3 攻關(guān)大數(shù)據(jù)技術(shù)
由于國內(nèi)外對大數(shù)據(jù)技術(shù)的研發(fā)方興未艾,發(fā)展大數(shù)據(jù)產(chǎn)業(yè)將面臨各方面的大數(shù)據(jù)技術(shù)挑戰(zhàn):(1)大數(shù)據(jù)收集技術(shù),數(shù)字化不夠及數(shù)據(jù)質(zhì)量問題將影響大數(shù)據(jù)的整合與開發(fā)和數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。(2)大數(shù)據(jù)存儲技術(shù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已無法滿足大數(shù)據(jù)存儲和快速檢索的需要。(3)大數(shù)據(jù)分析技術(shù),如何高效實時地對大量多源異構(gòu)數(shù)據(jù)進(jìn)行全局分析,發(fā)揮數(shù)據(jù)整合的力量,是大數(shù)據(jù)的關(guān)鍵難題之一。(4)大數(shù)據(jù)可視化技術(shù)。大數(shù)據(jù)分析的結(jié)果需要以簡潔、直觀易懂的形式展示、解釋給用戶。
數(shù)據(jù)安全是大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展的重要保障,面臨的主要挑戰(zhàn)有:(1)用戶隱私保護技術(shù),大數(shù)據(jù)未被妥善處理,會對用戶的隱私造成極大損害,甚至危害國家安全。(2)數(shù)據(jù)可信驗證技術(shù),大數(shù)據(jù)分析的基礎(chǔ)是可信的數(shù)據(jù),但數(shù)據(jù)在傳播中會逐步失真,甚至出現(xiàn)偽造的數(shù)據(jù)。(3)訪問控制技術(shù),大數(shù)據(jù)通常應(yīng)用與多個場景,需要對不同用戶設(shè)置不同的訪問權(quán)限。
6 結(jié)論
目前我國大數(shù)據(jù)產(chǎn)業(yè)尚處于起步階段,整體發(fā)展要基于現(xiàn)實的信息化發(fā)展水平和國情。發(fā)展大數(shù)據(jù)產(chǎn)業(yè),既需要較高的信息化水平和良好的信息產(chǎn)業(yè)發(fā)展環(huán)境為基礎(chǔ),也要有先進(jìn)的管理理念和應(yīng)用實踐來牽頭。一方面需要轉(zhuǎn)變管理理念,另一方面需要解決關(guān)鍵技術(shù)問題。從管理理念上,要重視數(shù)據(jù)資產(chǎn),決策過程“用數(shù)據(jù)說話”。在技術(shù)上,要研發(fā)有效低價的大數(shù)據(jù)的收集、存儲、分析和可視化等關(guān)鍵環(huán)節(jié)技術(shù)。
參考文獻(xiàn)
[1]Wikipedia. Big data[EB/OL]. https://en.wikipedia.org/wiki/Big_data.
[2]James M, Michael C, Brad B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity [R]. McKinsey Global Institute, 2011: 8-10.
[3]Jeffrey M. U.S. Science Policy: Agencies Rally to Tackle Big Data [J]. Science, 2012, 336(6077): 22.
[4]Alexandros L, Jagadish H. V. Challenges and Opportunities with Big Data [C]. In: Proc. VLDB Endowment, 2012, 5(12): 2032-2033.
[5]國務(wù)院. 促進(jìn)大數(shù)據(jù)發(fā)展綱要[EB/OL]. [2015-09-05]. http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
[6]福建省人民政府發(fā)展研究中心課題組 李強, 陳明旺, 劉立菁. 推進(jìn)福建大數(shù)據(jù)發(fā)展的對策思考[J]. 發(fā)展研究, 2015,(12): 8-15.
[7]迪莉婭. 我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展研究[J]. 科技進(jìn)步與對策, 2014,(4): 56-60.
[8]李文蓮, 夏健明. 基于“大數(shù)據(jù)”的商業(yè)模式創(chuàng)新[J]. 中國工業(yè)經(jīng)濟, 2013,(5):83-95.
[9]貴陽大數(shù)據(jù)交易所. 2016年中國大數(shù)據(jù)交易產(chǎn)業(yè)白皮書[R]. 2016,05(25).
[10]陳桂龍. 我國大數(shù)據(jù)發(fā)展?fàn)顩r[J]. 中國建設(shè)信息化, 2015,(Z1):34-35.
[11]中國信通院. 2017年中國大數(shù)據(jù)發(fā)展調(diào)查報告. 2017,03(28).
[12]中國電子信息產(chǎn)業(yè)發(fā)展研究院. 2015年中國信息化發(fā)展水平評估報告[EB/OL]. [2016-06-14]. http://www.miit.gov.cn/n1146290/n1146402/n1146445/c4838381/part/4838390.pdf.
[13]孫麗娟. 大數(shù)據(jù)產(chǎn)業(yè)鏈及變現(xiàn)[J]. 通信企業(yè)管理, 2016,(6):38-41.
[14]毛國君, 胡殿軍, 謝松燕. 基于分布式數(shù)據(jù)流的大數(shù)據(jù)分類模型和算法[J]. 計算機學(xué)報, 2017,(1):161-175.
[15]孟小峰, 慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計算機研究與發(fā)展, 2013, 50(1): 146-169.
[16]Dittrich J, Quiané-Ruiz J A. Efficient big data processing in Hadoop MapReduce[J]. Proceedings of the VLDB Endowment, 2012, 5(12): 2014-2015.
[17]徐俊剛, 裴瑩. 數(shù)據(jù)ETL研究綜述[J]. 計算機科學(xué), 2011, 38(4):15-20.
[18]胡萍瑞,李石君. 基于URL模式集的主題爬蟲[J]. 計算機應(yīng)用研究,2018,(03):1-2.
[19]Yu G, Xie X, Liu Z. The design and realization of open-source search engine based on Nutch[C]//Anti-Counterfeiting Security and Identification in Communication (ASID), 2010 International Conference on. IEEE, 2010: 176-180.
[20]錢志鴻, 王義君. 物聯(lián)網(wǎng)技術(shù)與應(yīng)用研究[J]. 電子學(xué)報, 2012, 40(5):1023-1029.
[21]Ghemawat S, Gobioff H, Leung S T. The Google file system[C]// Nineteenth ACM Symposium on Operating Systems Principles. ACM, 2003:29-43.
[22]Weil S A, Brandt S A, Miller E L, et al. Ceph: A scalable, high-performance distributed file system[C]//Proceedings of the 7th symposium on Operating systems design and implementation. USENIX Association, 2006: 307-320.
[23]Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system[C]//Mass storage systems and technologies (MSST), 2010 IEEE 26th symposium on. IEEE, 2010: 1-10.
[24]Li H, Ghodsi A, Zaharia M, et al. Tachyon: Reliable, memory speed storage for cluster computing frameworks[C]//Proceedings of the ACM Symposium on Cloud Computing. ACM, 2014: 1-15.
[25]陳軍成, 丁治明, 高需. 大數(shù)據(jù)熱點技術(shù)綜述[J]. 北京工業(yè)大學(xué)學(xué)報, 2017,(03):358-367.
[26]DeCandia G, Hastorun D, Jampani M, et al. Dynamo: amazon's highly available key-value store[J]. ACM SIGOPS operating systems review, 2007, 41(6): 205-220.
[27]Lakshman A, Malik P. Cassandra: a decentralized structured storage system[J]. ACM SIGOPS Operating Systems Review, 2010, 44(2): 35-40.
[28]Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured data[J]. ACM Transactions on Computer Systems (TOCS), 2008, 26(2): 1-26.
[29]RIOS G, JUDD D. Load balancing for hypertable[C]//Proceedings of the 8th AAAI Conference on AI for Data Center Management and Cloud Computing ( AAAIWS'11-08). San Francisco: AAAI Press, 2011: 24-26.
[30]Chodorow K. MongoDB: the definitive guide[M]. Cambridge: O'Reilly Media, Inc., 2010:1-193.
[31]Anderson J C, Lehnardt J, Slater N. CouchDB: The Definitive Guide. Time to relax[M]. Cambridge: O'Reilly Media, Inc., 2010:1-245.
[32]Webber J. A programmatic introduction to neo4j[C]//the 3rd annual conference on Systems, programming, and applications: software for humanity. ACM, 2012: 217-218.
[33]Roggen D, Lombriser C, Rossi M, et al. Titan: an enabling framework for activity-aware" pervasive apps" in opportunistic personal area networks[J]. EURASIP Journal on Wireless Communications and Networking, 2011,(1): 1-22.
[34]Baker J, Bond C, Corbett J C, et al. Megastore: Providing scalable, highly available storage for interactive services[C]//CIDR. 2011, 11: 223-234.
[35]Corbett J C, Dean J, Epstein M, et al. Spanner: Google's globally distributed database[J]. ACM Transactions on Computer Systems (TOCS), 2013, 31(3): 8.
[36]Gupta A, Yang F, Govig J, et al. Mesa: Geo-replicated, near real-time, scalable data warehousing[J]. Proceedings of the VLDB Endowment, 2014, 7(12): 1259-1270.
[37]Xindong Wu, Xingquan Zhu, Gong-Qing Wu, et al. Data Mining with Big Data [J]. IEEE Transactions on Knowledge and Data Engineering (TKDE), 2014, 26(1): 97-107.
[38]Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
[39]Christensen R, Wang L, Li F, et al. STORM: Spatio-temporal online reasoning and management of large spatio-temporal data[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. ACM, 2015: 1111-1116.
[40]Scribe[EB/OL]. Scribe. https://www.scribesoft.com/.
[41]Goodhope K, Koshy J, Kreps J, et al. Building LinkedIn's Real-time Activity Data Pipeline[J]. IEEE Data Eng. Bull., 2012, 35(2): 33-45.
[42]Zaharia M, Chowdhury M, Franklin M J, et al. Spark: cluster computing with working sets[C]// Usenix Conference on Hot Topics in Cloud Computing. USENIX Association, 2010:1765-1773.
[43]Malewicz G, Austern M H, Bik A J C, et al. Pregel: a system for large-scale graph processing[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data. ACM, 2010: 135-146.
[44]Vavilapalli V K, Murthy A C, Douglas C, et al. Apache hadoop yarn: Yet another resource negotiator[C]//the 4th annual Symposium on Cloud Computing. ACM, 2013: 5.
[45]Hindman B, Konwinski A, Zaharia M, et al. Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center[C]// Proceedings of the 8th USENIX Symposium on Networked Systems Design and Implementation. 2011, 11(2011): 22-22.
[46]任磊, 杜一, 馬帥,等. 大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報, 2014,(9):1909-1936.
[47]Wu Y, Provan T, Wei F, et al. Semantic‐preserving word clouds by seam carving[C]//Computer Graphics Forum. Blackwell Publishing Ltd, 2011, 30(3): 741-750.
[48]Zhao J, Chevalier F, Collins C, et al. Facilitating discourse analysis with interactive visualization[J]. IEEE Transactions on Visualization and Computer Graphics, 2012, 18(12): 2639-2648.
[49]Collins C, Carpendale S, Penn G. Docuburst: Visualizing document content using language structure[C]//Computer graphics forum. Blackwell Publishing Ltd, 2009, 28(3): 1039-1046.
[50]Gou L, Zhang X L. Treenetviz: Revealing patterns of networks over tree structures[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(12):2449-2458.
[51]Hurter C, Ersoy O, Telea A. Graph bundling by kernel density estimation[C]//Computer Graphics Forum. Blackwell Publishing Ltd, 2012, 31(3pt1): 865-874.
[52]Lee J H, McDonnell K T, Zelenyuk A, et al. A structure-based distance metric for high-dimensional space exploration with multidimensional scaling[J]. IEEE transactions on visualization and computer graphics, 2014, 20(3): 351-364.
[53]Elmqvist N, Dragicevic P, Fekete J D. Rolling the dice: Multidimensional visual exploration using scatterplot matrix navigation[J]. IEEE transactions on Visualization and Computer Graphics, 2008, 14(6): 1539-1148.
[54]Geng Z, Peng Z M, Laramee R S, et al. Angular histograms: Frequency-based visualizations for large, high dimensional data[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(12): 2572-2580.
[55]國務(wù)院. 政務(wù)信息資源共享管理暫行辦法[EB/OL]. [2016-09-05]. http://www.gov.cn/zhengce/content/2016-09/19/content_5109486.htm.
[56]數(shù)聯(lián)尋英. 大數(shù)據(jù)人才報告[EB/OL].[2016-07-15]. http://www.shulianxunying.com/.