張鋒軍
(中國電子科技集團公司第三十研究所,四川成都610041)
大數(shù)據(jù)技術(shù)研究綜述*
張鋒軍
(中國電子科技集團公司第三十研究所,四川成都610041)
大數(shù)據(jù)技術(shù)作為當前熱門的技術(shù)領(lǐng)域,得到了廣泛的關(guān)注和研究。文中對大數(shù)據(jù)的概念、特征、國內(nèi)外發(fā)展情況進行了研究,對數(shù)據(jù)采集與感知、數(shù)據(jù)存儲與處理、數(shù)據(jù)分析、數(shù)據(jù)可視化和大數(shù)據(jù)安全與隱私保護等方面的共性基礎(chǔ)技術(shù)和前沿技術(shù)進行了分析,指出了這些技術(shù)的最新研究方向,總結(jié)了大數(shù)據(jù)技術(shù)面臨的技術(shù)和政策方面的挑戰(zhàn),分析了其技術(shù)本質(zhì),對大數(shù)據(jù)的研究和工程應用具有指導意義。
大數(shù)據(jù) 人工智能 數(shù)據(jù)挖掘 機器學習 Hadoop 隱私保護
過去幾年間,隨著計算、存儲資源的容量、速度、智能化程度的迅速提高和價格的大幅下降,以及物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、云計算等技術(shù)的迅速發(fā)展和大規(guī)模應用,政府和企業(yè)更愿意投入預算建設(shè)自己的信息設(shè)施和收集分析更多地數(shù)據(jù),數(shù)據(jù)量出現(xiàn)了爆發(fā)式增長。數(shù)據(jù)量的劇增和國家、企業(yè)間競爭的加劇,要求政府和企業(yè)能更準確、快速、個性化的為客戶和公眾提供產(chǎn)品和公共服務(wù),通過大規(guī)模掌握用戶的細節(jié)數(shù)據(jù),政府和企業(yè)可以分析出通過傳統(tǒng)數(shù)據(jù)分析手段無法獲知的價值和模式,做出更為迅速、科學、準確的決策和預測[1-2]。文獻[2]的作者舍恩伯格認為,大數(shù)據(jù)時代的經(jīng)濟學、政治學、社會學和許多科學門類都會發(fā)生巨大甚至是本質(zhì)上的變化和發(fā)展,進而影響人類的價值體系,大數(shù)據(jù)技術(shù)近年來迅速升溫。
大數(shù)據(jù)技術(shù)是預測分析、數(shù)據(jù)挖掘、統(tǒng)計分析、人工智能、自然語言處理、并行計算、數(shù)據(jù)存儲等技術(shù)的綜合運用,組成了當今最熱門的數(shù)據(jù)工程化應用技術(shù)新實踐。學術(shù)界對大數(shù)據(jù)目前還沒有權(quán)威的精確定義,文獻[3-4]提出了大數(shù)據(jù)的三大特征:數(shù)據(jù)容量(Volume)、數(shù)據(jù)產(chǎn)生速度(Velocity)和數(shù)據(jù)多樣性(Variety),基于大量詳實的統(tǒng)計結(jié)果對大數(shù)據(jù)技術(shù)的內(nèi)涵、外延、現(xiàn)狀和技術(shù)趨勢等進行了分析。在此基礎(chǔ)上,業(yè)界還有人總結(jié)出其它的大數(shù)據(jù)特點,例如準確性(Veracity)、低價值密度(Value)、存活性(Viability)等。文獻[5]站在BI&A(商業(yè)智能和分析技術(shù))的角度,將大數(shù)據(jù)技術(shù)作為下一代BI&A的發(fā)展方向,指出了其技術(shù)內(nèi)涵,并對大數(shù)據(jù)技術(shù)在數(shù)據(jù)分析、文本分析、Web分析、網(wǎng)絡(luò)分析等技術(shù)及在電子商務(wù)和市場智能、電子政務(wù)和政治、科學技術(shù)、智能健康和醫(yī)療、公共安全等領(lǐng)域的應用模式進行了分析。文獻[6]的作者認為,大數(shù)據(jù)技術(shù)已經(jīng)從4個V延展至三個維度:可實時性、可解釋性、數(shù)據(jù)準確/穩(wěn)定性。在數(shù)據(jù)工程化時代,大數(shù)據(jù)需要運營、共享,然后挖掘和運用,讓其產(chǎn)生社會價值,解決未來的問題,并認為大數(shù)據(jù)中,數(shù)據(jù)質(zhì)量非常關(guān)鍵。文獻[7]介紹了新興的數(shù)據(jù)科學核心概念:數(shù)據(jù)自然(Data Nature)。在數(shù)據(jù)自然中,數(shù)據(jù)客觀存在和產(chǎn)生于自然界和人類社會,隨著人類的認知和信息采集分析手段的不斷進步,逐步可以將越來越多大自然和人類社會的各類信息通過技術(shù)手段映射和收集到信息系統(tǒng)。通過分析研究數(shù)據(jù)自然,人們可以揭示和掌握人類社會和大自然的各種規(guī)律,而大數(shù)據(jù)技術(shù)正是當前推進該領(lǐng)域研究的最前沿技術(shù)。
綜上所述,目前的研究認為,大數(shù)據(jù)具有以下主要特征:
Volume:數(shù)據(jù)量大,數(shù)據(jù)量以PB,EB,ZB來衡量。
Velocity:數(shù)據(jù)產(chǎn)生和處理的速度快,時效要求高,不僅是靜態(tài)數(shù)據(jù),更多是動態(tài)實時數(shù)據(jù)。
Variety:數(shù)據(jù)類型多樣化,不僅是結(jié)構(gòu)化數(shù)據(jù),還包括網(wǎng)頁、社交網(wǎng)絡(luò)、日志、音視頻、圖片、位置等數(shù)據(jù),更多是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
Value:數(shù)據(jù)量大但價值密度低,需要價值提純。
Veracity:真實而準確的數(shù)據(jù)才能使數(shù)據(jù)的管控和治理有意義。
Complexity:數(shù)據(jù)復雜性高。
Fail:傳統(tǒng)的處理和分析工具失效(從采集、清洗、存儲、索引和檢索、共享、傳輸、分析等各環(huán)節(jié)傳統(tǒng)手段都失效)。
綜上所述,這里對大數(shù)據(jù)技術(shù)給出一個初步的定義:
大數(shù)據(jù)技術(shù)是一代全新的數(shù)據(jù)科學領(lǐng)域的技術(shù)架構(gòu)或模式,對數(shù)據(jù)量大、類型復雜、需要即時處理和價值提純的各類數(shù)據(jù),綜合運用新的數(shù)據(jù)感知、采集、存儲、處理、分析和可視化等技術(shù),提取數(shù)據(jù)價值,從數(shù)據(jù)中獲得對自然界和人類社會規(guī)律深刻全面的知識和洞察力。
大數(shù)據(jù)技術(shù)涉及到數(shù)據(jù)的感知、采集、存儲、處理(管理)、分析、可視化呈現(xiàn)等諸多環(huán)節(jié),各環(huán)節(jié)采用的技術(shù)手段也層出不窮。本文將對大數(shù)據(jù)的發(fā)展情況、基礎(chǔ)與前沿技術(shù)及其面臨的挑戰(zhàn)等進行全面深入的分析。
目前,IT界普遍認為當前大數(shù)據(jù)技術(shù)主要起源于谷歌。谷歌工程師在2003至2006年先后公開發(fā)表了關(guān)于MapReduce、GFS和BigTable等核心技術(shù)的學術(shù)論文,這一系列技術(shù)迅速引起巨大反響,吸引了雅虎、Facebook等互聯(lián)網(wǎng)公司的注意,直接導致了目前應用最為廣泛的開源大數(shù)據(jù)框架Apache Hadoop的誕生。
隨著人們對數(shù)據(jù)科學的深入認識,發(fā)達國家都意識到數(shù)據(jù)作為國家戰(zhàn)略資產(chǎn)的重要性,以美國為首的多個國家先后發(fā)布了大數(shù)據(jù)的國家發(fā)展戰(zhàn)略,聯(lián)合國也發(fā)布了“全球脈搏”項目的重要成果——名為《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》的大數(shù)據(jù)政務(wù)白皮書,報告中總結(jié)了各國政府如何利用大數(shù)據(jù)更好的服務(wù)和保護人民,指出了大數(shù)據(jù)對于聯(lián)合國和各國政府是個歷史性機遇。
美國政府投入了巨資到大數(shù)據(jù)技術(shù)研究領(lǐng)域,將其作為重要的戰(zhàn)略發(fā)展方向。美國白宮于2012年3月頒布了《大數(shù)據(jù)研究和發(fā)展計劃》,計劃投入約155個項目種類,計劃項目涉及的部門包括衛(wèi)生部、能源部、國防部、NSF等。美國將大數(shù)據(jù)技術(shù)發(fā)展提升到國家安全和未來的發(fā)展戰(zhàn)略的高度,而美國軍隊是大數(shù)據(jù)技術(shù)的重要參與者,國防和軍事大數(shù)據(jù)研發(fā)項目是優(yōu)先發(fā)展的重點。在該計劃中,美軍的目標是要通過大數(shù)據(jù)技術(shù)實現(xiàn)感知、認知和決策支持的結(jié)合,建立決策智能、操控自動的自動化系統(tǒng),提高戰(zhàn)場與態(tài)勢感知能力,增強信息提取分析、情報獲取和對目標的洞察能力,同時強調(diào)要培養(yǎng)該技術(shù)領(lǐng)域的人才隊伍。
在計劃中,涉及到軍事的大數(shù)據(jù)項目有十多項,主要的項目包括:多尺度異常檢測項目(ADAMS)、網(wǎng)絡(luò)內(nèi)部威脅計劃(CINDER)、洞悉計劃(Insight計劃)、閱讀機項目、想象力項目(Mind′s Eye)、面向任務(wù)的彈性云項目、加密數(shù)據(jù)的編程計算項目(PROCEED項目)、視頻與圖像檢索分析工具項目(VIRAT項目)等。
美國防部高級研究計劃局還開展了XDATA項目,計劃在未來四年,投入資金開發(fā)能夠分析海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的技術(shù)和軟件工具。美軍同時投入研究的還包括數(shù)據(jù)可視化、信息安全與大數(shù)據(jù)的結(jié)合等方面的研究與活動,并投巨資在鹽湖城建立了大數(shù)據(jù)中心,用于對各類情報數(shù)據(jù)進行大數(shù)據(jù)分析,向相關(guān)軍事機構(gòu)提供大數(shù)據(jù)分析產(chǎn)品,積極推動“從數(shù)據(jù)到?jīng)Q策”的計劃,以實現(xiàn)決策優(yōu)勢[8-9]。國內(nèi)軍事領(lǐng)域,該方面的應用還處于起步階段,需要盡快趕上。
在大數(shù)據(jù)領(lǐng)域,目前已實用化的國際知名項目包括:
1)Google知識圖譜和深度學習、自動駕駛技術(shù)、Google眼鏡。
2)Facebook開放社交圖譜數(shù)據(jù)。
3)NSA棱鏡計劃。
4)IBM Watson。
5)LinkedIn、Amazon、Netflix推薦系統(tǒng)等。
在國內(nèi),互聯(lián)網(wǎng)公司和技術(shù)界對大數(shù)據(jù)技術(shù)的研究和實用也開展的如火如荼,對大數(shù)據(jù)技術(shù)也提上了國家的戰(zhàn)略發(fā)展日程。2013年,我國多位院士聯(lián)合上書國務(wù)院,建議設(shè)立國家專項開展大數(shù)據(jù)技術(shù)研究,將大數(shù)據(jù)上升為國家戰(zhàn)略。在2014年的兩會上包括金山和小米公司董事長雷軍在內(nèi)的多位代表提出加快實施大數(shù)據(jù)國家戰(zhàn)略的建議。
在數(shù)據(jù)開放和共享方面,國家統(tǒng)計局開放和共享了部分公共數(shù)據(jù)。中國電信于2014年初,召開了大數(shù)據(jù)開放合作洽談會,相關(guān)機構(gòu)也在加緊制定大數(shù)據(jù)交易的相關(guān)法規(guī)。國內(nèi)的主要互聯(lián)網(wǎng)公司:百度、阿里和騰訊,已將大數(shù)據(jù)技術(shù)應用到各自的業(yè)務(wù)中,取得了巨大的經(jīng)濟和社會效益,百度還成立了深度機器學習研究所。
在大數(shù)據(jù)技術(shù)人才培養(yǎng)方面,清華大學2014年起設(shè)置了大數(shù)據(jù)技術(shù)的相關(guān)碩士學位和課程,多學科交叉培養(yǎng)大數(shù)據(jù)技術(shù)人才。專業(yè)方向涉及數(shù)據(jù)科學與工程、商務(wù)分析、大數(shù)據(jù)與國家治理、互聯(lián)網(wǎng)金融等方向,正式開啟了該領(lǐng)域?qū)I(yè)技術(shù)人才培養(yǎng)的工作。
可以預見,大數(shù)據(jù)技術(shù)作為一個橫向的技術(shù),將應用到國計民生的各個領(lǐng)域,對各個領(lǐng)域帶來巨大的沖擊和變革,以及前所未有的發(fā)展機遇。
從信息科學的DIKW(Data,Information,Knowledge,Wisdom)基礎(chǔ)模型和數(shù)據(jù)科學領(lǐng)域的“數(shù)據(jù)自然”概念來看,人類對世界的認知需要從最基礎(chǔ)的數(shù)據(jù)入手,利用當前最前沿的大數(shù)據(jù)技術(shù)來感知世界,分析世界,認識世界,掌握世界,而大數(shù)據(jù)技術(shù)就是打開整個數(shù)據(jù)通道的強力工具。
麥肯錫的一份報告認為大數(shù)據(jù)技術(shù)主要包括預測分析、數(shù)據(jù)挖掘、統(tǒng)計分析、人工智能、自然語言處理、并行計算等方面的技術(shù)[10]。IBM的Stephen Watt提出的大數(shù)據(jù)生態(tài)系統(tǒng)模型中,將大數(shù)據(jù)技術(shù)劃分為數(shù)據(jù)生成、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分享、數(shù)據(jù)檢索、數(shù)據(jù)分析、數(shù)據(jù)可視化等7個部分[11],如圖1所示。
圖1 IBM大數(shù)據(jù)生態(tài)系統(tǒng)模型Fig.1 IBM Big Data Ecosystem Model
大數(shù)據(jù)技術(shù)的共性基礎(chǔ)技術(shù)可分為:感知,采集,存儲,分析和可視化等方面,涉及的技術(shù)領(lǐng)域包括:傳感器,計算網(wǎng)絡(luò),數(shù)據(jù)存儲,集群式計算系統(tǒng),云計算設(shè)施,人工智能,數(shù)據(jù)可視化。
本文從大數(shù)據(jù)從感知到?jīng)Q策的過程和提煉大數(shù)據(jù)關(guān)鍵技術(shù)的角度,將大數(shù)據(jù)技術(shù)分為以下幾個方面的技術(shù):
2.1 數(shù)據(jù)感知和采集
目前大數(shù)據(jù)的來源范圍日益廣泛,各類傳感器、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)(手機、各類移動終端等)、物聯(lián)網(wǎng)(RFID、攝像頭)等都是重要的大數(shù)據(jù)采集和感知來源。中國工程院李德毅院士認為:大數(shù)據(jù)的主要來源有三方面:自然界的大數(shù)據(jù)、生命和生物的大數(shù)據(jù)和社交大數(shù)據(jù)。移動互聯(lián)網(wǎng)時代大數(shù)據(jù)來源主要是網(wǎng)絡(luò)化環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)往往是低價值、碎片化、強噪聲、異構(gòu)和冗余的[12]。具體到某個領(lǐng)域,數(shù)據(jù)的感知采集手段是不一樣的,以網(wǎng)絡(luò)安全領(lǐng)域為例,可能的數(shù)據(jù)感知手段就包括了網(wǎng)絡(luò)探針、SNMP、ICMP消息、IDS/IPS日志、VPN日志、Web日志、防火墻日志、抓包數(shù)據(jù)、netflow數(shù)據(jù)、路由器日志等等。從目前大數(shù)據(jù)分析和研究的重點來看,大數(shù)據(jù)的主要研究對象集中在社交數(shù)據(jù)和自然數(shù)據(jù),社交大數(shù)據(jù)來自于人的社會活動產(chǎn)生的各類數(shù)據(jù),其載體主要是互聯(lián)網(wǎng);而自然數(shù)據(jù)主要是機器與機器交互之間產(chǎn)生的數(shù)據(jù),如網(wǎng)絡(luò)日志、各類傳感器產(chǎn)生的數(shù)據(jù)、RFID、GPS數(shù)據(jù)等等。自然數(shù)據(jù)主要依賴各類傳感器來采集,目前傳感器技術(shù)朝著智能化、移動化和多樣化的方向發(fā)展[13]。
未來在數(shù)據(jù)感知和采集領(lǐng)域值得關(guān)注的技術(shù)方向包括:可穿戴式應用、無人駕駛、醫(yī)療和健康監(jiān)測、工業(yè)控制、智能家居、智能交通控制等。
2.2 數(shù)據(jù)存儲和處理
大數(shù)據(jù)的數(shù)據(jù)處理和存儲是當前最基礎(chǔ)和應用最為廣泛的大數(shù)據(jù)技術(shù),最著名的當屬Apache Hadoop系列開源平臺,主要包括了:HadoopCommon, HDFS,MapReduce,Zookeeper,Avro,Chukwa,HBase, Hive,Pig等子項目[14]:
(1)HadoopCommon
是Hadoop框架基礎(chǔ)性的功能,如文件系統(tǒng)、RPC協(xié)議和數(shù)據(jù)串行化庫等。屬于基礎(chǔ)核心組件,提供基礎(chǔ)支撐性的功能。
(2)HDFS
是分布式文件系統(tǒng),Hadoop的基礎(chǔ)核心組件。適合于在計算機集群上部署,具有低成本、高可靠、高吞吐量的特點。
(3)MapReduce
提供編程模型和框架,用于對大規(guī)模計算機集群上編寫對大數(shù)據(jù)進行快速處理的并行化程序,屬于基礎(chǔ)核心組件。適合掃描大數(shù)據(jù),進行庫內(nèi)分析,從中抽取出部分重要數(shù)據(jù)。
(4)Zookeeper
分布式應用程序協(xié)調(diào)服務(wù),用于管理維護Hadoop集群的配置信息、命名信息等,并提供分布式鎖同步和群組管理功能,是Hadoop管理組件。
(5)Avro
基于二進制數(shù)據(jù)傳輸?shù)母咝阅苤虚g件,可將數(shù)據(jù)序列化。適用于遠程或者本地的大批量數(shù)據(jù)交互。
(6)Chukwa
分布式數(shù)據(jù)收集和分析,用于監(jiān)控大型分布式系統(tǒng)?;贖DFS和MapReduce構(gòu)建,提供系列工具監(jiān)控、分析系統(tǒng)運行數(shù)據(jù)。
(7)HBase
分布式面向列的開源數(shù)據(jù)庫,適合于非結(jié)構(gòu)化大數(shù)據(jù)存儲的數(shù)據(jù)庫。NoSQL的代表產(chǎn)品。是一個NoSQL數(shù)據(jù)庫。
(8)Pig
大數(shù)據(jù)分析工具,提供相應的分析語言和運行環(huán)境,支持并行化處理。適合數(shù)據(jù)準備階段對大量快速到達的數(shù)據(jù)進行流水式處理(ETL,抽取轉(zhuǎn)換加載等)的能力,并能對大規(guī)模數(shù)據(jù)集進行迭代處理。(提供Pig Latin語言接口)
(9)Hive
基于Hadoop的數(shù)據(jù)倉庫,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射入一張數(shù)據(jù)庫表,提供強大的查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運行。適用于數(shù)據(jù)呈現(xiàn)階段(數(shù)據(jù)倉庫)將整理完成的數(shù)據(jù)進行檢索、組合和統(tǒng)計后的有序呈現(xiàn)。(提供HiveQL語言訪問接口)
(10)Sqoop
實現(xiàn)Hadoop系統(tǒng)與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)間的數(shù)據(jù)交換。可以在傳統(tǒng)數(shù)據(jù)庫和HDFS或MapReduce之間進行數(shù)據(jù)導入導出。適合將遺留系統(tǒng)的關(guān)系型數(shù)據(jù)庫數(shù)據(jù)集成到基于Hadoop的大數(shù)據(jù)架構(gòu)下。與Hive結(jié)合,可以實現(xiàn)強大的與關(guān)系型數(shù)據(jù)庫整合的數(shù)據(jù)分析工具集。
(11)HCatalog
Hadoop的數(shù)據(jù)表和存儲管理組件,對數(shù)據(jù)模板和數(shù)據(jù)類型進行共享和管理。用于實現(xiàn)Hadoop平臺內(nèi)部的數(shù)據(jù)整合。
(12)Ambari
用于安裝、管理和監(jiān)控Hadoop集群的Web界面工具,可對各Hadoop組件進行管理??梢暬O(jiān)控管理工具。
目前,Hadoop作為成功的大數(shù)據(jù)框架被一些IT公司成功的商用化,形成了不同的商業(yè)版本和解決方案,其中比較著名的商業(yè)版本包括CloudEra、Hortonworks、MapR、IBM、華為等公司的相關(guān)產(chǎn)品。
Apache Hadoop經(jīng)過大規(guī)模應用后,也暴露出來一些問題,如JobTracker容易造成單點故障、集群最大規(guī)模達到幾千節(jié)點后無法繼續(xù)擴展、與MapReduce計算模式緊密綁定等問題。因此,Hadoop的開發(fā)者針對上述問題提出了YARN作為下一代計算框架。同時,作為大數(shù)據(jù)技術(shù)的鼻祖,Google針對新的大數(shù)據(jù)分析需求,相繼提出了Dremel和Pregel[14],前者主要用于分析只讀嵌套型數(shù)據(jù)的可擴展交互式動態(tài)(Ad hoc)查詢,可完成秒級處理萬億行級別的大數(shù)據(jù)聚合查詢;后者是針對典型的大數(shù)據(jù)圖計算場景,提出的分布式圖計算框架,實現(xiàn)了大規(guī)模圖數(shù)據(jù)的算法。
另外,IBM在大數(shù)據(jù)和云計算技術(shù)發(fā)展起來后,將一度束之高閣的自主計算(Autonomic Computing)與大數(shù)據(jù)技術(shù)結(jié)合,提出了具備自主學習能力的“認知計算”作為新一代的計算框架,并將其定位為繼制表計算、編程計算之后的第三代計算模式[15], Watson是其代表產(chǎn)品,也是值得關(guān)注的發(fā)展方向。
其他類似的值得關(guān)注的公司和產(chǎn)品還包括SPARK開源框架,TeraData、Snow、GreenPlum等公司和產(chǎn)品。
2.3 數(shù)據(jù)分析
數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)領(lǐng)域最核心、產(chǎn)生直接價值的部分。通過數(shù)據(jù)分析的結(jié)果,可以揭示不為人知的有價值的規(guī)律和結(jié)果,并可以輔助人們進行更為科學和智能化的決策。在大數(shù)據(jù)分析方面,除了傳統(tǒng)的BI技術(shù),人工智能技術(shù)領(lǐng)域的很多技術(shù)方法為大數(shù)據(jù)分析提供了豐富多樣的分析方法,包括統(tǒng)計分析、機器學習、數(shù)據(jù)挖掘、自然語言處理、知識與推理等。該領(lǐng)域主要的技術(shù)方向包括以下幾類。
2.3.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,是統(tǒng)計學、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合運用,是通過在數(shù)據(jù)庫管理系統(tǒng)上綜合運用統(tǒng)計和機器學習的方法從大數(shù)據(jù)集中提取出模式的一組技術(shù)。常見的主要數(shù)據(jù)挖掘方法包括關(guān)聯(lián)規(guī)則學習、聚類分析、分類分析、序列分析、偏差檢測、預測分析、模式相似性挖掘和回歸分析等。
典型的商用數(shù)據(jù)挖掘工具有IBM SPSS、SGI MineSet、Oracle Darwin,開源的有Weka等。這些工具主要站在BI的角度,提供從分析到可視化的商業(yè)解決方案。
2.3.2 統(tǒng)計分析
統(tǒng)計分析就是基于數(shù)學領(lǐng)域的統(tǒng)計學原理,對數(shù)據(jù)進行收集、組織和解釋的科學。統(tǒng)計的方法主要用于對變量間可能出現(xiàn)的關(guān)系、變量間的定量關(guān)系進行分析處理。典型的方法有A/B測試等[10]。
在該領(lǐng)域,經(jīng)典的統(tǒng)計分析工具是R語言工具包。R語言是新西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman教授為了方便統(tǒng)計課程教學,共同發(fā)明的基于Scheme和S語言的一種語言。R是開源的統(tǒng)計分析軟件,提供了豐富的經(jīng)典統(tǒng)計分析算法和繪圖技術(shù),包括線性和非線性模型、統(tǒng)計檢驗、時間序列、分類、聚類等算法,實現(xiàn)了很多經(jīng)典的、現(xiàn)代的統(tǒng)計算法。
而Purdue大學的RHIPE是一個R和Hadoop的集成編程環(huán)境,用于在Hadoop大數(shù)據(jù)處理環(huán)境下,應用R語言進行數(shù)據(jù)挖掘分析,該環(huán)境將R語言算法移植和集成到了Hadoop的并行處理環(huán)境下,對大數(shù)據(jù)進行統(tǒng)計分析。
2.3.3 自然語言處理
自然語言處理(NLP,Natural Language Processing)是基于計算機科學和語言學,利用計算機算法對人類自然語言進行分析的技術(shù),屬于人工智能領(lǐng)域的一個重要方法。其關(guān)鍵技術(shù)涉及詞法分析、句法分析、語義分析、語音識別、文本生成等。很多自然語言處理算法都是基于機器學習的方法。該技術(shù)領(lǐng)域典型的應用就是基于社交媒體對語言的情感進行分析、法律領(lǐng)域的電子偵查,其他應用還包括欺詐檢測、文本分類、信息檢索和過濾、文字轉(zhuǎn)換系統(tǒng)、機器翻譯等。
該技術(shù)領(lǐng)域的國產(chǎn)應用工具有OpenNLP、FudanNLP和哈工大的LTP,前者用于處理自然語言文本,后兩個主要針對中文語言處理提供詞法、句法、語義、分類等相應的處理[16]。
作為美國政府大數(shù)據(jù)研究計劃的一部分,美國DARPA啟動了DEFT項目對自然語言深度處理技術(shù)進行研究,對超大規(guī)模的語音和文本數(shù)據(jù)進行情報分析,用于互聯(lián)網(wǎng)監(jiān)控、情報分析、犯罪預防和反恐等方面,參與研究的機構(gòu)包括斯坦福大學、卡耐基梅隆大學和哥倫比亞大學等。
該領(lǐng)域目前的研究熱點在語義分析和情感分析等方面。
2.3.4 機器學習
大數(shù)據(jù)環(huán)境下,機器學習的主要應用領(lǐng)域可以總結(jié)為三方面:搜索、迭代優(yōu)化和圖計算。機器學習作為人工智能領(lǐng)域的重要內(nèi)容之一,被分為監(jiān)督學習和無監(jiān)督學習兩大類。監(jiān)督學習要求算法的使用者知道要預測什么(即目標變量的分類信息),主要采用分類和回歸算法,如果預測的目標值為離散型(如是/否、A/B/C等)則適合用分類算法,如k近鄰算法、決策樹算法、樸素貝葉斯算法、支持向量機算法、AdaBoost算法等;如果預測的目標值為連續(xù)性的數(shù)值(如0~100、0.1~150等),則適合回歸算法,如Logistic回歸、CART算法(分類回歸樹算法)等[17]。
無監(jiān)督學習則不預先指定數(shù)據(jù)分類和目標值,主要算法有聚類和密度估計等算法,如K均值聚類算法、Apriori算法、FP-Growth算法等[18]。
也有資料提出半監(jiān)督學習和強化學習等概念,在半監(jiān)督學習模式下,輸入數(shù)據(jù)部分被標識分類,主要用來預測分析,算法模塊先要學習數(shù)據(jù)內(nèi)在結(jié)構(gòu)以合理組織數(shù)據(jù),主要采用分類和回歸的算法,是對常用監(jiān)督式學習算法的擴展,如拉普拉斯支持向量機算法等。強化學習模式則是將輸入數(shù)據(jù)直接反饋到模型,模型作出動態(tài)修正調(diào)整,常見的應用場景包括動態(tài)系統(tǒng)、機器人控制等[19]。
Mahout作為基于Hadoop的數(shù)據(jù)挖掘和機器學習算法框架,解決了相關(guān)算法在大數(shù)據(jù)并行計算架構(gòu)下的使用問題,提供了基因算法、序列分析算法、分類分析算法、聚類分析算法等算法庫,是一個提供給開發(fā)者使用的工具框架。
該領(lǐng)域目前的研究熱點在于采用新的機器學習算法實現(xiàn)深度機器學習。深度學習是對人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,其本質(zhì)就是通過構(gòu)建具有很多隱層的機器學習模型和海量的訓練數(shù)據(jù)來學習更有用(相對于采用傳統(tǒng)機器學習算法的淺層機器學習而言)的特征,從而提升最終分類或者預測的準確性[20]。在深度學習領(lǐng)域,谷歌、微軟、IBM、百度等企業(yè)走在最前沿。以Google Brain項目最為出名,該項目搭建了有16000個CPU核的并行計算平臺,用于訓練深度神經(jīng)網(wǎng)絡(luò)(DNN,Deep Neural Network)的機器學習模型,該模型在語音識別和圖像識別領(lǐng)域取得了巨大成功。
2.4 數(shù)據(jù)可視化
數(shù)據(jù)可視化(Data Visualization)主要研究如何利用人的感知能力以貼近人類自然感知的圖形化展現(xiàn)方式,對數(shù)據(jù)交互進行可視化表達,以增強人的認知,呈現(xiàn)數(shù)據(jù)中隱含的信息,發(fā)掘數(shù)據(jù)中所包含的規(guī)律,它是一門橫跨計算機圖形學、人機交互、統(tǒng)計學、心理學的綜合學科。
文獻[21]將數(shù)據(jù)可視化分為:科學可視化、信息可視化和可視分析學3個分支,3個分支的側(cè)重點各有不同:科學可視化主要面向自然科學,如物理、化學、氣象、航空航天等,對其數(shù)據(jù)和模型進行解釋、操作與處理,尋找其中的科學規(guī)律和異常等;信息可視化則主要處理非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),如金融交易、社交網(wǎng)絡(luò)和文本日志數(shù)據(jù)等,主要關(guān)注如何在有限的展現(xiàn)空間中,以直觀有效的方式傳達大量的抽象信息;可視分析則是以可視交互界面為研究對象的分析推理科學,綜合了圖形學、數(shù)據(jù)挖掘分析和人機交互等技術(shù)。
傳統(tǒng)的商業(yè)BI公司,將重點放在可視分析,并在該領(lǐng)域都有相應的技術(shù)和產(chǎn)品。在數(shù)據(jù)可視化領(lǐng)域,比較知名的包括SAP、IBM、SAS、Microsoft等,但在大數(shù)據(jù)可視化分析領(lǐng)域走在前沿的公司是Tableau Software公司,其代表產(chǎn)品是Tableau Desktop、Tableau Server、Tableau Reader、Tableau Public等,該公司致力于讓不懂技術(shù)的行業(yè)知識專家也能輕易進行可視化和可交互的即時數(shù)據(jù)分析展示,其主要核心和創(chuàng)新包括兩方面:獨創(chuàng)的VizQL數(shù)據(jù)庫和對用戶體驗的完美設(shè)計[22]。還有一些開源的可視化產(chǎn)品如R、D3.js、Processing.js等,也有較為廣泛的應用。
該領(lǐng)域未來的挑戰(zhàn)主要是大數(shù)據(jù)可視化和以人為中心的探索式可視分析[21]。
2.5 數(shù)據(jù)安全和隱私保護
在大數(shù)據(jù)時代,對隱私信息采用傳統(tǒng)的告知與許可、模糊化和匿名化等手段均失去效果[2],傳統(tǒng)的加密技術(shù)、身份認證和訪問控制等手段也在大數(shù)據(jù)面前捉襟見肘,傳統(tǒng)的信息安全和隱私保護法律框架也出現(xiàn)了空隙甚至空白。
文獻[24]通過對美國各類攻擊的數(shù)據(jù)分析,指出了信息系統(tǒng)安全面臨的五大威脅:包括數(shù)據(jù)泄露、網(wǎng)絡(luò)釣魚和魚叉式網(wǎng)絡(luò)釣魚、未授權(quán)的文件共享、內(nèi)部威脅(內(nèi)部人員的意外或故意破壞)和APT攻擊(如Stuxnet,Duqu,Flame等),建議并提出將大數(shù)據(jù)技術(shù)與賽博安全相結(jié)合,采用大數(shù)據(jù)安全分析(big security analytics)的思路解決大數(shù)據(jù)時代的安全問題。文獻[23]指出大數(shù)據(jù)技術(shù)應用面臨的三方面的挑戰(zhàn):用戶隱私保護、大數(shù)據(jù)的可信性和數(shù)據(jù)的訪問控制,并分析了針對大數(shù)據(jù)安全防護的主要關(guān)鍵技術(shù):數(shù)據(jù)發(fā)布匿名保護技術(shù)、社交網(wǎng)絡(luò)匿名保護技術(shù)、數(shù)據(jù)水印技術(shù)、數(shù)據(jù)溯源技術(shù)、角色挖掘、風險自適應的訪問控制等,提出將大數(shù)據(jù)技術(shù)自身作為大數(shù)據(jù)安全防護實現(xiàn)手段,應用到信息安全,提升大數(shù)據(jù)環(huán)境下的信息安全防護水平。
作為大數(shù)據(jù)技術(shù)的代表平臺,Hadoop在設(shè)計之初對安全的考慮不足,因此其安全機制較弱,天然缺乏用戶和服務(wù)器的安全認證機制、授權(quán)機制和傳輸與存儲加密機制。雖然Hadoop1.0.0版本實現(xiàn)了基于ACL的訪問控制機制和基于Kerberos的安全認證機制[14,20],但這些機制受限于ACL和Kerberos自身的能力限制(如易出現(xiàn)單點故障、協(xié)議開銷大、不適用于跨域或多級認證等),并未完全解決Hadoop的安全問題。
目前技術(shù)界對Hadoop架構(gòu)下數(shù)據(jù)加密、訪問控制、區(qū)別隱私保護和審計等方面的研究很多,文獻[25]基于MapReduce計算框架,從隱私規(guī)范接口、數(shù)據(jù)匿名、數(shù)據(jù)更新和匿名數(shù)據(jù)集管理等方面提出了一種大數(shù)據(jù)隱私保護框架,其作用就是在MapReduce訪問和處理數(shù)據(jù)之前對數(shù)據(jù)隱私進行過濾保護。
而IBM的科學家成功實現(xiàn)了同態(tài)加密技術(shù),可以用于解決云環(huán)境下大數(shù)據(jù)的加密保護問題。該技術(shù)理論上允許對加密后的數(shù)據(jù)進行計算,而不影響計算結(jié)果[26]。但由于該技術(shù)當前發(fā)展還不成熟,因效率低而且非常昂貴,還沒有實用化。
在大數(shù)據(jù)安全和隱私保護領(lǐng)域,數(shù)據(jù)去識別化(也叫數(shù)據(jù)匿名)和再識別化、數(shù)據(jù)彈性訪問控制和數(shù)據(jù)加密的問題并未得到徹底解決,因此這方面是值得重點關(guān)注的發(fā)展領(lǐng)域。
3.1 技術(shù)方面的挑戰(zhàn)
大數(shù)據(jù)在技術(shù)方面的挑戰(zhàn)主要有以下:
1)高速網(wǎng)絡(luò):對大數(shù)據(jù)的傳輸和處理需要超高速網(wǎng)絡(luò)的支撐,對目前的網(wǎng)絡(luò)架構(gòu)和技術(shù)帶來挑戰(zhàn)。
2)集群計算編程:分布式并行計算技術(shù)需要跟上大數(shù)據(jù)處理技術(shù)的發(fā)展,目前主流的MapReduce計算模式并不能解決大數(shù)據(jù)處理的一切問題,有其局限性。
3)云計算的擴展:云計算需要與大數(shù)據(jù)進行完美的融合。
4)機器學習及其他數(shù)據(jù)分析方法:機器學習等分析算法需要朝深度學習發(fā)展,更加智能化,提出更多新型、有效的智能算法。
5)廣域部署(移動計算環(huán)境下的應用):大數(shù)據(jù)技術(shù)需要能夠在移動計算環(huán)境下方便、高效的部署使用。
6)隱私和安全保護:大數(shù)據(jù)隱私和安全保護技術(shù)需要跟上大數(shù)據(jù)技術(shù)應用的發(fā)展。
其中,大數(shù)據(jù)安全和隱私保護是當前大數(shù)據(jù)技術(shù)面臨的最大挑戰(zhàn)[27],這些隱私和安全問題需要從多個角度去綜合解決,包括技術(shù)的手段和政策法律方面的手段。
3.2 政策和法規(guī)方面的挑戰(zhàn)
大數(shù)據(jù)技術(shù)在所依托的政策和法規(guī)方面的挑戰(zhàn)主要來自以下方面:
1)政策法律:要盡快建立完善的信息安全法律法規(guī)體系,從國家層面,對軍隊、政府、行業(yè)和個人的數(shù)據(jù)進行安全和隱私保護,維護國家、機構(gòu)和個人的權(quán)益。
2)數(shù)據(jù)交易與共享機制:在國家相關(guān)法律法規(guī)的框架下,建立通暢和合法的數(shù)據(jù)交易與共享渠道與機制,避免暗箱交易和非法交易,同時也要避免數(shù)據(jù)過度保護。
3)數(shù)據(jù)隱私和安全:技術(shù)和法律兩方面的手段相結(jié)合,解決數(shù)據(jù)隱私和安全問題,調(diào)和法律保護與數(shù)據(jù)挖掘分析相對立的問題,促進大數(shù)據(jù)技術(shù)的應用。
4)國家和行業(yè)標準的建立:由相關(guān)標準化管理機構(gòu)牽頭組織,進行大數(shù)據(jù)技術(shù)的行業(yè)標準、通用標準的制定和推廣。
從技術(shù)發(fā)展的角度來看,數(shù)據(jù)的龐大、多樣性、高速和復雜性和由此而產(chǎn)生的數(shù)據(jù)管理和計算存儲的擴展性問題并不是IT界遇到的新問題,從數(shù)據(jù)分析的目標和需求而言,它僅僅是又一次新的、更大的、突破了當時技術(shù)條件下數(shù)據(jù)處理極限的數(shù)據(jù)集。因此,大數(shù)據(jù)帶來的挑戰(zhàn)是突破現(xiàn)有的數(shù)據(jù)存儲、處理、分析、呈現(xiàn)技術(shù)手段局限,這對IT界來說并不是個新命題。
大數(shù)據(jù)改變的是數(shù)據(jù)分析的策略和方法,需要將新的工具、方法、技術(shù)和傳統(tǒng)的分析工具和技術(shù)結(jié)合起來,大數(shù)據(jù)的定義僅僅是相對于當前可用的技術(shù)和資源而言。將大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相結(jié)合進行分析,產(chǎn)生新的洞察和價值,大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)都是先進可供分析的數(shù)據(jù)整體戰(zhàn)略的組成部分[28]。
在數(shù)據(jù)采集和分析時,需要考慮成本與收益的問題。雖然有些大數(shù)據(jù)分析專家強調(diào)大數(shù)據(jù)的要點就是要對數(shù)據(jù)全體進行分析,而不是采樣分析[2],但是,對全體大數(shù)據(jù)進行分析雖然在技術(shù)上是可行的,但會帶來很多額外的成本(存儲與分析數(shù)據(jù)所需的資源)與工作(大量不必要的分析工作),除非是在某些特殊場景必須對全體進行分析的情況下,在沒有太多實際效益和分析需求比較明確的情況下,抽樣分析是一個好的策略[28]。
目前,大數(shù)據(jù)技術(shù)已成為推動社會經(jīng)濟發(fā)展的新一輪信息技術(shù)革命的發(fā)動機,在世界范圍的信息化建設(shè)洪流和網(wǎng)絡(luò)空間成為國家第五疆土的背景下,將對國家和各行各業(yè)帶來巨大的變革,以美國為首的多個信息技術(shù)強國都已制定和實施了國家大數(shù)據(jù)發(fā)展戰(zhàn)略。
在大數(shù)據(jù)技術(shù)浪潮的關(guān)鍵發(fā)展階段,我國也應盡早啟動該技術(shù)領(lǐng)域的戰(zhàn)略性研究,在大數(shù)據(jù)處理平臺、非結(jié)構(gòu)化數(shù)據(jù)分析處理、人工智能與深度機器學習、數(shù)據(jù)安全與隱私保護等方面進行重點研究突破,以大數(shù)據(jù)技術(shù)為契機,建立自己的數(shù)據(jù)科學體系、政策框架、法律框架、技術(shù)框架和人才隊伍,形成行業(yè)模型、技術(shù)標準、工具平臺和創(chuàng)新性的解決方案等成果,提出相關(guān)標準和專利,形成該領(lǐng)域的產(chǎn)業(yè)優(yōu)勢和技術(shù)優(yōu)勢,推動國家在該領(lǐng)域的技術(shù)水平走到世界前沿。
[1] Thomas H.Davenport,Paul Barth,Randy Bean.How′Big Data′is Different[J].MIT Sloan Management Review, 2012,54(01):22-24.
[2] Victor Mayer-Schonberger,Kenneth Cukier.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:193-232.
Victor Mayer-Schonberger,Kenneth Cukier.Big Data:A Revolution That Will Transform How We Live,Work and Think[M].HangZhou:ZheJiang People Publishing House,2013:193-232.
[3] Philip Russom.Big Data Analytics.TDWI Best Practices Report[R].USA:TDWI,2011.
[4] Paul Zikopoulos,Chris Eaton,Dirk de Roos etc.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data[R].USA:Mc.Graw-Hill,2012.
[5] Hsinchun Chen,Roger H.L.Chiang,Veda C.Storey.Business Intelligence and Analytics:From Big Data To Big Impact[J].MIS Quarterly,2012,36(04):1165-1188.
[6] 車品覺.大數(shù)據(jù)的三個維度和十誡[EB/OL].(2014-03-07)[2014-05-10].http://tech.sina.com.cn.
CHE Pin-jue.The Three Dimensions and Tencommandments of Big Data[EB/OL].(2014-03-07)[2014-05-10].http://tech.sina.com.cn.
[7] 孫定.數(shù)據(jù)學概要[EB/OL].(2014-03-31)[2014-05-16].http://www.dooland.com/magazine/online. php?pid=MTAyNDA0.
SUN Ding.Data Science Overview[EB/OL].(2014-03 -31)[2014-05-16].http://www.dooland.com/magazine/online.php?pid=MTAyNDA0.
[8] 李紀舟,葉小新,丁云峰.美軍大數(shù)據(jù)技術(shù)發(fā)展現(xiàn)狀及對其信息作戰(zhàn)的影響[J].外軍信息戰(zhàn),2013(06):34-38.
LI Ji-zhou,Ye Xiao-xin,Ding Yun-feng.The Development Status of Big Data Technology in US Army and it's Influence on US Army's Information Warfare[J],2013 (6):34-38.
[9] 陳明奇,姜禾,張娟,等.大數(shù)據(jù)時代的美國信息網(wǎng)絡(luò)安全新戰(zhàn)略分析[C]//第27次全國計算機安全學術(shù)交流會論文集.中國:中科院信息辦,2012:32-35.
CHEN Ming-qi,JIANG He,ZHANG Juan.Analysis of the U.S.Information Network Security Strategy in the Era of Big Data[C]//The 27thNational Computer Security Academics Meeting Dissertations.China:The Chinese Academy of Sciences Information Office,2012(08):32-35.
[10] James Manyika,Michael Chui,Brad Brown,etc.Big data: The next frontier for innovation,competition,and productivity[R].USA:McKinsey Global Institute,2011.
[11] 李明.大數(shù)據(jù)時代的創(chuàng)新者們[EB/OL].(2011-11-02)[2014-06-04].http://www.infoq.com/cn/articles/innovation-in-big-data/
LI Ming.The Innovators of Big Data Ages[EB/OL]. (2011-11-02)[2014-06-04].http://www.infoq. com/cn/articles/innovation-in-big-data/.
[12] 李德毅.再大的數(shù)據(jù)也能繞過那道彎[EB/OL]. (2014-05-22)[2014-06-10].http://mp.weixin. qq.com/s?_biz=MjM5MTQzNzU2NA==&mid= 200255809&idx=1&sn=4fac4b42f28293ce06d700c 51b92eb87#rd
LI De-yi.Even Bigger Data Can Cross That Crooked Road[EB/OL].(2014-05-22)[2014-06-10].http://mp.weixin.qq.com/s?_biz=MjM5MTQz NzU2NA==&mid=200255809&idx=1&sn=4fac4b42f28293ce06d700c51b92eb87#rd
[13] 大數(shù)據(jù)文摘.全球傳感器未來發(fā)展趨勢及4大重要領(lǐng)域[EB/OL].(2014-05-08)[2014-06-15].http://mp.weixin.qq.com/s?_biz=MjM5MTQzNzU2 NA==&mid=200217395&idx=3&sn=aba84449a616c854cd579bedbffab8ea#rd
Big Data Digest.The Future Development Trends of Global Sensor Technology and 4 Big Fields[EB/OL]. (2014-05-08)[2014-06-15].http://mp.weixin. qq.com/s?_biz=MjM5MTQzNzU2NA==&mid= 200217395&idx=3&sn=aba84449a616c854cd 579bedbffab8ea#rd
[14] 劉軍.Hadoop大數(shù)據(jù)處理[M].北京:人民郵電出版社,2013:45-60. LIU Jun.Hadoop Big Data Processing[M].Bei Jing: Posts&Telecom Press,2013:45-60.
[15] 王博.IBM亮劍新互聯(lián)時代[EB/OL].(2014-04-14) [2014-05-20].http://www.dooland.com/magazine/ online.php?pid=MTAzMDExWANG Bo.IBM Show Swords in New Internet Era[EB/OL].(2014-04-14) [2014-05-20].http://www.dooland.com/magazine/ online.php?pid=MTAzMDEx.
[16] 百度.自然語言處理[EB/OL].(2014-05-23)[2014-06-01].http://baike.baidu.com/view/18784.htm? fr=aladdinBaiDu.Natural Language Processing[EB/ OL].(2014-05-23)[2014-06-01].http://baike. baidu.com/view/18784.htm?fr=aladdin
[17] Vinayak Borkar,Yingyi Bu,Michael J.Carey,etc.Declarative Systems for Large-Scale Machine Learning [EB/OL].(2012-04-25)[2014-05-20].http:// sites.computer.org/debull/A12june/declare.pdf.
[18] Peter Harrington.機器學習實戰(zhàn)[M].北京:人民郵電出版社,2013:184-239.
Peter Harrington.Machine Learning in Action[M].Bei Jing:Posts&Telecom Press,2013:184-239.
[19] 王萌.機器學習算法匯總:人工神經(jīng)網(wǎng)絡(luò)、深度學習及其它[EB/OL].(2014-06-27)[2014-06-29].http://www.csdn.net/article/2014-06-27/2820429.
WANG Meng.Summarization of Machine Learning Algorithm:Artificial Neural Network、Deep Learning and Others[EB/OL].(2014-06-27)[2014-06-29].http://www.csdn.net/article/2014-06-27/2820429.
[20] 余凱,賈磊,陳雨強,等.深度學習的昨天,今天和明天[EB/OL].(2014-06-07)[2014-06-18].http:// mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA== &mid=200298603&idx=1&sn=28fcc75701e81522dd 88a23c4b00d2d1#rd.
YU Kai,JIA Lei,Chen Yu-qiang.The Yesterday,Today and Tomorrow of Deep Learning[EB/OL].(2014-06-07)[2014-06-18].http://mp.weixin.qq.com/ s?__biz=MjM5MTQzNzU2NA==&mid= 200298603&idx=1&sn=28fcc75701e81522dd88a 23c4b00d2d1#rd.
[21] 陳為,沈則潛,陶煜波,等.大數(shù)據(jù)叢書:數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社,2013:29-37.
CHEN Wei,SHEN Ze-qian,TAO Yu-bo.Big Data Series:Data Visualization[M].Bei Jing:Publishing House of Electronics Industry,2013:29-37.
[22] Rachel Wan.數(shù)據(jù)可視化明星Tableau Software[EB/ OL].(2013-07-01)[2014-05-28].http://kuailiyu.cyzone.cn/article/3901.html.
Rachel Wan.Data Visualization Star:Tableau Software [EB/OL].2013(2013-07-01)[2014-05-28].http://www.kuailiyu.com/article/3901.html.
[23] 馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護[J].計算機學報,2014,37(01):246-257.
FENG Deng-guo,ZHANG Min,LI Hao.Big Data Security and Privacy Protection[J].Chinese Journal of Computers,2014,37(01):246-257.
[24] TeraData.The Threat Beneath The Surface:Big Data Analytics,Big security and Real-Time Cyber Threat Response For Federal Agencies[R].USA:TeraData, 2012:1-35.
[25] ZHANG Xu-yun,LIU Chang,Surya Nepal etc.Privacy Preservation over Big Data in Cloud Systems[J].Security,Privacy and Trust in Cloud Systems,2014(03): 239-257.
[26] Craig Gentry.Fully Homomorphic Encryption Using Ideal Lattices[C]//Proceedings of the 41st annual ACM symposium on theory of computing(STOC′09).USA: Stanford University and IBM Watson,2009:169-178.
[27] 李翠平,王敏峰.大數(shù)據(jù)的挑戰(zhàn)和機遇[J].科研信息化技術(shù)與應用,2013(01):12-18.
LI Cui-ping,WANG Min-feng.Excerpts from the Translation of Challenges and Opportunities with Big Data[J].e-Science Technology&Application,2013 (01):12-18.
[28] Bill Franks.駕馭大數(shù)據(jù)[M].北京:人民郵電出版社, 2013:18-66.
Bill Franks.Taming The Big Data Tidal Wave[M].Bei Jing:Posts&Telecom Press,2013:18-66.
Overview on Big Data Technology
ZHANG Feng-jun
(No.30 Institute of CETC,Chengdu Sichuan 610041,China)
Big data,as a current popular technical field,attracts extensive attention and research.This paper discusses the concept,characteristics and development status quo of big data both at home and abroad, analyses the common fundamental technique and frontier technique of big data,including data collection and perception,data storage and processing,data analysis,data visualization,data security and privacy protection etc.,points out the newest research directions of these techniques,summarizes the confronted technical and policy challenges,and finally analyzes the technical essence,all this could provide a significant guidance for big data research and engineering application.
big data;artificial intelligence;data mining;machine learning;Hadoop;privacy protection
TP311
A
1002-0802(2014)11-1240-09
10.3969/j.issn.1002-0802.2014.11.002
2014-06-26;
2014-09-26 Received date:2014-06-26;Revised date:2014-09-26
張鋒軍(1975—),男,學士,高級工程師,主要研究方向為網(wǎng)絡(luò)管理,軟件工程。
ZHANG Feng-jun(1975-),male,B. Sci.,senior engineer,majoring in network management and software engineering.