大數(shù)據(jù)及其體系架構(gòu)與關(guān)鍵技術(shù)綜述

2017-03-25 03:20:34呂登龍朱詩兵

裝備學(xué)院學(xué)報 2017年1期

關(guān)鍵詞：架構(gòu)

呂登龍，朱詩兵

(1. 裝備學(xué)院研究生管理大隊，北京 101416； 2. 裝備學(xué)院信息裝備系，北京 101416)

大數(shù)據(jù)及其體系架構(gòu)與關(guān)鍵技術(shù)綜述

呂登龍1，朱詩兵2

(1. 裝備學(xué)院研究生管理大隊，北京 101416； 2. 裝備學(xué)院信息裝備系，北京 101416)

介紹了大數(shù)據(jù)的發(fā)展現(xiàn)狀、研究動態(tài)和應(yīng)用前景。針對大數(shù)據(jù)標準不統(tǒng)一、研究觀點紛雜的問題，以比較辨析的方法從新的視角重新定義了大數(shù)據(jù)；注重安全性研究，分析總結(jié)了大數(shù)據(jù)的“6V”特征；從大數(shù)據(jù)標準化入手，深入分析現(xiàn)有研究成果，歸納總結(jié)了大數(shù)據(jù)的體系架構(gòu)和目前大數(shù)據(jù)應(yīng)用的共性技術(shù)，分析了各類技術(shù)的內(nèi)涵，使大數(shù)據(jù)體系架構(gòu)和關(guān)鍵技術(shù)有較為系統(tǒng)的展現(xiàn)。

大數(shù)據(jù)；體系架構(gòu)；關(guān)鍵技術(shù)

近年來，隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、社交網(wǎng)絡(luò)、傳感器、數(shù)據(jù)存儲等技術(shù)和服務(wù)的迅猛發(fā)展，導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)呈爆炸式增長。據(jù)統(tǒng)計[1]，中國互聯(lián)網(wǎng)的社交媒體用戶達6.59億，超過了美國和歐洲的總和，各種App的應(yīng)用，使得網(wǎng)絡(luò)數(shù)據(jù)急劇增長。同時，教育、醫(yī)療衛(wèi)生、金融、科學(xué)研究等各行業(yè)也在源源不斷地產(chǎn)生數(shù)據(jù)，世界已經(jīng)進入大數(shù)據(jù)時代，并正受其影響和推動發(fā)展。根據(jù)國際數(shù)據(jù)公司(International Data Corporation，IDC)數(shù)字宇宙(Digital Universe)監(jiān)測顯示[2]，全球數(shù)據(jù)量以大約每2年2倍的速度增長，預(yù)計到2020年，全球數(shù)據(jù)總量將達到44ZB。IDC報告顯示[3]，2014—2019年全球大數(shù)據(jù)技術(shù)和服務(wù)市場復(fù)合年增長率達23.1%，2019年大數(shù)據(jù)市場總規(guī)模將達486億美元；2014年IDC對中國2013—2017年大數(shù)據(jù)與服務(wù)市場的預(yù)測[4]顯示，中國將保持38.7%復(fù)合年增長率，到2017年大數(shù)據(jù)的市場規(guī)模將增長到8.501億美元；未來幾年，世界企業(yè)將進入規(guī)?；臄?shù)字化轉(zhuǎn)型階段，此過程將會產(chǎn)生更巨大規(guī)模的數(shù)據(jù)。

大數(shù)據(jù)已經(jīng)引起了世界各國和地區(qū)的廣泛關(guān)注。美國將大數(shù)據(jù)研究和應(yīng)用提升到了國家戰(zhàn)略層面，接連出臺了《大數(shù)據(jù)研究和發(fā)展計劃》《支持數(shù)據(jù)驅(qū)動型創(chuàng)新的技術(shù)與政策》《大數(shù)據(jù)：把握機遇，守護價值》等決策性和指導(dǎo)性文件，并在應(yīng)用領(lǐng)域已經(jīng)處在世界的領(lǐng)先地位?！袄忡R門”事件曝光了美國對全球的監(jiān)控計劃，一方面凸顯了美國在全球數(shù)據(jù)掌控的絕對優(yōu)勢，另一方面也為世界其他主要國家敲響了數(shù)據(jù)保衛(wèi)戰(zhàn)的警鐘。歐盟成立了歐洲網(wǎng)絡(luò)與信息安全局(European Network and Information Security Agency ，ENISA)，并將數(shù)據(jù)應(yīng)用提升到戰(zhàn)略層面，出臺了《數(shù)據(jù)價值鏈戰(zhàn)略計劃》，英國還專門制定了《英國數(shù)據(jù)能力發(fā)展戰(zhàn)略規(guī)劃》。日本、韓國也分別制定了《創(chuàng)建最尖端IT國家宣言》和《大數(shù)據(jù)中心戰(zhàn)略》。我國也意識到了大數(shù)據(jù)及應(yīng)用的重要性，實施了國家大數(shù)據(jù)戰(zhàn)略，從2015年3月至9月，接連制定了《“互聯(lián)網(wǎng)+”行動計劃》《大數(shù)據(jù)產(chǎn)業(yè)“十三五”規(guī)劃》，實施“加快推進云計算與大數(shù)據(jù)標準體系建設(shè)”計劃，出臺了《關(guān)于積極推進“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》和《促進大數(shù)據(jù)發(fā)展行動綱要》等。隨著信息技術(shù)在軍事領(lǐng)域的應(yīng)用發(fā)展，軍事數(shù)據(jù)也呈現(xiàn)爆炸式增長趨勢，軍事大數(shù)據(jù)時代也已經(jīng)到來。未來信息化戰(zhàn)爭更多的是數(shù)據(jù)驅(qū)動下的戰(zhàn)爭，誰掌握更多的數(shù)據(jù)，誰能在瞬息萬變的戰(zhàn)場態(tài)勢下快速進行數(shù)據(jù)分析處理，誰就能掌握制數(shù)據(jù)權(quán)，就會獲得戰(zhàn)爭的勝利。

研究結(jié)果表明:目前大數(shù)據(jù)的概念、體系架構(gòu)、關(guān)鍵技術(shù)等方面還有待標準化，在安全和隱私保護方面還面臨著嚴峻挑戰(zhàn)，從概念提出到技術(shù)應(yīng)用、再到科學(xué)研究的“第四范式”，大數(shù)據(jù)還有很大的研究和發(fā)展空間。本文分析了大數(shù)據(jù)的概念、特點及發(fā)展現(xiàn)狀，重點分析、歸納、總結(jié)了大數(shù)據(jù)的體系架構(gòu)和關(guān)鍵技術(shù)。

1 大數(shù)據(jù)基礎(chǔ)研究

1.1 大數(shù)據(jù)定義及特征分析

對于大數(shù)據(jù)，目前在研究和應(yīng)用領(lǐng)域還沒有一個標準的定義，比較流行的定義主要有2類：(1)大數(shù)據(jù)是從規(guī)模巨大、形式多樣的數(shù)據(jù)中，通過高效捕捉、發(fā)現(xiàn)和分析獲取有價值信息的一種新的技術(shù)架構(gòu)，是從“What is big data?”的角度定義，IDC、IBM以及百度百科等持這種觀點[5-7]，主要強調(diào)的是一種數(shù)據(jù)處理的技術(shù)架構(gòu)；(2)大數(shù)據(jù)包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，它的規(guī)模相當龐大以至于用傳統(tǒng)的數(shù)據(jù)庫和軟件技術(shù)很難對其進行處理，是從“How hard to deal with big data！”的角度定義， Mckinsey、Gartner以及維基百科等持這樣的觀點[8-10]，主要強調(diào)的是處理大數(shù)據(jù)的困難所在。

2類定義都一定程度反映了大數(shù)據(jù)的最基本特點：大規(guī)模(Volume)、多樣性(Variety)和高速性(Velocity)，簡稱大數(shù)據(jù)的“3V”特性[11]。隨著對大數(shù)據(jù)研究的深入，研究者對大數(shù)據(jù)的特點進行了深度挖掘和總結(jié)，將大數(shù)據(jù)的“3V”特性進行了豐富和擴展，又有了“4V”[12]、“5V”[13-14]、“6V”和“7V”[15-16]的特性概括，而比較公認的是“5V”特性。當然，對大數(shù)據(jù)關(guān)注的重點不同，研究者對大數(shù)據(jù)特性的理解和總結(jié)也會有所不同。

作者認為:大數(shù)據(jù)在推動經(jīng)濟社會創(chuàng)新發(fā)展及創(chuàng)造社會效益的同時，本身的安全問題也日益面臨著嚴峻挑戰(zhàn)，大數(shù)據(jù)及大數(shù)據(jù)設(shè)施極易成為被攻擊的目標，大數(shù)據(jù)分析和服務(wù)也極易泄露個人隱私、企業(yè)等機構(gòu)的敏感信息，甚至是國家機密。

就此來看，大數(shù)據(jù)還應(yīng)包含另外一個重要特性：Vulnerable(易受攻擊)，構(gòu)成“6V”特性(Volume, Velocity, Variety, Value, Veracity and Vulnerable)比較合理，這6個“V”共同作用，構(gòu)成了大數(shù)據(jù)的特征體系，貫穿于從數(shù)據(jù)源到數(shù)據(jù)分析再到數(shù)據(jù)解釋的整個大數(shù)據(jù)生命周期，表1對大數(shù)據(jù)的“6V”特性進行了具體描述。

表1 大數(shù)據(jù)“6V”特性的具體描述

續(xù)表

1.2 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)對比分析

為了更好地研究大數(shù)據(jù)，我們將前節(jié)所述2類定義進行了融合處理，這樣來定義大數(shù)據(jù)：大數(shù)據(jù)規(guī)模巨大、形式多樣(包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))，通過傳統(tǒng)的數(shù)據(jù)庫技術(shù)和數(shù)據(jù)分析技術(shù)難以進行處理，只有采用新的技術(shù)架構(gòu)才能高效捕捉、發(fā)現(xiàn)和分析，并從中獲取有價值的信息。可以看到大數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、體量、處理、存儲等方面與傳統(tǒng)數(shù)據(jù)有很大的區(qū)別，這些區(qū)別主要體現(xiàn)在數(shù)據(jù)分析模式的不同。圖1顯示了大數(shù)據(jù)分析模式的模型架構(gòu)。從模型架構(gòu)上來看，傳統(tǒng)數(shù)據(jù)來源一般為各種業(yè)務(wù)系統(tǒng)，數(shù)據(jù)主要是結(jié)構(gòu)化的，存儲在關(guān)系型數(shù)據(jù)庫中，需要將數(shù)據(jù)從這些關(guān)系數(shù)據(jù)庫中通過抽取、轉(zhuǎn)換和加載等一系列操作后，轉(zhuǎn)移到數(shù)據(jù)倉庫中再進行數(shù)據(jù)分析，分析過程主要是線下分析；大數(shù)據(jù)來源廣泛，除了傳統(tǒng)業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫外，還包括移動終端、傳感器網(wǎng)及社交媒體等來源，數(shù)據(jù)類型既有結(jié)構(gòu)化的也有非結(jié)構(gòu)和半結(jié)構(gòu)化的，分析過程既有線上分析也有線下分析，分析模式不僅包含了傳統(tǒng)的數(shù)據(jù)分析，還解決了傳統(tǒng)模式下無法很好對非結(jié)構(gòu)化、半結(jié)構(gòu)化及實時流數(shù)據(jù)進行分析的問題，同時大數(shù)據(jù)技術(shù)也一定程度緩解了傳統(tǒng)數(shù)據(jù)處理軟件和硬件無法對海量數(shù)據(jù)進行分析處理的壓力。

大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的具體區(qū)別，如表2～表4所示。

圖1 大數(shù)據(jù)分析模式的模型架構(gòu)

比較項目傳統(tǒng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)來源數(shù)據(jù)來源單一，一般為各種業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫，約占數(shù)據(jù)總量的20%數(shù)據(jù)來源多，除了業(yè)務(wù)系統(tǒng)外，各種智能終端、傳感器、網(wǎng)絡(luò)爬蟲、云服務(wù)、社交媒體等都是大數(shù)據(jù)來源，約占數(shù)據(jù)總量的80%數(shù)據(jù)類型類型單一，以結(jié)構(gòu)化數(shù)據(jù)為主類型多樣，既包括結(jié)構(gòu)化數(shù)據(jù)，也包括半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般是GB至TB規(guī)模TB、PB、EB甚至ZB規(guī)模，不同行業(yè)和領(lǐng)域的規(guī)模會有不同產(chǎn)生模式先有模式后有數(shù)據(jù)難以預(yù)先確定模式，數(shù)據(jù)出現(xiàn)后才能確定，數(shù)據(jù)模式會不斷演化存儲模式關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫，可擴展性差既有關(guān)系型數(shù)據(jù)庫和倉庫，也有鍵值存儲、列存儲、文檔存儲、圖形存儲等非關(guān)系型數(shù)據(jù)庫和倉庫，分布式設(shè)計，易于擴展分析方法針對部分數(shù)據(jù)的采樣分析、統(tǒng)計學(xué)針對所有數(shù)據(jù)的全數(shù)據(jù)分析、統(tǒng)計學(xué)精準度需要精確數(shù)據(jù)不需要精確數(shù)據(jù)，允許冗余分析目標分析數(shù)據(jù)的因果關(guān)系，即知其然知其所以然除了分析因果關(guān)系外，更多的分析數(shù)據(jù)的相關(guān)關(guān)系或關(guān)聯(lián)關(guān)系，即知其然不知其所以然硬件基礎(chǔ)支持關(guān)系數(shù)據(jù)庫的大型服務(wù)器，受關(guān)系數(shù)據(jù)庫制約，硬件難以進行橫向擴展，處理大數(shù)據(jù)受限。支持關(guān)系和非關(guān)系數(shù)據(jù)庫的大型服務(wù)器集群，有很好的擴展性，能夠很好地處理大數(shù)據(jù)

表3 不同數(shù)據(jù)類型特點對比

表4 不同行業(yè)或領(lǐng)域大數(shù)據(jù)規(guī)模對比[17]

綜上所述，大數(shù)據(jù)是個系統(tǒng)的概念，是由大數(shù)據(jù)本身、大數(shù)據(jù)處理過程、大數(shù)據(jù)結(jié)果及運用組成的體系，缺一不可，如果不考慮大數(shù)據(jù)處理及結(jié)果運用，那么大數(shù)據(jù)僅僅是規(guī)模龐大的普通數(shù)據(jù)，也就無所謂“大數(shù)據(jù)”這一新生事物了。

2 大數(shù)據(jù)體系架構(gòu)

2.1 大數(shù)據(jù)體系架構(gòu)現(xiàn)狀

對比分析Gartner公司公布的2013—2015年新興技術(shù)炒作曲線圖[18-20]，可以看出大數(shù)據(jù)從2013年的火熱到2014年開始走向低谷直到2015年在曲線圖上消失，表明大數(shù)據(jù)技術(shù)已趨于成熟并被廣泛應(yīng)用。而對大數(shù)據(jù)標準化的研究始于2012年，目前從國內(nèi)外研究現(xiàn)狀來看尚處于起步階段[21-25]，大數(shù)據(jù)體系并沒有統(tǒng)一標準的應(yīng)用模型。大數(shù)據(jù)技術(shù)應(yīng)用早于大數(shù)據(jù)標準化研究，從應(yīng)用實際來看，大數(shù)據(jù)體系更偏向于軟件系統(tǒng)。IEEE軟件工程標準委員會對軟件系統(tǒng)架構(gòu)進行了定義[26]：軟件系統(tǒng)架構(gòu)包含各組成要素和各要素之間的相互關(guān)系、運行環(huán)境以及設(shè)計和運行原理描述。大多數(shù)研究機構(gòu)和組織也主要基于軟件系統(tǒng)來研究大數(shù)據(jù)體系架構(gòu)。

圖2 大數(shù)據(jù)參考架構(gòu)

美國國家標準與技術(shù)研究院(National Institute of Standards and Technology，NIST)對9種大數(shù)據(jù)解決方案的體系架構(gòu)進行了詳細剖析和對比分析，確定了大數(shù)據(jù)體系架構(gòu)的共性部分，在此基礎(chǔ)上按照邏輯角色和商業(yè)應(yīng)用的目的給出了大數(shù)據(jù)參考架構(gòu)[27-28]，中國電子技術(shù)標準化研究院對NIST研究成果進行了豐富和完善[29]，在原有架構(gòu)的基礎(chǔ)上細化出活動和組件的概念，明確了角色的行為動作和行為的環(huán)境支撐以及相互之間的邏輯關(guān)系，使得整個架構(gòu)更加具體形象，如圖2所示。整個參考架構(gòu)圍繞2個價值鏈進行構(gòu)建：橫向為信息價值鏈，通過數(shù)據(jù)收集、集成、分析、分析結(jié)果應(yīng)用創(chuàng)造價值；縱向為信息技術(shù)(IT)價值鏈，通過提供網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、平臺、應(yīng)用工具及其他服務(wù)創(chuàng)造價值。架構(gòu)定義了5個邏輯角色：數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者、系統(tǒng)協(xié)調(diào)者和數(shù)據(jù)消費者，整個架構(gòu)以大數(shù)據(jù)應(yīng)用提供者為中心提供了連通其他4個角色的接口。架構(gòu)包含了2個服務(wù)和功能保障構(gòu)件：安全隱私和管理，分別對各接口和大數(shù)據(jù)框架提供者內(nèi)部進行安全與隱私監(jiān)管以及對全系統(tǒng)各要素進行統(tǒng)一管理，從而構(gòu)成大數(shù)據(jù)應(yīng)用的完整體系。

圖3 大數(shù)據(jù)技術(shù)參考架構(gòu)

文獻[22]借鑒了ISO/IECJTC1/SC32(數(shù)據(jù)管理和交換分技術(shù)委員會)對大數(shù)據(jù)標準概念模型的研究成果，提出了大數(shù)據(jù)技術(shù)參考架構(gòu)，如圖3所示。該架構(gòu)綜合考慮數(shù)據(jù)的生命周期，采取分層的模型結(jié)構(gòu)，將大數(shù)據(jù)技術(shù)按照生命周期劃分為4個層次、2個技術(shù)支撐體系。其中，4個層次包括數(shù)據(jù)采集層、數(shù)據(jù)支撐層、數(shù)據(jù)服務(wù)層和共性應(yīng)用層；2個技術(shù)支撐體系包括數(shù)據(jù)傳輸技術(shù)體系和數(shù)據(jù)安全技術(shù)體系。層與層之間形成服務(wù)與依賴的關(guān)系，下層為上層提供服務(wù)，上層依賴于下層服務(wù)，2個技術(shù)支撐體系分別保證了層間及層內(nèi)數(shù)據(jù)通信暢通和可靠的信息安全環(huán)境。

雖然不同機構(gòu)或組織對大數(shù)據(jù)體系架構(gòu)的設(shè)計有所不同，但從解決問題的實質(zhì)上來看，不同的體系架構(gòu)之間又有共性的方面：(1) 工作流程主要圍繞大數(shù)據(jù)生命周期進行設(shè)計；(2) 工作方法主要依靠分布式存儲和分布式并行處理來實現(xiàn)；(3) 基礎(chǔ)設(shè)施具有良好的擴展性；(4) 大數(shù)據(jù)隱私和安全被廣泛重視。

如同其他技術(shù)或事物一樣，大數(shù)據(jù)體系會逐漸趨于一致并最終實現(xiàn)標準化，而具有普遍適用的標準又能更好地為大數(shù)據(jù)研究和應(yīng)用提供理論指導(dǎo)和技術(shù)參考。

2.2 典型大數(shù)據(jù)開源架構(gòu)

目前，比較流行的典型大數(shù)據(jù)處理開源架構(gòu)主要有Hadoop、Storm和Spark 3種。

_2.2.1 Hadoop

Hadoop的核心思想是通過大量高效的硬件集群和標準接口構(gòu)建大規(guī)模分布式計算系統(tǒng)，以軟件處理的方式為海量數(shù)據(jù)提供存儲和計算。Hadoop的核心組件是HDFS(Hadoop Distributed File System)和Hadoop MapReduce，其他組件為核心組件提供配套和補充性服務(wù)，其基本體系架構(gòu)如圖4所示[30-31]。

圖5 HDFS基本體系架構(gòu)

圖4 Hadoop基本體系架構(gòu)

1) HDFS。其思想來源于Google文件系統(tǒng)(Google File System，GFS)，是GFS的開源實現(xiàn)。HDFS特點之一是以流式數(shù)據(jù)訪問模式實現(xiàn)超大規(guī)模數(shù)據(jù)集存儲。HDFS采取數(shù)據(jù)集一次寫入、多次讀取方式[32-34]，實現(xiàn)了分布式環(huán)境下流式訪問數(shù)據(jù)的能力，保證了數(shù)據(jù)的大吞吐量。HDFS的基本體系架構(gòu)如圖5所示，總體上采用了主從式執(zhí)行模式，主要由Client、NameNode、SecondaryNameNode和DataNode幾個組件構(gòu)成。

Client是客戶端，主要功能是為用戶提供訪問文件系統(tǒng)的接口，通過NameNode和DataNode交互訪問HDFS中的文件；NameNode是HDFS的主節(jié)點，負責(zé)協(xié)調(diào)客戶端對文件系統(tǒng)的訪問，管理文件系統(tǒng)的命名空間、文件目錄樹和元數(shù)據(jù)信息，并且負責(zé)監(jiān)控和調(diào)度DataNode；DataNode是NameNode的從節(jié)點，負責(zé)數(shù)據(jù)的實際存儲，同時DataNode以Heartbeat的方式向NameNode報告節(jié)點的健康狀況。SecondaryNameNode是監(jiān)控HDFS運行狀態(tài)的輔助節(jié)點，在NameNode出現(xiàn)問題時及時進行熱備份來代替NameNode。

2) Hadoop MapReduce。其主要設(shè)計目標是為用戶提供抽象的程序模塊，簡化分布式程序設(shè)計，將用戶從繁瑣的接口和通信等程序設(shè)計中解放出來，只專注應(yīng)用程序的設(shè)計，從而提高程序開發(fā)和解決大數(shù)據(jù)問題的效率。MapReduce也采取master/slave結(jié)構(gòu)模式，基本體系架構(gòu)如圖6所示，主要由Client、JobTraker、TaskTracker和Task幾個組件構(gòu)成[34-38]。

圖6 Hadoop MapReduce基本體系架構(gòu)

Client客戶端，主要負責(zé)將用戶編寫的應(yīng)用程序提交給JobTracker，并為用戶提供查看作業(yè)(Job)運行狀態(tài)的接口；JobTracker是MapReduce的主節(jié)點，主要負責(zé)監(jiān)控子節(jié)點TaskTracker和作業(yè)的運行狀況，一旦子節(jié)點出現(xiàn)問題，JobTracker會將任務(wù)轉(zhuǎn)移到其他子節(jié)點執(zhí)行，同時JobTracker還負責(zé)跟蹤任務(wù)的執(zhí)行進度和資源的使用情況，發(fā)揮任務(wù)調(diào)度的作用。TaskTracker是JobTracker的子節(jié)點，主要為任務(wù)(Task)分配資源和提供執(zhí)行環(huán)境；Task是任務(wù)的具體執(zhí)行單元，主要分Map任務(wù)和Reduce任務(wù)。Map任務(wù)以(鍵/值對)為輸入，經(jīng)過計算處理后產(chǎn)生以key值排序的集合，待任務(wù)執(zhí)行完畢后進入Reduce任務(wù)；Reduce任務(wù)以Map任務(wù)產(chǎn)生的集合作為輸入，將此集合進行規(guī)約處理，并得到Map/Reduce的最終結(jié)果。

_2.2.2 Storm

Storm是一款開源的分布式實時流處理系統(tǒng)，最早由BackType公司的Nathan Marz開發(fā)，之后BackType公司被Twitter收購，隨之Storm也由Twitter開源發(fā)布，目前Storm已成為Apache軟件基金會的孵化器項目之一。Storm同樣也采取主從式架構(gòu)，核心組件包括3個部分[39-42]： Nimbus、Supervisor node和ZooKeeper cluster，基本體系架構(gòu)如圖7所示。

圖7 Storm基本體系架構(gòu)

Nimbus是Storm集群的主節(jié)點，負責(zé)向工作節(jié)點分發(fā)應(yīng)用代碼和分配任務(wù)，同時監(jiān)控任務(wù)的執(zhí)行狀態(tài)和工作節(jié)點的健康狀況。Nimbus節(jié)點被設(shè)計成“快速失敗(fail-fast)”的模式，所有的數(shù)據(jù)都存儲在Zookeeper上，一旦節(jié)點死掉會快速重啟而不會對工作節(jié)點造成任何影響[43-44]。Supervisor是Storm集群的從節(jié)點，每個節(jié)點上運行一個Supervisor，負責(zé)創(chuàng)建、啟動、停止工作進程，控制工作進程執(zhí)行分配的任務(wù)。與Nimbus相同，Supervisor也被設(shè)計成“快速失敗”的模式，所有的狀態(tài)信息也存儲在Zookeeper上，節(jié)點一旦死掉會快速重啟而不會丟失任何狀態(tài)信息。Zookeeper是整個Storm集群的橋梁，在整個系統(tǒng)中發(fā)揮協(xié)調(diào)作用，存儲著Nimbus的數(shù)據(jù)和Supervisor的狀態(tài)信息，并負責(zé)Nimbus和Supervisor的通信。

_2.2.3 Spark

Spark是在MapReduce基礎(chǔ)上實現(xiàn)的高效迭代計算框架，它的最大特點是支持基于內(nèi)存的分布式數(shù)據(jù)集計算，從而大大提高了運算速度。Spark最早由美國加州大學(xué)伯克利分校于2009年開發(fā)，2010年實現(xiàn)開源發(fā)布，2013年由Apache軟件基金會接管，并成為其頂級項目。Spark核心理念是通用和速度，集成了流計算框架、圖計算框架、數(shù)據(jù)查詢引擎、機器學(xué)習(xí)算法庫、分布式文件系統(tǒng)等功能和組件，其基本體系架構(gòu)[45-47]如圖8所示。

圖8 Spark基本體系架構(gòu)

Spark Core是Spark體系的核心，實現(xiàn)了Spark的基本功能，包括任務(wù)調(diào)度、內(nèi)存管理、錯誤恢復(fù)以及和存儲系統(tǒng)的交互，Spark Core定義了一個程序抽象模型——彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets，RDD)，所有的應(yīng)用程序都被抽象成RDD來完成運算[45，48-49]。Spark SQL是處理結(jié)構(gòu)化數(shù)據(jù)的工具，通過引入RDD數(shù)據(jù)抽象，能夠通過SQL語言和集成其他SQL工具實現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)的高效查詢。Spark Streaming是Spark的實時流數(shù)據(jù)處理組件，它以時間片對數(shù)據(jù)進行分割形成RDD，能夠以相對小的時間間隔對流數(shù)據(jù)進行處理，同時提供良好的應(yīng)用程序接口(Application Program Interface，API)和容錯機制，能夠與其他組件友好的合作從而高效完成對流數(shù)據(jù)的處理。MLlib是Spark的機器學(xué)習(xí)算法庫，可以為處理大數(shù)據(jù)提供基本的機器學(xué)習(xí)算法，包括分類、回歸、聚類等算法，同時還支持算法模型評估等。GraphX是Spark對圖操作和處理大規(guī)模并行圖計算的功能庫，能夠利用RDD API接口實現(xiàn)對圖數(shù)據(jù)的統(tǒng)一高效處理。YARN、Mesos等運行于Spark體系的底層[50]，負責(zé)對集群資源和數(shù)據(jù)的管理，保證Spark集群節(jié)點的擴展和統(tǒng)一高效運行。

_2.2.4 3種架構(gòu)的比較分析

上述3種開源架構(gòu)的技術(shù)特點各有不同。Hadoop采用一次寫入多次讀取的流式數(shù)據(jù)訪問方式，更多的是以時間換空間，側(cè)重的是數(shù)據(jù)吞吐量，不適合迭代式的數(shù)據(jù)處理，在數(shù)據(jù)處理的實時響應(yīng)方面也不占優(yōu)勢，更適合在線下對靜態(tài)大數(shù)據(jù)進行處理和分析。Storm設(shè)計理念是對大數(shù)據(jù)記錄逐條持續(xù)進行處理，計算過程非主動結(jié)束，同時容錯性較高，更適合對實時流數(shù)據(jù)的處理。由于集成度相對不高，Storm對其他類型的大數(shù)據(jù)處理性能還有待完善。Spark的集成程度較高，功能比較強大，能夠?qū)Σ煌瑪?shù)據(jù)類型(一般結(jié)構(gòu)化數(shù)據(jù)，圖數(shù)據(jù)、流數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù))的大數(shù)據(jù)進行處理。由于Spark是基于內(nèi)存計算框架，在數(shù)據(jù)量低于內(nèi)存容量時計算性能突出，但當數(shù)據(jù)量遠大于數(shù)據(jù)容量時存在穩(wěn)定性問題[51],更適合進行規(guī)模適當?shù)綌?shù)據(jù)處理。

3 大數(shù)據(jù)關(guān)鍵技術(shù)

在實際應(yīng)用中，大數(shù)據(jù)是一項非常復(fù)雜的系統(tǒng)工程，既需要硬件基礎(chǔ)也需要軟件支撐，涉及的技術(shù)涵蓋信息通信、計算機科學(xué)、信息網(wǎng)絡(luò)、數(shù)據(jù)庫等多個領(lǐng)域。單從大數(shù)據(jù)的處理流程和生命周期考慮，歸納起來，大數(shù)據(jù)的關(guān)鍵技術(shù)主要包括數(shù)據(jù)感知與獲取技術(shù)、數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)存儲與管理技術(shù)、數(shù)據(jù)分析技術(shù)、數(shù)據(jù)可視化技術(shù)以及數(shù)據(jù)安全與隱私保護技術(shù)等6部分。

3.1 數(shù)據(jù)感知與獲取技術(shù)

大數(shù)據(jù)應(yīng)用的關(guān)鍵，就是從海量的看似無關(guān)的數(shù)據(jù)中，通過分析關(guān)聯(lián)關(guān)系從而獲取有價值的信息，有效獲取目標數(shù)據(jù)成為大數(shù)據(jù)應(yīng)用必須解決的首要問題。大數(shù)據(jù)類型多樣，來源非常廣泛，涉及人類社會活動的各個領(lǐng)域，其中最主要的來源有3個方面[52-53]：人們在互聯(lián)網(wǎng)活動中產(chǎn)生的數(shù)據(jù)，各類計算機系統(tǒng)產(chǎn)生的數(shù)據(jù)，各類數(shù)字設(shè)備記錄的數(shù)據(jù)。人在互聯(lián)網(wǎng)活動中產(chǎn)生的數(shù)據(jù)為網(wǎng)絡(luò)數(shù)據(jù)，常用到的數(shù)據(jù)感知與獲取技術(shù)有網(wǎng)絡(luò)爬蟲或網(wǎng)絡(luò)嗅探等；計算機系統(tǒng)產(chǎn)生的數(shù)據(jù)主要是日志和審計數(shù)據(jù)，常用日志搜集和監(jiān)測系統(tǒng)來獲取數(shù)據(jù)，如Scribe、Flume、Chukwa等；各類數(shù)字設(shè)備主要包括傳感器、RFID、GPS等，這些設(shè)備記錄的數(shù)據(jù)既有實時的流數(shù)據(jù)，也有像記錄產(chǎn)品交易信息的非實時數(shù)據(jù)，常用數(shù)據(jù)流處理系統(tǒng)、模數(shù)轉(zhuǎn)換器等來感知和獲取數(shù)據(jù)。

3.2 數(shù)據(jù)預(yù)處理技術(shù)

大數(shù)據(jù)源中既有同構(gòu)數(shù)據(jù)也含有大量的異構(gòu)數(shù)據(jù)，目標數(shù)據(jù)常會受到噪聲數(shù)據(jù)的干擾，影響到數(shù)據(jù)的準確性、完整性和一致性。為提升大數(shù)據(jù)質(zhì)量，需要對原始數(shù)據(jù)進行數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約與數(shù)據(jù)轉(zhuǎn)換等預(yù)處理工作。

大數(shù)據(jù)清理是通過設(shè)置一些過濾器，對原始數(shù)據(jù)進行“去噪”和“去臟”處理。常用到的技術(shù)有數(shù)據(jù)一致性檢測技術(shù)、臟數(shù)據(jù)識別技術(shù)、數(shù)據(jù)過濾技術(shù)、噪聲識別與平滑處理技術(shù)等。

大數(shù)據(jù)集成是指把來自不同數(shù)據(jù)源、不同格式的數(shù)據(jù)通過技術(shù)處理，在邏輯上或物理上進行集中，形成統(tǒng)一的數(shù)據(jù)集或數(shù)據(jù)庫。常用到的技術(shù)包括數(shù)據(jù)源識別技術(shù)、中間件技術(shù)、數(shù)據(jù)倉庫技術(shù)等。

大數(shù)據(jù)規(guī)約是在不影響數(shù)據(jù)準確性的前提下，運用壓縮和分類分層的策略對數(shù)據(jù)進行集約式處理。常用到的技術(shù)有維規(guī)約技術(shù)、數(shù)值規(guī)約技術(shù)、數(shù)據(jù)壓縮技術(shù)、數(shù)據(jù)抽樣技術(shù)等。

大數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)從一種表示形式轉(zhuǎn)換成另一種表示形式，目的是使數(shù)據(jù)形式趨于一致。常用到的技術(shù)有基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換技術(shù)、基于模型和學(xué)習(xí)的轉(zhuǎn)換技術(shù)等。

3.3 數(shù)據(jù)存儲與管理技術(shù)

目前，除了傳統(tǒng)關(guān)系型數(shù)據(jù)庫外，大數(shù)據(jù)存儲和管理形式主要有3類：分布式文件系統(tǒng)、非關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫。

分布式文件系統(tǒng)是由物理上不同分布的網(wǎng)絡(luò)節(jié)點，通過網(wǎng)絡(luò)通信和數(shù)據(jù)傳輸統(tǒng)一提供文件服務(wù)與管理的文件系統(tǒng)，它的文件物理上被分散存儲在不同的節(jié)點上，邏輯上任然是一個完整的文件。常用的分布式文件系統(tǒng)有Hadoop的HDFS、Google的GFS等。

非關(guān)系型數(shù)據(jù)庫(Not Only SQL，NoSQL)是為解決大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類存儲難題應(yīng)運而生的，它的最大特點就是不需要預(yù)先定義數(shù)據(jù)結(jié)構(gòu)，而是在有了數(shù)據(jù)后根據(jù)需要靈活定義。非關(guān)系型數(shù)據(jù)庫一般分為4類：鍵值(Key-Value)存儲數(shù)據(jù)庫，主要利用哈希表中的特定鍵值對來實現(xiàn)數(shù)據(jù)存儲，常見的有Redis、Apache Cassandra等；列存儲數(shù)據(jù)庫，是按行排序以數(shù)據(jù)列為單位進行存儲，有利于對數(shù)據(jù)庫進行壓縮，減少數(shù)據(jù)規(guī)模，提高存儲和數(shù)據(jù)查詢性能，常見的有Sybase IQ、InfiniDB等；文檔型數(shù)據(jù)庫，是按封包鍵值對的方式進行存儲，每個“文檔”(如XML、HTML、JSON文檔等)代表一個數(shù)據(jù)記錄，記錄著數(shù)據(jù)的具體類型和內(nèi)容，常見的有MongoDB、CouchDB等；圖形數(shù)據(jù)庫，是利用圖形模型實現(xiàn)數(shù)據(jù)的存儲，主要存儲事物與事物之間的相關(guān)關(guān)系，將這些相關(guān)關(guān)系所呈現(xiàn)負責(zé)的網(wǎng)絡(luò)關(guān)系簡單地稱為圖形數(shù)據(jù)，常見的有Google Pregel、Neo4J等。

數(shù)據(jù)倉庫建立在已有大量操作型數(shù)據(jù)庫的基礎(chǔ)上，通過ETL等技術(shù)從已有數(shù)據(jù)庫中抽取轉(zhuǎn)換導(dǎo)出目標數(shù)據(jù)并進行存儲。與操作型數(shù)據(jù)庫不同，數(shù)據(jù)倉庫不參與具體業(yè)務(wù)數(shù)據(jù)操作，主要目的是對從操作型數(shù)據(jù)庫中抽取集成的海量數(shù)據(jù)進行分析處理，并提供高速查詢服務(wù)。

3.4 數(shù)據(jù)分析技術(shù)

數(shù)據(jù)分析是大數(shù)據(jù)處理流程中最為關(guān)鍵的步驟，也是大數(shù)據(jù)價值生成的核心部分。從對數(shù)據(jù)信息的獲知度上來看，大數(shù)據(jù)分析可以分為對已知數(shù)據(jù)信息的分析和對未知數(shù)據(jù)信息的分析。對已知數(shù)據(jù)信息的分析一般運用分布式統(tǒng)計分析技術(shù)來實現(xiàn)，對未知數(shù)據(jù)信息的分析一般通過數(shù)據(jù)挖掘等技術(shù)來實現(xiàn)。

大數(shù)據(jù)統(tǒng)計分析主要利用分布式計算集群和分布式數(shù)據(jù)庫，運用統(tǒng)計學(xué)相關(guān)知識和算法(如聚類分析、判別分析、差異分析等)，對獲取的海量已知數(shù)據(jù)信息進行分析和解釋。目前，比較流行的大數(shù)據(jù)統(tǒng)計分析工具是基于R語言的分布式計算環(huán)境(如RHIPE)。

數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中通過算法計算，提取隱藏在其中的有用信息的數(shù)據(jù)分析過程，是統(tǒng)計分析、情報檢索、模式識別、機器學(xué)習(xí)等數(shù)據(jù)分析方法的綜合運用。在大數(shù)據(jù)領(lǐng)域中，常見數(shù)據(jù)挖掘方法主要包括聚類分析、分類分析、預(yù)測估計、相關(guān)分析等。

3.5 數(shù)據(jù)可視化技術(shù)

大數(shù)據(jù)可視化技術(shù)的工作原理，是運用計算機圖形學(xué)和圖像處理技術(shù)將數(shù)據(jù)以圖形或圖像的方式展示出來，實現(xiàn)對大數(shù)據(jù)分析結(jié)果的形象解釋，并能夠?qū)崿F(xiàn)對數(shù)據(jù)的人機交互處理。大數(shù)據(jù)可視化關(guān)鍵技術(shù)包括：符號表達技術(shù)、數(shù)據(jù)渲染技術(shù)、數(shù)據(jù)交互技術(shù)、數(shù)據(jù)表達模型技術(shù)等。

大數(shù)據(jù)可視化技術(shù)與傳統(tǒng)數(shù)據(jù)可視化技術(shù)不同。傳統(tǒng)數(shù)據(jù)可視化技術(shù)通常是從關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取數(shù)據(jù)(數(shù)據(jù)類型較為單一)并進行可視化處理，一般不支持實時數(shù)據(jù)的可視化和交互式的可視化分析。而大數(shù)據(jù)可視化技術(shù)則是從多個數(shù)據(jù)源提取多種類型數(shù)據(jù)進行可視化處理，并且支持實時數(shù)據(jù)的可視化和交互式的可視化分析。常見的可視化處理和管理工具有Tableau Desktop、QlikView、Datawatch、Platfora等。

3.6 數(shù)據(jù)安全與隱私保護技術(shù)

大數(shù)據(jù)應(yīng)用在商業(yè)、政府決策、軍事等領(lǐng)域創(chuàng)造了巨大價值，同時也正是受利益驅(qū)使，大數(shù)據(jù)的安全和隱私保護也正面臨著愈來愈嚴重的威脅。從大數(shù)據(jù)的關(guān)鍵技術(shù)來看，大數(shù)據(jù)處理的每個階段幾乎都面臨著各種各樣的安全威脅[29，54],傳統(tǒng)的信息安全技術(shù)措施很難對大數(shù)據(jù)進行有效的安全防護[55]。越來越多的人開始重視大數(shù)據(jù)的安全和隱私保護，并開始著重研究應(yīng)對安全隱患和保護隱私的技術(shù)措施。

保護大數(shù)據(jù)安全，主要是保證大數(shù)據(jù)的可用性、完整性、機密性[56]。大數(shù)據(jù)來源廣泛、模態(tài)復(fù)雜，大量數(shù)據(jù)來自于不可信的數(shù)據(jù)源，同時收集到的大數(shù)據(jù)常常會有字段缺失或數(shù)據(jù)錯誤的情況，導(dǎo)致大數(shù)據(jù)不可用或弱可用以及完整性缺失。解決大數(shù)據(jù)可用性問題一般通過數(shù)據(jù)冗余設(shè)置，而大數(shù)據(jù)的完整性問題一般通過數(shù)據(jù)校驗技術(shù)和審計策略來解決。對于大數(shù)據(jù)的機密性，由于數(shù)據(jù)規(guī)模大，傳統(tǒng)的數(shù)據(jù)加密技術(shù)會極大地增加開銷，因此一般利用訪問控制和安全審計技術(shù)來保證大數(shù)據(jù)的安全。

由于監(jiān)管和法律條款的缺失，大數(shù)據(jù)在收集和發(fā)布等過程中常常會涉及個人或數(shù)據(jù)擁有者的隱私，導(dǎo)致隱私信息被泄露。目前，除了加強監(jiān)管和完善立法外，在技術(shù)層面研究人員也在不斷地探索和突破。文獻[57]從密碼學(xué)的角度綜述了大數(shù)據(jù)隱私保護技術(shù)，包括安全審計技術(shù)、大數(shù)據(jù)加密搜索技術(shù)、完全同態(tài)加密技術(shù)。針對大數(shù)據(jù)背景下個人隱私數(shù)據(jù)的保護，文獻[58]設(shè)計了一套個人數(shù)據(jù)溯源機制，一定程度起到了對個人隱私的保護。文獻[59]以云計算為背景，深入研究了基于不經(jīng)意隨機訪問存儲器的隱私保護、基于對稱加密的隱私保護、基于公鑰體制的隱私保護、可搜索加密等技術(shù)和方法，一定程度反映了大數(shù)據(jù)的隱私保護研究現(xiàn)狀。

4 結(jié) 束語

大數(shù)據(jù)很“熱”，其在當下的價值貢獻和未來的應(yīng)用前景已經(jīng)引起了各個領(lǐng)域的高度重視并開始付諸實踐，但其中也不乏炒作的因素。大數(shù)據(jù)需要變“冷”，需要人們用平常心冷靜地看待、研究和應(yīng)用；大數(shù)據(jù)還沒有統(tǒng)一的標準，在體系架構(gòu)和核心技術(shù)上需要進一步完善和創(chuàng)新，特別是大數(shù)據(jù)的安全和隱私保護機制更需要在立法、監(jiān)管、安全保護、響應(yīng)處理等方面進行系統(tǒng)化、標準化。大數(shù)據(jù)被稱為科學(xué)研究的“第四范式”，是一場新的技術(shù)革命。大數(shù)據(jù)催生了智能時代，促進了機器智能的發(fā)展；大數(shù)據(jù)也勢必催生新的戰(zhàn)爭模式，加速推進武器裝備的信息化、智能化。未來戰(zhàn)爭將是數(shù)據(jù)驅(qū)動型的戰(zhàn)爭，誰掌握制數(shù)據(jù)權(quán)誰將取得戰(zhàn)爭的勝利。扎實推進我軍的大數(shù)據(jù)應(yīng)用與創(chuàng)新，將會使我國的國防實力產(chǎn)生質(zhì)的飛躍。

References)

[1]2015中國互聯(lián)網(wǎng)、社交和移動數(shù)據(jù)報告[EB/OL].(2015-09-21)[2016-04-05].http://tech.163.com/15/0921/10/B41EHHAG00094P40.html.

[2]EMC Digital Universe.The digital universe of opportunities:rich data and the increasing value of the internet of things(executive summary)[EB/OL].(2014-04-05)[2016-04-05].http://www.emc.com/ leadership/digital-universe/ 2014iview/executive-summary.htm.

[3]IDC.New IDC forecast sees worldwide big data technology and services market growing to MYM48.6 billion in 2019,driven by wide adoption across industries[EB/OL].(2015-11-09)[2016-04-05].http://www.idc.com/getdoc.jsp?containerId=prUS40560115.

[4]IDC.中國大數(shù)據(jù)技術(shù)與服務(wù)市場2013—2017年預(yù)測與分析[EB/OL].(2014-03-05)[2016-04-05].http://www.idc.com.cn/prodserv/detail.jsp?id=NTc3.

[5]LUDLOFF M.IDG IDC’s latest digital data study:a deep dive[EB/OL].(2011-07-08)[2016-04-05].http://blog.Patternbuilders.com/2011/07/08/idcs-latest-digital-data-study-deep-dive.

[6]TechAmerica Foundation’s Federal Big Data Commission.Demystifying big data[R/OL].(2012-10-10)[2016-04-06].http://www.kdnuggets.com/2012/10/techamerica-demystifying-big-data-report.html.

[7]Big data[EB/OL].[2016-04-06].http://baike.baidu.com/link?url=b5lUEoIdzxfvAAzFnhZcO8jFkUyUIIycCg SS1KFH5dsJ vemrma75706H5i3kgUbqhY_uXLxO1Wbh DITM9AKzLEWzhhrt9FEfeHDN0W4qVSm.

[8]ADRIAN M.It’s going mainstream, and it’s your next opportunity [EB/OL].(2011-11-01)[2016-04-06].http://www.teradatamagazine.com/v11n01/Features/Big-Data/.

[9]Big data[EB/OL].[2016-04-06].http://www.gartner.com/it-glossary/big-data.

[10]Big data[EB/OL].[2016-04-06].http://en.wikipedia.org/wiki/Big_data.

[11]VENNILA.S, PRIYADARSHINI J.Scalable privacy preservation in big data a survey[J].Procedia Computer Science，2015,50:369-373.

[12]KSHETRI N.Big data's impact on privacy,security and consumer welfare[J].Telecommunications Policy,2014,38:1134-1145.

[13]DEMCHENKO Y,NGO C, DE LAAT C,et al.Big security for big data:addressing security challenges for the big data infrastructure[C]//Secure Data Management.10thVLDB Workshop,SDM .Cham, Switzerland：Springer International Publishing，2013:76-91.

[14]JIN X L, WAHA B W,CHENG X Q, et al.Significance and challenges of big data research[J].Big Data Research,2015,2(2):59-64.

[15]BEDI P, JINDAL V, GAUTAM A.Beginning with big data simplified[C]//2014 International Conference on Data Mining and Intelligent Computing(ICDMIC).New Jersey：Institute of Electrical and Electronics Engineers Inc，2014:1-7.

[16]ALI-UD-DIN KHAN M, UDDIN M F, GUPTA N.Seven V’s of big data understanding big data to extract value[C]//2014 Zone 1 Conference of the American Society for Engineering Education(ASEE Zone 1).New Jersey：Institute of Electrical and Electronics Engineers Inc，2014:1-4.

[17]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展, 2013, 50(1):146-169.

[18]Gartner.Gartner’s 2013 hype cycle for emerging technologies maps out evolving relationship between humans and machines[EB/OL].(2013-08-19)[2016-04-10].http://www.gartner.com/newsroom/id/2575515.

[19]Gartner.Gartner’s 2014 hype cycle for emerging technologies maps the journey to digital business[EB/OL].(2014-08-11)[2016-04-10].http://www.gartner.com/newsroom/id/2819918.

[20]Gartner.Gartner’s 2015 hype cycle for emerging technologies identifies the computing innovations that organizations should monitor[EB/OL].(2015-08-18)[2016-04-10].http://www.gartner.com/newsroom/id/3114217.

[21]《大數(shù)據(jù)發(fā)展研究報告》編寫組.綜合分析冷靜看待大數(shù)據(jù)標準化漸行漸近(上)[J].信息技術(shù)與標準化,2013(9):12-14.

[22]《大數(shù)據(jù)發(fā)展研究報告》編寫組.綜合分析冷靜看待大數(shù)據(jù)標準化漸行漸近(下)[J].信息技術(shù)與標準化,2013(10):17-20.

[23]張群.大數(shù)據(jù)標準化現(xiàn)狀及標準研制[J].信息技術(shù)與標準化,2015(7):23-26.

[24]韓晶,王健全.大數(shù)據(jù)標準化現(xiàn)狀及展望[J].信息通信技術(shù),2014(6):38-42.

[25]NIST Big Data Public Working Group (NBD-PWG).NIST big data interoperability framework V1.0[EB/OL].(2015-08-25)[2016-04-10].http://www.nist.gov/itl/bigdata/bigdatainfo.cfm.

[26]ISO/IEC .Systems and software engineering-recommended practice for architectural description of software-intensive systems:IEEE Std 1471-2000 [S].New York:Institute of Electrical and Electronics Engineers, Inc ,2000:1-11.

[27]NIST Big Data Public Working Group (NBD-PWG).NIST big data interoperability framework:volume 5,architectures white paper survey[R/OL].(2015-08-25)[2016-04-10].http://dx.doi.org/10.6028/NIST.SP.1500-5.

[28]NIST Big Data Public Working Group (NBD-PWG).NIST big data interoperability framework:volume 6,reference architecture[R/OL].(2015-08-25)[2016-04-10].http://dx.doi.org/10.6028/NIST.SP.1500-6.

[29]全國信息技術(shù)標準化技術(shù)委員會大數(shù)據(jù)標準工作組.大數(shù)據(jù)標準化白皮書(2016版)[R].北京：中國電子技術(shù)標準化研究院,2016:1-97.

[30]WHITE T.Hadoop權(quán)威指南 [M].曾大聃,周傲英，譯.北京：清華大學(xué)出版社,2010:13-14.

[31]董西成.Hadoop技術(shù)內(nèi)幕：深入解析MapReduce架構(gòu)設(shè)計與實現(xiàn)原理[M].北京：機械工業(yè)出版社,2013:33-37.

[32]費仕憶.Hadoop大數(shù)據(jù)平臺與傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作研究[D].上海：東華大學(xué),2014:4-8.

[33]高薊超.Hadoop平臺存儲策略的研究與優(yōu)化[D].北京：北京交通大學(xué),2012:2-13.

[34]曹風(fēng)兵.基于Hadoop的云計算模型研究與應(yīng)用[D].重慶：重慶大學(xué),2011:15-28.

[35]李韌.基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D].重慶：重慶大學(xué),2013:14-17.

[36]楊宸鑄.基于HADOOP的數(shù)據(jù)挖掘研究[D].重慶：重慶大學(xué),2010:5-19.

[37]潘陽.基于Hadoop技術(shù)在分布式數(shù)據(jù)存儲中的應(yīng)用研究[D].大連：大連海事大學(xué),2014:8-27.

[38]李嬌龍.基于Hadoop 的云計算應(yīng)用研究[D].成都：電子科技大學(xué),2014:13-26.

[39]JAIN A,NALYA A.Learning storm[M].Birmingham:Packt Publishing,2014:19-24.

[40]ESKANDARI L, HUANG Z Y, EYERS D.P-scheduler:adaptive hierarchical scheduling in apache storm [C]//Australasian Computer Science Week(ACSW) ’16 Multiconference.Canberra,Australia：ACM，2016:1-3.

[41]陳敏敏,王新春,黃奉線.Storm技術(shù)內(nèi)幕與大數(shù)據(jù)實踐[M].北京：人民郵電出版社,2015:2-95.

[42]龍少杭.基于Storm的實時大數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn)[D].上海：上海交通大學(xué),2015:18-22.

[43]鄧立龍,徐海水.Storm 實現(xiàn)的應(yīng)用模型研究[J].廣東工業(yè)大學(xué)學(xué)報,2014,31(3):114-115.

[44]李川,鄂海紅,宋美娜.基于Storm 的實時計算框架的研究與應(yīng)用[J].軟件,2014,35(10):17-18.

[45]KARAU H, KONWINSKI A, WENDELL P, et al.Learning spark[M].Sebastopol:O’Reilly Media,2015:1-7.

[46]李文棟.基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究與實現(xiàn)[D].濟南：山東大學(xué),2015:8-12.

[47]孫科.基于Spark的機器學(xué)習(xí)應(yīng)用框架研究與實現(xiàn)[D].上海：上海交通大學(xué),2015:20-22.

[48]胡俊,胡賢德,程家興.基于Spark 的大數(shù)據(jù)混合計算模型[J].計算機系統(tǒng)應(yīng)用,2015,24(4):214-217.

[49]胡于響.基于Spark的推薦系統(tǒng)的設(shè)計與實現(xiàn)[D].杭州：浙江大學(xué),2015:6-9.

[50]邱榮財.基于Spark平臺的CURE算法并行化設(shè)計與應(yīng)用[D].廣州：華南理工大學(xué),2014:7-14.

[51]方艾,徐雄,梁冰,等.主流大數(shù)據(jù)處理開源架構(gòu)的分析及對比評測[J].電信科學(xué),2015,(7):2-5.

[52]LI G J,CHENG X Q.Research status and scientific thinking of big data[J].Bulletin of Chinese Academy of Sciences,2012,27(6):647-657.

[53]MAYER-SCHONBERGER V, CUKIER K.大數(shù)據(jù)時代[M].盛揚燕,周濤,譯.杭州:浙江人民出版社,2013:193-232.

[54]TeraData.The threat beneath the surface:big data ana-lytics,big security and real-time cyber threat response for federal agencies[R].California:TeraData,2012:1-35.

[55]孟小峰,張嘯劍.大數(shù)據(jù)隱私管理[J].計算機研究與發(fā)展,2015,52(2):265-281.

[56]何小東,陳偉宏,彭智朝.網(wǎng)絡(luò)安全概論[M].北京：清華大學(xué)出版社,2014:272-278.

[57]黃劉生,田苗苗,黃河.大數(shù)據(jù)隱私保護密碼技術(shù)研究綜述[J].軟件學(xué)報,2015, 26(4):945-953.

[58]王忠,殷建立.大數(shù)據(jù)環(huán)境下個人數(shù)據(jù)隱私泄露溯源機制設(shè)計[J].中國流通經(jīng)濟,2014(8):117-120.

[59]肖人毅.云計算中數(shù)據(jù)隱私保護研究進展[J].通信學(xué)報,2014,35(12):168-174.

(編輯：李江濤)

Big Data and Its Architecture and Key Technologies

LYU Denglong1， ZHU Shibing2

(1. Department of Graduate Management, Equipment Academy, Beijing 101416, China；2. Department of Information Equipment, Equipment Academy, Beijing 101416, China)

This paper introduces the status, research activities and application perspectives of big data. In order to solve the problems like inconsistent standards for big data and different views among researchers, the paper redefines the big data in a new aspect by comparative analysis; especially in the respect of security, the paper analyzes and summarizes the "6V" feature of the big data; starting from the standardization of big data, this paper further analyzes existing research results, concludes the architecture of big data and generic technology in application, analyzes the connotation of various technologies and presents the architecture and key technologies of big data systematically.

big data; architecture; key technologies

2016-09-20

呂登龍(1983—)，男，講師，博士研究生，主要研究方向為信息網(wǎng)絡(luò)與安全。朱詩兵，男，教授，博士生導(dǎo)師。

TP311

2095-3828(2017)01-0086-11

A DOI 10.3783/j.issn.2095-3828.2017.01.017

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)及其體系架構(gòu)與關(guān)鍵技術(shù)綜述

1 大數(shù)據(jù)基礎(chǔ)研究

2 大數(shù)據(jù)體系架構(gòu)

3 大數(shù)據(jù)關(guān)鍵技術(shù)

4 結(jié) 束 語

4 結(jié) 束語