国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)的特點及處理平臺比較

2017-03-18 21:32許吳環(huán)
決策與信息·下旬刊 2017年1期
關(guān)鍵詞:數(shù)據(jù)處理開源內(nèi)存

許吳環(huán)

[摘 要] 大數(shù)據(jù)環(huán)境下傳統(tǒng)的數(shù)據(jù)處理方式不再適用,以云計算技術(shù)為支撐的大數(shù)據(jù)處理平臺的出現(xiàn)為落實大數(shù)據(jù)應(yīng)用提供了可行思路。為此,在歸納了開源Hadoop和Spark平臺各自優(yōu)缺點后,指出其應(yīng)用場景,以更好地利用大數(shù)據(jù)。通過比較常用大數(shù)據(jù)平臺發(fā)現(xiàn),Hadoop適用于數(shù)據(jù)密集型任務(wù),并廣泛應(yīng)用于離線分析。Spark因其基于內(nèi)存的計算,在迭代計算和實時分析領(lǐng)域占據(jù)優(yōu)勢。并發(fā)現(xiàn)他們在功能上有較強的互補性,有時二者協(xié)同使用可以優(yōu)化效益,Spark和許多Hadoop發(fā)行版已經(jīng)互相支持實現(xiàn)。經(jīng)過此項探討工作,期望有利于選擇和實施大數(shù)據(jù)處理平臺,實現(xiàn)大數(shù)據(jù)資源的更大價值。

[關(guān)鍵字] 大數(shù)據(jù)特點;大數(shù)據(jù)平臺;比較研究

[中圖分類號] TP202 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1002-8129(2017)01-0103-04

一、大數(shù)據(jù)的特點與處理平臺概述

1.大數(shù)據(jù)的特點。

目前,大數(shù)據(jù)還沒有一個標(biāo)準(zhǔn)的定義,但是把握大數(shù)據(jù)的特征,有助于加深對大數(shù)據(jù)內(nèi)涵的理解。數(shù)據(jù)具有的3V特征,即規(guī)模大(Volume)、種類多(Variety)、速度快(Velocity),在業(yè)內(nèi)已經(jīng)基本成為統(tǒng)一認(rèn)識。規(guī)模大,意味著數(shù)據(jù)量不斷擴(kuò)張,數(shù)據(jù)量級將從現(xiàn)在的GB、TB增長到PB、EB甚至達(dá)到ZB級。種類多,是指數(shù)據(jù)類型有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化,其中文字、圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)占更大比例。速度快,表示大數(shù)據(jù)有強時效性,數(shù)據(jù)通??焖俚禺a(chǎn)生,又需要及時地進(jìn)行處理分析,才能有效地實現(xiàn)大數(shù)據(jù)的經(jīng)濟(jì)價值。

“大數(shù)據(jù)的處理過程可以分為:數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋”[1]。巨量的數(shù)據(jù)往往也意味著噪音的增多,這給預(yù)處理數(shù)據(jù)時數(shù)據(jù)的清洗工作造成了困難。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫處理對象單位通常為MB,并且適合存儲結(jié)構(gòu)化數(shù)據(jù),面向大數(shù)據(jù)的數(shù)據(jù)庫技術(shù)應(yīng)該能夠解決海量非結(jié)構(gòu)數(shù)據(jù)的存儲問題。傳統(tǒng)的數(shù)據(jù)分析方法以算法的準(zhǔn)確率作為最重要的衡量指標(biāo),而大數(shù)據(jù)的高速性要求算法必須犧牲一部分準(zhǔn)確性以達(dá)到更高效地處理數(shù)據(jù)。大數(shù)據(jù)的分析結(jié)果往往也是大量的,故小數(shù)據(jù)量時可以選擇的數(shù)據(jù)解釋方法基本不再適用,引入可視化技術(shù)來將大數(shù)據(jù)的分析結(jié)果以友好的形式展現(xiàn)。

2.大數(shù)據(jù)處理平臺發(fā)展概述。

為了應(yīng)對大數(shù)據(jù)處理上的挑戰(zhàn),“從規(guī)模巨大、種類繁多、生成快速的數(shù)據(jù)集中挖掘價值”[2],專門針對大數(shù)據(jù)的技術(shù)和方法應(yīng)運而生。GFS、NoSQL、ITHbase、MapReduce等云計算技術(shù)的發(fā)展,使得大數(shù)據(jù)的有效存儲、管理和分析成為可能。但是從眾多復(fù)雜的大數(shù)據(jù)技術(shù)中進(jìn)行選擇,并搭建完備的大數(shù)據(jù)處理框架難度很高,不利于挖掘大數(shù)據(jù)中的經(jīng)濟(jì)價值。大數(shù)據(jù)平臺和產(chǎn)品的出現(xiàn),可以使用戶在不了解架構(gòu)底層細(xì)節(jié)的情況下,開發(fā)大數(shù)據(jù)應(yīng)用程序。全球領(lǐng)先的科技巨頭都紛紛在制定大數(shù)據(jù)戰(zhàn)略時提出了建設(shè)與應(yīng)用大數(shù)據(jù)處理平臺:IBM公司推出了云端版InfoSphere BigInsights[3];HP推出了HP Vertica6.1分析平臺[4];Google提出的GFS、MapReduce等云計算技術(shù)催生了大數(shù)據(jù)處理平臺的事實標(biāo)準(zhǔn)Hadoop,目前,Google使用的是自己開發(fā)的Caffeine[2];Facebook結(jié)合自身的使用需求實現(xiàn)了Corona、Prism。一個完備、高效的大數(shù)據(jù)處理平臺為實施大數(shù)據(jù)應(yīng)用提供一站式的基礎(chǔ)服務(wù),支持應(yīng)用系統(tǒng)從清洗、集成、分析到結(jié)果可視化展現(xiàn)的大數(shù)據(jù)處理全過程建設(shè),降低了用戶技術(shù)門檻[5]。因此,比較和選擇有大數(shù)據(jù)特征的處理平臺,有助于大數(shù)據(jù)技術(shù)研發(fā)和產(chǎn)業(yè)落地,實現(xiàn)大數(shù)據(jù)的巨大價值。

二、常用大數(shù)據(jù)處理平臺比較

1.Hadoop

Hadoop是由Apache開發(fā)的開源云計算平臺,實現(xiàn)在大量計算機組成的集群中進(jìn)行分布式存儲和計算。Hadoop框架最核心的技術(shù)是HDFS和MapReduce。HDFS是可以部署在廉價機器上的分布式文件系統(tǒng),采用主/從結(jié)構(gòu),將大文件分割后形成大小相等的block復(fù)制三份,分別存儲在不同的節(jié)點上,實現(xiàn)了海量數(shù)據(jù)的存儲。MapReduce編程模型實現(xiàn)大數(shù)據(jù)處理,它的核心是“分而治之”[1]。Map任務(wù)區(qū)將輸入數(shù)據(jù)源分塊后,分散給不同的節(jié)點,通過用戶自定義的Map函數(shù),得到中間key/Value集合,存儲到HDFS上。Reduce任務(wù)區(qū)從硬盤上讀取中間結(jié)果,把相同K值的數(shù)據(jù)組織在一起,再經(jīng)過用戶自定義的Reduce函數(shù)處理,得到并輸出最終結(jié)果。將對巨量資料的處理并行地運行在集群上,從而實現(xiàn)了對大數(shù)據(jù)的有效處理。從Hadoop的核心處理過程我們可以總結(jié)出它具有如下優(yōu)點[6-9]:

高擴(kuò)展性。Hadoop的橫向擴(kuò)展性能很好,使海量數(shù)據(jù)能橫跨幾百甚至上千臺服務(wù)器,而用戶使用時好像只是面對一個。大量計算機并行工作,使對大數(shù)據(jù)的處理能在合理的時間內(nèi)完成并得以應(yīng)用,這是在傳統(tǒng)單機模式下無法實現(xiàn)的。

高容錯性。從HDFS的設(shè)計中可以看出,它通過提供數(shù)據(jù)冗余的方式提供高可靠性。當(dāng)某個數(shù)據(jù)塊損壞或丟失,NameNode就會將其他DataNode上的副本進(jìn)行復(fù)制,保證每塊都有三份。所以,在數(shù)據(jù)處理過程中,當(dāng)集群中機器出現(xiàn)故障,計算并不會停止。

節(jié)約成本。首先,Hadoop本身是開源軟件,完全免費;其次,它可以部署在廉價的PC機上;“把計算推送給數(shù)據(jù)”的設(shè)計理念,節(jié)省了數(shù)據(jù)傳輸中的通信開銷。顯然,若使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫將所有數(shù)據(jù)存儲起來成本高昂,這不利于大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。

高效性。Hadoop以簡單直觀的方式解決了大數(shù)據(jù)處理中的基本問題,即大數(shù)據(jù)儲存和大數(shù)據(jù)分析。并且數(shù)據(jù)規(guī)模越大,相較于單機處理Hadoop的集群并行處理優(yōu)勢越明顯。

基礎(chǔ)性。對于技術(shù)優(yōu)勢的企業(yè),可以根據(jù)基礎(chǔ)的Hadoop結(jié)合應(yīng)用場景進(jìn)行二次開發(fā),使其更適合實際工作環(huán)境。比如,F(xiàn)acebook從自身應(yīng)用需要出發(fā),構(gòu)建了實時Hadoop系統(tǒng)。

Hadoop系統(tǒng)的局限性 [10-11]:

不適合迭代運算。MapReduce要求每個運算結(jié)果都輸出到HDFS,每次初始化都要從HDFS讀入數(shù)據(jù)。在迭代運算中,每次運算的中間結(jié)果都要寫入磁盤,Hadoop在執(zhí)行每一次功能相同的迭代任務(wù)時,都有反復(fù)的I/O操作,計算代價很大。而對于現(xiàn)在常見的圖計算和數(shù)據(jù)挖掘等領(lǐng)域,迭代計算是必要的。

實時性差。Hadoop平臺由于頻繁的磁盤I/O操作,大大地增加了時間延遲,對于快速處理任務(wù)不能勝任。

易用性差。Hadoop只是一個基礎(chǔ)框架,精細(xì)程度有所欠缺,如果想用它來實現(xiàn)具體的業(yè)務(wù),還需要更進(jìn)一步的開發(fā)。MapReduce特定的編程模型,增加了Hadoop的技術(shù)復(fù)雜性。

雖然Hadoop本身有一些缺點,但是由于其支撐技術(shù)(MapReduce等)成熟較早,并且實現(xiàn)了海量數(shù)據(jù)分布式的存儲和批量處理,所以被廣泛使用,已成為大數(shù)據(jù)處理平臺的事實標(biāo)準(zhǔn)。為了提高Hadoop的性能,各種工具應(yīng)運而生,已經(jīng)發(fā)展成為包括Hive、Pig、HBase、Cassandra、YARN等在內(nèi)的完整生態(tài)系統(tǒng)。HBase新型NoSQL數(shù)據(jù)庫便于數(shù)據(jù)管理,Hive提供類似SQL的操作方式進(jìn)行數(shù)據(jù)分析,Pig是用來處理大規(guī)模數(shù)據(jù)的高級腳本語言……這些功能模塊在一定程度上彌補了Hadoop的不足,降低了用戶使用難度。MapReduce的設(shè)計理念決定了Hadoop適用于對龐大數(shù)據(jù)集加以控制、數(shù)據(jù)密集型計算和離線分析的場景。

2.Spark

Spark的整個生態(tài)系統(tǒng)稱為BDAS(伯克利數(shù)據(jù)分析棧),包括Tachyon、Spark Streaming、Spark Core、MLlib等。其核心框架Spark,是為了實現(xiàn)大數(shù)據(jù)的快速處理而出現(xiàn)的,可以用來構(gòu)建低延遲的應(yīng)用。Spark以RDD(彈性分布數(shù)據(jù)集)為基礎(chǔ),實現(xiàn)了基于內(nèi)存的大數(shù)據(jù)計算。RDD是對數(shù)據(jù)的基本抽象,實現(xiàn)了對分布式內(nèi)存的抽象使用。由于RDD能緩存到內(nèi)存中,可以將每次運算的中間結(jié)果都存放到內(nèi)存中,避免過多的磁盤I/O操作,大大降低了時延。Tachyon是分布式內(nèi)存文件系統(tǒng),類似于內(nèi)存中的HDFS,基于它可以實現(xiàn)RDD或文件在計算機集群中可靠的共享。Spark沒有自己的文件系統(tǒng),通過支持Hadoop HDFS、HBase等進(jìn)行數(shù)據(jù)的存儲,Spark更專注于計算性能。可以總結(jié)出如下特點[11-13]:

高速性。Spark主要通過基于內(nèi)存計算減少磁盤I/O開銷,極大地縮小了時間延遲。這使得它擅長處理Hadoop無法應(yīng)對的迭代運算,在進(jìn)行圖計算等工作時表現(xiàn)更好。并且高速數(shù)據(jù)處理能力使得Spark更能滿足大數(shù)據(jù)分析中對實時分析的要求。

靈活性。較之僅支持map函數(shù)和reduce函數(shù)的Hadoop,Spark支持map、reduce、filter、join、count等近80多種操作類型。Spark的交互模式使用戶在進(jìn)行操作時能及時獲得反饋,這是Hadoop所沒有的。Spark SQL提供用戶直接用標(biāo)準(zhǔn)SQL語句在Spark上進(jìn)行大數(shù)據(jù)查詢,簡單易學(xué)。盡管在Hadoop中,有了Hive,可以不用Java來寫復(fù)雜的MapReduce程序,但是Hive在MapReduce上運行速度卻達(dá)不到期望程度。

Spark以其近乎實時的性能和相對易用靈活而受到歡迎,它同Hadoop一樣都是Apache旗下的開源集群系統(tǒng),是目前發(fā)展最快的大數(shù)據(jù)處理平臺之一。Spark主要適用于支持迭代計算,交互式查詢,實時分析的場景。比如,淘寶使用Spark來實現(xiàn)基于用戶的圖計算應(yīng)用[11]。由RDD特點決定,它不適合異步細(xì)粒度更新狀態(tài)的應(yīng)用[1],比如,增量的Web抓取和索引。RDD的特點之一是“不可變”,即只讀不可寫,如果要對RDD中的數(shù)據(jù)進(jìn)行更新的話,就要遍歷整個RDD并生成一個新RDD,這使得對細(xì)粒度內(nèi)容的頻繁更新代價很大。

Hadoop與Spark并不是互相排斥的關(guān)系,Hadoop解決了如何將大數(shù)據(jù)儲存起來的問題,Spark在這基礎(chǔ)之上考慮更快速、易用地實現(xiàn)大數(shù)據(jù)分析,這點從Spark仍采用HDFS作為文件系統(tǒng)就可以看出。它們適用于不同的場景,有時協(xié)同工作會達(dá)到更理想的效果,在Spark和Hadoop的許多發(fā)行版中,它們都已經(jīng)互相支持實現(xiàn)。

3.Hadoop發(fā)行版

包括傳統(tǒng)IT企業(yè)和新興互聯(lián)網(wǎng)企業(yè)在內(nèi)的眾多廠家,通過對開源平臺Hadoop進(jìn)行改進(jìn),紛紛推出了自己的商業(yè)發(fā)行版。用戶能更容易地對大數(shù)據(jù)進(jìn)行處理,并易于搭建、監(jiān)管復(fù)雜集群系統(tǒng)。

(1)CDH

Cloudera推出的CDH,基于穩(wěn)定版Apache Hadoop并應(yīng)用最新的BUG修復(fù)系統(tǒng)和管理監(jiān)控平臺,在安全性、兼容性和穩(wěn)定性方面有所增強。Cloudera公司業(yè)務(wù)開發(fā)負(fù)責(zé)人Ed Albanese表示[14]:在CDH上運行的應(yīng)用已超過其它Hadoop產(chǎn)品上運行的應(yīng)用。

(2)MapR

提供了完整的Hadoop組件體系,并且100%和Apache Hadoop API兼容。新增的Direct Access NFS技術(shù)支持文件隨機讀寫,大大地擴(kuò)展了MapR Hadoop的應(yīng)用范圍。還支持了Snapshot(快照)、Mirro(鏡像)等企業(yè)應(yīng)用功能。

(3)InfoSphere BigInsights[15]

是IBM推出的以Hadoop為基礎(chǔ)的云端大數(shù)據(jù)分析平臺,企業(yè)版在30分鐘內(nèi)可以啟動運行??蛻艏词箾]有Hadoop技能,也可以捕捉和分析任意數(shù)據(jù),使組織內(nèi)任何人都獲得了大數(shù)據(jù)處理的能力。

由于開源Hadoop存在的許多先天不足,直接使用尚達(dá)不到普及的程度。為了推進(jìn)大數(shù)據(jù)的企業(yè)級應(yīng)用,大數(shù)據(jù)平臺產(chǎn)品旨在提供優(yōu)越性能的同時,簡化客戶搭建、管理和監(jiān)控復(fù)雜集群的過程,優(yōu)化和擴(kuò)展開源方案,降低使用難度以普及應(yīng)用,使大數(shù)據(jù)作為企業(yè)的基礎(chǔ)資源能有效被利用。

三、結(jié)語

介紹大數(shù)據(jù)的3v特點及在此特點下數(shù)據(jù)處理上與傳統(tǒng)數(shù)據(jù)處理的不同,有助于認(rèn)識傳統(tǒng)處理方式在大數(shù)據(jù)環(huán)境下的局限性。通過分析常用的大數(shù)據(jù)處理平臺,并分析Hadoop和Spark的核心技術(shù),對其優(yōu)缺點進(jìn)行了歸納。Hadoop實現(xiàn)了對海量異構(gòu)數(shù)據(jù)在人們可以接受的時間和成本內(nèi)進(jìn)行可靠地存儲和處理,雖然它在處理速度和易用性方面存在缺陷,但由于它的基礎(chǔ)性,企業(yè)可以根據(jù)自身應(yīng)用特點進(jìn)行改進(jìn),目前已被廣泛應(yīng)用。雖然Spark不適合異步細(xì)粒度更新狀態(tài)的應(yīng)用,但在處理性能和易用程度上較于Hadoop有顯著優(yōu)勢,發(fā)展十分迅速。文章指出它們各自的適用場景,平臺的選擇應(yīng)根據(jù)企業(yè)的應(yīng)用需要。通過比較兩者的優(yōu)缺點,可以發(fā)現(xiàn)它們在功能上有較強的互補性,有時它們對資源的協(xié)同使用可以帶來效益優(yōu)化,目前Spark和很多Hadoop發(fā)行版都已經(jīng)支持互相實現(xiàn)。最后介紹了幾種目前常用的商業(yè)Hadoop發(fā)行版,相較于開源框架它們都進(jìn)行了不同程度的優(yōu)化,并且更易于企業(yè)級實現(xiàn)。綜上,以期對大數(shù)據(jù)平臺或產(chǎn)品的選擇、利用和研發(fā)有所啟發(fā)。

[參考文獻(xiàn)]

[1]孟小峰.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,(01).

[2]張 引.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機研究與發(fā)展,2013,(S2).

[3]IBM:積極推進(jìn)“大數(shù)據(jù)”時代革新[J].硅谷,2011,(22).

[4]于 翔.HP Vertica 6.1快速連接H-

adoop[N].網(wǎng)絡(luò)世界,2013-02-04.

[5]王 強.大數(shù)據(jù)分析平臺建設(shè)與應(yīng)用綜述[J].集成技術(shù),2016,(02).

[6]黃素萍.Hadoop平臺在大數(shù)據(jù)處理中的應(yīng)用研究[J].現(xiàn)代計算機,2013,(29).

[7]任 仁.Hadoop在大數(shù)據(jù)處理中的應(yīng)用優(yōu)勢分析[J].電子技術(shù)與軟件工程,2014,(15).

[8]戴中華.基于Hadoop平臺的大數(shù)據(jù)分析與處理[J].通訊世界,2015,(06).

[9]張 臻.大數(shù)據(jù)處理平臺分析[J].電信快報,2014,(06).

[10]張巖峰.云環(huán)境下大數(shù)據(jù)迭代計算研究[D].東北:東北大學(xué),2012.

[11]何海林.大數(shù)據(jù)處理平臺比較與分析[J].微型機與應(yīng)用,2015,(11).

[12]李 曼.Spark生態(tài)系統(tǒng)走向成熟和應(yīng)用[J].世界電信,2015,(07).

[13]范煒瑋.大數(shù)據(jù)處理平臺Spark及其生物醫(yī)學(xué)應(yīng)用[J].中國中醫(yī)藥圖書情報雜志,2015,39(02).

[14]NetApp攜Cloudera提供卓越的Hadoop解決方案[J].硅谷,2011,(22).

[15]許繼楠.IBM大數(shù)據(jù)戰(zhàn)略:將洞察付諸行動[N].中國計算機報,2011-11-07.

[責(zé)任編輯:彭 亮]

猜你喜歡
數(shù)據(jù)處理開源內(nèi)存
隱超DDR5 5600AOFRUS DDFR55200 16GBx2內(nèi)存套裝實戰(zhàn)
校園武術(shù)“學(xué)、練、賽”一體化實踐探索
電容式傳感系統(tǒng)數(shù)據(jù)處理電路的設(shè)計
基于ARCGIS 的三種數(shù)據(jù)處理方法的效率對比研究
筆記本內(nèi)存已經(jīng)在漲價了,但幅度不大,升級擴(kuò)容無須等待
五毛錢能買多少頭牛
2019(第十四屆)開源中國開源世界
2019開源杰出貢獻(xiàn)獎
高層建筑沉降監(jiān)測數(shù)據(jù)處理中多元回歸分析方法的應(yīng)用研究
高層建筑沉降監(jiān)測數(shù)據(jù)處理中多元回歸分析方法的應(yīng)用研究
404 Not Found

404 Not Found


nginx
城市| 台东县| 玉山县| 万全县| 吴忠市| 专栏| 福贡县| 麟游县| 茂名市| 江都市| 昌黎县| 涟源市| 固镇县| 合山市| 凤翔县| 丰台区| 乐都县| 莫力| 裕民县| 稷山县| 固原市| 封开县| 东至县| 铁力市| 玛纳斯县| 临沧市| 望城县| 灵石县| 临夏市| 湖南省| 浙江省| 普兰县| 武陟县| 耿马| 桂平市| 神池县| 原阳县| 江川县| 朝阳县| 远安县| 荆门市|