夢(mèng)想與現(xiàn)實(shí)

2014-09-02 09:09涂蘭敬

中國(guó)計(jì)算機(jī)報(bào) 2014年32期

關(guān)鍵詞：分析

涂蘭敬

可以說，Hadoop的出現(xiàn)是計(jì)算技術(shù)發(fā)展進(jìn)程中一個(gè)重要的里程碑，它使實(shí)用的大規(guī)模分布式計(jì)算和存儲(chǔ)成為可能。因此，有專家評(píng)論，Hadoop是到目前為止最為成功的通用分布式處理框架，也是這些年來影響最為深遠(yuǎn)的系統(tǒng)性開源項(xiàng)目之一。

IDC發(fā)布的Hadoop軟件生態(tài)系統(tǒng)預(yù)測(cè)報(bào)告顯示，Hadoop市場(chǎng)正在以60%的年復(fù)合增長(zhǎng)率高速擴(kuò)張。Gartner也估計(jì)，2014年，Hadoop生態(tài)系統(tǒng)市場(chǎng)規(guī)模在7700萬美元左右，2016年，該市場(chǎng)規(guī)模將快速增長(zhǎng)至8.13億美元。

另外，Allied Market Research調(diào)查報(bào)告顯示，2013年至2020年，全球Hadoop市場(chǎng)份額將以58.2%的年復(fù)合增長(zhǎng)率，從20億美元增長(zhǎng)至50.2億美元，增長(zhǎng)幅度超24倍。其中，大數(shù)據(jù)分析需求是整個(gè)Hadoop市場(chǎng)的主要驅(qū)動(dòng)力，也吸引了眾多IT淘金者參與。

Hadoop市場(chǎng)的火爆也體現(xiàn)在人才市場(chǎng)上。2013年，美國(guó)某求職網(wǎng)站列出的2013年高薪技術(shù)職位排行中，大數(shù)據(jù)相關(guān)技術(shù)職位囊括前三甲，分別為Hadoop、Big Data和NoSQL。

Gartner的一項(xiàng)研究表明，到2015年，65%的分析應(yīng)用程序和先進(jìn)分析工具都將基于Hadoop平臺(tái)。在未來一段時(shí)間內(nèi)，Hadoop將變得更加流行。Hadoop的知名度是足夠高了，但是Hadoop在項(xiàng)目中到底表現(xiàn)怎么樣？有Hadoop項(xiàng)目經(jīng)驗(yàn)的工程師最有發(fā)言權(quán)。

上篇：優(yōu)勢(shì)與不足

事實(shí)上，很多初次接觸Hadoop的程序員都會(huì)把Hadoop當(dāng)做化解大數(shù)據(jù)疑難雜癥的靈丹妙藥，希望能夠迅速地做到藥到病除。但是，當(dāng)下載了Hadoop社區(qū)發(fā)行版之后，很多工程師才發(fā)現(xiàn)成功“馴服”Hadoop的過程是“路漫漫其修遠(yuǎn)兮”，隨之就會(huì)產(chǎn)生巨大的心理落差。

Hadoop難“馴服”

曾經(jīng)擔(dān)任雅虎首席云計(jì)算架構(gòu)師的Todd Papaioannou曾這樣評(píng)價(jià)Hadoop：它屬于底層基礎(chǔ)軟件，而今天大多數(shù)IT人員都不熟悉底層基礎(chǔ)軟件，因此實(shí)施難度大，極為難用。如果不解決技術(shù)復(fù)雜性問題，Hadoop將被自己終結(jié)。

當(dāng)年，Todd Papaioannou帶著團(tuán)隊(duì)要完成一項(xiàng)艱巨的任務(wù)——在擁有40萬個(gè)節(jié)點(diǎn)的雅虎私有云中配置4.5萬臺(tái)Hadoop服務(wù)器，為5000位雅虎開發(fā)人員創(chuàng)建一個(gè)穩(wěn)定的開發(fā)平臺(tái)。

雅虎負(fù)責(zé)建設(shè)Hadoop平臺(tái)的團(tuán)隊(duì)個(gè)個(gè)手忙腳亂，就像一群中學(xué)生在車庫(kù)中做手工，從Hadoop代碼庫(kù)中翻找可供粘貼整合的代碼。當(dāng)基礎(chǔ)架構(gòu)總算搭好的時(shí)候，開發(fā)者又花了4～5個(gè)月才開始發(fā)布應(yīng)用，這也嚴(yán)重影響了雅虎的產(chǎn)品創(chuàng)新進(jìn)度。

但是，并非所有人都那么懼怕Hadoop，一些技術(shù)實(shí)力強(qiáng)的互聯(lián)網(wǎng)公司在馴服了Hadoop之后，開始大膽地嘗試一些源于Hadoop尚未成熟但是更高效的開源新技術(shù)，如Spark和Yarn。

8月12日，淘寶技術(shù)部數(shù)據(jù)挖掘與計(jì)算團(tuán)隊(duì)負(fù)責(zé)人明風(fēng)在其個(gè)人新浪微博上透露，Spark on Yarn已經(jīng)在淘寶上線一周年了。明風(fēng)表示，經(jīng)過團(tuán)隊(duì)成員一個(gè)多月的努力，終于成功地將Spark on Yarn接入阿里云梯的Yarn生產(chǎn)集群，并每日調(diào)度生產(chǎn)作業(yè)。目前，這個(gè)基于阿里云梯的Yarn集群規(guī)模是：100臺(tái)機(jī)器，8核CPU、單個(gè)作業(yè)最大可用內(nèi)存400GB。

“死磕”Hadoop

曾經(jīng)擔(dān)任原北京暴風(fēng)科技有限公司暴風(fēng)影音平臺(tái)研發(fā)經(jīng)理的童小軍，在2010年到2012年兩年多的時(shí)間里，一直在與Hadoop“死磕”。

回顧那段歷史，童小軍不無驕傲地說：“當(dāng)年，暴風(fēng)影音的業(yè)務(wù)部門離不開我們的數(shù)據(jù)部門，數(shù)據(jù)部門一癱瘓，業(yè)務(wù)部門就無法決策，第二天的工作也就停止了?！?/p>

當(dāng)時(shí)，那頭被馴服的“小象”Hadoop成為暴風(fēng)影音搜索和數(shù)據(jù)平臺(tái)的核心角色。該平臺(tái)的順利運(yùn)行給當(dāng)時(shí)的暴風(fēng)影音帶來兩個(gè)最直接的變化：

第一是將暴風(fēng)影音每天20TB日志數(shù)據(jù)的分析時(shí)間從7小時(shí)縮減為不足1小時(shí)。

第二是將整個(gè)系統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)作為業(yè)務(wù)部門第二天開展工作的依據(jù)。

例如，哪個(gè)服務(wù)崩潰了、什么地方的服務(wù)出現(xiàn)異常、什么服務(wù)的用戶量下降了等。該平臺(tái)還給暴風(fēng)影音帶來了意外收獲：隨著數(shù)據(jù)處理速度的提升，原來需要外包給其他公司分析的廣告數(shù)據(jù)，可以由暴風(fēng)影音的數(shù)據(jù)部門來承擔(dān)。

童小軍直言：“雖然現(xiàn)在的Hadoop看起來沒有那么難掌控，但是當(dāng)初我們從零起步的時(shí)候著實(shí)為Hadoop傷透了腦筋，走了很多彎路?！?/p>

童小軍表示，Hadoop很多默認(rèn)配置都不能用，需要根據(jù)項(xiàng)目自己配置，而且每臺(tái)機(jī)器的配置都不一樣，對(duì)于初學(xué)者來說難度很大。另外，Hadoop平臺(tái)上的很多應(yīng)用是用C++或VC開發(fā)的，運(yùn)行前還需要轉(zhuǎn)碼。另外，一開始的Hadoop項(xiàng)目，并沒有得到公司領(lǐng)導(dǎo)的大力支持，公司只給數(shù)據(jù)部門配備了3臺(tái)低端服務(wù)器。

無論童小軍怎么努力，該平臺(tái)總是運(yùn)營(yíng)一段時(shí)間就崩潰。為了能夠把Hadoop系統(tǒng)運(yùn)行起來，童小軍曾經(jīng)給公司高層提議購(gòu)買100臺(tái)服務(wù)器，結(jié)果被領(lǐng)導(dǎo)痛批一通。萬般無奈的情況下，童小軍冒險(xiǎn)將該平臺(tái)系統(tǒng)搭在了公司正在使用的幾十臺(tái)服務(wù)器上，結(jié)果Hadoop系統(tǒng)一次就運(yùn)行成功了。

童小軍面臨的更大困難是把暴風(fēng)影音業(yè)務(wù)系統(tǒng)全部遷移到Hadoop平臺(tái)上來。從原來的平臺(tái)遷移到Hadoop平臺(tái)上，相當(dāng)于把全部的程序都重寫一遍，這個(gè)工作從2010年持續(xù)到2012年。工作量大是一方面，業(yè)務(wù)系統(tǒng)千差萬別而且復(fù)雜度高更讓童小軍頭疼，沒有一定的耐心是不可能完成遷移的。不過，暴風(fēng)影音的業(yè)務(wù)系統(tǒng)遷移到Hadoop平臺(tái)之后，至少在5年內(nèi)都可以滿足數(shù)據(jù)增長(zhǎng)的需求。

在Hadoop剛誕生的那幾年里，人們幾乎將Hadoop與大數(shù)據(jù)畫上了等號(hào)。似乎，企業(yè)只要下載一套Hadoop發(fā)行版馬上就能擁有大數(shù)據(jù)分析處理的能力了。但是，經(jīng)過這幾年的實(shí)踐，程序員們逐漸開始明白如何正確看待Hadoop，而Hadoop表現(xiàn)出來的優(yōu)勢(shì)和不足之處也更加鮮明。

實(shí)時(shí)分析能力不盡如人意

說到Hadoop的不足之處，星環(huán)信息科技（上海）有限公司CTO孫元浩談到，早期在把Hadoop應(yīng)用到數(shù)據(jù)倉(cāng)庫(kù)時(shí)碰到過很多困難。在GB級(jí)到TB級(jí)的數(shù)據(jù)量上，MapReduce的性能會(huì)比關(guān)系數(shù)據(jù)庫(kù)或者M(jìn)PP（massively parallel processing，大規(guī)模并行處理機(jī)）數(shù)據(jù)庫(kù)慢10倍左右，再加上HiveQL支持的語(yǔ)法只是標(biāo)準(zhǔn)SQL語(yǔ)法的30%，導(dǎo)致當(dāng)初很多建設(shè)在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目失敗了。同時(shí)，孫元浩表示，由于企業(yè)復(fù)雜的工作流通常需要多個(gè)階段的MapReduce任務(wù)，而MapReduce的輸入輸出必須經(jīng)過低速磁盤，導(dǎo)致運(yùn)行過程復(fù)雜，迭代任務(wù)時(shí)效率非常低，因此不適合對(duì)延時(shí)要求高的交互式分析或者需要復(fù)雜迭代的數(shù)據(jù)分析任務(wù)。

Spark亞太研究院院長(zhǎng)王家林則具體指出，MapReduce進(jìn)行大數(shù)據(jù)處理是基于磁盤的，每次計(jì)算都要經(jīng)歷從磁盤讀取數(shù)據(jù)、計(jì)算數(shù)據(jù)、保存數(shù)據(jù)的三階段，這就使Hadoop難以滿足人們對(duì)大數(shù)據(jù)的特別查詢需求。

賽仕軟件研究開發(fā)（北京）有限公司（以下簡(jiǎn)稱SAS）總經(jīng)理劉政也指出，Hadoop在任務(wù)展開和執(zhí)行時(shí)犧牲了部分時(shí)效，而且Hadoop的Reduce任務(wù)只有在全部Map任務(wù)完成后才能啟動(dòng)執(zhí)行。因此，Hadoop對(duì)于企業(yè)的實(shí)時(shí)業(yè)務(wù)分析系統(tǒng)而言存在弱點(diǎn)。

北京永洪商智科技有限公司（以下簡(jiǎn)稱永洪科技）CEO何春濤認(rèn)為，Hadoop的最大不足是：Hadoop追求高吞吐量，導(dǎo)致時(shí)間延遲較高。Hadoop可以支持百億級(jí)的數(shù)據(jù)量，但很難應(yīng)對(duì)秒級(jí)響應(yīng)的需求，即使只是數(shù)億的數(shù)據(jù)量，Hadoop也只適合做分鐘級(jí)別的離線分析系統(tǒng)。因此，不適合做實(shí)時(shí)分析系統(tǒng)。何春濤從通信層的角度分析指出，當(dāng)Hadoop任務(wù)分配Server時(shí)不會(huì)將信息發(fā)送到計(jì)算節(jié)點(diǎn)，而是讓計(jì)算節(jié)點(diǎn)通過心跳機(jī)制去拉動(dòng)任務(wù)。

基于框架的通用性，MapReduce代碼也會(huì)在HDFS（Hadoop Distributed File System，分布式文件系統(tǒng)）中傳送，在各計(jì)算節(jié)點(diǎn)展開，再通過啟動(dòng)新JVM進(jìn)程裝載并運(yùn)行。類似的JVM進(jìn)程啟/停的動(dòng)作會(huì)有五六次之多。Reduce作業(yè)只能在全部Map 作業(yè)完成之后才能啟動(dòng)。此外，何春濤認(rèn)為，Hadoop缺少專業(yè)的商業(yè)支持服務(wù)，傳統(tǒng)企業(yè)需要儲(chǔ)備專業(yè)的Hadoop技術(shù)人才才能保證系統(tǒng)的正常運(yùn)轉(zhuǎn)。

Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華也對(duì)Hadoop技術(shù)人才缺乏表示擔(dān)憂。Hadoop是一個(gè)性價(jià)比很高的數(shù)據(jù)抓取、數(shù)據(jù)管理、數(shù)據(jù)轉(zhuǎn)換平臺(tái)。有了這種比較廉價(jià)的數(shù)據(jù)處理平臺(tái)，很多企業(yè)都可以把數(shù)據(jù)保存下來挖掘更多的數(shù)據(jù)價(jià)值。但是，企業(yè)真正要在Hadoop平臺(tái)上做數(shù)據(jù)分析、數(shù)據(jù)挖掘，最大的難題是需要找到一些基于Hadoop平臺(tái)懂?dāng)?shù)據(jù)、懂分析，又懂編程的技術(shù)人才。

同時(shí)，王家林認(rèn)為，Hadoop難以應(yīng)對(duì)多元化的大數(shù)據(jù)處理業(yè)務(wù)。企業(yè)如果要同時(shí)部署在語(yǔ)言和運(yùn)行機(jī)制方面都有差異的Hadoop、Storm、Impala等三套系統(tǒng)，那就需要三個(gè)獨(dú)立的技術(shù)團(tuán)隊(duì)開發(fā)、運(yùn)營(yíng)和維護(hù)，同時(shí)三個(gè)系統(tǒng)之間共享數(shù)據(jù)的代價(jià)也是非常大的，更不用談直接共享彼此的操作算子。Hadoop近三年來在架構(gòu)上和性能上并無長(zhǎng)足進(jìn)步，很多新版本只不過是對(duì)系統(tǒng)錯(cuò)誤和不足的修修補(bǔ)補(bǔ)而已，這就導(dǎo)致了系統(tǒng)代碼越來越臃腫。

同時(shí)，Hadoop系統(tǒng)編寫和開發(fā)語(yǔ)言采用Java，由于Java語(yǔ)言的特性導(dǎo)致在開發(fā)時(shí)語(yǔ)言的表現(xiàn)力差，在表達(dá)機(jī)器學(xué)習(xí)等算法時(shí)非常繁雜，這使得Hadoop在應(yīng)對(duì)大數(shù)據(jù)處理要求時(shí)的表現(xiàn)越來越糟糕。

高性價(jià)比的大數(shù)據(jù)處理平臺(tái)

孫元浩表示，Hadoop主要由HDFS和MapReduce組成：HDFS是一個(gè)高可擴(kuò)展的分布式文件系統(tǒng)，是大數(shù)據(jù)軟件棧的基石；MapReduce在處理PB級(jí)別的數(shù)據(jù)時(shí)具有高容錯(cuò)性、高吞吐量的特點(diǎn)。

劉政認(rèn)為，Hadoop是下一代海量數(shù)據(jù)分布式處理的理想基礎(chǔ)架構(gòu)，特別是對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和處理，它可以讓用戶比較容易地構(gòu)建自己的分布式計(jì)算平臺(tái)。

Hadoop的優(yōu)勢(shì)不僅表現(xiàn)在海量數(shù)據(jù)存儲(chǔ)和處理能力方面的高可靠性，以及能夠自動(dòng)保存多個(gè)數(shù)據(jù)副本和自動(dòng)重新分配失敗任務(wù)的高容錯(cuò)性，還表現(xiàn)在它能夠在計(jì)算機(jī)集群數(shù)以千計(jì)的節(jié)點(diǎn)間分配數(shù)據(jù)和完成計(jì)算方面的高可擴(kuò)展性，另外還在于它在計(jì)算節(jié)點(diǎn)之間動(dòng)態(tài)移動(dòng)數(shù)據(jù)和保持計(jì)算負(fù)載均衡獲得較快處理速度的高效性?；贘ava技術(shù)開發(fā)的Hadoop能為企業(yè)系統(tǒng)提供穩(wěn)定可靠的API接口，為利用大規(guī)模廉價(jià)硬件設(shè)備上的計(jì)算能力構(gòu)建高性能分布式計(jì)算框架提供了可能。因此，Hadoop非常適合構(gòu)建非實(shí)時(shí)的離線分析系統(tǒng)。

Gartner預(yù)測(cè)，到2018年大數(shù)據(jù)將帶來超過1000億美元的IT開支。IDC也預(yù)測(cè)，2015年大數(shù)據(jù)市場(chǎng)規(guī)模將從2010年的32億美元增長(zhǎng)到170億美元，年復(fù)合增長(zhǎng)率為40%。

我們總是聽到大數(shù)據(jù)這個(gè)詞，那么多大的數(shù)據(jù)算是大數(shù)據(jù)，Hadoop適用于多大的數(shù)據(jù)量呢？麥肯錫曾經(jīng)對(duì)大數(shù)據(jù)的范圍進(jìn)行定義：傳統(tǒng)數(shù)據(jù)庫(kù)有效工作的數(shù)據(jù)量一般在10TB至100TB，100TB被成為是大數(shù)據(jù)的門檻。

IDC在給大數(shù)據(jù)做定義時(shí)也同樣把閾值設(shè)在100TB。這兩家分析機(jī)構(gòu)認(rèn)為，大數(shù)據(jù)大到傳統(tǒng)數(shù)據(jù)分析工具已經(jīng)無法進(jìn)行正常采集、存儲(chǔ)、管理和分析過程，這個(gè)時(shí)候恰恰就是Hadoop最適合的應(yīng)用場(chǎng)景了。

自從IBM、甲骨文、SAP等將排名靠前的BI廠商收入囊中后，BI市場(chǎng)保持相對(duì)穩(wěn)定了很多年。在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域，Teradata多次被Gartner數(shù)據(jù)倉(cāng)庫(kù)DBMS（數(shù)據(jù)庫(kù)管理系統(tǒng)）魔力象限列為領(lǐng)導(dǎo)者。同時(shí)，IDC的研究數(shù)據(jù)也表明，SAS在高級(jí)分析領(lǐng)域占有35.4%的市場(chǎng)份額，超過了排名第二的競(jìng)爭(zhēng)者兩倍以上。

Hadoop的出現(xiàn)似乎為打破原有的市場(chǎng)格局做著鋪墊。為了適應(yīng)大數(shù)據(jù)時(shí)代的企業(yè)新需求，為了繼續(xù)自己的領(lǐng)導(dǎo)者地位，很多國(guó)際IT巨頭都在向Hadoop伸出橄欖枝。

軟件巨頭擁抱Hadoop

數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的領(lǐng)導(dǎo)者Teradata在2011年收購(gòu)了Aster公司。同時(shí)，Teradata開始與Hortonworks合作兼容其商用發(fā)行的Apatch Hadoop。并且，Teradata還推出了統(tǒng)一數(shù)據(jù)架構(gòu)（Teradata Unified Data Architecture，UDA），包含三層架構(gòu)：Hadoop作為數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)轉(zhuǎn)換平臺(tái)，Teradata數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)分析平臺(tái)，Aster作為分析和探索平臺(tái)。

孔宇華表示，為了更增強(qiáng)Teradata統(tǒng)一數(shù)據(jù)架構(gòu)的功能，Teradata新收購(gòu)了一家公司Hadapt。收購(gòu)Hadapt之后，Teradata可以把SQL數(shù)據(jù)庫(kù)創(chuàng)建在Hadoop上，可以把Aster上的應(yīng)用更好地與Hadoop結(jié)合，也可以讓Teradata數(shù)據(jù)倉(cāng)庫(kù)和Aster更好地配合，最終目的是實(shí)現(xiàn)原本獨(dú)立的三個(gè)平臺(tái)的數(shù)據(jù)共享。Teradata的QueryGrid可以從Teradata或Aster任意一個(gè)平臺(tái)上發(fā)出指令，從其他平臺(tái)抽取數(shù)據(jù)做集中分析。

孔宇華強(qiáng)調(diào)，Teradata最大的愿景是在不同平臺(tái)之間實(shí)現(xiàn)數(shù)據(jù)運(yùn)作、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用。

作為一家傳統(tǒng)的數(shù)據(jù)分析工具提供商，劉政表示，Hadoop項(xiàng)目和相關(guān)技術(shù)的廣泛應(yīng)用，并沒有影響到SAS這類數(shù)據(jù)分析軟件廠商。恰恰相反，由于Hadoop非常適合構(gòu)建時(shí)效性不是很強(qiáng)的離線分析系統(tǒng)，Hadoop的廣泛應(yīng)用和成熟對(duì)擅長(zhǎng)數(shù)據(jù)分析的SAS而言是一種福音。

目前，SAS已經(jīng)將Hadoop 作為下一代內(nèi)存分析服務(wù)器系統(tǒng)的基礎(chǔ)架構(gòu)組件之一，并開發(fā)了相應(yīng)的數(shù)據(jù)訪問引擎。

另外，SAS對(duì)Hadoop的主要商業(yè)發(fā)行版本都有支持，包括Cloudera、Hortonworks、BigInsights、Pivotal HD和Cloudera Impala等。可以說，Hadoop被業(yè)界越多的采用，SAS就會(huì)有越多的潛在用戶。現(xiàn)在，SAS在Hadoop 平臺(tái)上引入了Embedded Process技術(shù)。該技術(shù)將融合SAS自身的內(nèi)存計(jì)算技術(shù)和Hadoop的各種服務(wù)，更好地支持Hadoop的作業(yè)調(diào)度和計(jì)算負(fù)載分配機(jī)制。

劉政認(rèn)為，對(duì)SAS的用戶而言，并不存在所謂的數(shù)據(jù)和大數(shù)據(jù)的鴻溝，因?yàn)镾AS 語(yǔ)言隔離了用戶需要面對(duì)的純粹技術(shù)性挑戰(zhàn)，畢竟在分析領(lǐng)域，用戶其實(shí)并不關(guān)心數(shù)據(jù)的存儲(chǔ)架構(gòu)和計(jì)算架構(gòu)。

SAS選擇Hadoop作為下一代商業(yè)智能的基礎(chǔ)支持組件，審慎地看待Hadoop技術(shù)的實(shí)質(zhì)并不斷挖掘Hadoop可能給用戶帶來的好處，降低用戶從傳統(tǒng)數(shù)據(jù)時(shí)代邁入大數(shù)據(jù)時(shí)代的技術(shù)門檻。

劉政指出，Hadoop給SAS帶來的直接挑戰(zhàn)是：許多用戶說要采用Hadoop來幫自己邁過大數(shù)據(jù)時(shí)代的門檻，但其實(shí)有些用戶并不明白Hadoop能夠給他們帶來什么價(jià)值，甚至很多用戶根本沒有必要使用大數(shù)據(jù)技術(shù)。

因此，SAS對(duì)應(yīng)的策略是，讓Hadoop對(duì)用戶完全透明。用戶只要知道他們的分析已經(jīng)被SAS高性能分析服務(wù)器所集成和使用，哪怕將來Hadoop本身不斷演進(jìn)，用戶也不必?fù)?dān)心這種演進(jìn)給用戶帶來的新挑戰(zhàn)。

劉政做了一個(gè)形象的比喻：“如果說Hadoop是一頭日益強(qiáng)壯的小象，終有一天會(huì)在大數(shù)據(jù)分析領(lǐng)域恣意馳騁，那么我們希望SAS就是一位馴獸師。”

何春濤表示，Hadoop和敏捷BI各自適用于不同的業(yè)務(wù)場(chǎng)景，兩者是互補(bǔ)關(guān)系。在永洪科技的諸多客戶中，有不少是采用Hadoop實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)。要實(shí)現(xiàn)這些企業(yè)的敏捷BI，只需要把Hadoop的數(shù)據(jù)導(dǎo)入永洪科技基于分布式內(nèi)存計(jì)算的高性能數(shù)據(jù)集市，然后進(jìn)行敏捷可視化分析即可。

由于現(xiàn)在Hadoop的應(yīng)用相當(dāng)廣泛，永洪科技產(chǎn)品支持開箱即用的Hadoop數(shù)據(jù)源連接，以擁抱Hadoop生態(tài)體系，既能滿足企業(yè)用戶海量數(shù)據(jù)存儲(chǔ)的需要，又能進(jìn)行實(shí)時(shí)數(shù)據(jù)分析。

事實(shí)上，IBM、微軟、甲骨文等國(guó)際IT巨頭在更早的時(shí)候就紛紛開始擁抱Apache Hadoop。

2011年，IBM宣布在SmartCloud平臺(tái)上新增一項(xiàng)基于Apache Hadoop的服務(wù)——InfoSphere BigInsights分析軟件。該軟件包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語(yǔ)言、針對(duì)IBM的DB2數(shù)據(jù)庫(kù)的連接件和IBM BigSheets。

2012年，IBM宣布與Cloudera合作，并開始支持其他Hadoop發(fā)行版本。與此同時(shí)，IBM收購(gòu)大數(shù)據(jù)工具Vivisimo公司，將大數(shù)據(jù)的搜索和分析擴(kuò)展到Hadoop之外的傳統(tǒng)遺留應(yīng)用和數(shù)據(jù)倉(cāng)庫(kù)。日前，IBM與Veristorm合作提供業(yè)內(nèi)首個(gè)商業(yè)Hadoop for System z Linux，使得客戶無需將數(shù)據(jù)搬離主機(jī)就可以更快更安全地進(jìn)行基于Hadoop的各種分析。其中，zDoop軟件則是其在Hadoop方面的新產(chǎn)品，利用新存儲(chǔ)和Hadoop產(chǎn)品實(shí)現(xiàn)更佳的數(shù)據(jù)管理，獲取實(shí)時(shí)洞察。

為了更好地兼容Apache Hadoop，微軟與Hortonworks合作，推出了自己的Hadoop發(fā)布版HDInsight。微軟HDInsight平臺(tái)也完全兼容其他Apache Hadoop發(fā)行版，同時(shí)集成自己的商業(yè)智能工具，例如Excel、SQL Server和PowerBI。

隨后，微軟通過HDInsight與Active Directory的集成來增強(qiáng)Hadoop的安全性，通過與System Center集成，簡(jiǎn)化Hadoop的管理，并支持IT部門在同一面板上管理Hadoop集群、SQL Server數(shù)據(jù)庫(kù)和應(yīng)用程序。

Hadoop與SQL Server 2012兼容的特性是微軟與Hortonworks合作開發(fā)的結(jié)果。基于這次合作，微軟很快推出了基于SQL Server 2012的并行數(shù)據(jù)庫(kù)一體機(jī)PDW布局大數(shù)據(jù)市場(chǎng)。更為積極的事情是，Hortonworks在2013年2月25日發(fā)布了Windows版Hortonworks 大數(shù)據(jù)平臺(tái)HDP（Hortonworks Data Platform）。

2011年10月，甲骨文發(fā)布了新版NoSQL數(shù)據(jù)庫(kù)企業(yè)版，這是運(yùn)行于Hadoop 之上的大數(shù)據(jù)軟件之一。2012年，甲骨文加強(qiáng)與Cloudera的合作，將Cloudera's Distribution Including Apache Hadoop（CDH）和Cloudera Manager集成到Oracle大數(shù)據(jù)機(jī)之中。

甲骨文同時(shí)還推出了Oracle Big Data Connectors，該系列軟件產(chǎn)品能夠幫助客戶輕松訪問通過Oracle數(shù)據(jù)庫(kù)11g集成存儲(chǔ)在CDH Hadoop分布式文件系統(tǒng)或Oracle NoSQL數(shù)據(jù)庫(kù)中的數(shù)據(jù)。

硬件加速Hadoop

硬件廠商走在Hadoop行列里面，似乎有些讓人驚訝，但是，通過以往的經(jīng)驗(yàn)來看，基于硬件的數(shù)據(jù)加速，往往比單純軟件加速更加有效。為何硬件巨頭熱衷于Hadoop發(fā)行版？那是因?yàn)?，能夠駕馭大數(shù)據(jù)的最佳方法就是親自“玩”Hadoop。

2013年2月，英特爾宣布推出自己的Hadoop發(fā)行版Intel Distribution for Apache Hadoop，其中囊括了英特爾提供的HDFS、YARN、HBase和Hive等增強(qiáng)套件。

英特爾的想法是，通過硬件和軟件的改善，讓英特爾的芯片在預(yù)測(cè)分析、云數(shù)據(jù)收集和具體任務(wù)處理等領(lǐng)域有更好的性能，從而幫助客戶打造一個(gè)面向大數(shù)據(jù)應(yīng)用的Hadoop高效平臺(tái)。

不過，經(jīng)過一年多的實(shí)踐之后，英特爾最終還是在2014年3月停止發(fā)行自己的Hadoop發(fā)行版，轉(zhuǎn)而支持在Hadoop領(lǐng)域資格更老的Cloudera的

同時(shí)，英特爾投資部門前后向Cloudera投資了數(shù)億美元。

與英特爾一樣的硬件廠商，還有EMC。2010年EMC通過收購(gòu)Greenplum正式進(jìn)入了數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)。EMC與Hadoop領(lǐng)域的翹楚Hortonworks合作，將自身存儲(chǔ)技術(shù)和Apache Hadoop結(jié)合起來，發(fā)布了自己的發(fā)行版Greenplum HD。

華為在Hadoop社區(qū)中的貢獻(xiàn)者和提交者也是國(guó)內(nèi)最多的，可謂是國(guó)內(nèi)在Hadoop領(lǐng)域關(guān)注時(shí)間較早，投入人力最多的公司之一。華為多年來在Hadoop方面的投入，使得華為與國(guó)際IT巨頭在大數(shù)據(jù)領(lǐng)域處于同一起跑線上。

目前來看，華為推出了一款基于開放社區(qū)發(fā)布的Hadoop發(fā)行版FusionInsight Hadoop。該版本基于華為自主研發(fā)的Hadoop HA平臺(tái)，構(gòu)建NameNode、JobTracker、HiveServer的HA功能，進(jìn)程故障后系統(tǒng)自動(dòng)Failover，無需人工干預(yù)。

同時(shí)，該版本包含了開放社區(qū)的主要軟件及其生態(tài)圈中的主流組件，并對(duì)這些組件在高可用性、安全、易管理、性能方面進(jìn)行了大量?jī)?yōu)化。并且，該版本針對(duì)開放社區(qū)Hadoop增強(qiáng)了商務(wù)智能分析能力，集成各種數(shù)據(jù)分析組件的同時(shí)加強(qiáng)與傳統(tǒng)商務(wù)智能分析平臺(tái)的集成，讓企業(yè)可以更快、更準(zhǔn)、更穩(wěn)地從各類繁雜無序的海量數(shù)據(jù)中洞察商機(jī)。

在傳統(tǒng)BI和數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域，很難再有新公司還能撼動(dòng)現(xiàn)在的市場(chǎng)格局。在大數(shù)據(jù)需求旺盛的背景下，基于Hadoop開源項(xiàng)目的新公司將獲得得更多的新機(jī)遇。從Hadoop誕生的那一天起，國(guó)外如Cloudera、Hortonworks、MapR等新公司就相繼成立，搶占了市場(chǎng)的先機(jī)。如今，它們都已經(jīng)成為Hadoop領(lǐng)域的佼佼者，即使很多財(cái)大氣粗的國(guó)際IT巨頭要進(jìn)入Hadoop領(lǐng)域，也會(huì)優(yōu)先考慮與它們合作。

Cloudera公司成立于2008年，CDH為其Hadoop發(fā)行版。對(duì)于Cloudera來說，2014年與英特爾深度合作是一次英明的決定，這次合作讓Cloudera得以借助英特爾的渠道進(jìn)行全球化營(yíng)銷。

2009年成立的MapR公司，在Hadoop領(lǐng)域顯得有點(diǎn)特立獨(dú)行。MapR認(rèn)為，Hadoop的缺陷來自于其架構(gòu)設(shè)計(jì)本身，小修小補(bǔ)不能解決問題。于是，MapR用新架構(gòu)重寫了HDFS。結(jié)果證明，MapR是對(duì)的，HDFS的私有替代品比當(dāng)前的開源版本快3倍，同時(shí)也通過API與其他Hadoop 發(fā)行版保持兼容。

Hortonworks公司創(chuàng)立于2011年，HDP是其Hadoop發(fā)行版。Hortonworks最為吸引合作伙伴和客戶的地方是，公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師，這些工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop，這些工程師貢獻(xiàn)了Hadoop 80%的代碼。

2011年，剛剛成立的Hortonworks曾因?yàn)椤罢l(shuí)對(duì)Hadoop貢獻(xiàn)最大”的爭(zhēng)論與Cloudera有一次小摩擦。不過，隨后Cloudera公布了一張各廠商貢獻(xiàn)的Hadoop源代碼百分比，顯示了當(dāng)時(shí)各廠商對(duì)Hadoop的貢獻(xiàn)，同時(shí)也似乎在影射出各廠商在Hadoop領(lǐng)域的話語(yǔ)權(quán)。而國(guó)內(nèi)一些基于Hadoop項(xiàng)目建立起來的大數(shù)據(jù)新公司，正在踏實(shí)地前行，為國(guó)內(nèi)各行業(yè)的企業(yè)客戶普及和應(yīng)用Hadoop做出自己的努力。

不過，孔宇華認(rèn)為，國(guó)內(nèi)基于Hadoop的創(chuàng)業(yè)公司還有很多機(jī)會(huì)，但是從基礎(chǔ)平臺(tái)的市場(chǎng)切入難度較大，而基于Hadoop做一些數(shù)據(jù)的應(yīng)用開發(fā)機(jī)會(huì)更多一些。

北京紅象云騰系統(tǒng)技術(shù)有限公司（以下簡(jiǎn)稱紅象云騰）成立于2013年5月，2014年5月份獲得百萬級(jí)天使投資。EasyHadoop社區(qū)發(fā)起人和負(fù)責(zé)人、Cloudera CCDH認(rèn)證中國(guó)區(qū)第一個(gè)通過者、紅象云騰創(chuàng)始人童小軍表示，紅象云騰專注于企業(yè)大數(shù)據(jù)引擎研發(fā)，致力于將大數(shù)據(jù)（Hadoop/Spark等）技術(shù)帶給更多的中國(guó)企業(yè)?；贖adoop，紅象云騰定制開發(fā)了RedHadoop Enterprise CRH企業(yè)版（紅象大數(shù)據(jù)平臺(tái)）。在這個(gè)平臺(tái)上，紅象云騰已經(jīng)構(gòu)建了相應(yīng)的分析應(yīng)用程序，例如，基于非結(jié)構(gòu)化數(shù)據(jù)庫(kù)技術(shù)構(gòu)建安防的“視頻分析系統(tǒng)”和基于實(shí)時(shí)分析查詢技術(shù)構(gòu)建商業(yè)智能的“數(shù)據(jù)工廠系統(tǒng)”。

童小軍透露，紅象云騰即將在8月底發(fā)布集成批處理（MapReduce）、流處理（Storm）和內(nèi)存計(jì)算（Spark）的三個(gè)引擎，并且提供一鍵式安裝部署，而且可以做到安裝過程清晰可見、簡(jiǎn)捷易懂。值得一提的是，童小軍還有一個(gè)遠(yuǎn)大的計(jì)劃，基于RedHadoop Enterprise CRH3打造一項(xiàng)面向移動(dòng)APP的大數(shù)據(jù)云平臺(tái)公有云服務(wù)——紅象數(shù)據(jù)云（RedCloud.cn）。

童小軍表示：“未來，我們將在RedCloud.cn上做一個(gè)開放的平臺(tái)，吸引更多的初學(xué)者進(jìn)入社區(qū)，所有移動(dòng)APP都可以直接調(diào)我們的API，租用我們的服務(wù)。”

同時(shí)，Spark的出現(xiàn)也讓星環(huán)科技CTO孫元浩看到了商機(jī)。孫元浩認(rèn)為，Spark讓中國(guó)的創(chuàng)業(yè)公司可以與國(guó)外一流公司站在同一個(gè)起跑線上競(jìng)爭(zhēng)，并且有機(jī)會(huì)超越國(guó)外公司，是一次難得的機(jī)遇。在Spark出現(xiàn)前，孫元浩受Google Dremel的誤導(dǎo)，開發(fā)新的MPP處理引擎。經(jīng)過近一年的嘗試，孫元浩還是回到MapReduce計(jì)算模式這個(gè)起點(diǎn)上。2011年底至2012年初，大數(shù)據(jù)產(chǎn)品競(jìng)爭(zhēng)的焦點(diǎn)轉(zhuǎn)移到SQL on Hadoop上，當(dāng)時(shí)孫元浩正在尋找一種更高效的Hadoop MapReduce實(shí)現(xiàn)方案。

孫元浩認(rèn)為：“經(jīng)過近10年的演化，MapReduce計(jì)算模式被證明是高可擴(kuò)展和高度容錯(cuò)的，只是Hadoop MapReduce的實(shí)現(xiàn)比較低效。我們需要做的是重新實(shí)現(xiàn)MapReduce?！碑?dāng)Spark宣稱比MapReduce快100倍時(shí)，一下就吸引了孫元浩的注意。經(jīng)過仔細(xì)評(píng)估后，孫元浩認(rèn)為，Spark是MapReduce計(jì)算模式的一個(gè)全新實(shí)現(xiàn)，Spark架構(gòu)設(shè)計(jì)的巧妙、與Hadoop良好的兼容性成為最終促成孫元浩以Spark作為重點(diǎn)發(fā)展方向。孫元浩指出星環(huán)科技在Spark上的兩點(diǎn)創(chuàng)新。

創(chuàng)新之一是提出RDD（Resilient Distributed Dataset，彈性分布數(shù)據(jù)集）的概念，所有的統(tǒng)計(jì)分析任務(wù)由對(duì)RDD的若干基本操作組成。RDD可以被駐留在內(nèi)存中，后續(xù)的任務(wù)可以直接讀取內(nèi)存中的數(shù)據(jù)，因此速度可以得到很大提升。創(chuàng)新之二是把一系列的分析任務(wù)編譯成一個(gè)由RDD組成的有向無環(huán)圖，根據(jù)數(shù)據(jù)之間的依賴性把相鄰的任務(wù)合并，從而減少大量的中間結(jié)果輸出，極大減少了磁盤I/O，使得復(fù)雜數(shù)據(jù)分析任務(wù)更高效。

基于這兩點(diǎn)創(chuàng)新，企業(yè)可以在Spark基礎(chǔ)上進(jìn)行批處理、交互式分析、迭代式機(jī)器學(xué)習(xí)、流處理，因此Spark可以成為一個(gè)用途廣泛的計(jì)算引擎，并在未來取代MapReduce的地位。

目前，星環(huán)科技提供的交互式分析引擎名叫Inceptor，從下往上有三層架構(gòu)，最下面是一個(gè)分布式緩存（Transwarp Holodesk），可以建在內(nèi)存或者SSD上，中間層是Spark計(jì)算引擎層，最上層包括一個(gè)完整的SQL99和PL/SQL編譯器、統(tǒng)計(jì)算法庫(kù)和機(jī)器學(xué)習(xí)算法庫(kù)，提供完整的R語(yǔ)言訪問接口。

無論是對(duì)企業(yè)用戶還是對(duì)初創(chuàng)企業(yè)來說，Hadoop都是一個(gè)美麗的夢(mèng)想，不過，擺在我們眼前的情況是，并非每個(gè)企業(yè)都有能力把這個(gè)夢(mèng)想變?yōu)楝F(xiàn)實(shí)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

夢(mèng)想與現(xiàn)實(shí)