李昊原
當(dāng)行業(yè)排名前兩位的企業(yè)選擇合并,往往意味著壟斷巨頭的出現(xiàn)和某種模式下市場競爭的告一段落。
不久前,Cloudera和Hortonworks的宣布合并,讓大數(shù)據(jù)領(lǐng)域的競爭也變得撲朔迷離。兩家上市公司為什么要合并?對Hadoop這又意味著什么?都是值得思考的問題。
Hadoop幾乎可以算作大數(shù)據(jù)的代名詞,隨著開源技術(shù)的被廣泛使用,Hadoop已經(jīng)成為事實(shí)上的大數(shù)據(jù)標(biāo)準(zhǔn)。十幾年前,企業(yè)數(shù)據(jù)還普遍是在數(shù)據(jù)倉庫中處理,使用Oracle、SAP、IBM等數(shù)據(jù)相關(guān)軟件,但隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)類型的多樣化,對海量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)以及流式數(shù)據(jù)的處理需求,都成為了舊式商業(yè)軟件的瓶頸。
2003年,Google Lab開發(fā)了Map/Reduce 和 Google File System(GFS),在兩年后的秋天,Hadoop由 Apache Software Foundation 公司作為Lucene的子項(xiàng)目Nutch的一部分正式引入。這一能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架正式出現(xiàn) ,給大數(shù)據(jù)軟件市場帶來了新的機(jī)會(huì)。2006 年 3 月,Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入Hadoop 的項(xiàng)目中。
對于數(shù)量巨大但單條數(shù)據(jù)價(jià)值較低的數(shù)據(jù)類型,比如輿情數(shù)據(jù),在傳統(tǒng)的數(shù)據(jù)倉庫中進(jìn)行分析的性價(jià)比較低,遠(yuǎn)不如在基于Hadoop的平臺(tái)上更能體現(xiàn)價(jià)值。因此在互聯(lián)網(wǎng)領(lǐng)域,Hadoop得到了普遍的應(yīng)用,比如Facebook、百度、雅虎,都使用Hadoop技術(shù)進(jìn)行數(shù)據(jù)處理等工作。作為一項(xiàng)開源技術(shù),雖然可以免費(fèi)下載,但Hadoop本身卻很復(fù)雜,對許多有大數(shù)據(jù)處理需求的公司來說,讓IT部門基于Hadoop進(jìn)行開發(fā)的成本太高,難度也太大。因此,如Cloudera和Hortonworks這樣的創(chuàng)業(yè)公司出現(xiàn)了。
Cloudera成立于2008年,在2009年,Cloudera發(fā)行了第一個(gè)Hadoop集成版本——CDH。CDH產(chǎn)品包括企業(yè)版和開源版,在企業(yè)版中,包含管理組件Cloudera Manager,這個(gè)組件是閉源的,可以對計(jì)算機(jī)集群進(jìn)行管理、部署、升級,監(jiān)控,提供包括數(shù)據(jù)管理、數(shù)據(jù)追溯、安全性保障和多云架構(gòu)管理等功能,在3個(gè)月的試用期后,需按照部署節(jié)點(diǎn)的數(shù)目按月交費(fèi),這也是Cloudera的主要盈利模式。
而Hortonworks是從雅虎Hadoop團(tuán)隊(duì)剝離成立的創(chuàng)業(yè)公司,不同于Cloudera,Hortonworks的軟件是完全開源的,通過技術(shù)支持來盈利。另外還有一家MapR,這三家公司也常被稱作是Hadoop的三大發(fā)行商。
將開源軟件商業(yè)化的價(jià)值在哪里?Cloudera大中華區(qū)的技術(shù)總監(jiān)劉隸放曾對此解釋:“開源并不意味著免費(fèi)”。對一些技術(shù)實(shí)力相對較弱的企業(yè),如金融、電信、制造業(yè)等行業(yè),將帶來大量的IT開發(fā)成本。在這個(gè)過程中,由于軟件被不斷發(fā)現(xiàn)BUG,以及需要針對企業(yè)情況去修改和打補(bǔ)丁,每當(dāng)開源項(xiàng)目向下一個(gè)版本躍進(jìn)時(shí),所有的補(bǔ)丁都要在新版本上進(jìn)行驗(yàn)證,會(huì)帶來非常大的工程化難題,造成積重難返甚至無法更新只能停在舊版本上的窘迫——而有的開發(fā)誤判了開源項(xiàng)目的生命周期,甚至?xí)霈F(xiàn)開源項(xiàng)目中止的尷尬。
而除了促進(jìn)Hadoop的易用化之外,Cloudera和Hortonworks的價(jià)值還體現(xiàn)在版本演進(jìn)中,尤其是Cloudera,CDH版本中26個(gè)項(xiàng)目有18個(gè)是由Cloudera發(fā)起或研發(fā)的,占據(jù)了商業(yè)版平臺(tái)的50%,在下載平臺(tái)上,甚至超過了60%,是主流的開源版本。這意味著Cloudera在開源社區(qū)里有足夠的話語權(quán),讓產(chǎn)品受益于開源社區(qū)的創(chuàng)新力而又不會(huì)失去控制。
也因?yàn)槿绱?,市場對Cloudera以及緊隨其后的Hortonworks都報(bào)以期待,2014年Hortonworks成功上市,而同年Cloudera則獲得了來自英特爾7.4億美元的投資,估值高達(dá)41億美元,成為大數(shù)據(jù)公司中最耀眼的獨(dú)角獸。
對于這一輪技術(shù)革命帶來的商業(yè)演進(jìn),我們習(xí)慣稱之為“ABC”時(shí)代,然后相對于A(人工智能)和C(云計(jì)算),前者涌現(xiàn)了大量的獨(dú)角獸企業(yè),并在應(yīng)用上呈現(xiàn)了遍地開花的景象,后者已經(jīng)實(shí)際上出現(xiàn)了諸如亞馬遜等的云計(jì)算巨頭。而以Cloudera等為代表的大數(shù)據(jù)公司,卻顯得有些乏力。
無論是Cloudera還是Hortonworks,,都處于持續(xù)的虧損之中,盈利水平的不足體現(xiàn)在其財(cái)報(bào)和股價(jià)上。Hortonworks上市之初股價(jià)曾一度接近30美元,但之后一直在15美元下的地點(diǎn)徘徊;而Cloudera提交IPO申請時(shí)的估值和3年前接受英特爾投資時(shí)的估值一樣都是41億美元,今年上半年時(shí),由于對2019年收入的預(yù)測低于市場預(yù)期,其股價(jià)一度下跌超過28%,目前市值18.62億美元。
造成這一現(xiàn)象的原因很多,首先是Cloudera與Hortonworks等公司的競爭,但競爭并不局限于Hadoop領(lǐng)域。比起Hortonworks和MapR,處于領(lǐng)頭位置的Cloudera更希望與Oracle、SAP等軟件公司對比。但開源軟件的商用化,意味著需要在研發(fā)上投入大量的成本,以滿足大型企業(yè)的需要,而在實(shí)際銷售中,由于大企業(yè)對穩(wěn)定性、業(yè)務(wù)連續(xù)性等的考慮,對比傳統(tǒng)企業(yè)軟件并不一定會(huì)占到優(yōu)勢。
另一方面,是來自云計(jì)算公司的跨界挑戰(zhàn)。云計(jì)算的發(fā)展將越來越多的企業(yè)囊括其中,并催生了亞馬遜AWS等巨頭,而他們本身也會(huì)提供托管的Hadoop/Spark服務(wù),如AWS的Elastic Map Reduce(EMR),不僅集成在云平臺(tái)內(nèi)部而且成本也更低。而對象存儲(chǔ)服務(wù),如AWS S3,Azure Blob存儲(chǔ)和Google云端存儲(chǔ),從成本上來說,也低于Hadoop的存儲(chǔ)成本。
在2017年的一次采訪中,Cloudera零售、制造及物聯(lián)網(wǎng)行業(yè)的行業(yè)專家Dave Shuman曾表示,Cloudera與云計(jì)算公司并非競爭關(guān)系,而是合作伙伴關(guān)系,重視數(shù)據(jù)資產(chǎn)的大型企業(yè)依舊需要Cloudera的產(chǎn)品。
與此同時(shí),Cloudera也一直致力于向云計(jì)算轉(zhuǎn)型,目前在公有云領(lǐng)域,Cloudera已經(jīng)可以在AWS等云平臺(tái)上做到存儲(chǔ)對象分離;在私有云領(lǐng)域,也可以支持基于OpenStack和VMvare的私有云平臺(tái),以及混合云的部署。
然而來自云計(jì)算公司的競爭壓力依舊客觀存在,實(shí)際上,今年8月份數(shù)據(jù)庫制造商 Redis Labs 將開發(fā)的Redis 模塊的開源協(xié)議的授權(quán)方式變更,矛頭便指向了借助開源獲利的云計(jì)算公司。
在今年的10月初,Cloudera和Hortoworks宣布全股票對等合并,其中Cloudera的股東擁有60%股權(quán),Hortonworks的股東擁有40%的股權(quán)。在Hadoop的領(lǐng)域,這意味著“強(qiáng)強(qiáng)聯(lián)手”,而在大數(shù)據(jù)領(lǐng)域,則更像是“抱團(tuán)取暖”。但毫無疑問,這至少可以幫助兩家企業(yè)結(jié)束近十年的競爭,并且依靠壟斷地位早日擺脫長期虧損的窘狀。受此消息影響,兩家公司都隨后大漲,據(jù)2018年10月2日收盤價(jià)計(jì)算,兩家公司的總股價(jià)達(dá)為52億美元。
合并后的兩家公司擁有超過2500名客戶,年收入將達(dá)到7.2億美元,降低1.25億美元成本,并有超過5億美元的現(xiàn)金。在技術(shù)上,兩家公司也可以進(jìn)行互補(bǔ),不過由于雙方存在很多重合的業(yè)務(wù),意味著將在組織架構(gòu)和產(chǎn)品結(jié)構(gòu)上進(jìn)行整合(主要是Cloudera的CDH和Hortonworks的HDP兩條產(chǎn)品線的合并問題),不過他們也承諾,在3年內(nèi)會(huì)繼續(xù)提供兩家公司的服務(wù),考慮到Cloudera的產(chǎn)品訂期為1年和3年,這基本可以保證用戶的權(quán)益。而新的公司也會(huì)在發(fā)布新的統(tǒng)一版本的產(chǎn)品。
目前有關(guān)合并的細(xì)節(jié)還有許多在挑戰(zhàn)中,不過原Cloudera的CEO Thomas Reilly,也是新公司的CEO對此十分看好,表示新的公司將成為行業(yè)領(lǐng)導(dǎo)者,為客戶提供更好的平臺(tái),創(chuàng)建世界首個(gè)企業(yè)數(shù)據(jù)云,并將在云計(jì)算、物聯(lián)網(wǎng)和容器技術(shù)等領(lǐng)域繼續(xù)發(fā)力。
而從第三方的角度來看,這無疑會(huì)影響整個(gè)Hadoop的生態(tài),開源大數(shù)據(jù)目前已經(jīng)成為互聯(lián)網(wǎng)企業(yè)的基礎(chǔ)設(shè)施,兩家公司合并后,意味著Hadoop的標(biāo)準(zhǔn)將更加統(tǒng)一,長期來看新公司的盈利能力也將大幅提升,并將更多的資源用于新技術(shù)的投入。
對此,“三駕馬車”中的MapR曾表示“兩個(gè)錯(cuò)誤也不會(huì)導(dǎo)致一個(gè)正確”,但從體量和級別上來看,新公司將基本代表Hadoop社區(qū),其他同類型企業(yè)將很難與之競爭。而新公司未來也可能會(huì)面對和云計(jì)算公司更直接的競爭,或者如Redhat一樣被巨頭收購,這些猜測都要等待新公司重組的進(jìn)一步塵埃落定了。