容永康
1.亞馬遜AWS是全球云計(jì)算領(lǐng)導(dǎo)者,能否介紹一下大數(shù)據(jù)和云計(jì)算的關(guān)系?
大數(shù)據(jù)和云計(jì)算是一對孿生兄弟,如影隨行。數(shù)字化轉(zhuǎn)型將產(chǎn)生大量新的數(shù)據(jù)源,這些數(shù)據(jù)源將持續(xù)產(chǎn)生史無前例的海量數(shù)據(jù),如果企業(yè)當(dāng)前的數(shù)據(jù)架構(gòu)存在大量的數(shù)據(jù)孤島,數(shù)據(jù)流錯(cuò)綜復(fù)雜,那么這些新型的數(shù)據(jù)源將創(chuàng)造新的數(shù)據(jù)孤島。如果企業(yè)缺乏一個(gè)能隨需應(yīng)變的基礎(chǔ)設(shè)施架構(gòu)的話,這些海量數(shù)據(jù)將很快成為“歷史”數(shù)據(jù),而得不到任何處理和分析。大數(shù)據(jù)依賴于云計(jì)算提供的彈性、靈活的計(jì)算平臺(tái),高效、低成本地為各個(gè)業(yè)務(wù)板塊提供數(shù)據(jù)分析所需的所有數(shù)據(jù)。而大數(shù)據(jù)又進(jìn)一步為企業(yè)深入理解客戶和市場提供了可能,為數(shù)字化運(yùn)營,數(shù)字化供應(yīng)鏈等數(shù)字化轉(zhuǎn)型舉措提供了精細(xì)化管理的手段。
2.大數(shù)據(jù)能給企業(yè)帶來什么好處?
盡管關(guān)于大數(shù)據(jù)的宣傳無處不在,許多組織仍然沒有意識(shí)到他們正面臨大數(shù)據(jù)問題,或者根本沒有從大數(shù)據(jù)的角度思考自己面臨的問題。一般而言,如果組織現(xiàn)有的數(shù)據(jù)庫和應(yīng)用程序已無法再擴(kuò)展以應(yīng)對數(shù)據(jù)量、數(shù)據(jù)多樣性和數(shù)據(jù)速度方面需求的激增,那么該組織很可能會(huì)通過采用大數(shù)據(jù)技術(shù)而獲益。
若未能正確解決大數(shù)據(jù)難題,則會(huì)導(dǎo)致成本不斷上升,工作效率和競爭力不斷下降。而合理的大數(shù)據(jù)策略則能夠遷移現(xiàn)有的繁重工作負(fù)載,交由大數(shù)據(jù)技術(shù)處理,并部署新應(yīng)用程序以利用新的商機(jī),從而幫助組織降低成本并提高運(yùn)營效率。
3.大數(shù)據(jù)的工作原理是什么?
大數(shù)據(jù)技術(shù)提供了可滿足整個(gè)數(shù)據(jù)管理周期所需的新工具,因此具有技術(shù)上和經(jīng)濟(jì)上的可行性,不僅能夠收集并存儲(chǔ)更大的數(shù)據(jù)集,還能對其進(jìn)行分析,以發(fā)掘有價(jià)值的新見解。在大多數(shù)情況下,大數(shù)據(jù)處理包含一種常見的數(shù)據(jù)流—從收集原始數(shù)據(jù)到使用可付諸行動(dòng)的信息。
收集。收集原始數(shù)據(jù)(事務(wù)、日志、移動(dòng)設(shè)備等)是眾多組織在應(yīng)對大數(shù)據(jù)時(shí)所面臨的第一個(gè)難題。優(yōu)秀的大數(shù)據(jù)平臺(tái)可使這一步事半功倍,讓開發(fā)人員能夠以任意速度(從實(shí)時(shí)處理到批處理)攝取多種數(shù)據(jù)(從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù))。
存儲(chǔ)。任何大數(shù)據(jù)平臺(tái)都需要一個(gè)安全、可控且持久耐用的存儲(chǔ)庫,用于在處理任務(wù)之前(甚至之后)存儲(chǔ)數(shù)據(jù)。根據(jù)具體需求,可能還需要臨時(shí)存儲(chǔ)傳輸過程中的數(shù)據(jù)。
處理和分析。在這一步中,數(shù)據(jù)將從其原始狀態(tài)轉(zhuǎn)換為可使用的格式,實(shí)現(xiàn)的方法通常是排序、聚合、合并,甚至是執(zhí)行更高級(jí)的函數(shù)和算法。隨后,將存儲(chǔ)轉(zhuǎn)換后產(chǎn)生的數(shù)據(jù)集以供進(jìn)一步處理,或者通過商業(yè)智能和數(shù)據(jù)可視化工具向用戶提供這些數(shù)據(jù)集。
使用和可視化。大數(shù)據(jù)解決方案的意義就在于從你的數(shù)據(jù)集中獲取高價(jià)值、可付諸行動(dòng)的見解。理想情況下,你可通過自助式商業(yè)智能工具和靈活的數(shù)據(jù)可視化工具向相關(guān)人員提供數(shù)據(jù),他們可利用這些工具輕松、快速地瀏覽這些數(shù)據(jù)集。根據(jù)分析的類型,最終用戶還可能以統(tǒng)計(jì)“預(yù)測”(預(yù)測分析)或建議行動(dòng)(規(guī)范分析)的形式使用分析結(jié)果數(shù)據(jù)。
4.分析和處理大數(shù)據(jù)是否需要花大價(jià)錢?什么樣的企業(yè)才能負(fù)擔(dān)得起?
借助AWS,用戶無需購買硬件,也無需維護(hù)和擴(kuò)展基礎(chǔ)架構(gòu),因此可以將用戶的資源集中用于發(fā)掘數(shù)據(jù)的價(jià)值。隨著AWS不斷添加新的功能,用戶將始終能夠利用最新技術(shù),且不必做出任何長期投資承諾。
AWS提供了廣泛的數(shù)據(jù)存儲(chǔ)、計(jì)算以及分析的資源,不僅可讓用戶在AWS平臺(tái)上輕松實(shí)現(xiàn)快速部署以及彈性擴(kuò)展的功能,而且還能使成本降低。AWS大數(shù)據(jù)存儲(chǔ)低至$28.16/TB,數(shù)據(jù)歸檔低至$0.007/GB/月,實(shí)施數(shù)據(jù)流加載低至$0.35/GB,托管的Hadoop,Spark,Presto集群,只需要$0.15/小時(shí),數(shù)據(jù)倉庫以及商業(yè)智能更是低至傳統(tǒng)企業(yè)軟件解決方案的1/10。
5.談到大數(shù)據(jù),有一個(gè)有趣的概念叫“數(shù)據(jù)湖”,它的具體含義是什么?
“數(shù)據(jù)湖”這個(gè)概念是由一家名為Pentaho公司的CTO詹姆斯·迪克森于2010年在其博客中首次提出。在那篇開創(chuàng)性的文章中,迪克森是這樣描繪這個(gè)概念的,“如果你認(rèn)為一個(gè)數(shù)據(jù)集市(Data Mart)可以看作是桶裝水店—提供了清洗,包裝和組織等服務(wù)以方便用戶消費(fèi);數(shù)據(jù)湖就是一個(gè)擁有更自然狀態(tài)的大的水體。來自源頭的內(nèi)容流補(bǔ)充到湖中,各類用戶可以來湖中檢測、探索以及獲取樣本”。
簡單來說,“數(shù)據(jù)湖”不僅僅是數(shù)據(jù)存儲(chǔ)和處理的單元,也是釋放數(shù)據(jù)價(jià)值的過程。迪克森認(rèn)為,數(shù)據(jù)集市(Data Mart)存在固有的問題,而“數(shù)據(jù)湖”則是面向企業(yè)的最佳的大數(shù)據(jù)解決方案。普華永道(PWC)在這之后的研究結(jié)論也進(jìn)一步證實(shí)了“數(shù)據(jù)湖”有可能解決“數(shù)據(jù)孤島”,這一企業(yè)信息化難題。
6.“數(shù)據(jù)湖”實(shí)現(xiàn)的難點(diǎn)是什么,AWS對此有什么解決方案?
“數(shù)據(jù)湖”的實(shí)現(xiàn)難點(diǎn)在于,數(shù)據(jù)的生產(chǎn)者不是數(shù)據(jù)的使用者,如何管理和治理這些數(shù)據(jù),是很多企業(yè)所面臨的挑戰(zhàn)。
過去十幾年中,大量的業(yè)務(wù)應(yīng)用獨(dú)立開發(fā)部署,缺少統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)治理規(guī)范,形成了煙囪狀的應(yīng)用架構(gòu),因而在數(shù)據(jù)集成時(shí)面臨各種挑戰(zhàn),包括:數(shù)據(jù)標(biāo)準(zhǔn)不一致,數(shù)據(jù)質(zhì)量差,缺少元數(shù)據(jù)管理,主數(shù)據(jù)管理等一系列問題。當(dāng)外部數(shù)據(jù)、日志數(shù)據(jù)、設(shè)備數(shù)據(jù)等進(jìn)一步加入到數(shù)據(jù)的洪流中時(shí),企業(yè)發(fā)現(xiàn)自己深陷數(shù)據(jù)沼澤,而業(yè)務(wù)分析人員既不了解哪些數(shù)據(jù)可用,也不認(rèn)可數(shù)據(jù)的質(zhì)量,更不相信數(shù)據(jù)結(jié)果的可用性。
大數(shù)據(jù)技術(shù)和方案要解決的首要問題,是明確自己有哪些數(shù)據(jù),這些數(shù)據(jù)可以提供哪些服務(wù)。因而數(shù)據(jù)沼澤可以變成清澈的數(shù)據(jù)湖,這里所有的數(shù)據(jù)融匯貫通,各業(yè)務(wù)板塊之間數(shù)據(jù)可共享,業(yè)務(wù)人員能從數(shù)據(jù)字典中方便地找到自己想要的數(shù)據(jù),得到所需的結(jié)果。
為此,AWS的“數(shù)據(jù)湖”解決方案咨詢服務(wù)將幫助企業(yè)客戶梳理希望共享的數(shù)據(jù)源,分析數(shù)據(jù)的種類和當(dāng)前存儲(chǔ)的形式,通過什么工具進(jìn)行加工、加工的邏輯是什么、業(yè)務(wù)用戶希望如何利用這些數(shù)據(jù)等,提出新一代的“數(shù)據(jù)湖”方案架構(gòu),試點(diǎn)2~3個(gè)數(shù)據(jù)源的融合過程,找到恰當(dāng)?shù)募夹g(shù)和服務(wù)采集和處理這些數(shù)據(jù),并通過可視化的方法將數(shù)據(jù)提供給業(yè)務(wù)用戶。
7.AWS為大數(shù)據(jù)帶來了哪些服務(wù)?
1)針對企業(yè)大數(shù)據(jù)之旅的各個(gè)階段,AWS推出了有針對性的咨詢服務(wù)內(nèi)容,希望幫助用戶解決從戰(zhàn)略到戰(zhàn)術(shù)的不同挑戰(zhàn)。很多企業(yè)用戶在過去二十年的信息化進(jìn)程中逐漸形成了技術(shù)多樣化,應(yīng)用驅(qū)動(dòng)的技術(shù)體系架構(gòu),在向數(shù)據(jù)驅(qū)動(dòng)的架構(gòu)和文化轉(zhuǎn)變的過程中,面臨各種意想不到的困難。很多企業(yè)迫切希望擁抱大數(shù)據(jù),但并不明確業(yè)務(wù)目標(biāo)是什么。為此AWS大數(shù)據(jù)咨詢服務(wù)團(tuán)隊(duì)針對各個(gè)企業(yè)運(yùn)用大數(shù)據(jù)的不同階段,提供不同的咨詢服務(wù)。
2)在企業(yè)的業(yè)務(wù)目標(biāo)明確,希望用大數(shù)據(jù)解決的業(yè)務(wù)挑戰(zhàn)也明確后,AWS提供全面且功能強(qiáng)大的大數(shù)據(jù)解決方案,服務(wù)涉及數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉庫,分布式計(jì)算,機(jī)器學(xué)習(xí)以及商業(yè)智能等各個(gè)方面。
例如Amazon DynamoDB是一種完全托管的NoSQL數(shù)據(jù)庫服務(wù),提供快速且可預(yù)測的性能,能夠?qū)崿F(xiàn)無縫擴(kuò)展。而Amazon EMR是一種分析服務(wù),它能即時(shí)靈活配置自身所需容量大小,執(zhí)行數(shù)據(jù)密集型應(yīng)用計(jì)算,完成諸如Web索引、數(shù)據(jù)挖掘、日志文件分析、機(jī)器學(xué)習(xí)、財(cái)務(wù)分析、科學(xué)模擬和生物信息研究等任務(wù),讓企業(yè)、研究人員、數(shù)據(jù)分析師和開發(fā)人員能夠輕松、經(jīng)濟(jì)高效地處理海量數(shù)據(jù)。
8.AWS在幫助企業(yè)擁抱大數(shù)據(jù)的過程中有哪些經(jīng)驗(yàn)可以和大家分享?
三年來,AWS技術(shù)支持一直在大數(shù)據(jù)業(yè)務(wù)上為國內(nèi)用戶提供了從業(yè)務(wù)分析、架構(gòu)設(shè)計(jì)到平臺(tái)搭建、性能調(diào)優(yōu)和故障診斷等全方位的咨詢和幫助。同時(shí)我們基于用戶案例的分析和總結(jié),也發(fā)現(xiàn)如下非常明顯的趨勢:
2013-2014年,用戶問題主要集中在以Java、Python等開發(fā)語言為主的Hadoop應(yīng)用實(shí)踐和參數(shù)調(diào)優(yōu)方向。
2014-2015年,主要問題向交互式應(yīng)用Hive、Impala、Presto,工作流管理Oozie,以及HBase等各種Hadoop生態(tài)系統(tǒng)中的組件上轉(zhuǎn)移,用戶更加專注在實(shí)際業(yè)務(wù)上。
2015-2016年,Spark以其同時(shí)支持批處理、交互式、迭代以及實(shí)時(shí)流處理等特性成為用戶案例和咨詢中熱門的關(guān)鍵詞,而將Spark應(yīng)用在實(shí)時(shí)流處理上的案例又是其中最多的。
另一個(gè)明顯的趨勢是,隨著客戶對AWS大數(shù)據(jù)服務(wù)的熟悉,問題也越來越深入和復(fù)雜,通過技術(shù)支持不僅可以很快地避開其他AWS用戶已經(jīng)碰到的問題、還可以了解到目前最流行的架構(gòu)之一,快速地搭建比肩Netflix、NASDAQ等著名公司的大數(shù)據(jù)平臺(tái)。