王永
在當(dāng)今世界,最有價(jià)值的資源不再是石油,而是數(shù)據(jù)。數(shù)字化轉(zhuǎn)型的浪潮,加劇了企業(yè)的信息和數(shù)據(jù)流的升級(jí),用好數(shù)據(jù)是當(dāng)前企業(yè)信息化管理以及數(shù)字化轉(zhuǎn)型中的關(guān)鍵點(diǎn)。
從大數(shù)本身來說,它的價(jià)值在于要把真正有用的信息變成知識(shí),產(chǎn)生洞察,然后用洞察幫助企業(yè)做業(yè)務(wù)運(yùn)營(yíng),實(shí)現(xiàn)業(yè)務(wù)需求也提高他們的客戶滿意度,最后為企業(yè)創(chuàng)造更多的價(jià)值。
如今,大數(shù)據(jù)的分析應(yīng)用場(chǎng)景幾乎是分布在社會(huì)的方方面面。比如說,市場(chǎng)客戶服務(wù)方面,包含了消費(fèi)者的細(xì)分、商品門類的分析、客戶的忠誠度、客戶的流失度等;以及金融風(fēng)險(xiǎn)管控方面,有異常交易、欺詐的偵測(cè)、各種風(fēng)險(xiǎn)評(píng)估,還包括市場(chǎng)活動(dòng)里的價(jià)格的分析、需求的預(yù)測(cè)……
值得注意的是,隨著全球數(shù)字化浪潮的深入,一些以社交類為主的新興應(yīng)用與傳統(tǒng)應(yīng)用相比,用戶增長(zhǎng)迅速,數(shù)據(jù)量也正在以指數(shù)級(jí)速度增長(zhǎng)——更多的數(shù)據(jù)來源、數(shù)據(jù)的多元化需要更強(qiáng)、更全面以及更及時(shí)有效和預(yù)測(cè)性的數(shù)據(jù)分析能力挖掘數(shù)據(jù)的價(jià)值。
“以往我們的做法通常是從數(shù)據(jù)庫到數(shù)據(jù)倉庫再到商務(wù)智能BI,但是在這一過程中很容易形成數(shù)據(jù)孤島,無法滿足數(shù)據(jù)迅速的增長(zhǎng),” AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問張俠在接受筆者的采訪時(shí)表示,為了更好地適應(yīng)數(shù)據(jù)爆炸式增長(zhǎng)的分析需求,“數(shù)據(jù)湖”應(yīng)運(yùn)而生。
與傳統(tǒng)數(shù)據(jù)倉庫不同的是,數(shù)據(jù)倉庫是在數(shù)據(jù)庫的基礎(chǔ)上把數(shù)據(jù)經(jīng)過一定的分類、提煉,然后整理好存儲(chǔ)在數(shù)據(jù)倉庫中,這種方式在過去也已經(jīng)成為企業(yè)IT非常重要的內(nèi)容。
而數(shù)據(jù)湖可以看作是中心數(shù)據(jù)存儲(chǔ)的容器,可以存儲(chǔ)格式化和非格式化的各種數(shù)據(jù),而且通過工具,可以快速對(duì)這些數(shù)據(jù)進(jìn)行查詢和分析,同時(shí)還能兼容傳統(tǒng)的數(shù)據(jù)倉庫的數(shù)據(jù)分析的方法,結(jié)合機(jī)器學(xué)習(xí)等新興技術(shù),做出更多預(yù)測(cè)性的分析。
“本來數(shù)據(jù)很多是結(jié)構(gòu)型數(shù)據(jù)、交易型數(shù)據(jù),很規(guī)矩的放數(shù)據(jù)庫和數(shù)據(jù)倉庫中。但是現(xiàn)在有一套方法,可以把任何類型的數(shù)據(jù),結(jié)構(gòu)型、非結(jié)構(gòu)型的數(shù)據(jù)直接存儲(chǔ)下來,然后利用云計(jì)算時(shí)代海量存儲(chǔ)的能力和各種新的查詢能力以及數(shù)據(jù)分析和處理的能力,直接對(duì)這些原始的數(shù)據(jù)來做查詢,這就是數(shù)據(jù)湖的時(shí)代?!痹趶垈b看來,數(shù)據(jù)湖的出現(xiàn)得力于云計(jì)算提供海量的存儲(chǔ),以及云計(jì)算提供了大量、高性能計(jì)算的可能,使其可以快速查詢和海量存儲(chǔ)。
數(shù)據(jù)湖的概念大概最早出現(xiàn)去2011年5月,而AWS作為云計(jì)算市場(chǎng)的領(lǐng)導(dǎo)者,也早已洞察并做好準(zhǔn)備。
“亞馬遜曾發(fā)布了全球第一款公有云服務(wù)——Amazon S3,其可以存放任何二進(jìn)位為基礎(chǔ)的信息,包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這也是亞馬遜最早推動(dòng)數(shù)據(jù)湖的內(nèi)容。通過把采集的各種數(shù)據(jù),做好目錄登記存儲(chǔ)在S3服務(wù)里面,然后利用分析手段,變成報(bào)表,或者是一些預(yù)測(cè)性的分析,這是亞馬遜對(duì)數(shù)據(jù)湖的理解。”張俠表示,AWS也會(huì)陸續(xù)推出相應(yīng)的服務(wù)來實(shí)現(xiàn)數(shù)據(jù)湖中的每個(gè)功能,而這些服務(wù)都會(huì)是以云的方式提供。
Amazon RDS(Relational Database Service)服務(wù),是亞馬遜最早推出的一個(gè)托管的關(guān)系型數(shù)據(jù)庫,它可以支持像SQL Server、Oracle的數(shù)據(jù)庫以及開源性的PostgreSQL、MySQL等。隨后,亞馬遜有推出了專有的Amazon Aurora數(shù)據(jù)庫,這是一個(gè)云原生的關(guān)系型數(shù)據(jù)庫,Amazon Aurora可以全方位托管,并且兼容MySQL和PostgreSQL純?cè)臄?shù)據(jù)庫。
除此之外,亞馬遜還推出了一個(gè)很重要的云產(chǎn)品——Amazon Redshift,它是一個(gè)數(shù)據(jù)倉庫,但是與傳統(tǒng)的數(shù)據(jù)倉庫相比,它擁有更大的存儲(chǔ)空間,支持從GB到TB規(guī)模數(shù)據(jù)的擴(kuò)展,而且能夠縮放,成本也是傳統(tǒng)的數(shù)據(jù)庫的大概1/10左右。
通過Amazon Redshift,客戶可以對(duì)大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)執(zhí)行復(fù)雜的查詢,并獲得超高速的性能。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),Amazon EMR使用流行的分布式框架,例如Apache Spark、Presto、Hive和Pig,橫跨多個(gè)可動(dòng)態(tài)伸縮的集群,處理和分析大量數(shù)據(jù),快速又經(jīng)濟(jì)。雖然這些服務(wù)是可伸縮的,而且足夠強(qiáng)大到可以處理大且復(fù)雜的大數(shù)據(jù)應(yīng)用,但是許多客戶也希望能夠很快地查詢Amazon S3上的數(shù)據(jù),例如web日志、點(diǎn)擊流、原始日志文件等,而無需開啟、配置和管理Hadoop集群或數(shù)據(jù)倉庫。
近日,亞馬遜最新發(fā)布了兩個(gè)關(guān)于數(shù)據(jù)湖非常重要的組成部分:Amazon Athena和Amazon Glue。其中,Amazon Athena是一種交互式查詢服務(wù),它讓客戶可以使用標(biāo)準(zhǔn)SQL語言、輕松分析Amazon Simple Storage Service (Amazon S3)中的數(shù)據(jù)。由于Athena是一種無服務(wù)器服務(wù),因此客戶不需要管理基礎(chǔ)設(shè)施,而且只為他們運(yùn)行的查詢付費(fèi)。Athena可以自動(dòng)擴(kuò)展,并行執(zhí)行查詢,所以即便是大型數(shù)據(jù)集和復(fù)雜的查詢,也能很快獲得查詢結(jié)果。
茄子快傳是一家全球化的互聯(lián)網(wǎng)科技公司,累計(jì)有18億用戶。其搭建了一個(gè)數(shù)字內(nèi)容連接入口,幫助全球200多個(gè)國家和地區(qū)的用戶獲取優(yōu)質(zhì)數(shù)字內(nèi)容。然而龐大的數(shù)據(jù)量不僅增加了數(shù)據(jù)分析的壓力和難度,茄子快傳還時(shí)常應(yīng)對(duì)一些多維度、多顆粒度的高并發(fā)分析。“AWS的分析工具很好地滿足了我們?nèi)粘5臄?shù)據(jù)提取和分析需求”茄子快傳數(shù)據(jù)運(yùn)營(yíng)負(fù)責(zé)人何誠表示,“使用Amazon Athena,我們可以輕松地運(yùn)行交互式查詢,分析數(shù)據(jù),不必構(gòu)建和部署額外的集群。更重要的是,我們運(yùn)行新數(shù)據(jù)分析所需的時(shí)間縮短了30%,大幅減少了成本與運(yùn)維方面的風(fēng)險(xiǎn)?!?/p>
“現(xiàn)在,客戶使用Athena分析Amazon S3中的數(shù)據(jù)就像編寫SQL查詢一樣簡(jiǎn)單。Athena使用完整支持標(biāo)準(zhǔn)SQL的Presto,可以處理各種標(biāo)準(zhǔn)數(shù)據(jù)格式,包括CSV、JSON、ORC和Parquet?!睆垈b表示,因?yàn)锳thena使用多個(gè)可用區(qū)的計(jì)算資源執(zhí)行查詢,而且使用Amazon S3作為底層數(shù)據(jù)存儲(chǔ),所以它具有高可用性和持久性,數(shù)據(jù)冗余存儲(chǔ)在多處基礎(chǔ)設(shè)施中,并且是每處基礎(chǔ)設(shè)施上的多個(gè)設(shè)備上。
Amazon Glue是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄。它讓客戶更容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,用于數(shù)據(jù)分析。使用AWS Glue,在幾分鐘之內(nèi)便可以準(zhǔn)備好數(shù)據(jù)用于分析。由于AWS Glue是無服務(wù)器服務(wù),客戶在執(zhí)行ETL任務(wù)時(shí),只需要為他們所消耗的計(jì)算資源付費(fèi)。
值得一提的是,AWS Glue在從客戶選擇的數(shù)據(jù)源把數(shù)據(jù)爬取出來之后,會(huì)自動(dòng)識(shí)別數(shù)據(jù)格式和模式,構(gòu)建統(tǒng)一的數(shù)據(jù)目錄,并為客戶提供所選數(shù)據(jù)的中央視圖。這使得客戶很容易跨越各種數(shù)據(jù)存儲(chǔ),檢索和管理所有數(shù)據(jù),而不必手動(dòng)搬運(yùn)它們。
“AWS Glue不僅讓ETL和異構(gòu)數(shù)據(jù)源的處理變得更加容易,而且大大降低了開發(fā)和運(yùn)營(yíng)成本。” 在德比軟件大數(shù)據(jù)團(tuán)隊(duì)技術(shù)經(jīng)理戴岳看來,德比軟件為酒店和旅游行業(yè)提供在線銷售和產(chǎn)品分銷方面的技術(shù)和系統(tǒng)服務(wù),擁有全部產(chǎn)品和服務(wù)的自主知識(shí)產(chǎn)的同時(shí),還存儲(chǔ)了全球超過18萬家酒店的數(shù)據(jù),每月處理超過800萬間夜的訂單。通AWS Glue服務(wù),它的數(shù)據(jù)目錄功能讓德比軟件可以輕松使用Amazon EMR來直接處理和查詢Amazon S3上的數(shù)據(jù),極大地提高了開發(fā)效率。
據(jù)了解,當(dāng)前已經(jīng)有大量的企業(yè)和機(jī)構(gòu)都已經(jīng)開始采用AWS的數(shù)據(jù)湖和數(shù)據(jù)分析云服務(wù),例如,金融領(lǐng)域還有著名的基金管理公司Vanguard、證券交易所NASDAQ,互聯(lián)網(wǎng)及電商方面除了Amazon還有全球民宿短租公寓預(yù)定平臺(tái)Airbnb……
張俠強(qiáng)調(diào),數(shù)據(jù)湖雖然更適合于當(dāng)前的企業(yè)IT需求,但是總體實(shí)施仍有不小的難度。為此,亞馬遜推出了AWS Lake Formation服務(wù),將數(shù)據(jù)湖的流程自動(dòng)化,節(jié)省企業(yè)建立數(shù)據(jù)湖的工作流程。“雖然AWS Lake Formation服務(wù)還沒有在中國正式推出,但是我們?cè)诮衲陼?huì)很快的時(shí)間內(nèi)推出這個(gè)服務(wù),為企業(yè)提供幫助?!?h3>寫在最后
“從AWS的角度來看,數(shù)據(jù)湖有三個(gè)最主要的元素: Amazon S3/Glacier、AWS Glue、以及還未在中國市場(chǎng)推出的AWS Lake Formation?!睆垈b表示,AWS可擴(kuò)展、可靠的云存儲(chǔ),加上廣泛的分析服務(wù),使客戶比以往任何時(shí)候都更容易收集、存儲(chǔ)、分析和共享數(shù)據(jù),隨著AWS Glue在由西云數(shù)據(jù)運(yùn)營(yíng)的AWS中國(寧夏)區(qū)域正式上線,中國區(qū)域的客戶可以輕松地從任意多的數(shù)據(jù)源傳輸和處理數(shù)據(jù),整合數(shù)據(jù)到數(shù)據(jù)湖,并且可以選用多種AWS分析服務(wù),迅速開始分析所有數(shù)據(jù),助力企業(yè)客戶的創(chuàng)新和發(fā)展洞察先機(jī),為企業(yè)創(chuàng)造更多的價(jià)值。