James Kobielus
有跡象表明,類似AWS Lake Formation和Delta Lake等平臺(tái),都在朝著一個(gè)用于決策支持和AI驅(qū)動(dòng)決策自動(dòng)化的中央樞紐發(fā)展。
數(shù)據(jù)倉(cāng)庫(kù)是再次獲得發(fā)展動(dòng)力,還是會(huì)逐漸消亡呢?如果你對(duì)這個(gè)問題感到困惑也是情有可原的。一方面,數(shù)據(jù)倉(cāng)庫(kù)似乎仍處于熱門階段。作為一個(gè)長(zhǎng)期的行業(yè)觀察者,我發(fā)現(xiàn)這一行業(yè)在一連串成功的創(chuàng)新和創(chuàng)業(yè)活動(dòng)中正迸發(fā)出新的活力。
這種趨勢(shì)基本上始于十年前設(shè)備標(biāo)準(zhǔn)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)主流,然后隨著市場(chǎng)向新一代云數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)移,又在幾年前獲得了新動(dòng)力。在過去幾年中,云數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商Snowflake在市場(chǎng)上獲得了眾多支持。
數(shù)據(jù)倉(cāng)庫(kù)的衰落
但另一方面,數(shù)據(jù)倉(cāng)庫(kù)在大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能等新行業(yè)的沖擊下正逐漸黯然失色。這種趨勢(shì)造成了數(shù)據(jù)倉(cāng)庫(kù)在企業(yè)IT優(yōu)先等級(jí)中不斷下降,但是實(shí)際上大多數(shù)企業(yè)現(xiàn)在至少有一個(gè)或是有多個(gè)數(shù)據(jù)倉(cāng)庫(kù)服務(wù)于各種下游應(yīng)用程序。
數(shù)據(jù)倉(cāng)庫(kù)一直是企業(yè)的核心工作負(fù)載,這也是幾年前我認(rèn)為自己有必要搞清楚為什么數(shù)據(jù)倉(cāng)庫(kù)遠(yuǎn)未消亡的原因。同時(shí),這也可能解釋了為什么其他觀察者認(rèn)為他們必須重新定義數(shù)據(jù)倉(cāng)庫(kù)的概念,以使其能夠融入數(shù)據(jù)湖和云計(jì)算時(shí)代。
數(shù)據(jù)倉(cāng)庫(kù)作為一種實(shí)踐不僅蓬勃發(fā)展,而且現(xiàn)在還被視為云計(jì)算行業(yè)的增長(zhǎng)核心。如果你只關(guān)注以此標(biāo)簽進(jìn)入市場(chǎng)的那些平臺(tái)(例如Snowflake),那么你將錯(cuò)過這個(gè)領(lǐng)域內(nèi)的眾多機(jī)遇。
數(shù)據(jù)湖的興起
被許多人稱之為“數(shù)據(jù)湖”的概念正在迅速發(fā)展成為下一代數(shù)據(jù)倉(cāng)庫(kù)。對(duì)于那些不熟悉這個(gè)概念的人來說,數(shù)據(jù)湖是一種多結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)或存儲(chǔ)庫(kù),它們以原始格式和模式存儲(chǔ),通常作為blob對(duì)象或文件。
數(shù)據(jù)湖通常用作所有企業(yè)數(shù)據(jù)的單個(gè)存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)的原始副本和用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。它們包含分布式文件或?qū)ο蟠鎯?chǔ)、機(jī)器學(xué)習(xí)模型庫(kù)以及高度并行化的處理與存儲(chǔ)資源集群。并且,數(shù)據(jù)庫(kù)通常在讀取時(shí)進(jìn)行處理,并使用統(tǒng)計(jì)模型從中提取有意義的相關(guān)性和模式,而不是對(duì)它們存儲(chǔ)的對(duì)象強(qiáng)制執(zhí)行通用模式和語義。
這與Inmon和Kimball核心概念不一樣,后者的概念是將大多數(shù)專業(yè)人員的方法提供給數(shù)據(jù)倉(cāng)庫(kù)。在本質(zhì)上,數(shù)據(jù)倉(cāng)庫(kù)是用于聚合、保留和管理官方認(rèn)可的“單一版本的真實(shí)”數(shù)據(jù)記錄。此概念與管理數(shù)據(jù)的特定應(yīng)用程序域以及使用它們的特定用例無關(guān)。
如果你對(duì)我的看法持懷疑態(tài)度,那么你可以看一下Bill Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義以及對(duì)Inmon和Ralph Kimball框架的比較。數(shù)據(jù)倉(cāng)庫(kù)通常都是關(guān)于數(shù)據(jù)驅(qū)動(dòng)的決策支持,這使得它們可以很好地?cái)U(kuò)展到由人工智能驅(qū)動(dòng)的推理領(lǐng)域。
下一代數(shù)據(jù)倉(cāng)庫(kù)
在過去的一年當(dāng)中,多個(gè)備受矚目的行業(yè)公告標(biāo)志著數(shù)據(jù)倉(cāng)庫(kù)的角色發(fā)生了轉(zhuǎn)變。盡管決策支持(即商業(yè)智能、報(bào)告和在線分析處理)仍然是大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)的核心用例,但是我們看到了其正在穩(wěn)步向著決策自動(dòng)化轉(zhuǎn)型。換句話說,數(shù)據(jù)倉(cāng)庫(kù)現(xiàn)在支持?jǐn)?shù)據(jù)科學(xué)管道,為數(shù)據(jù)驅(qū)動(dòng)的推理構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用程序。
新一代數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上就是數(shù)據(jù)湖,其主要用途是對(duì)用于構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)進(jìn)行管理。這些數(shù)據(jù)已經(jīng)進(jìn)行過了清洗、整合和驗(yàn)證。例如,在去年秋天召開的Amazon re:Invent大會(huì)上,亞馬遜網(wǎng)絡(luò)服務(wù)公布了AWS Lake Formation。這種新托管服務(wù)的目的很明確,就是簡(jiǎn)化和加速安全數(shù)據(jù)湖的設(shè)置。雖然AWS Lake Formation擁有云數(shù)據(jù)倉(cāng)庫(kù)的所有標(biāo)志,并且實(shí)際上提供了一個(gè)面向決策支持應(yīng)用程序的經(jīng)典數(shù)據(jù)倉(cāng)庫(kù)Amazon Redshift,但是亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)并沒有這樣稱呼它。
AWS Lake Formation的外觀和功能類似于數(shù)據(jù)倉(cāng)庫(kù)。AWS將其描述為:“數(shù)據(jù)湖是一個(gè)集中化的、有機(jī)的且安全的存儲(chǔ)庫(kù),它們以原始形式存儲(chǔ)所有數(shù)據(jù)并為分析做好準(zhǔn)備。通過數(shù)據(jù)湖,你可以打破數(shù)據(jù)孤島并組合不同類型的分析,從而獲得深刻的洞察力,更好地指導(dǎo)業(yè)務(wù)決策?!?/p>
實(shí)際上,AWS將AWS Lake Formation作為一種超級(jí)數(shù)據(jù)倉(cāng)庫(kù)用于決策支持和人工智能驅(qū)動(dòng)的決策自動(dòng)化。AWS表示該服務(wù)旨在管理數(shù)據(jù)集,讓用戶能夠選擇并使用Amazon EMR for Apache Spark、Redshift、Athena、SageMaker和QuickSight等分析與機(jī)器學(xué)習(xí)服務(wù)。
另一個(gè)例子是Databricks最近宣布的Delta Lake開源項(xiàng)目。Delta Lake可以在Apache 2.0許可下使用,類似于AWS Lake格式,主要用途是對(duì)在數(shù)據(jù)湖中維護(hù)的數(shù)據(jù)集進(jìn)行聚合、清洗和管理,以支持機(jī)器學(xué)習(xí)。
Delta Lake位于本地部署或云數(shù)據(jù)存儲(chǔ)平臺(tái)之上,可以從Apache Spark訪問HDFS、Amazon S3或微軟Azure blob等存儲(chǔ)。Delta Lake將數(shù)據(jù)存儲(chǔ)在Parquet中,以提供Databricks所稱的“事務(wù)存儲(chǔ)層”。Parquet是一種開源的列式存儲(chǔ)格式,可用于Hadoop生態(tài)系統(tǒng)中的任何項(xiàng)目,與選擇數(shù)據(jù)處理框架無關(guān)。它們通過開放式并發(fā)串行、快照隔離、數(shù)據(jù)版本控制、回滾和模式強(qiáng)制來支持ACID事務(wù)。
Delta Lake和AWS Lake Formation之間的一個(gè)關(guān)鍵區(qū)別是Delta Lake可處理該管道中的批量數(shù)據(jù)和流數(shù)據(jù)。另一個(gè)區(qū)別是Delta Lake支持所有數(shù)據(jù)的ACID事務(wù),允許數(shù)百個(gè)應(yīng)用程序同時(shí)進(jìn)行多次寫入和讀取。此外,開發(fā)人員還可以訪問每個(gè)Delta Lake的早期版本,以進(jìn)行審計(jì)、回滾或重現(xiàn)其MLFlow機(jī)器學(xué)習(xí)實(shí)驗(yàn)的結(jié)果。
Delta Lake似乎要與Apache Hive展開競(jìng)爭(zhēng)。雖然Apache Hive完全依賴基于HDFS的存儲(chǔ),并且直到最近才解決了對(duì)ACID的支持,但是它們已經(jīng)成為了部署最為廣泛的開源數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目。Hive 3在一年前才宣布要為基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)提供ACID支持。Hive 3可為使用delta文件的CRUD(創(chuàng)建讀取更新刪除)表單提供原子性和快照隔離等操作。
作為人工智能驅(qū)動(dòng)的決策自動(dòng)化的基礎(chǔ)
近期關(guān)于AWS Lake Formation、Delta Lake和Hive 3的這些行業(yè)公告都預(yù)測(cè)了數(shù)據(jù)湖成為決策支持與決策自動(dòng)化應(yīng)用以及交易數(shù)據(jù)應(yīng)用的中央樞紐的時(shí)間。為了加速這一趨勢(shì),Hive 3和Delta Lake等開源項(xiàng)目需要吸引供應(yīng)商和用戶更多的關(guān)注。
未來“數(shù)據(jù)倉(cāng)庫(kù)”這一術(shù)語可能將主要指那些存儲(chǔ)了用于商業(yè)智能的結(jié)構(gòu)化數(shù)據(jù)的多域倉(cāng)庫(kù)。底層數(shù)據(jù)平臺(tái)還會(huì)將繼續(xù)發(fā)展,以便為基于云的人工智能提供核心數(shù)據(jù)治理基礎(chǔ)。不過,目前推動(dòng)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)發(fā)展的主要?jiǎng)恿κ侨斯ぶ悄芏巧虡I(yè)智能。
本文作者James Kobielus為SiliconAngle Wikibon公司負(fù)責(zé)人工智能、數(shù)據(jù)科學(xué)和應(yīng)用程序開發(fā)的首席分析師。
原文網(wǎng)址
https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html