Isaac Sacolick Charles
與今天相比,10年前建立數(shù)據(jù)戰(zhàn)略要相對(duì)容易一些。那時(shí),數(shù)據(jù)庫(kù)專家們爭(zhēng)論著甲骨文、微軟和IBM關(guān)系數(shù)據(jù)庫(kù)的功能和性能,還針對(duì)是否使用MySQL和PostgresSQL等開源數(shù)據(jù)庫(kù)展開了辯論。少數(shù)企業(yè)研究了NoSQL數(shù)據(jù)庫(kù),這包括來自MarkLogic、MongoDB和Apache Cassandra等公司的文檔存儲(chǔ)、鍵值數(shù)據(jù)庫(kù)和列式數(shù)據(jù)庫(kù)等技術(shù)。在企業(yè)系統(tǒng)之間移動(dòng)大量數(shù)據(jù)的企業(yè)投資于ETL(提取、轉(zhuǎn)換和加載)平臺(tái),而少數(shù)企業(yè)則投資于數(shù)據(jù)質(zhì)量或者主數(shù)據(jù)管理解決方案。
而發(fā)展到今天,首席信息官認(rèn)識(shí)到數(shù)據(jù)和信息是21世紀(jì)的真正寶庫(kù)。擁有多樣化的數(shù)據(jù)管理選擇、可靠的數(shù)據(jù)操作實(shí)踐、主動(dòng)數(shù)據(jù)治理、高級(jí)分析、公民數(shù)據(jù)科學(xué)計(jì)劃和成熟的機(jī)器學(xué)習(xí)能力等,都是實(shí)現(xiàn)具有競(jìng)爭(zhēng)力和差異化的業(yè)務(wù)能力所必需的。
前不久,我參加了在紐約舉行的Strata數(shù)據(jù)大會(huì),想要了解一下首席信息官們?cè)谥贫ê蛨?zhí)行全面數(shù)據(jù)戰(zhàn)略時(shí)所面臨的新機(jī)遇、趨勢(shì)和挑戰(zhàn)。
在開幕式的主題演講中,Cloudera公司的首席營(yíng)銷官M(fèi)ark Hollison引用了《哈佛商業(yè)評(píng)論》最近進(jìn)行的一項(xiàng)研究,非常清楚地證明了這些挑戰(zhàn)。這項(xiàng)研究的一個(gè)關(guān)鍵發(fā)現(xiàn)是,“69%的受訪者說,他們的企業(yè)需要全面的數(shù)據(jù)戰(zhàn)略,以便在未來3年內(nèi)實(shí)現(xiàn)其戰(zhàn)略目標(biāo),而只有35%的受訪者說,他們企業(yè)的分析和數(shù)據(jù)管理能力正在朝著這些目標(biāo)前進(jìn)?!?/p>
這說明了對(duì)數(shù)據(jù)和分析的業(yè)務(wù)期望越來越高,而底層實(shí)現(xiàn)卻越來越復(fù)雜,這其間有很大的差距。首席信息官們?nèi)绻肟s小這些差距,那就應(yīng)該在他們的數(shù)據(jù)戰(zhàn)略中考慮Strata數(shù)據(jù)大會(huì)重點(diǎn)介紹的以下5種技術(shù)能力。
據(jù)同一項(xiàng)調(diào)查,51%的受訪者計(jì)劃在其數(shù)據(jù)戰(zhàn)略中使用多個(gè)云,只有12%的受訪者將75%以上的數(shù)據(jù)放在公有云上。將數(shù)據(jù)整合到集中式數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)湖的策略似乎已經(jīng)過時(shí)了,而新現(xiàn)實(shí)是,首席信息官必須能夠管理、集成和共享存儲(chǔ)在多個(gè)公有云和私有云中的數(shù)據(jù)。
好消息是,Cloudera數(shù)據(jù)平臺(tái)、SAP數(shù)據(jù)匯集和InfoWorks DataFoundry等平臺(tái)能夠幫助數(shù)據(jù)部門管理、集成和治理對(duì)存儲(chǔ)在不同大數(shù)據(jù)引擎和不同云上的數(shù)據(jù)存儲(chǔ)庫(kù)的訪問。
我曾與InfoWorks首席執(zhí)行官Buno Pati討論過怎樣在多云環(huán)境中處理數(shù)據(jù)。他告訴我,“為企業(yè)數(shù)據(jù)處理和編排打好健壯而又靈活的基礎(chǔ)是任何現(xiàn)代企業(yè)數(shù)據(jù)戰(zhàn)略成功的關(guān)鍵所在。這些系統(tǒng)必須能夠幫助企業(yè)快速啟動(dòng)新的分析應(yīng)用實(shí)例,最大限度地減少對(duì)非常專業(yè)化人才的依賴,并無縫地穿越具有各種執(zhí)行引擎和存儲(chǔ)系統(tǒng)(例如,Hadoop、Spark和云基礎(chǔ)設(shè)施)的混合云和多云環(huán)境?!?h3>2.在多個(gè)大數(shù)據(jù)平臺(tái)上要有成熟的功能
首席信息官們可以使用袖珍字典來幫助定義越來越流行的所有大數(shù)據(jù)平臺(tái)。盡管大數(shù)據(jù)平臺(tái)早期大多使用了Hadoop,而當(dāng)今的企業(yè)則采用了多種平臺(tái),包括Apache Spark、Apache Hive、Snowflake,以及AWS、Azure和谷歌云平臺(tái)支持的多個(gè)數(shù)據(jù)庫(kù),等等。
使用多個(gè)大數(shù)據(jù)平臺(tái)給首席信息官們帶來了巨大的挑戰(zhàn),這是因?yàn)楹茈y找到擅長(zhǎng)數(shù)據(jù)和分析的技術(shù)人員,而且管理多個(gè)平臺(tái)也增加了操作和安全的復(fù)雜性。
雖然很多企業(yè)會(huì)整合到較少的數(shù)據(jù)平臺(tái)上,并將其作為一種戰(zhàn)略,但他們也必須考慮服務(wù)、工具、合作伙伴關(guān)系和培訓(xùn),以便在多個(gè)數(shù)據(jù)平臺(tái)之間提供更好的支持。
由于大型企業(yè)不太可能把數(shù)據(jù)集中在一個(gè)數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)湖中,因此建立數(shù)據(jù)目錄的必要性在戰(zhàn)略上就變得更加重要了。
數(shù)據(jù)目錄有助于最終用戶搜索、識(shí)別和了解更多可用于分析、機(jī)器學(xué)習(xí)實(shí)驗(yàn)和應(yīng)用程序開發(fā)的數(shù)據(jù)存儲(chǔ)庫(kù)。數(shù)據(jù)目錄還提供了一個(gè)中心點(diǎn),用于管理訪問策略、發(fā)布數(shù)據(jù)源的狀態(tài),還支持最終用戶與領(lǐng)域?qū)<抑g的協(xié)作。
Cloudera、SAP和Infoworks都具有數(shù)據(jù)目錄功能,作為其產(chǎn)品的一部分。
10年前,爭(zhēng)論的焦點(diǎn)在于是否投資ETL平臺(tái),然后是投資于哪一個(gè),而今天的問題則是更廣泛和更具戰(zhàn)略性的。這是因?yàn)榻裉斓臄?shù)據(jù)集成涵蓋了比ETL支持的批處理功能更廣泛的應(yīng)用情形。當(dāng)今的很多企業(yè)有:
·物聯(lián)網(wǎng)和其他實(shí)時(shí)數(shù)據(jù)處理的數(shù)據(jù)流需求,通過Apache Kafka、Apache Spark等平臺(tái)和VantIQ等事件驅(qū)動(dòng)的架構(gòu)來滿足。
·文檔和其他非結(jié)構(gòu)化數(shù)據(jù)處理需求,通過MarkLogic數(shù)據(jù)匯集平臺(tái)或者文檔存儲(chǔ)(例如,Apache Lucene、Apache Solr和MongoDB)來滿足。
·數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析人員的數(shù)據(jù)準(zhǔn)備需求,使用Tableau Prep、Alteryx Designer和Trifacta Wrangler等工具來滿足。
·API與SaaS平臺(tái)和企業(yè)數(shù)據(jù)源的集成需求,通過Boomi和MuleSoft等平臺(tái)進(jìn)行優(yōu)化。
·提高數(shù)據(jù)質(zhì)量和創(chuàng)建主數(shù)據(jù)源的需求,這些主數(shù)據(jù)源是使用Informatica、Talend、IBM、Reltio、Tamr等其他平臺(tái)創(chuàng)建的。
然而,沒有一個(gè)通用的平臺(tái)可以支持所有這些應(yīng)用情形。此外,通過為作業(yè)選擇合適的工具,可以更有效地實(shí)現(xiàn)數(shù)據(jù)集成,并提供更可靠的支持。這可能意味著,希望能滿足多種數(shù)據(jù)集成需求的企業(yè)將不得不通過幾個(gè)數(shù)據(jù)集成平臺(tái)才能獲得成熟的功能。
雖然首席信息官、首席信息安全官和首席數(shù)據(jù)官更希望在采用新業(yè)務(wù)功能之前先進(jìn)行數(shù)據(jù)治理,但這是一種不現(xiàn)實(shí)的戰(zhàn)略。需要進(jìn)行分析以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)決策,并獲得更多競(jìng)爭(zhēng)優(yōu)勢(shì)的企業(yè)必須快速行動(dòng),把治理做為先決條件,但在進(jìn)行這方面的嘗試時(shí)會(huì)遇到阻礙。
對(duì)于那些負(fù)責(zé)保護(hù)企業(yè)數(shù)據(jù)資產(chǎn)、隱私政策和機(jī)密信息的高管來說,這確實(shí)是個(gè)棘手的問題。
然而,首席信息官和首席數(shù)據(jù)官有可能在采用新工具、功能和數(shù)據(jù)源的同時(shí)實(shí)施數(shù)據(jù)治理。這要求引進(jìn)人才,以了解接受投資平臺(tái)的數(shù)據(jù)治理能力,并建立引入和管理數(shù)據(jù)源更改的程序。
如果沒有這些規(guī)則,首席信息官們將會(huì)面臨數(shù)據(jù)債務(wù),類似于技術(shù)債務(wù)企業(yè)隨著時(shí)間的推移積累起來的債務(wù)。
好消息是,首席信息官們將在面向企業(yè)的成熟數(shù)據(jù)平臺(tái)上獲得數(shù)據(jù)治理能力。然而,擁有技術(shù)能力只是一個(gè)開始,首席信息官還需要技術(shù)人才、培訓(xùn)計(jì)劃和變革管理實(shí)踐,以使業(yè)務(wù)部門理解并遵守?cái)?shù)據(jù)治理。
我不太喜歡“數(shù)據(jù)就是新油田”這種比喻,但不妨先這樣想。石油公司不僅購(gòu)買鉆機(jī),還神奇地?fù)碛卸说蕉说臋C(jī)制,可以高效地找到油田,并將石油運(yùn)往煉油廠。這不是那么簡(jiǎn)單,同樣的,數(shù)據(jù)管理、分析和機(jī)器學(xué)習(xí)也不是那么簡(jiǎn)單。
然而,只要企業(yè)負(fù)責(zé)任地投資于滿足其應(yīng)用情形的平臺(tái),投資于人才,并在數(shù)據(jù)集成、管理和治理方面完善其實(shí)踐,這一切也并非難事。
Isaac Sacolick是《數(shù)字化驅(qū)動(dòng):通過技術(shù)進(jìn)行業(yè)務(wù)轉(zhuǎn)型的領(lǐng)導(dǎo)者指南》一書的作者,該書涵蓋了很多實(shí)踐,例如敏捷、開發(fā)運(yùn)維和數(shù)據(jù)科學(xué)等,這些都是成功實(shí)施數(shù)字化轉(zhuǎn)型計(jì)劃的關(guān)鍵。
原文網(wǎng)址
https://www.cio.com/article/3441780/5-technical-capabilities-required-in-modern-enterprise-data-strategies.html