于 鵑
(中國(guó)水利水電第三工程局有限公司 西安 710016)
數(shù)據(jù)庫(kù)技術(shù)從誕生到現(xiàn)在,已形成了成熟的理論基礎(chǔ)、實(shí)踐方法以及技術(shù)產(chǎn)品,并已在此基礎(chǔ)上建立了覆蓋各個(gè)行業(yè)、各個(gè)領(lǐng)域的各類業(yè)務(wù)系統(tǒng),數(shù)據(jù)庫(kù)技術(shù)是信息技術(shù)的重要組成部分,它讓人們可以將紛繁復(fù)雜的信息按規(guī)律進(jìn)行保存、使用和管理。而隨著數(shù)據(jù)庫(kù)系統(tǒng)的應(yīng)用,如何使用和分析已有的數(shù)據(jù)庫(kù)又成為一個(gè)新問(wèn)題,在這種背景下,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)運(yùn)而生[1]。
很多人以為數(shù)據(jù)倉(cāng)庫(kù)就是“數(shù)據(jù)庫(kù)的集合”或者是更大規(guī)模的數(shù)據(jù)庫(kù),其實(shí)數(shù)據(jù)倉(cāng)庫(kù)是利用已有數(shù)據(jù)庫(kù),對(duì)其中的數(shù)據(jù)進(jìn)行再一次抽取、加工和使用,并最終用于管理決策,并不是簡(jiǎn)單的數(shù)據(jù)復(fù)制或數(shù)據(jù)累加。另一方面,在數(shù)據(jù)倉(cāng)庫(kù)中會(huì)使用數(shù)據(jù)庫(kù)技術(shù)對(duì)其中的數(shù)據(jù)進(jìn)行管理,因此也有一種看法認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的升級(jí)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)技術(shù)息息相關(guān),但又不僅是數(shù)據(jù)庫(kù)技術(shù),它是以數(shù)據(jù)庫(kù)技術(shù)為核心,涉及元數(shù)據(jù)、數(shù)據(jù)挖掘、BI等多技術(shù)領(lǐng)域的綜合應(yīng)用。
在國(guó)內(nèi)大多數(shù)企業(yè)還在集中精力進(jìn)行系統(tǒng)整合、數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的時(shí)候,“大數(shù)據(jù)”這個(gè)名詞似乎一夜之間名傳天下,其受追捧程度比前幾年的云計(jì)算有過(guò)之而無(wú)不及,按照Gartner公布的新興技術(shù)炒作周期分析報(bào)告顯示,大數(shù)據(jù)在2013年已經(jīng)處于期望膨脹期的頂端[2],但在2014年8月公布的報(bào)告中,大數(shù)據(jù)就已進(jìn)入了幻覺(jué)破滅期[3],Gartner預(yù)計(jì)大數(shù)據(jù)要在5~10年才能到達(dá)穩(wěn)定期。大數(shù)據(jù)雖然在降溫,但一個(gè)與大數(shù)據(jù)密切相關(guān)的“數(shù)據(jù)科學(xué)”又出現(xiàn)在今年的技術(shù)成熟度曲線中,這說(shuō)明大數(shù)據(jù)的出現(xiàn)不但加速了信息技術(shù)的發(fā)展與融合,同時(shí)對(duì)自然科學(xué)與社會(huì)科學(xué)領(lǐng)域產(chǎn)生了正面的影響。
對(duì)大數(shù)據(jù)的需求主要集中在分析上,即對(duì)規(guī)模巨大、結(jié)構(gòu)復(fù)雜的數(shù)據(jù)進(jìn)行管理與處理,以達(dá)到預(yù)測(cè)和決策的目的。從背景和目的來(lái)說(shuō),大數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)很相似,但其處理的數(shù)據(jù)量、數(shù)據(jù)類型、處理速度、結(jié)果的準(zhǔn)確性等都不是現(xiàn)在的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)所能比擬的,所以有人預(yù)測(cè)大數(shù)據(jù)時(shí)代的到來(lái)以及相關(guān)技術(shù)的發(fā)展會(huì)導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)的消亡。
大數(shù)據(jù)為什么會(huì)這樣火爆,其根本原因在于近幾年包括移動(dòng)應(yīng)用在內(nèi)的互聯(lián)網(wǎng)的快速發(fā)展,這些應(yīng)用產(chǎn)生了比任何時(shí)候都多的數(shù)據(jù),這些海量的數(shù)據(jù)包括社交網(wǎng)絡(luò)、移動(dòng)設(shè)備和傳感器等新渠道以及新技術(shù)使用所帶來(lái)的半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),而想要挖掘利用這些數(shù)據(jù)并通過(guò)預(yù)測(cè)分析產(chǎn)生價(jià)值,傳統(tǒng)的數(shù)據(jù)庫(kù)運(yùn)算和處理能力無(wú)法實(shí)現(xiàn),在這種情況下大數(shù)據(jù)技術(shù)產(chǎn)生了。以Hadoop為代表的大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)企業(yè)的成功使用,極大地刺激了業(yè)界對(duì)大數(shù)據(jù)的熱情,似乎只要是有關(guān)大量數(shù)據(jù)的分析預(yù)測(cè)都是大數(shù)據(jù),在這種情緒下唱衰數(shù)據(jù)倉(cāng)庫(kù)也就可以理解了。
按照科爾尼咨詢公司的預(yù)測(cè),全球用于大數(shù)據(jù)的軟件、硬件以及服務(wù)費(fèi)用將以近30%的復(fù)合年增長(zhǎng)率增長(zhǎng),到2018年將達(dá)到1 140億美元[4],而數(shù)據(jù)指數(shù)級(jí)的增長(zhǎng)也必將改變傳統(tǒng)數(shù)據(jù)存儲(chǔ)與分析方法。關(guān)于大數(shù)據(jù)的架構(gòu),科爾尼也做了總結(jié),如圖1所示。
大數(shù)據(jù)技術(shù)架構(gòu)可分為存儲(chǔ)、處理、應(yīng)用、展示以及整合5個(gè)部分,并可根據(jù)數(shù)據(jù)的結(jié)構(gòu)化程度對(duì)相關(guān)技術(shù)進(jìn)行選擇和組合。每個(gè)部分包含一些技術(shù)要素,而某些要素又可根據(jù)結(jié)構(gòu)化程度共同作用形成特定的功能,如圖1中的行業(yè)應(yīng)用、決策支持、并行和分布式處理與存儲(chǔ)、報(bào)告及可視化以及分析服務(wù)。另外,考慮到安全問(wèn)題,還應(yīng)加入一個(gè)專門的數(shù)據(jù)安全與隱私部分。
圖1 大數(shù)據(jù)架構(gòu)
大數(shù)據(jù)的架構(gòu)反映出它的復(fù)雜性,大數(shù)據(jù)不是一個(gè)單獨(dú)的產(chǎn)品或技術(shù),而是傳統(tǒng)DBMS(database management system,數(shù)據(jù)庫(kù)管理系統(tǒng))數(shù)據(jù)庫(kù)技術(shù)與非結(jié)構(gòu)化數(shù)據(jù)庫(kù)、BI和數(shù)據(jù)科學(xué)等新技術(shù)的集合,這些新技術(shù)必將給數(shù)據(jù)的存儲(chǔ)、處理和分析帶來(lái)根本性的改變,傳統(tǒng)企業(yè)幾乎不可能獨(dú)立進(jìn)行大數(shù)據(jù)項(xiàng)目的建設(shè),這不僅僅是資金投入的問(wèn)題。在技術(shù)領(lǐng)域持續(xù)發(fā)燒的背景下,對(duì)企業(yè)來(lái)說(shuō)大數(shù)據(jù)應(yīng)用面臨的困難如下。
首先,目前關(guān)于大數(shù)據(jù)的話題還主要集中在技術(shù)層面,而工程和方法問(wèn)題并沒(méi)有解決。也就是說(shuō),雖然和大數(shù)據(jù)有關(guān)的技術(shù)問(wèn)題已經(jīng)基本解決,但如何將技術(shù)具體應(yīng)用到實(shí)際企業(yè)或組織以及相應(yīng)的工程學(xué)并未解決。特別在國(guó)內(nèi),雖然個(gè)別大型互聯(lián)網(wǎng)企業(yè)有大數(shù)據(jù)成功的案例,但這些案例和經(jīng)驗(yàn)無(wú)法或者很難復(fù)制到傳統(tǒng)行業(yè)。而且目前為止沒(méi)有體系化的應(yīng)用模型,雖然開源的Hadoop是免費(fèi)的,且對(duì)硬件要求也并不高,但想要使用這些技術(shù)以及維護(hù)這類項(xiàng)目,開發(fā)和維護(hù)成本并不見(jiàn)得更便宜,甚至可能更高,所以大數(shù)據(jù)目前還只是一個(gè)看起來(lái)很美的“水中之月”。
其次,大數(shù)據(jù)技術(shù)的優(yōu)點(diǎn)可能會(huì)成為缺點(diǎn)。目前Hadoop框架幾乎統(tǒng)一了大數(shù)據(jù)技術(shù)的天下,雖然Hadoop非常優(yōu)秀,具有創(chuàng)造性,但同樣也具有缺點(diǎn)。例如,它天生就是為了處理海量數(shù)據(jù)的,對(duì)一些相對(duì)“少”的結(jié)構(gòu)化數(shù)據(jù),反倒不如關(guān)系型數(shù)據(jù)庫(kù)靈活、性能高,因此不適合處理需要及時(shí)響應(yīng)的任務(wù),且不便于設(shè)計(jì),對(duì)于一些基礎(chǔ)數(shù)據(jù)相對(duì)并不算“大”的企業(yè)和組織,如果需要對(duì)數(shù)據(jù)進(jìn)行分析,目前大數(shù)據(jù)的解決方案可能就顯得大材小用了。
第三,目前大數(shù)據(jù)技術(shù)的安全性缺乏有效的保證。與任何新技術(shù)一樣,大數(shù)據(jù)相關(guān)的新技術(shù)及其伴隨而來(lái)的安全問(wèn)題并沒(méi)有得到有效的重視與解決,人們的關(guān)注點(diǎn)主要集中在大數(shù)據(jù)解決方案,而Hadoop、MPP數(shù)據(jù)庫(kù)、NoSQL、流處理以及相應(yīng)基礎(chǔ)設(shè)施等方面的安全性目前都還沒(méi)有得以印證,NoSQL沒(méi)有經(jīng)過(guò)長(zhǎng)期的完善,Hadoop這種開源框架安全性更是難以保證。除技術(shù)安全問(wèn)題之外,大數(shù)據(jù)對(duì)于個(gè)人隱私保護(hù)問(wèn)題也沒(méi)有明確的監(jiān)管[5]。大數(shù)據(jù)技術(shù)的安全會(huì)逐漸得到完善,但這個(gè)過(guò)程不會(huì)很短。
第四,市場(chǎng)對(duì)大數(shù)據(jù)的應(yīng)用態(tài)度不明朗。與前兩年對(duì)“云”概念的追捧一樣,IT業(yè)界因?yàn)橥ㄟ^(guò)“云”解決了企業(yè)IT基礎(chǔ)建設(shè)難、維護(hù)難、浪費(fèi)大、能耗高等幾乎所有難題,一廂情愿地認(rèn)為云計(jì)算的優(yōu)勢(shì)必定會(huì)馬上被企業(yè)接受,并很快得以產(chǎn)業(yè)化、利潤(rùn)化。但市場(chǎng)反應(yīng)并非如業(yè)界猜測(cè),絕大多數(shù)企業(yè)出于安全和穩(wěn)定性等顧慮,根本不接受將業(yè)務(wù)放到商業(yè)性的云服務(wù)器上去,雖然后來(lái)針對(duì)企業(yè)應(yīng)用,也出現(xiàn)了一些諸如企業(yè)云的建設(shè)方案,但出于成本和技術(shù)的原因,并沒(méi)有呈現(xiàn)爆炸式的發(fā)展。
最后,大數(shù)據(jù)對(duì)決策的影響是否能有想象的那么大。大數(shù)據(jù)產(chǎn)生的一個(gè)基礎(chǔ)是挖掘海量數(shù)據(jù)所包含的信息價(jià)值,在這個(gè)理論基礎(chǔ)上數(shù)據(jù)都有其隱含的價(jià)值,所以每一個(gè)數(shù)據(jù)都需要被“加工處理及分析”,因而才有了怎么樣處理這些海量數(shù)據(jù)的技術(shù)問(wèn)題。但這樣就產(chǎn)生了一系列疑問(wèn):是否真的有必要對(duì)每一個(gè)數(shù)據(jù)都進(jìn)行加工和分析、其準(zhǔn)確性怎么驗(yàn)證、領(lǐng)導(dǎo)者是否愿意采信其預(yù)測(cè)結(jié)果、大數(shù)據(jù)又是否可以解決業(yè)務(wù)問(wèn)題。分析及預(yù)測(cè)是一種技術(shù)手段,但未必會(huì)影響決策。另外,大數(shù)據(jù)的目的本是對(duì)各類源數(shù)據(jù)進(jìn)行統(tǒng)計(jì)及分析,但在這個(gè)過(guò)程中本身就已經(jīng)又產(chǎn)生了一系列數(shù)據(jù),而結(jié)果也是一系列數(shù)據(jù),這些數(shù)據(jù)的存儲(chǔ)和處理又將產(chǎn)生不菲的成本,因此基于投入和產(chǎn)出的考慮,目前大數(shù)據(jù)技術(shù)的應(yīng)用環(huán)境并不樂(lè)觀,當(dāng)然這些懷疑本身并非技術(shù)層面的。
數(shù)據(jù)倉(cāng)庫(kù)經(jīng)過(guò)多年的發(fā)展,已經(jīng)具備了完整的架構(gòu)理論、方法及商業(yè)化產(chǎn)品,有了諸如Ralph Kimball所提倡的項(xiàng)目全生命周期的方法論,技術(shù)基礎(chǔ)和人才儲(chǔ)備也相對(duì)完善,并有著大量的行業(yè)和企業(yè)成功案例。
因此,在大數(shù)據(jù)還未形成完整應(yīng)用理論和體系時(shí),DBMS廠商在傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品功能上,針對(duì)大數(shù)據(jù)分析需求和Hadoop進(jìn)一步融合,加強(qiáng)對(duì)列式數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)內(nèi)分析、in-memory、數(shù)據(jù)壓縮等技術(shù)的研究,以應(yīng)對(duì)更大規(guī)模數(shù)據(jù)的實(shí)時(shí)分析和處理。根據(jù)這種趨勢(shì),F(xiàn)orrester提出了下一代企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的平臺(tái)架構(gòu)[6],如圖2所示。
在下一代架構(gòu)中,除了傳統(tǒng)的業(yè)務(wù)數(shù)據(jù)源之外,加入了來(lái)自社交網(wǎng)絡(luò)、傳感器、地理信息等方面的非關(guān)系型數(shù)據(jù),利用Hadoop進(jìn)行處理。通過(guò)可提供云服務(wù)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),結(jié)合數(shù)據(jù)虛擬化整合不同數(shù)據(jù)源,使用數(shù)據(jù)壓縮技術(shù)更有效地管理更大的數(shù)據(jù)集,以便提供實(shí)時(shí)或近實(shí)時(shí)的分析預(yù)測(cè)。并可利用in-memory數(shù)據(jù)庫(kù)內(nèi)分析技術(shù)處理更復(fù)雜的應(yīng)用,包括同時(shí)進(jìn)行分析和事務(wù)處理。而其中的DWaaS代表可以提供多個(gè)廠商的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,根據(jù)用戶需要自動(dòng)配置,從而提供給企業(yè)更經(jīng)濟(jì)的部署方式。
在Forrester的報(bào)告中,特別強(qiáng)調(diào)該架構(gòu)并非單純的軟件架構(gòu),而未來(lái)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商應(yīng)具有更強(qiáng)大的軟硬件集成能力,可提供基于硬件的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的解決方案。從Forrester提出的下一代數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)架構(gòu)也可看出數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)理念及技術(shù)深度融合的發(fā)展方向,結(jié)合圖1的大數(shù)據(jù)架構(gòu)來(lái)看,這個(gè)下一代數(shù)據(jù)倉(cāng)庫(kù)幾乎可以說(shuō)已經(jīng)是一個(gè)大數(shù)據(jù)方案了。
圖2 下一代企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)架構(gòu)
大數(shù)據(jù)需求的產(chǎn)生背景與數(shù)據(jù)倉(cāng)庫(kù)類似,人們希望利用新技術(shù)處理越來(lái)越多的數(shù)據(jù)、挖掘更大的數(shù)據(jù)價(jià)值。因此,從需求角度來(lái)說(shuō),無(wú)論是數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)還是大數(shù)據(jù)都是解決不同需求、處理不同級(jí)別數(shù)據(jù)量的技術(shù),它們之間并無(wú)沖突,所以短期內(nèi)并不會(huì)出現(xiàn)由誰(shuí)取代誰(shuí)的結(jié)果,而應(yīng)該是針對(duì)不同需求和現(xiàn)狀進(jìn)行技術(shù)選擇,各種技術(shù)相互補(bǔ)充、相互協(xié)作。
目前階段對(duì)于大部分企業(yè)來(lái)說(shuō),想要開展一個(gè)全新的大數(shù)據(jù)項(xiàng)目似乎無(wú)從下手。從現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)建設(shè)理論和經(jīng)驗(yàn)入手,引入部分大數(shù)據(jù)技術(shù),特別是實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的收集、存儲(chǔ)和處理是一種比較可行的方法。例如,將Hadoop技術(shù)應(yīng)用于對(duì)數(shù)據(jù)的采集、ETL、存儲(chǔ)、處理,開發(fā)提供給傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)BI工具,其架構(gòu)如圖3所示。
圖3 數(shù)據(jù)倉(cāng)庫(kù)與Hadoop技術(shù)融合的平臺(tái)架構(gòu)
在這個(gè)架構(gòu)中,主要改變了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)單節(jié)點(diǎn)數(shù)據(jù)處理和存儲(chǔ)的方式,利用了Hadoop強(qiáng)大的數(shù)據(jù)處理能力,將各類數(shù)據(jù)處理成結(jié)構(gòu)化數(shù)據(jù),向上提供給傳統(tǒng)BI工具,對(duì)數(shù)據(jù)進(jìn)行分析和結(jié)果展示。在這個(gè)基礎(chǔ)架構(gòu)之上,可以根據(jù)數(shù)據(jù)處理速度及分析響應(yīng)能力,逐層進(jìn)行細(xì)化及分解,優(yōu)化組合MPP數(shù)據(jù)庫(kù)、內(nèi)存數(shù)據(jù)庫(kù)等各類技術(shù),從而滿足BI層分析展示的需要[7]。
另外,還可以在數(shù)據(jù)管理層利用傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)和Hadoop共同合作[8],由傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)工具對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,由Hadoop對(duì)更大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,并將兩者處理后的數(shù)據(jù)存儲(chǔ)至結(jié)構(gòu)化數(shù)據(jù)庫(kù)中,以便于BI層進(jìn)行分析和展示。
除了技術(shù)層面上數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)的融合之外,非常重要的一點(diǎn)是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)在具體應(yīng)用理論、方法和實(shí)施上的成功經(jīng)驗(yàn),如基于數(shù)據(jù)驅(qū)動(dòng)的螺旋式開發(fā)方法、調(diào)研及需求設(shè)計(jì)、ETL、數(shù)據(jù)建模、元數(shù)據(jù)管理[9]等各個(gè)方面同樣具有很多的可借鑒性與融合性。
有人可能對(duì)利用傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)實(shí)現(xiàn)企業(yè)大數(shù)據(jù)愿景表示不屑,雖然傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)廠商并不是當(dāng)前大數(shù)據(jù)技術(shù)的引領(lǐng)者,但對(duì)于大多數(shù)企業(yè)來(lái)說(shuō),把有關(guān)大數(shù)據(jù)的賭注放在自行開發(fā)和管理上是不可能的,與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)融合、與傳統(tǒng)廠商進(jìn)行合作,是目前較為可行的選擇。
人們對(duì)大數(shù)據(jù)的追捧反映了市場(chǎng)的需要,除大數(shù)據(jù)技術(shù)的主要領(lǐng)導(dǎo)者谷歌公司之外,傳統(tǒng)技術(shù)廠商也紛紛通過(guò)收購(gòu)或者技術(shù)融合,推出一些技術(shù)方案或數(shù)據(jù)倉(cāng)庫(kù)一體機(jī),以解決企業(yè)面臨的數(shù)據(jù)分析問(wèn)題,但沒(méi)有哪家能夠獨(dú)立解決大數(shù)據(jù)問(wèn)題。本文首先介紹了大數(shù)據(jù)的技術(shù)架構(gòu),分析了其應(yīng)用的困境,然后結(jié)合數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)技術(shù)的優(yōu)點(diǎn),探討了數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)技術(shù)融合的方案,介紹了數(shù)據(jù)倉(cāng)庫(kù)與Hadoop技術(shù)融合的平臺(tái)架構(gòu),解決企業(yè)大數(shù)據(jù)應(yīng)用困難的問(wèn)題,從而推動(dòng)大數(shù)據(jù)項(xiàng)目的快速實(shí)施。
1 陳繼東.數(shù)據(jù)庫(kù)發(fā)展史.程序員,2004(6):46~50
Chen J D.History of the development of database.Programmer,2004(6):46~50
2 Gartner.Hypecycle foremerging technologies.http://www.gartner.com/newsroom/id/2575515,2013
3 Gartner.Hypecycle foremerging technologies.http://www.gartner.com/newsroom/id/2819918,2014
4 Kearney A T.Beyond big:the analytically powered organization.http://www.atkearney.com/analytics/featured-article/-/asset_publisher/FNSUwH9BGQyt/content/beyond-big-the-analytically-poweredorganization/10192,2014
5 王倩,朱宏峰,劉天華.大數(shù)據(jù)安全的現(xiàn)狀與發(fā)展.計(jì)算機(jī)與網(wǎng)絡(luò),2013(16):66~69
Wang Q,Zhu H F,Liu T H.Current status and development of big data security.Comput&Network,2013(16):66~69
6 Yuhanna N,Gualtieri M.The forrester wave:enterprise data warehouse.http://www.forrester.com/pimages/rws/reprints/document/86621/oid/1-M6RP7C,2013
7 辛晃,易興輝,陳震宇.基于Hadoop+MPP架構(gòu)的電信運(yùn)營(yíng)商網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)研究.電信科學(xué),2014,30(4):135~145
Xin H,Yi X H,Chen Z Y.Design of telecom operators’network data sharing platform Based on Hadoop+MPP architecture.Telecommunications Science,2014(4):135~145
8 John Kreisa.Hadoop and the Data Warehouse:When to Use Which.http://hortonworks.com/blog/hadoop-and-the-data-warehousewhen-to-use-which/,2013
9 沈雷明,別志銘.基于電信大數(shù)據(jù)的數(shù)據(jù)建模平臺(tái)研究.電信科學(xué),2014,30(6):138~141
Shen L M,Bie Z M.Research on data modeling platform based on big data of telecom.Telecommunications Science,2014,30(6):138~141