葉惠仙+賈如春
摘 要: 用哪種平臺能更有效地從海量數(shù)據(jù)中找到有價值的信息并利用,是現(xiàn)代IT人不斷追求的目標(biāo)。簡述了大數(shù)據(jù)的定義與特征,提出大數(shù)據(jù)的架構(gòu)模型。從軟件角度對大數(shù)據(jù)架構(gòu)平臺進(jìn)行了分析與研究,分析了大數(shù)據(jù)架構(gòu)模型各層次的意義與關(guān)系,描述了數(shù)據(jù)存儲層及計算框架層的技術(shù)應(yīng)用,并對大數(shù)據(jù)應(yīng)用進(jìn)行了展望。
關(guān)健詞: 大數(shù)據(jù); 大數(shù)據(jù)定義; 大數(shù)據(jù)架構(gòu); 計算框架
中圖分類號:TP393 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2016)12-42-04
Abstract: Which platform can be used more effectively to find valuable information from the mass data and to make use of it, is the goal of modern IT people continue to pursue. This paper briefly introduces the definition and characteristics of big data, and puts forward the architecture model of big data. The big data architecture is analyzed and studied from the software point of view, the meaning and relationship of all layers of the big data architecture model are analyzed, the technologies used in the data storage layer and computing framework layer are described, and the application of big data is prospected.
Key words: big data; big data definition; big data architecture; computing framework
0 引言
當(dāng)前,大數(shù)據(jù)存儲信息全球所擁有的數(shù)據(jù)總量已經(jīng)遠(yuǎn)遠(yuǎn)超過歷史上的任何時期,且數(shù)據(jù)量的增加速度呈現(xiàn)倍增趨勢。技術(shù)的發(fā)展往往不是那么一往無前,而是一直不停的迭代,然后論證,再互相影響。大數(shù)據(jù)技術(shù)也同樣如此,從各種各樣類型的數(shù)據(jù)中,做到快速獲得有價值信息的能力,主要是大數(shù)據(jù)技術(shù)。
就現(xiàn)今數(shù)據(jù)分析方法而言,更多傾向于數(shù)據(jù)的關(guān)聯(lián)性,精確性。數(shù)據(jù)種類繁多,在編碼方式、存儲格式和應(yīng)用特征等多個方面也存在多層次、多方面的差異性,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)并存;如何處理隱含于生產(chǎn)者和消費者之間產(chǎn)生的數(shù)據(jù)知識的價值信息延遲,一直是現(xiàn)代計算構(gòu)架不斷演進(jìn)的主要動力。
1 大數(shù)據(jù)的定義
在大數(shù)據(jù)的快速發(fā)展中,各個學(xué)者試圖對大數(shù)據(jù)理論、模型、分析、解決方案等提出自己的見解,并且定義也多種多樣,但是被大多人所認(rèn)可的是由道格拉斯·蘭尼(Douglas Laney)在2001年提出的經(jīng)典的3V定義:規(guī)模龐大的數(shù)據(jù)集合(volume),高速(velocity)地累積和變化,以及廣泛(variety)的來源種類[1]。在2012年世界經(jīng)濟(jì)論壇上增加了第四個V:價值(value),將大數(shù)據(jù)作為一種新的經(jīng)濟(jì)資產(chǎn)。大數(shù)具有以下最為重要的五大特征。
⑴ 非競爭性(non-Rival):它可以被許多消費者同時使用和重復(fù)使用。這意味著向個人提供大數(shù)據(jù)的邊際成本是零。
⑵ 持續(xù)增長(Rising):大數(shù)據(jù)還呈指數(shù)級增長(Rising)。最小的基本單位是Byte,1TB=1,024GB;1PB=1,024TB;1EB=1,024PB;1ZB=1,024EB;1YB=
1,024ZB。在現(xiàn)階段的TB時代,1NB=2的60次方TB=1152921504606846976TB=115292150460684697個1TB硬盤。
⑶ 精煉(Refinable):這些海量數(shù)據(jù)很容易處理和精煉(Refinable),一家公司越使用大數(shù)據(jù),它的質(zhì)量和價值就越高。
⑷ 可再生(Renewable):大數(shù)據(jù)是可再生的(Renewable),像風(fēng)能一樣。
⑸ 可轉(zhuǎn)變用途(Repurposable):大數(shù)據(jù)是可延展和轉(zhuǎn)變用途的(Repurposable)。作為一種資源,大數(shù)據(jù)是非競爭性、不斷增長、可精煉、可再生以及可轉(zhuǎn)變用途的。大數(shù)據(jù)是應(yīng)用領(lǐng)域一項偉大的資產(chǎn),它是一種非常真實的現(xiàn)象,是一種對任何組織來說都非常珍貴的資源[2]。
2 大數(shù)據(jù)架構(gòu)模型
近年來,世界產(chǎn)生的數(shù)據(jù)就超過了可用存儲量。已經(jīng)從思考“存儲什么”轉(zhuǎn)向了“清除什么”。當(dāng)下智能手機(jī)由于存儲了過多的圖片而變得空間不足,這已經(jīng)是一個全球性的問題了。經(jīng)常是存儲后再也沒看過,或是偶爾查閱,這樣就成就了一句話:存儲中的一半數(shù)據(jù)是垃圾。只有那些知道怎樣提出正確問題的人才知道哪些數(shù)據(jù)可能會對提問有用和相關(guān),從而值得收集和處理,目的是開發(fā)它們的寶貴模式。我們需要更多更好的思路來篩選有價值的數(shù)據(jù)信息,大數(shù)據(jù)還會不斷地增長[3]。
對此類技術(shù)的需求正在堆積,單位業(yè)務(wù)、創(chuàng)新和福利都取決與數(shù)據(jù)科學(xué)的價值量,現(xiàn)在是時候開發(fā)一套大數(shù)據(jù)系統(tǒng)的方法論了。圖1為大數(shù)據(jù)架構(gòu)關(guān)系模型圖。
3 大數(shù)據(jù)架構(gòu)模型分析
⑴ 文件系統(tǒng)層:在這一層,分布式文件系統(tǒng)需具備存儲管理、容錯處理、高可擴(kuò)展性、高可靠性和高可用性等特性。由于文件系統(tǒng)層關(guān)注的焦點開始向“低延時處理”方向轉(zhuǎn)移,所以傳統(tǒng)基于磁盤存儲的文件系統(tǒng),也開始向基于內(nèi)存計算的文件系統(tǒng)轉(zhuǎn)變,這樣可大大降低I/O操作和磁盤序列化帶來的訪問開銷。Tachyon和Spark RDD(彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)就是朝這個方向演化的范例,是一種高度受限的共享內(nèi)存模型。Tachyon是一個高容錯的分布式內(nèi)存文件系統(tǒng),其設(shè)計的核心內(nèi)涵是要滿足當(dāng)下“低延遲”的數(shù)據(jù)處理要求。tachyon是在內(nèi)存中處理緩存文件,允許文件以訪問內(nèi)存的速度在集群框架中進(jìn)行可靠的共享,類似于Spark。Tachyon的吞吐量比HDFS高100倍。Spark框架雖然也提供了強(qiáng)大的內(nèi)存計算能力,但其沒有提供內(nèi)存文件的存儲管理能力,而Tachyon則彌補(bǔ)了Spark的不足之處。如CEPH文件系統(tǒng),Hadoop文件系統(tǒng)HDFS。Google文件系統(tǒng)GFS(Google File System)是一個可擴(kuò)展的分布式文件系統(tǒng),隱藏下層負(fù)載均衡,冗余復(fù)制等細(xì)節(jié),對上層程序提供一個統(tǒng)一的文件系統(tǒng)API接口[4]。Google根據(jù)自己的需求對它進(jìn)行了特別優(yōu)化,包括超大文件的訪問,讀操作比例遠(yuǎn)超過寫操作,PC機(jī)極易發(fā)生故障造成節(jié)點失效等。GFS的新穎之處在于它著眼于幾個重要的目標(biāo),如性能、可伸縮性、可靠性和可用性,能利用所提出的方案,采用廉價的商用機(jī)器構(gòu)建高效的分布式文件系統(tǒng)。
⑵ 數(shù)據(jù)存儲層:由于目前采集到的數(shù)據(jù),大部分為非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的表現(xiàn)形式各異,有文本的、圖像的、音頻的、視頻的等,因此常見的數(shù)據(jù)存儲也要對應(yīng)有多種形式,有基于鍵值(Key-Value)的,有基于文檔(Document)的,還有基于列(Column)和圖表(Graph)的。如果采用單一數(shù)據(jù)庫引擎來滿足所有類型的數(shù)據(jù)存儲需求,通常會嚴(yán)重降低數(shù)據(jù)庫管理的性能。因此,需要多元的(Polyglot)數(shù)據(jù)庫解決方案。非結(jié)構(gòu)化(NOSQL)數(shù)據(jù)存儲或可擴(kuò)展的結(jié)構(gòu)化數(shù)據(jù)(包括基于鍵值、基于文檔的和面向列的)數(shù)據(jù)存儲方案是支撐大數(shù)據(jù)應(yīng)用的關(guān)鍵所在。RCFile文件存儲格式,充分吸取面向列和面向行存儲模式的優(yōu)點,揚長避短,根據(jù)對一致性(consistency)要求的強(qiáng)弱不同,分布式數(shù)據(jù)存儲策略可分為ACID和BASE兩大陣營。ACID是指數(shù)據(jù)庫事務(wù)具有的四個特性:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。ACID中的一致性要求比較強(qiáng),事務(wù)執(zhí)行的結(jié)果必須是使數(shù)據(jù)庫從一個一致性狀態(tài)變到另一個一致性狀態(tài)。而BASE對一致性要求較弱,它的三個特征分別是:基本可用(Basically Available),軟狀態(tài)/柔性事務(wù)(Soft-state,即狀態(tài)可以有一段時間的不同步),最終一致性(Eventual consistency)[5]。BASE還進(jìn)一步細(xì)分基于鍵值的,基于文檔的和基于列和圖形的,細(xì)分的依據(jù)取決于底層架構(gòu)和所支持的數(shù)據(jù)結(jié)構(gòu)。Dynamo是基于鍵值的高可用的分布式存儲系統(tǒng),該系統(tǒng)放棄了數(shù)據(jù)建模的能力,所有的數(shù)據(jù)對象采用最簡單的Key-value模型存儲,可簡單地將Dynamo理解為一個巨大的Map。Dynamo是犧牲了部分一致性,來換取整個系統(tǒng)的高可用性。Cassandra是由Facebook工程師設(shè)計的一個離散的分布式結(jié)構(gòu)化存儲系統(tǒng),采用的是面向多維的鍵值或面向列的數(shù)據(jù)存儲格式。
⑶ 資源管理層:這一層是為了提高資源的高利用率和吞吐量,以到達(dá)高效的資源管理與調(diào)度目的。資源協(xié)調(diào)層需要完成對資源的狀態(tài)、分布式協(xié)調(diào)、一致性和資源實施管理。第一代Hadoop的生態(tài)系統(tǒng),其資源管理是以整體單一的調(diào)度器起家的,其代表作品為YARN。而當(dāng)前的調(diào)度器則是朝著分層調(diào)度的方向演進(jìn),這種分層的調(diào)度方式,可以管理不同類型的計算工作負(fù)載,從而可獲取更高的資源利用率和調(diào)度效率。這些計算框架和調(diào)度器之間是松散耦合的,調(diào)度器的主要功能就是基于一定的調(diào)度策略和調(diào)度配置,完成作業(yè)調(diào)度,以達(dá)到工作負(fù)載均衡,使有限的資源有較高的利用率。
⑷ 計算框架層:本層的計算框架非常龐雜,有很多高度專用的框架如:流式的,交互式的,實時的,批處理和迭代圖的(Batch and Iterative Graph,BSP)等。為這些計算框架提供支撐的是運行時引擎,如BDAS指“Berkeley Data Analytics Stack”即伯克利數(shù)據(jù)分析棧,Spark和 Flink等。Spark和Flink都屬于基礎(chǔ)性的大數(shù)據(jù)處理引擎。Spark是一個基于內(nèi)存計算的開源的集群計算系統(tǒng),其目的在于讓數(shù)據(jù)分析更加快速。適合各種迭代算法和交互式數(shù)據(jù)分析,能夠提升大數(shù)據(jù)處理的實時性和準(zhǔn)確性,現(xiàn)已逐漸獲得很多企業(yè)的支持,如阿里巴巴、百度、網(wǎng)易、英特爾等公司均是其用戶。Flink是一個非常類似于Spark的計算框架,但在迭代式數(shù)據(jù)處理上比Spark更給力。Pregel采用的是迭代式的計算模型,它被稱之為Google后Hadoop時代的新“三駕馬車”之一,另外兩駕馬車分別是:“交互式”大數(shù)據(jù)分析系統(tǒng)Dremel和網(wǎng)絡(luò)搜索引擎Caffeine)。GraphX 是一個同時采用圖并行計算和數(shù)據(jù)并行計算的框架[6]。Storm一個大數(shù)據(jù)實時處理系統(tǒng),大大簡化了面向龐大規(guī)模數(shù)據(jù)流的處理機(jī)制,從而在實時處理領(lǐng)域扮演著重要角色。BlinkDB是一個用于在海量數(shù)據(jù)上運行交互式 SQL查詢的大規(guī)模并行查詢引擎。BlinkDB允許用戶通過適當(dāng)降低數(shù)據(jù)精度,對數(shù)據(jù)進(jìn)行先采樣后計算,通過其獨特的優(yōu)化技術(shù),實現(xiàn)了比Hive快百倍的交互式查詢速度,而查詢進(jìn)度誤差僅降低2~10%。BlinkDB采用的策略,與大數(shù)據(jù)布道師,維克托·邁爾-舍恩伯格在其著作《大數(shù)據(jù)時代》中提到的觀點,“要全體,不要抽樣”,恰恰相反,如果要實現(xiàn)在大體量數(shù)據(jù)上的“快”,就得想辦法減少數(shù)據(jù),而減少數(shù)據(jù),勢必要適度地降低數(shù)據(jù)分析精確性。
⑸ 數(shù)據(jù)分析層:在這一層里,主要包括數(shù)據(jù)分析(消費)工具和一些數(shù)據(jù)處理函數(shù)庫。這些工具和函數(shù)庫,可提供描述性的、預(yù)測性的或統(tǒng)計性的數(shù)據(jù)分析功能及機(jī)器學(xué)習(xí)模塊。數(shù)據(jù)分析層中的工具,涵蓋范圍很廣,從諸如SQL的聲明式編程語言,到諸如Pig的過程化編程語言,均有涉及。數(shù)據(jù)分析層中的庫也很豐富,可支持常見的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,這些類庫可拿來即用,甚是方便。Hive是一個建立于 Hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架,用于進(jìn)行數(shù)據(jù)的提取、轉(zhuǎn)化和加載(即Extract-Transform-Load,ETL),是一種可以存儲、查詢和分析存儲在Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制[7]。
⑹ 數(shù)據(jù)集成層:在這一層里,不僅包括管理數(shù)據(jù)分析工作流中用到的各種適用工具,還包括對元數(shù)據(jù)(Metadata)管理的工具。數(shù)據(jù)集成框架提供了良好的機(jī)制,以協(xié)助高效地攝取和輸出大數(shù)據(jù)系統(tǒng)之間的數(shù)據(jù)。從業(yè)務(wù)流程線到元數(shù)據(jù)框架,數(shù)據(jù)集成層皆有涵蓋,從而提供全方位的數(shù)據(jù)在整個生命周期的管理和治理。ETL是數(shù)據(jù)抽?。‥xtract)、清洗(Cleaning)、轉(zhuǎn)換(Transform)、裝載(Load)過程,是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán)[8]。
⑺ 操作框架層:操作性框架用來構(gòu)建一套衡量標(biāo)準(zhǔn)和測試基準(zhǔn),從而來評價各種計算框架的性能優(yōu)劣。在這個操作性框架中,還需要包括性能優(yōu)化工具,借助它來平衡工作負(fù)載。包含監(jiān)測管理框架(Monitoring Frameworks),基準(zhǔn)測試(Benchmarking)[9]。Apache HCatalog提供一個共享的模式和數(shù)據(jù)類型的機(jī)制,使用戶不必關(guān)心數(shù)據(jù)怎么存儲,并提供了可操作的跨數(shù)據(jù)處理工具。
4 大數(shù)據(jù)的發(fā)展應(yīng)用
大數(shù)據(jù)這種近乎神奇的新資源,它理應(yīng)改變和提高商業(yè)生命周期的各個方面。一個企業(yè)的決策分析,雖然是微小的數(shù)據(jù),但卻是非常重要的強(qiáng)大工具,如此多的數(shù)據(jù)可以非常快速而低成本地產(chǎn)生和處理。日益擴(kuò)大的大數(shù)據(jù)海洋中有價值的“潛流”越來越多,但是對于沒有計算能力的人來說是看不到的,因此更多更好的技能和技術(shù)極為有用。當(dāng)IT部門要求更多的資金時,可能是有非常好的理由。然而,僅靠他們一己之力,再多的數(shù)字技術(shù)和解決方案也依然不夠用。需要有能夠自動從大數(shù)據(jù)中獲取經(jīng)濟(jì)價值的方式,經(jīng)濟(jì)價值就是從大數(shù)據(jù)中找到的小但是重要的模式[10]。大數(shù)據(jù)可被用于以下方面。
⑴ 改善服務(wù)、產(chǎn)品或流程,幫助找到企業(yè)低效的地方。
⑵ 為用戶或客戶量身定制產(chǎn)品或服務(wù),讓公司更了解他們對客戶需求。
⑶ 預(yù)測趨勢發(fā)展方向,因為大數(shù)據(jù)可以表明歷史是如何塑造未來的。
⑷ 激發(fā)可能的戰(zhàn)略,比如新產(chǎn)品的設(shè)計和發(fā)行、時間、方式、目標(biāo)人口等。
⑸ 規(guī)劃并決定替代方案,大數(shù)據(jù)支持實證選擇。
⑹ 教育行業(yè)中,讓師者接近發(fā)現(xiàn)“每一個學(xué)生的真實”[10]。
⑺ 最后,對產(chǎn)品和服務(wù)進(jìn)行創(chuàng)新或革新,幫助公司預(yù)測無法察覺的需要、愿望和需求。
5 結(jié)束語
本文以大數(shù)據(jù)架構(gòu)為核心,分析了大數(shù)據(jù)解決方案中的特定的功能組件及關(guān)鍵技術(shù)。架構(gòu)技術(shù)的演進(jìn)是一個開放并不斷改進(jìn)的過程,模型中的操作框架、數(shù)據(jù)集成與分析、計算框架、數(shù)據(jù)存儲等技術(shù)發(fā)展還面臨著問題,減少批處理和交互式分析之間的平衡,實時和低延時處理的計算架構(gòu)在快速的發(fā)展過程中,也不斷推進(jìn)這種計算架構(gòu)的演進(jìn)。大數(shù)據(jù)需要新處理模式才能具有更強(qiáng)的決策力、洞察力和過程優(yōu)化能力。加強(qiáng)大數(shù)據(jù)技術(shù)研究,使不同行為特征的行業(yè)得以針對性塑造及創(chuàng)新發(fā)展,大數(shù)據(jù)高效有序的利用,有助于推進(jìn)國民經(jīng)濟(jì)的繁榮發(fā)展。
參考文獻(xiàn)(Reference):
[1] 張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù),2014.11:40-48
[2] 陸云帆,諸振家.大數(shù)據(jù)數(shù)據(jù)庫的特點與處理技術(shù)分析[J].信
息通信,2014.7:114
[3] 馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國防科技,
2013.2:10-17
[4] 李芬,朱志祥,劉盛輝.大數(shù)據(jù)發(fā)展現(xiàn)狀及面臨的問題[J].西安
郵電大學(xué)學(xué)報,2013.5:100-103
[5] 王珊,王會舉,覃雄派,周烜.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].
計算機(jī)學(xué)報,2011.10:41-52
[6] 黃哲學(xué),曹付元,李俊杰,陳小軍.面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)
關(guān)鍵技術(shù)研究[J].網(wǎng)絡(luò)新媒體技術(shù),2012.6:20-26
[7] 夏海元.面向Big Data的數(shù)據(jù)處理技術(shù)概述[J].數(shù)字技術(shù)與
應(yīng)用,2012.3:179-180
[8] 楊京,王效岳,白如江,祝娜.大數(shù)據(jù)背景下數(shù)據(jù)科學(xué)分析工具
現(xiàn)狀及發(fā)展趨勢[J].情報理論與實踐,2015.3:134-137,144
[9] 張延松,焦敏,王占偉,王珊,周烜.海量數(shù)據(jù)分析的
One-size-fits-all OLAP技術(shù)[J].計算機(jī)學(xué)報,2011.10:36-46
[10] 廖建新.大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望[J].電信科學(xué),
2015.7:7-18