李一清,張 靜
(河西學(xué)院 信息技術(shù)與傳媒學(xué)院,甘肅 張掖 734000)
淺析云計算環(huán)境下的數(shù)據(jù)管理技術(shù)
李一清,張靜
(河西學(xué)院 信息技術(shù)與傳媒學(xué)院,甘肅 張掖 734000)
隨著計算機網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,以及人們對計算能力、資源利用效率、資源集中化的迫切需求,云計算應(yīng)運而生。目前,云計算及云數(shù)據(jù)管理技術(shù)已經(jīng)成為一種全新的互聯(lián)網(wǎng)應(yīng)用技術(shù)模式。本文介紹了云計算的概念和云數(shù)據(jù)管理的特點,并在此基礎(chǔ)上對互聯(lián)網(wǎng)主流的數(shù)據(jù)管理技術(shù)GFS,BigTable和MapReduce等進(jìn)行分析,最后指出了云數(shù)據(jù)管理技術(shù)的發(fā)展前景。
云計算;云數(shù)據(jù);數(shù)據(jù)管理
近年來,隨著互聯(lián)網(wǎng)時代信息與數(shù)據(jù)的飛速增長,用戶對儲存和處理大量數(shù)據(jù)的要求越來越高,面臨著如何有效的利用更少的資源解決更多的問題,在這種情況下,云計算技術(shù)就應(yīng)運而生了。作為一項正在興起中的技術(shù),云計算以開放的標(biāo)準(zhǔn)和服務(wù)為基礎(chǔ),以互聯(lián)網(wǎng)為中心,讓互聯(lián)網(wǎng)上的各種計算資源協(xié)同工作,共同組成數(shù)個龐大的數(shù)據(jù)中心和計算中心,為各類用戶提供各類安全、快速、便捷的數(shù)據(jù)存儲和網(wǎng)絡(luò)計算等特定服務(wù)。云計算綜合了分布式計算,并行計算,網(wǎng)絡(luò)存儲等各種技術(shù),所有這些技術(shù)為產(chǎn)生更強大的計算能力和服務(wù)提供了可能。
對于到底什么是云計算,至少可以找到100種解釋?,F(xiàn)階段廣為接受的是美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計算資源共享池 (資源包括網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互[1]。云計算實質(zhì)上是給用戶提供像傳統(tǒng)的電力、水、煤氣一樣的按需計算服務(wù),與其不同在于,它是通過互聯(lián)網(wǎng)進(jìn)行傳輸?shù)?。目前,云計算的服?wù)形式包括三種:即基礎(chǔ)設(shè)施即服務(wù)(IaaS),平臺即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)。
云計算通過互聯(lián)網(wǎng)將超大規(guī)模的計算能力與資源整合起來形成一個巨大的資源池,并以可信服務(wù)的形式按需提供給用戶。因此,大規(guī)模的云計算資源是實現(xiàn)云計算服務(wù)的基本條件。云計算還需要對分布的、海量的數(shù)據(jù)進(jìn)行處理,在大量的數(shù)據(jù)中找到特定的數(shù)據(jù),并分析向用戶提供高效的服務(wù)。簡單來說,云計算的數(shù)據(jù)管理工作就是接受用戶的資源請求,并把特定的資源分配給請求者,云數(shù)據(jù)管理主要具備以下幾個特點。
2.1資源的海量性
近年來,隨著云計算應(yīng)用規(guī)模的擴大,資源的數(shù)據(jù)量會呈現(xiàn)爆炸性增長的趨勢。如何有效地改進(jìn)已有的技術(shù)和方法或提出新的技術(shù)和方法來高效地管理和處理這些海量數(shù)據(jù)并從數(shù)據(jù)中準(zhǔn)確地提取信息是很重要的。
2.2數(shù)據(jù)異構(gòu)性
在云計算各種各樣的應(yīng)用中,不同領(lǐng)域不同行業(yè)在數(shù)據(jù)獲取階段所采用的設(shè)備、手段和方式都千差萬別,取得的數(shù)據(jù)在數(shù)據(jù)形態(tài)、數(shù)據(jù)結(jié)構(gòu)上也就各不相同,最終導(dǎo)致結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)并存,造成了數(shù)據(jù)資源的異構(gòu)性,導(dǎo)致了對數(shù)據(jù)訪問、分析和處理方式多種多樣。
2.3模糊性
云計算中的數(shù)據(jù)有明顯的模糊性特征,主要包括數(shù)據(jù)本身的模糊性、語義匹配的模糊性和查詢分析的模糊性等。為了讓用戶獲得準(zhǔn)確的信息,還有待相關(guān)技術(shù)的革新。
云計算系統(tǒng)對海量數(shù)據(jù)進(jìn)行處理、分析后向用戶提供高效的服務(wù)。因此,數(shù)據(jù)管理技術(shù)必須能夠高效的管理海量數(shù)據(jù)。面對復(fù)雜的數(shù)據(jù)管理工作,數(shù)據(jù)管理技術(shù)應(yīng)用而生。目前,云計算系統(tǒng)中的數(shù)據(jù)管理技術(shù)主要是GoogleFileSystem,BigTable,MapReduce,Dynamo等技術(shù)。
3.1GFS技術(shù)
GFS(GoogleFileSystem)是Google公司為了存儲海量搜索數(shù)據(jù)而設(shè)計的專用文件系統(tǒng),是一個可擴展的分布式文件系統(tǒng),用于訪問大型的、分布式的數(shù)據(jù)。它使用廉價的商用硬件搭建系統(tǒng)并向大量用戶提供容錯的高性能服務(wù),并與MapReduce以及BigTable等技術(shù)緊密結(jié)合。為保證云計算的高可用性,GFS采用分布式存儲的方式來存儲數(shù)據(jù);為保證云計算的高可靠性,GFS采用數(shù)據(jù)冗余技術(shù)來存儲數(shù)據(jù),每份數(shù)據(jù)在系統(tǒng)中保存3個以上的備份。
一個GFS集群由一個Master(主服務(wù)器)和大量的ChunkServer(數(shù)據(jù)塊服務(wù)器)構(gòu)成,并被許多Client(客戶端)訪問。Master是GFS的管理節(jié)點,在邏輯上只有一個,它保存系統(tǒng)的所有元數(shù)據(jù),負(fù)責(zé)整個文件系統(tǒng)的管理,是整個GFS文件系統(tǒng)的核心。Master所保存的元數(shù)據(jù)主要包括名字空間、訪問控制信息以及當(dāng)前Chunk的位置信息等。
GFS技術(shù)的一次簡單讀取的過程,即Client通過Master節(jié)點,獲取將要與之進(jìn)行交互的Chunk Server的位置信息,然后直接訪問這些 Chunk Server完成數(shù)據(jù)存取,所以客戶端與Master之間只有控制流而無數(shù)據(jù)流,GFS的這種設(shè)計方法實現(xiàn)了控制流和數(shù)據(jù)流的分離,極大地降低了Master的負(fù)載,使之不成為系統(tǒng)性能的一個瓶頸。之后客戶端發(fā)送請求到其中的一個副本處,一般會選擇最近的,請求信息包含了Chunk標(biāo)識和字節(jié)范圍。在對這個Chunk的后續(xù)讀取操作中,客戶端不必再和Master節(jié)點通訊了,除非緩存的元數(shù)據(jù)信息過期或者文件被重新打開。實際上,Client通常會在一次請求中查詢多個Chunk信息,Master節(jié)點的回應(yīng)也可能包含了這些被請求的Chunk信息。
3.2BigTable技術(shù)
BigTable是Google設(shè)計的分布式數(shù)據(jù)存儲系統(tǒng),是建立在GFS和MapReduce之上,用來處理海量的數(shù)據(jù)的一種非關(guān)系型的數(shù)據(jù)庫。確切的說BigTable更像是一個規(guī)模超過1PB(1024TB)的龐大的表。它將所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格。對于BigTable技術(shù),Google給出了如下定義:BigTable是一種為了管理結(jié)構(gòu)化數(shù)據(jù)而設(shè)計的分布式存儲系統(tǒng),這些數(shù)據(jù)可以擴展到非常大的規(guī)模。例如在數(shù)千臺商用服務(wù)器上的達(dá)到PB (Petabytes)規(guī)模的數(shù)據(jù)[2]。
BigTable的數(shù)據(jù)模型是一個有序的、稀疏的、持久化存儲的多維度的映射表。該數(shù)據(jù)模型由行(row)、列族(columnfamilies)和時間戳(timestamps)這幾個基本元素來進(jìn)行三維定位。行是劃分BigTable內(nèi)容的標(biāo)準(zhǔn),同時將多個行組成一個小表,保存到某一個服務(wù)器節(jié)點中,這個小表就被稱為Tablet[3];Tablet是數(shù)據(jù)分布和負(fù)載均衡調(diào)整的最小單位;列族由同一類型的列關(guān)鍵字組成,是訪問控制的基本單位。時間戳用來存儲同一份數(shù)據(jù)的不同版本,不同版本的數(shù)據(jù)按照時間戳倒序排序,即最新的數(shù)據(jù)排在最前面。時間戳的類型是64位整形。
BigTable的執(zhí)行包括了三個主要的組件:鏈接到客戶程序中的庫、一個Master服務(wù)器和多個Tablet服務(wù)器。Master服務(wù)器主要負(fù)責(zé)為Tablet服務(wù)器分配Tablets、對Tablet服務(wù)器進(jìn)行負(fù)載平衡、探測新加入的或者過期失效的Tablet服務(wù)器、以及對保存在GFS上的文件進(jìn)行垃圾回收等。每個Tablet服務(wù)器負(fù)責(zé)處理它所加載的Tablet的讀寫操作,以及對過大的Tablets進(jìn)行分割??蛻舳俗x取的數(shù)據(jù)都不經(jīng)過Master服務(wù)器,客戶程序直接和Tablet服務(wù)器進(jìn)行交互。由于BigTable的客戶程序不必通過Master服務(wù)器來獲取Tablet的位置信息,因此Master服務(wù)器的負(fù)載很輕。
3.3MapReduce技術(shù)
MapReduce是云計算的核心計算模式,是一種用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算編程模型和計算框架。MapReduce對海量數(shù)據(jù)處理思想即分而治之,體現(xiàn)在對作業(yè)的處理過程中即把處理作業(yè)的過程分為Map(映射)過程和Reduce(規(guī)約)過程。即先通過用戶自定義的Map函數(shù)將數(shù)據(jù)切割成不相關(guān)的區(qū)塊,分配給大量計算機處理達(dá)到分布運算的效果,再通過用戶自定義的Reduce函數(shù)將結(jié)果匯總,輸出開發(fā)者需要的結(jié)果[4]。
一個Mapreduce程序首先會把輸入的用戶輸入數(shù)據(jù)集切分成若干獨立的數(shù)據(jù)塊,數(shù)據(jù)塊大小一般為16MB到64MB。第一階段由作業(yè)服務(wù)器調(diào)度任務(wù)服務(wù)器讀取切分好的輸入數(shù)據(jù)塊并執(zhí)行map任務(wù),然后將map任務(wù)輸出保存在本地;第二階段由作業(yè)服務(wù)器調(diào)度任務(wù)服務(wù)器執(zhí)行 reduce任務(wù),reduce任務(wù)服務(wù)器讀取第一階段輸出文件并執(zhí)行reduce任務(wù),將結(jié)果寫入輸出目錄文件中。
在新興的云計算數(shù)據(jù)管理領(lǐng)域,GFS、BigTable、MapReduce、Dynamo這四種技術(shù)對云計算海量數(shù)據(jù)的問題和應(yīng)用特點有了很多創(chuàng)新,綜合來看它們主要運用于云計算的以下四個層次。
4.1數(shù)據(jù)組織與管理
采用分布式的存儲技術(shù)可用于大型的、分布式的、對大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用,類似GFS。它運行于各種類似的普通硬件上,提供容錯功能,為用戶提供可靠、高并發(fā)和高性能的數(shù)據(jù)并存取訪問。
4.2數(shù)據(jù)集成與管理
針對數(shù)據(jù)的非確定性、分布異構(gòu)性、海量、動態(tài)變化等特點,采用分布式管理技術(shù),如BigTable、Dynamo技術(shù)對大數(shù)據(jù)進(jìn)行處理、分析,為用戶提供高效的服務(wù)[5]。
4.3分布式并行處理
為了高效地在分布式環(huán)境下進(jìn)行數(shù)據(jù)的定位和處理,采用云計算的并行編程模式,如MapReduce,將任務(wù)分成多個子任務(wù),通過映射和化簡這兩步來實現(xiàn)任務(wù)在大規(guī)模計算節(jié)點的調(diào)度與分配。
4.4數(shù)據(jù)分析
用戶應(yīng)用云資源需要對云數(shù)據(jù)進(jìn)行分析和挖掘,通過語義分析技術(shù),定位所需要的數(shù)據(jù)資源,從而從大量的結(jié)構(gòu)化的、半結(jié)構(gòu)化的文本、圖形、和圖像數(shù)據(jù)中提取潛在的、事先未知的、有用的數(shù)據(jù)。
GFS、BigTable、MapReduce、Dynamo是云計算的關(guān)鍵技術(shù),但是它們還是存在一系列的問題有待解決。
在GFS技術(shù)當(dāng)中,雖然高冗余度能提高數(shù)據(jù)的可靠性,但是也會導(dǎo)致數(shù)據(jù)操作不一致性的問題,多個數(shù)據(jù)備份副本對使用者權(quán)限設(shè)置不同,備份出錯將導(dǎo)致數(shù)據(jù)的不一致帶來安全問題。
對于BigTable技術(shù),因為它只對結(jié)構(gòu)化數(shù)據(jù)起作用,所以會過濾一些半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),導(dǎo)致讀取數(shù)據(jù)不正確,列存儲方式讀取數(shù)據(jù)時有時候會導(dǎo)致數(shù)據(jù)讀取不完整。
MapReduce作為一種較為流行的云計算編程模型,在云計算系統(tǒng)中應(yīng)用廣闊,但是基于它的開發(fā)工具Hadoop并不完善。特別是其調(diào)度算法過于簡單,判斷需要進(jìn)行推測執(zhí)行的任務(wù)的算法造成過多任務(wù)需要推測執(zhí)行,降低了整個系統(tǒng)的性能。而且Mapreduce技術(shù)將任務(wù)分成多個子任務(wù)完成時,各個子任務(wù)間處理速度的差異導(dǎo)致安全問題。
Dynamo技術(shù)以簡單的鍵/值方式存儲數(shù)據(jù),導(dǎo)致它不支持復(fù)雜的查詢,這一點它是不能與BigTable同日而語的。Dynamo是完全的分布式、去中心化,但它的很多一致性問題又都是去中心化設(shè)計所導(dǎo)致的,所以采用中心化還是去中心化還有待研究。
6.1數(shù)據(jù)存儲更安全可靠
支撐云計算的是大規(guī)模的集群計算系統(tǒng),隨著云計算資源的不斷增長,云計算規(guī)模也要隨著擴大,存儲的資源越來越多,數(shù)據(jù)安全可靠很可能成為云計算的一個瓶頸問題,為更好地解決這個問題,各式各樣的云數(shù)據(jù)管理技術(shù)在競爭中相繼產(chǎn)生。
6.2對海量數(shù)據(jù)的準(zhǔn)確定位
云計算需要對分布的、海量的數(shù)據(jù)進(jìn)行處理、分析,現(xiàn)在的云數(shù)據(jù)管理技術(shù)都存在著搜尋信息的模糊性。在規(guī)模巨大的數(shù)據(jù)中準(zhǔn)確無誤地找到特定的數(shù)據(jù),并且支持復(fù)雜的查詢,云數(shù)據(jù)管理技術(shù)肯定要適應(yīng)這個潮流。
6.3數(shù)據(jù)的自我管理
云計算中管理任務(wù)復(fù)雜,大多數(shù)情況下,由于云系統(tǒng)中機器數(shù)量太大,數(shù)據(jù)庫管理員和系統(tǒng)管理員很難對所有機器進(jìn)行全面周全的人工干預(yù),所以迫切地需要一種云數(shù)據(jù)管理技術(shù)對云計算實行自動管理數(shù)據(jù)。
6.4能夠處理多結(jié)構(gòu)化數(shù)據(jù)
云數(shù)據(jù)管理技術(shù)不再是只單純地處理一種結(jié)構(gòu)的數(shù)據(jù),而是從結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)的數(shù)據(jù)中都能提取出有用信息,并且能保證處理速度迅速,保證數(shù)據(jù)的一致性。
云計算是基于多種技術(shù)的新興計算模式,所帶來的新興IT資源共享和應(yīng)用模式是互聯(lián)網(wǎng)之后的又一次變革,將極大地促進(jìn)IT產(chǎn)業(yè)特別是軟件服務(wù)業(yè)的發(fā)展。隨著云計算的流行和云數(shù)據(jù)管理技術(shù)的逐漸成熟,相信在不久的將來,云計算基于互聯(lián)網(wǎng)的應(yīng)用將會逐漸滲透到每個人的生活中,對我們的服務(wù)、生活都會帶來深遠(yuǎn)的影響。
[1] MichaelMiller.云計算[M].機械工業(yè)出版社.2009.4
[2] 陳全,鄧倩妮.云計算及其關(guān)鍵技術(shù)[J].計算機應(yīng)用,2009,29(9):2562-2567.
[3] 陳康,鄭緯民.云計算:系統(tǒng)實例與研究現(xiàn)狀[J].軟件學(xué)報,2009,20(5):1337-1348.
[4] 李成華,張新訪,金海,等.MapReduce:新型的分布式并行計算編程模型[J].計算機工程與科學(xué),2011,33(3):129-135.
[5] 劉正偉,文中領(lǐng),張海濤.云計算和云數(shù)據(jù)管理技術(shù)[J].計算機研究與發(fā)展,2012,49(1):26-31.
TP393