王樹文
(吉林省計算中心(吉林省計算機技術(shù)研究所),吉林 長春 130022)
隨著科技的進步,海量的數(shù)據(jù)分析成為目前市場面臨的重要問題,這些數(shù)據(jù)一般都來源于互聯(lián)網(wǎng)。對于大數(shù)據(jù)的分析成為當前不可忽視的重要內(nèi)容。本文對大數(shù)據(jù)及云計算的概念、兩者之前的關(guān)系以及大數(shù)據(jù)分析面臨的挑戰(zhàn)進行分析,希望通過本文的研究,可以為促進企業(yè)的生產(chǎn)經(jīng)營提供一定的幫助。
云計算是以因特網(wǎng)為基礎(chǔ)的,它可以如同電網(wǎng)提供電力資源,用戶可以再云計算基礎(chǔ)上根據(jù)自身需求對計算資源進行訪問。云的構(gòu)成主要包括三種形式分別是公共云、私有云以及混合云。公共云主要是被一些大型組織使用,一般為銷售的云服務(wù)提供供應(yīng);而私有云主要是由公司內(nèi)部自身來管理,主要是由企業(yè)內(nèi)部創(chuàng)建并進行控制的;而混合云主要是指公共云和私有云的結(jié)合,也就可以提供公共和私有服務(wù)。與公共云相比,目前私有云和混合云使用的較為廣泛。
云計算是一種新型超級計算,云計算的技術(shù)實際上是實現(xiàn)計算、服務(wù)、存儲、應(yīng)用軟件等硬件資源的虛擬化。云計算在數(shù)據(jù)存儲、數(shù)據(jù)管理以及虛擬化等方面具有獨特的技術(shù)。云計算技術(shù)的基礎(chǔ)主要是實現(xiàn)安全可靠的信息存儲以及讀寫,云計算技術(shù)可以實現(xiàn)數(shù)據(jù)的備份以此來保證數(shù)據(jù)的安全可靠。云計算主要是對數(shù)據(jù)進行分布式的處理以及分析來實現(xiàn)數(shù)據(jù)管理技術(shù)。對于云計算來說,虛擬化技術(shù)是云計算的關(guān)鍵技術(shù),虛擬化技術(shù)可以使計算機的資源得到最大的利用。
大數(shù)據(jù)實際上是一種數(shù)據(jù)集,它主要是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的。大數(shù)據(jù)與普通的數(shù)據(jù)不同,它遠遠超過了典型結(jié)構(gòu)化的數(shù)據(jù)范圍,大數(shù)據(jù)一般來源于半結(jié)構(gòu)化的文化、圖像、視頻以及記錄數(shù)據(jù)。由于大數(shù)據(jù)的復(fù)雜性必須依靠云計算技術(shù)和方法進行管理和分析。大數(shù)據(jù)具有以下幾點特點:
(1)數(shù)據(jù)的規(guī)模大:對于大數(shù)據(jù)而言,很難對其規(guī)模做出規(guī)定;(2)數(shù)據(jù)結(jié)構(gòu)復(fù)雜:結(jié)構(gòu)的復(fù)雜可以為其提供更加豐富的信息;(3)數(shù)據(jù)間的關(guān)聯(lián)度較高,如果數(shù)據(jù)間的關(guān)聯(lián)度低,無論數(shù)據(jù)的信息量有多大,結(jié)構(gòu)有多復(fù)雜,都不可以稱之為大數(shù)據(jù)。
大數(shù)據(jù)和云計算在技術(shù)上有著密不可分的關(guān)系,只不過云計算針對的是計算,而大數(shù)據(jù)則是指計算的對象。對大數(shù)據(jù)進行分析不能利用單臺計算機進行分析和處理,必須依靠分布式的計算機架構(gòu),利用云計算的數(shù)據(jù)存儲、處理以及虛擬化技術(shù)對數(shù)據(jù)進行分析。云計算技術(shù)為大數(shù)據(jù)的分析提供了機會。大數(shù)據(jù)的分析需要具有分析大數(shù)據(jù)的能力,而云計算技術(shù)恰好有這項能力,而大數(shù)據(jù)也同樣為云計算提供了應(yīng)用的平臺。
大數(shù)據(jù)最主要的一個特點就是規(guī)模巨大,數(shù)據(jù)增長的速度越來越快,云計算為此提供了有效的解決方案,主要是將該數(shù)據(jù)傳送到后臺進行處理。而這一過程中最主要的問題是將這些數(shù)據(jù)利用因特網(wǎng)上傳到云,這需要進一步的研發(fā)。
對于大數(shù)據(jù)進行存儲時要對存儲的類型進行選擇,如果利用云方法,那么傳統(tǒng)的數(shù)據(jù)庫不適合云的可量測性。目前存在的系統(tǒng)為了提供可量測性,而犧牲了關(guān)系模型等許多功能,因此對于大數(shù)據(jù)的存儲迫切需要研發(fā)可測量性的數(shù)據(jù)庫模型。
對數(shù)據(jù)進行處理的主要目的是將有價格的數(shù)據(jù)從海量的數(shù)據(jù)中提取出來,從而方便用戶的需求。面對大數(shù)據(jù)時代的來臨需要對不斷增長的數(shù)據(jù)進行收集,這就需要不斷的研發(fā)可以處理大數(shù)據(jù)的系統(tǒng),這也是大數(shù)據(jù)發(fā)展的重要目標。
隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)的重要性也逐漸顯現(xiàn),如何保護這些數(shù)據(jù)的安全,成為新信息時代的主要問題。第一要在限制成本的情況下確保系統(tǒng)各項性能;第二要確保在各項數(shù)據(jù)分析渠道中對數(shù)據(jù)采取保護;第三要對系統(tǒng)中可能存在的攻擊類型進行分析和研究,這樣才能對數(shù)據(jù)進行更好的保護,從而保證數(shù)據(jù)的安全性。
利用云架構(gòu)對數(shù)據(jù)進行分析時最主要的是必須確保數(shù)據(jù)在云端。為了確保數(shù)據(jù)可以上傳到云端,一般會利用廣域網(wǎng)優(yōu)化組合的技術(shù)方法,這些方法主要包括刪除重復(fù)數(shù)據(jù)、優(yōu)化緩存、壓縮等。其中壓縮技術(shù)可以方便廣域網(wǎng)的優(yōu)化,其效果主要取決于被壓縮的數(shù)據(jù)類型。另外減少傳輸數(shù)據(jù)的方法就是對重復(fù)數(shù)據(jù)進行刪除,其核心技術(shù)就是冗余消除。
大數(shù)據(jù)的出現(xiàn)徹底改變了數(shù)據(jù)存儲的系統(tǒng)架構(gòu),促進這種改變主要包括兩個因素,分別是可量測性和處理大數(shù)據(jù)的需要。分布式系統(tǒng)主要是對數(shù)據(jù)進行存儲,在這個系統(tǒng)中數(shù)據(jù)被存儲為64M的文件布局。在系統(tǒng)中,GFS頂端主要使用MAP/Reduce對節(jié)點處的數(shù)據(jù)進行處理,這對于數(shù)據(jù)的處理提供了有效的推動作用。其中對于數(shù)據(jù)的存儲和管理應(yīng)用最普遍的是Hadoop,而對于Hadoop最主要的核心部件是Map/Rdeuce工具以及Hadoop分布式文件系統(tǒng)。
Hadoop是一種支持可靠地可升級的分布式計算,是一種云計算架構(gòu)。它主要是以GFS以及Map/Reduce為技術(shù)基礎(chǔ)。Hadoop的三個主要組成部分是分布式文件系統(tǒng)、Map/Reduce工具以及其他模塊,其中最主要的核心部件就是Map/Reduce工具和Hadoop分布式文件系統(tǒng),圖1是Hadoop的體系結(jié)構(gòu)分布圖。數(shù)據(jù)庫、查詢以及協(xié)調(diào)服務(wù)是Hadoop模塊發(fā)展較大的幾個模塊。
圖1 Hadoop的體系結(jié)構(gòu)
數(shù)據(jù)庫系統(tǒng):ApacheHive是一個數(shù)據(jù)庫系統(tǒng),它的主要功能是對存儲的數(shù)據(jù)進行查詢匯總和分析。Hive解決了Map/Reduce功能不易于保護和重復(fù)利用的缺點,Hive提供了完成數(shù)據(jù)操作的方法,這種操作方法主要是利用Hive自身的查詢語言,因此不必再對Map/Reduce功能進行編寫。Hive將數(shù)據(jù)分成表、分區(qū)以及塊,其中一個表包括行和列。塊內(nèi)的分區(qū)被散列分隔開來,并由驅(qū)動器完成包括從編譯到執(zhí)行的全部工作,圖2為Hive系統(tǒng)架構(gòu)圖。
圖2 Hive系統(tǒng)架構(gòu)
數(shù)據(jù)分析平臺:Apachepig是大型的數(shù)據(jù)分析平臺,它是以Hadoop中Map/Reduce程序的高層語言為基礎(chǔ)的。數(shù)據(jù)分析平臺中的Pig主要是用來降低編寫Map/Reduce的復(fù)雜性的,同時可以將特殊的查詢方法考慮進去。
非關(guān)系類型數(shù)據(jù)庫:HBase是分布式的,主要是以列為主,而HBase主要是在Hadoop分布式文件系統(tǒng)上運行的。HBase提供的是分布式數(shù)據(jù)存儲,由于HBase建立在HDFS上,所以它是具有容錯功能的。
協(xié)調(diào)服務(wù):ZooKeeper主要提供的是協(xié)調(diào)服務(wù),同時可以利用Hadoop實現(xiàn)同步。ZooKepper對信息進行保存,這些信息主要包括數(shù)據(jù)和空間。同時ZooKeeper可以根據(jù)需要來恢復(fù)客戶端的應(yīng)用程序,其優(yōu)點在于與Hadoop保持同步。
另外列數(shù)據(jù)庫主要是指Cassandra系統(tǒng),主要有Facebook發(fā)展而來。在Cassandra中最小的數(shù)據(jù)部分是列,一行包括多個列,列族包括行,鍵間距包含列族。其中列族存儲在單獨的文件中。數(shù)據(jù)在里面并不是均勻分布的,節(jié)點可以通過調(diào)整來緩解處于壓力下的節(jié)點。
數(shù)據(jù)的不斷增加和快速增加成為大數(shù)據(jù)對于存儲技術(shù)以及處理的首要挑戰(zhàn)。云計算技術(shù)成為了主要的計算模式,為數(shù)據(jù)的研究和應(yīng)用提供了技術(shù)支持。目前Hadoop已經(jīng)成為處理大數(shù)據(jù)的關(guān)鍵方案,然而面臨持續(xù)增加的數(shù)據(jù)量,以及用戶要求的不斷提高,我們需要對云計算處理技術(shù)不斷的進行研究和開發(fā),從而適應(yīng)大數(shù)據(jù)時代的要求。本文通過對大數(shù)據(jù)以及云計算概念以及兩者之間關(guān)系的分析,提出了大數(shù)據(jù)時代面臨的挑戰(zhàn),同時對云計算技術(shù)對大數(shù)據(jù)處理進行了分析,希望可以為云計算技術(shù)的不斷提升提供參考性價值。
[1]張蕾.基于云計算的大數(shù)據(jù)處理技術(shù)[J].信息系統(tǒng)工程,2014.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013.
[3]馮海超.透視美國大數(shù)據(jù)爆發(fā)全景[J].互聯(lián)網(wǎng)周刊,2013.