王青江?劉哲?鄭林琳?劉雨濛
【摘要】:文章以大數(shù)據(jù)與云計(jì)算分析的結(jié)合這一熱點(diǎn)問(wèn)題為研究背景,分析了大數(shù)據(jù)背景下數(shù)據(jù)存儲(chǔ)特點(diǎn)和面臨的相關(guān)問(wèn)題,進(jìn)而介紹了大數(shù)據(jù)分析以及面臨的挑戰(zhàn)。在此基礎(chǔ)上對(duì)基于云計(jì)算的大數(shù)據(jù)分析關(guān)鍵技術(shù)以及目前的解決方案進(jìn)行了探討。
【關(guān)鍵詞】:大數(shù)據(jù);云計(jì)算;大數(shù)據(jù)分析
隨著通信行業(yè)競(jìng)爭(zhēng)的不斷加劇,運(yùn)營(yíng)商如何有效地利用龐大的信令數(shù)據(jù)進(jìn)一步實(shí)現(xiàn)深度運(yùn)營(yíng)和精確營(yíng)銷(xiāo)已經(jīng)成為當(dāng)務(wù)之急,急需一種可控投入就可滿(mǎn)足可控信令數(shù)據(jù)存儲(chǔ),并能高效地對(duì)其分析、挖掘信令數(shù)據(jù)價(jià)值的數(shù)據(jù)平臺(tái)。BigData”大數(shù)據(jù)”是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,對(duì)國(guó)家治理模式,對(duì)企業(yè)決策、組織和業(yè)務(wù)流程,對(duì)個(gè)人生活方式都將產(chǎn)生巨大的影響。在研究領(lǐng)域,麥肯錫認(rèn)為,數(shù)據(jù)已成為流入全球經(jīng)濟(jì)每一個(gè)領(lǐng)域的洪流。大數(shù)據(jù)完全能夠成為企業(yè)的新型資產(chǎn),形成競(jìng)爭(zhēng)力的重要基礎(chǔ),并發(fā)揮重要的經(jīng)濟(jì)作用。IDC認(rèn)為,大數(shù)據(jù)處理將在2012年成為一項(xiàng)必備能力。Gartner認(rèn)為,2015年超過(guò)85%的財(cái)富500強(qiáng)企業(yè)將在大數(shù)據(jù)競(jìng)爭(zhēng)中失去優(yōu)勢(shì)。2012年3月,奧巴馬政府發(fā)布了“大數(shù)據(jù)發(fā)展計(jì)劃”,并將其定義為“未來(lái)的新石油”。這一系列事件使得大數(shù)據(jù)成為又一個(gè)炙手可熱的名詞。電信運(yùn)營(yíng)商引入大數(shù)據(jù)技術(shù),通過(guò)可控的成本實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)分層的同時(shí),通過(guò)縮短數(shù)據(jù)處理路徑和提供超大數(shù)據(jù)處理帶寬,有效減少數(shù)據(jù)分析響應(yīng)時(shí)間,提升信令分析的業(yè)務(wù)價(jià)值,增強(qiáng)運(yùn)營(yíng)商核心競(jìng)爭(zhēng)力
云計(jì)算是網(wǎng)格計(jì)算、并行計(jì)算、分布式計(jì)算的發(fā)展。云計(jì)算把大量的存儲(chǔ)和計(jì)算資源,通過(guò)網(wǎng)絡(luò)連接起來(lái)進(jìn)行統(tǒng)一的管理和調(diào)度,構(gòu)成一個(gè)資源池隨時(shí)向用戶(hù)提供按需服務(wù)。利用“云”,用戶(hù)可以通過(guò)網(wǎng)絡(luò)方便的獲取強(qiáng)大的計(jì)算能力、存儲(chǔ)能力以及基礎(chǔ)設(shè)施服務(wù)等。云計(jì)算作為一種數(shù)據(jù)密集型的新型超級(jí)計(jì)算,其技術(shù)實(shí)質(zhì)是存儲(chǔ)、計(jì)算、服務(wù)器、應(yīng)用軟件等IT軟硬件資源的虛擬化。云計(jì)算在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理和虛擬化等方面具有自身獨(dú)特的技術(shù)。
云計(jì)算技術(shù)的基礎(chǔ)是信息存儲(chǔ)的安全可靠性和讀寫(xiě)的高效性。云計(jì)算采用分布式存儲(chǔ)技術(shù)把海量的數(shù)據(jù)存儲(chǔ)在服務(wù)器集群中,同時(shí)為一份數(shù)據(jù)存儲(chǔ)多份備份,采用冗余存儲(chǔ)的方式和數(shù)據(jù)加密技術(shù)來(lái)保證數(shù)據(jù)的安全可靠性,Google非開(kāi)源的GFS和Hadoop團(tuán)隊(duì)開(kāi)發(fā)的GFS的開(kāi)源實(shí)現(xiàn)HDFS是云計(jì)算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲(chǔ)系統(tǒng)。
云計(jì)算為大數(shù)據(jù)處理提供了一個(gè)很好的平臺(tái)。大數(shù)據(jù)離不開(kāi)云計(jì)算,云計(jì)算是大數(shù)據(jù)處理方式的最佳選擇。云計(jì)算能為大數(shù)據(jù)提供了強(qiáng)大的存儲(chǔ)和計(jì)算能力,能夠更加迅速地處理大數(shù)據(jù)的豐富信息,并更方便地提供服務(wù)。云計(jì)算強(qiáng)調(diào)的是計(jì)算,而大數(shù)據(jù)則是計(jì)算的對(duì)象。前者強(qiáng)調(diào)的是計(jì)算能力,后者看重的存儲(chǔ)能力。大數(shù)據(jù)需要處理大數(shù)據(jù)的能力,而這種能力其實(shí)就是強(qiáng)大的云計(jì)算能力;而來(lái)自大數(shù)據(jù)的業(yè)務(wù)需求,也為云計(jì)算的實(shí)施找到更多更好的實(shí)際應(yīng)用。
在大數(shù)據(jù)背景下,首先需要考慮的就是數(shù)據(jù)的存儲(chǔ)問(wèn)題,傳統(tǒng)的以關(guān)系數(shù)據(jù)庫(kù)為基礎(chǔ)的存儲(chǔ)技術(shù)和方法已無(wú)法滿(mǎn)足數(shù)據(jù)大量以及多樣化的存儲(chǔ)需求。對(duì)于存儲(chǔ)大數(shù)據(jù)來(lái)說(shuō),分布式文件系統(tǒng)是一個(gè)可能的解決方案。在數(shù)據(jù)分析的背景下,分布式模型的優(yōu)勢(shì)一方面在于有效利用各集群節(jié)點(diǎn)的計(jì)算,另一方面,它提供了對(duì)任何數(shù)據(jù)進(jìn)行測(cè)量的可能。
大數(shù)據(jù)的一個(gè)主要問(wèn)題是其規(guī)模的巨大。世界上的數(shù)據(jù)正越來(lái)越快的速度增長(zhǎng)。云計(jì)算提供了一個(gè)解決方案,以此來(lái)滿(mǎn)足可量測(cè)性的需求,這個(gè)系統(tǒng)主要是將得到的數(shù)據(jù)傳送到云后開(kāi)始處理。使用標(biāo)準(zhǔn)的互聯(lián)網(wǎng)連接將數(shù)據(jù)上傳到云,是這個(gè)過(guò)程中的一個(gè)重要瓶頸。新技術(shù)需要研究和開(kāi)發(fā),以提高數(shù)據(jù)傳送到云的運(yùn)動(dòng)效率。大數(shù)據(jù)存儲(chǔ)的一個(gè)重要問(wèn)題是存儲(chǔ)的類(lèi)型。使用云方法時(shí),傳統(tǒng)的數(shù)據(jù)庫(kù)不適合發(fā)揮云的可量測(cè)性的優(yōu)勢(shì)。目前存在的系統(tǒng)雖然可以處理可量測(cè)性,但是它以犧牲關(guān)系模型提供的許多功能為代價(jià),新的系統(tǒng)需要仔細(xì)考慮這些功能的需要,同時(shí)提供一個(gè)可測(cè)量的數(shù)據(jù)庫(kù)模型。
大數(shù)據(jù)改變了數(shù)據(jù)存儲(chǔ)的系統(tǒng)架構(gòu),促使這種轉(zhuǎn)變有兩個(gè)主要因素:一是基于需要高度的可量測(cè)性;二是靈活有效地處理大數(shù)據(jù)的需要。對(duì)于存儲(chǔ)來(lái)說(shuō),分布式系統(tǒng),如谷歌文件系統(tǒng),被設(shè)計(jì)成可靠的和有效的集群存儲(chǔ)。在這個(gè)系統(tǒng)中,數(shù)據(jù)通過(guò)群集節(jié)點(diǎn)被存儲(chǔ)為64M的文件布局。兩個(gè)額外的副本被存儲(chǔ)用來(lái)提供備份。在GFS的頂端,Map/Reduce用于節(jié)點(diǎn)之間的數(shù)據(jù)處理,這更有效地推動(dòng)該處數(shù)據(jù)的計(jì)算。Map/Reduce通過(guò)向數(shù)據(jù)所在的群節(jié)點(diǎn)發(fā)送指令,來(lái)充分利用文件系統(tǒng)的分布式體系結(jié)構(gòu)。目前關(guān)于由谷歌處理大型數(shù)據(jù)集發(fā)展而來(lái)的Map/Reduce范式已經(jīng)有了大量的研究,這主要是歸因于兩方面:處理功能簡(jiǎn)單和操作(復(fù)制、存儲(chǔ)等)無(wú)挑戰(zhàn)。應(yīng)用最普遍的當(dāng)屬Hadoop,Map/Reduce工具和Hadoop分布式文件系統(tǒng)是其兩個(gè)最核心的部件。然而,Map/Reduce范式從根本上是反對(duì)這個(gè)構(gòu)架的,無(wú)論在指數(shù)還是圖式上。基于這些問(wèn)題的解決,促使建立在Hadoop核心部件上的幾個(gè)系統(tǒng)有了較快發(fā)展。
參考文獻(xiàn):
[1]李欲曉.云計(jì)算大數(shù)據(jù)時(shí)代個(gè)人隱私保護(hù)刻不容緩[J].理論導(dǎo)報(bào),2013,(7).
[2]張蕾.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)[J].信息系統(tǒng)工程,2014,(4).
[3]韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué),2013.
[4]李韌.基于Hadoop的大規(guī)模語(yǔ)義Web本體數(shù)據(jù)查詢(xún)與推理關(guān)鍵技術(shù)研究[D].重慶大學(xué),2013.
[5]成靜靜,喻朝新.基于云計(jì)算的大數(shù)據(jù)統(tǒng)一分析平臺(tái)研究與設(shè)計(jì)[J].廣東通信技術(shù),2013,(1).
[6]迪莉婭.基于云計(jì)算的電子政務(wù)大數(shù)據(jù)管理研究[J].信息管理與信息學(xué),2013,12:50-51.
[7]吳雪琴,基于云計(jì)算的大數(shù)據(jù)信息檢索技術(shù)研究[J].電腦知
識(shí)與技術(shù),2014,10(10):38-41.
[8]馮海超.透視美國(guó)大數(shù)據(jù)爆發(fā)全景[J].互聯(lián)網(wǎng)周刊,2013(1):38-41.