陳林琳
摘要:隨著社會(huì)的發(fā)展傳統(tǒng)的數(shù)據(jù)分析法已經(jīng)很難滿足海量電信數(shù)據(jù)發(fā)展的需求,于是人們開始研究各種云計(jì)算平臺(tái),而Hadoop又是一個(gè)開源框架并且可實(shí)現(xiàn)大規(guī)模分布式計(jì)算,其主要優(yōu)點(diǎn)是高效、可靠、可伸縮性強(qiáng),因此在云計(jì)算領(lǐng)域得到了廣泛應(yīng)用。為了更好地提高其分析與計(jì)算海量數(shù)據(jù)的效率,該文首先分析研究了云計(jì)算與Hadoop,并在此基礎(chǔ)上提出了一種分布式云計(jì)算海量數(shù)據(jù)的方法,建立了一個(gè)基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)。實(shí)踐證明該平臺(tái)能夠有效管理與分析海量電信數(shù)據(jù),大大提高海量電信數(shù)據(jù)的分析速度。
關(guān)鍵詞:Hadoop;海量數(shù)據(jù);云計(jì)算平臺(tái);研究
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)34-0006-02
隨著通信技術(shù)的不斷發(fā)展,用戶使用的通信設(shè)備也越來越多,在通信的過程中產(chǎn)生的各類數(shù)據(jù)正在飛速增長,要想使這些通信設(shè)備更好地服務(wù)于社會(huì),必須提高分析與處理這些數(shù)據(jù)的效率,而傳統(tǒng)的關(guān)系型數(shù)據(jù)管理方法顯然已經(jīng)無法滿足通訊業(yè)發(fā)展的需求,這就給電信運(yùn)營商的數(shù)據(jù)分析與管理提出了更高要求,因此如何快捷、高效、安全的分析與管理這些海量數(shù)據(jù),已經(jīng)成為當(dāng)今社會(huì)各數(shù)據(jù)工作著研究的重點(diǎn)內(nèi)容,為此本文主要對(duì)基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)進(jìn)行了研究。
1 相關(guān)技術(shù)簡介
1.1 云計(jì)算
云計(jì)算是在綜合了并行計(jì)算、分布式計(jì)算、網(wǎng)絡(luò)計(jì)算的基礎(chǔ)上發(fā)展而來的,它主要是通過利用大量計(jì)算機(jī)構(gòu)成資源池來分析與計(jì)算相關(guān)任務(wù)的,各種計(jì)算任務(wù)的存儲(chǔ)空間以及信息服務(wù)在這個(gè)資源池中都可以根據(jù)自身的需求獲取。并且這個(gè)資源池具有安全可靠、價(jià)格低廉的優(yōu)點(diǎn)。依照提供服務(wù)的不同,可把云計(jì)算分為SaaS.(軟件即服務(wù))、PaaS(平臺(tái)即服務(wù))、LaaS(基礎(chǔ)設(shè)施即服務(wù)),數(shù)據(jù)是云計(jì)算的主要中心,其在數(shù)據(jù)的處理編程方面具有獨(dú)特優(yōu)勢。
1.2 Hadoop
Hadoop是一種分布式計(jì)算開源框架,其主要是通過大計(jì)算池的搭建,來提高海量數(shù)據(jù)的計(jì)算速度,它是一種解決云計(jì)算問題的低成本方案。Google云計(jì)算可以通過 Hadoop來實(shí)現(xiàn)。Hadoop Common , HDFS和MapReduce 是Hadoop的主要核心,還有一些其他子項(xiàng)目在Hadoop中做其相關(guān)的補(bǔ)充作用。Hadoop技術(shù)棧如下圖所示,可擴(kuò)展、經(jīng)濟(jì)、可靠、高效是Hadoop的主要優(yōu)點(diǎn),目前很多大型網(wǎng)站有在應(yīng)用Hadoop。
2 基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)設(shè)計(jì)
2.1 平臺(tái)設(shè)計(jì)的目的與原則
利用Hadoop通過低廉設(shè)備就可以處理海量數(shù)據(jù)的優(yōu)勢,可以通過采用一些低端PC服務(wù)器來搭建一個(gè)Hadoop云計(jì)算平臺(tái),來分析與處理海量電信數(shù)據(jù),進(jìn)而把分析與處理數(shù)據(jù)的速度與效率提高,來提供一些即時(shí)準(zhǔn)確的信息供業(yè)務(wù)決策參考,同時(shí)降低公司生產(chǎn)成本是設(shè)計(jì)Hadoop云計(jì)算平臺(tái)的主要目的。此項(xiàng)平臺(tái)設(shè)計(jì)要遵循安全、高效、經(jīng)濟(jì)的原則。
2.2 平臺(tái)框架結(jié)構(gòu)
1)數(shù)據(jù)層
網(wǎng)絡(luò)域數(shù)據(jù)與業(yè)務(wù)支撐域數(shù)據(jù)是海量電信數(shù)據(jù)主要包括的兩個(gè)方面,其中Gb口數(shù)據(jù)、A口數(shù)據(jù)、WLAN數(shù)據(jù)是網(wǎng)絡(luò)域數(shù)據(jù)主要包括的內(nèi)容,客戶信息、客戶業(yè)務(wù)訂購數(shù)據(jù)、客戶消費(fèi)數(shù)據(jù)等是業(yè)務(wù)域數(shù)據(jù)主要包括的內(nèi)容。其中這些數(shù)據(jù)主要存儲(chǔ)在Hadoop中的HDFS內(nèi),采用Hbase、Hive、Pig來處理與管理這些數(shù)據(jù),統(tǒng)計(jì)指標(biāo)用類SQL語言定義,通過生成MapReduce任務(wù)來計(jì)算與處理這些數(shù)據(jù),在HDFS中存儲(chǔ)處理結(jié)果。其具體框架結(jié)構(gòu)如圖2所示。
2)模型層
基于Hadoop的ETL處理是模型層的主要構(gòu)建方法,構(gòu)建分析模型如客戶位置信息、上網(wǎng)行為模型等,有助于更好的分析客戶各方面的實(shí)際情況,以便數(shù)據(jù)庫能更好地為客戶需求服務(wù)。
2.3 平臺(tái)功能模塊
用戶管理、數(shù)據(jù)管理、任務(wù)管理、集群管理這些是海量電信數(shù)據(jù)云計(jì)算平臺(tái)主要的功能模塊。它們各自的功能主要如下:
用戶管理模塊:主要是用來管理用戶信息的,如用戶開通賬號(hào)、身份認(rèn)證、權(quán)限管理等等。
數(shù)據(jù)管理模塊:主要是用來上傳、下載或刪除數(shù)據(jù)的。
任務(wù)管理模塊:主要是用來管理系統(tǒng)的各項(xiàng)任務(wù)的,如任務(wù)申請,資源分配等等
集群管理模塊:主要是用來管理Hadoop集群狀態(tài),任務(wù)的執(zhí)行情況等等。
2.4 平臺(tái)安全機(jī)制
由于Hadoop的各集群節(jié)點(diǎn)能夠互通,采用的是統(tǒng)一的賬號(hào)來操作Hadoop集群的各節(jié)點(diǎn),加之電信數(shù)據(jù)本身具有敏感性,只靠Hadoop自身機(jī)制難以安全有效的控制數(shù)據(jù),這樣就存在了安全隱患,為把安全風(fēng)險(xiǎn)降到最低,更好的防范安全事故,應(yīng)利用必要的安全機(jī)制來管理平臺(tái)數(shù)據(jù)。
1)平臺(tái)自身安全管理
把Hadoop集群網(wǎng)絡(luò)劃成許多局域網(wǎng),給這些局域網(wǎng)設(shè)置防火墻,出口只采用NameNode,由它與外部通信,訪問內(nèi)部節(jié)點(diǎn)也由它來實(shí)現(xiàn)。
2)賬號(hào)安全管理
對(duì)平臺(tái)管理員賬號(hào)必須嚴(yán)格管理,對(duì)于一些登陸口令之類的要經(jīng)常更換,要把操作Hadoop集群的賬號(hào)與傳輸數(shù)據(jù)的賬號(hào)分開進(jìn)行管理,并且對(duì)其訪問權(quán)限要進(jìn)行嚴(yán)格控制,要及時(shí)保存操作各賬號(hào)的記錄,并且要定期進(jìn)行審計(jì)。
3)數(shù)據(jù)安全管理
由于電信數(shù)據(jù)可能包括一些個(gè)人隱私內(nèi)容,其數(shù)據(jù)具有敏感性,因此必須把這類數(shù)據(jù)的保密工作做好,具體的安全管理措施有實(shí)時(shí)記錄數(shù)據(jù)進(jìn)出、分存分放、加密傳輸、定期審計(jì)等等。
3 平臺(tái)的部分實(shí)現(xiàn)
底層Hadoop集群部署的實(shí)現(xiàn),采用1個(gè)NameNode服務(wù)器、1個(gè)JobTracker服務(wù)器、4個(gè)DataNode服務(wù)器作為底層Hadoop集群,安裝Hadoop的過程為:lost文件的配置、新建Hadoop目錄與用戶、配置SSH免密碼登錄。
4 結(jié)束語
本文主要針對(duì)傳統(tǒng)數(shù)據(jù)分析法分析海量電信數(shù)據(jù)效率低、分析能力差等問題,提出了基于Hadoop的分布式云計(jì)算方法,并且設(shè)計(jì)了基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái),通過大量的實(shí)踐表明,本文提出的方法不但能順利完成海量數(shù)據(jù)的分析計(jì)算,而且還能大大提高數(shù)據(jù)的計(jì)算速度,具有很大的實(shí)用性,同時(shí)為今后進(jìn)一步研究Hadoop在海量電信數(shù)據(jù)云計(jì)算平臺(tái)的應(yīng)用打下了良好基礎(chǔ)。具有很高的應(yīng)用與推廣價(jià)值。
參考文獻(xiàn):
[1] White T. Hadccp: the Definitive Guide. O'Rcillly Media, Ine., 2009.
[2] 張建勛,古志民,鄭超.云計(jì)算研究進(jìn)展綜述.計(jì)算機(jī)應(yīng)用研究.2010,27(2):429-433.
[3] 施巖.云計(jì)算研究及Hadoop應(yīng)用程序的開發(fā)與測試,北京京郵電大學(xué),2011.
[4] 張少敏,李曉強(qiáng),王保義.淺談提高城市配電網(wǎng)供電可靠性的措施[J].華北電力技術(shù),2007(5).
[5] 劉鵬,黃宜華,陳衛(wèi)衛(wèi).實(shí)戰(zhàn)Hadoop—開啟通向云計(jì)算的捷徑[M].北京電子工業(yè)出版社,2011.
[6] 李文海,許舒人.基于Hadoop的電子商務(wù)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2014(1).