黎宏劍,劉 恒,黃廣文,卜 立
(中國(guó)移動(dòng)通信集團(tuán)廣東有限公司中山分公司 中山 528403)
隨著3G時(shí)代的來(lái)臨,移動(dòng)業(yè)務(wù)日益豐富,用戶在使用移動(dòng)業(yè)務(wù)過(guò)程中產(chǎn)生的各類數(shù)據(jù)以TB級(jí)速度增長(zhǎng)。面對(duì)激烈的市場(chǎng)競(jìng)爭(zhēng),如何快捷、高效、安全地管理和分析海量的業(yè)務(wù)數(shù)據(jù),深度挖掘業(yè)務(wù)特征,實(shí)行精確營(yíng)銷策略,成為電信運(yùn)營(yíng)商確保競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵舉措之一。
目前,面對(duì)海量的業(yè)務(wù)數(shù)據(jù),電信運(yùn)營(yíng)商存在管理和分析難的問(wèn)題。業(yè)務(wù)數(shù)據(jù)的管理要求高效存儲(chǔ)、高效讀取、高可用性及高擴(kuò)展性架構(gòu),業(yè)務(wù)數(shù)據(jù)每天以TB級(jí)速度增長(zhǎng),基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)管理難以滿足其要求,或需付出高昂的成本代價(jià)實(shí)現(xiàn)。對(duì)業(yè)務(wù)特征的挖掘分析,往往涉及網(wǎng)絡(luò)域和業(yè)務(wù)支撐域的大數(shù)據(jù)以及這些大數(shù)據(jù)之間的關(guān)聯(lián)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)對(duì)這些大數(shù)據(jù)的運(yùn)算需要搭配高性能的機(jī)器,運(yùn)算時(shí)間長(zhǎng),分析結(jié)果存在嚴(yán)重滯后性,直接導(dǎo)致錯(cuò)過(guò)了對(duì)相應(yīng)行為采取有效措施的最佳時(shí)機(jī)。
Hadoop分布式技術(shù)的發(fā)展為解決上述問(wèn)題提供了技術(shù)手段。Hadoop是一個(gè)在集群上運(yùn)行大型數(shù)據(jù)庫(kù)處理應(yīng)用程序的開(kāi)放式源代碼框架,采用MapReduce編程模型對(duì)海量數(shù)據(jù)進(jìn)行有效分割和合理分配,以實(shí)現(xiàn)高效并行處理,并行程序編寫簡(jiǎn)單,節(jié)省時(shí)間。Hadoop分布式云計(jì)算平臺(tái)對(duì)硬件配置要求不高,具有可伸縮性和高容錯(cuò)性,實(shí)施成本低。本文在研究云計(jì)算和Hadoop的基礎(chǔ)上,設(shè)計(jì)并部分實(shí)現(xiàn)了基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)。
云計(jì)算基于互聯(lián)網(wǎng)相關(guān)服務(wù)的增加、使用和交付模式,是并行計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算綜合發(fā)展的結(jié)果。它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和信息服務(wù),具有數(shù)據(jù)安全可靠、可共享、擴(kuò)展性強(qiáng)、規(guī)模大、價(jià)格低廉等特點(diǎn)。按照提供服務(wù)的不同,云計(jì)算分為SaaS(software as a service,軟件即服務(wù))、PaaS(platform as a service,平 臺(tái) 即 服務(wù))和 IaaS(infrastructure as a service,基礎(chǔ)設(shè)施即服務(wù))3類。云計(jì)算以數(shù)據(jù)為中心,在并行數(shù)據(jù)處理、編程模式和虛擬化等方面具有獨(dú)特的技術(shù)。
Hadoop是由Apache基金會(huì)組織開(kāi)發(fā)的分布式計(jì)算開(kāi)源框架,利用低廉設(shè)備搭建大計(jì)算池,以提高分析海量數(shù)據(jù)的速度和效率,是低成本的云計(jì)算解決方案。其模仿和實(shí)現(xiàn)了Google云計(jì)算的主要技術(shù),包括HDFS(Hadoop distributed file system,Hadoop 分布式文件系統(tǒng))、MapReduce、HBase、ZooKeeper等,分別對(duì)應(yīng)于Google成熟商用云計(jì)算平臺(tái)的GFS(Googlefilesystem,Google文件系統(tǒng))、MapReduce、BigTable、Chubby,支持通過(guò) Google的MapReduce編程范例創(chuàng)建并執(zhí)行應(yīng)用程序。
Hadoop是相關(guān)子項(xiàng)目的集合,核心是Hadoop Common、HDFS和MapReduce,其他子項(xiàng)目提供補(bǔ)充性服務(wù)。Hadoop技術(shù)棧如圖1所示,具體介紹如下。
圖1 Hadoop技術(shù)棧
Hadoop Common:支撐Hadoop的公共部分,是最底層的模塊,為其他子項(xiàng)目提供各種工具。
HDFS:是一個(gè)主從 (master/slave)結(jié)構(gòu),由一個(gè)NameNode(名稱節(jié)點(diǎn))和若干個(gè) DataNode(數(shù)據(jù)節(jié)點(diǎn))構(gòu)成,NameNode管理文件系統(tǒng)的元數(shù)據(jù),DataNode存儲(chǔ)實(shí)際數(shù)據(jù)。
MapReduce:處理海量數(shù)據(jù)的并行編程模型和計(jì)算框架,采用“分而治之”思想,包括分解任務(wù)的map函數(shù)和匯總結(jié)果的reduce函數(shù),MapReduce任務(wù)由一個(gè)JobTracker和若干個(gè)TaskTracker控制完成,JobTracker負(fù)責(zé)調(diào)度和管理TaskTracker,TaskTracker負(fù)責(zé)執(zhí)行任務(wù)。
Pig:SQL-like語(yǔ)言,是在MapReduce上構(gòu)建的一種高級(jí)查詢語(yǔ)言,以簡(jiǎn)化MapReduce任務(wù)的開(kāi)發(fā)。
Hive:數(shù)據(jù)倉(cāng)庫(kù)工具,提供SQL查詢功能。
Hbase:基于列存儲(chǔ)模型的分布式數(shù)據(jù)庫(kù)。
ZooKeeper:針對(duì)分布式系統(tǒng)的協(xié)調(diào)服務(wù)。
Chukwa:分布式數(shù)據(jù)收集和分析系統(tǒng)。
Avro:提供高效、跨語(yǔ)言RPC的數(shù)據(jù)序列系統(tǒng),持久化數(shù)據(jù)存儲(chǔ)。
Hadoop具有可擴(kuò)展、高容錯(cuò)、經(jīng)濟(jì)、可靠、高效的優(yōu)點(diǎn),被廣泛應(yīng)用在云計(jì)算領(lǐng)域,在Yahoo、Facebook、支付寶、人人網(wǎng)等大型網(wǎng)站上都已經(jīng)得到了應(yīng)用,是目前應(yīng)用最為廣泛、成熟的開(kāi)源云計(jì)算平臺(tái)。
目前,電信運(yùn)營(yíng)商對(duì)海量電信數(shù)據(jù)的分析都是基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),這種分析方法依賴于高性能機(jī)器,分析時(shí)間長(zhǎng)、效率不高,直接影響了業(yè)務(wù)決策時(shí)機(jī)。
針對(duì)這些問(wèn)題,結(jié)合海量電信數(shù)據(jù)的特點(diǎn),本文提出利用Hadoop云計(jì)算技術(shù)對(duì)海量電信數(shù)據(jù)進(jìn)行分析的方法,該方法通過(guò)構(gòu)建基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái),采用MapReduce編程模型加強(qiáng)對(duì)數(shù)據(jù)的管理,提高數(shù)據(jù)分析的速度和效率,解決了電信運(yùn)營(yíng)商對(duì)海量電信數(shù)據(jù)管理和分析難的問(wèn)題。
海量電信數(shù)據(jù)云計(jì)算平臺(tái)的設(shè)計(jì)目標(biāo)是利用Hadoop基于低廉設(shè)備的海量數(shù)據(jù)處理優(yōu)勢(shì),利用一批下線的低端PC服務(wù)器搭建Hadoop云計(jì)算平臺(tái),支撐海量電信數(shù)據(jù)的分析需求,提高數(shù)據(jù)分析的速度和效率,達(dá)到為業(yè)務(wù)決策提供即時(shí)、準(zhǔn)確信息的目的,同時(shí)為公司節(jié)約投資成本。
平臺(tái)的設(shè)計(jì)原則包括:經(jīng)濟(jì)原則,充分利用現(xiàn)有資源搭建平臺(tái)基礎(chǔ)設(shè)施,根據(jù)Hadoop對(duì)硬件要求不高的特點(diǎn),采用一批下線低端PC服務(wù)器搭建Hadoop集群;高效原則,充分利用云計(jì)算平臺(tái)的特性,提高海量電信數(shù)據(jù)的處理效率;安全原則,在平臺(tái)設(shè)計(jì)過(guò)程中,必須充分考慮平臺(tái)的自身安全和信息安全,采取必要措施,規(guī)避安全風(fēng)險(xiǎn)。
結(jié)合海量電信數(shù)據(jù)自身的特點(diǎn),海量電信數(shù)據(jù)云計(jì)算平臺(tái)在設(shè)計(jì)上采用分布式、分層結(jié)構(gòu),可以劃分為數(shù)據(jù)層、模型層、應(yīng)用層3層結(jié)構(gòu),如圖2所示。
(1)數(shù)據(jù)層
海量電信數(shù)據(jù)包括網(wǎng)絡(luò)域數(shù)據(jù)和業(yè)務(wù)支撐域數(shù)據(jù)。其中,網(wǎng)絡(luò)域數(shù)據(jù)包括Gb口數(shù)據(jù)、A口數(shù)據(jù)、WLAN數(shù)據(jù)等;業(yè)務(wù)支持域數(shù)據(jù)包括客戶信息、客戶業(yè)務(wù)訂購(gòu)數(shù)據(jù)、客戶消費(fèi)數(shù)據(jù)等客戶基本數(shù)據(jù)。數(shù)據(jù)層通過(guò)Hadoop的HDFS存儲(chǔ)這些數(shù)據(jù),然后利用 Hbase、Hive、Pig、ZooKeeper等數(shù)據(jù)處理和管理工具,用類SQL語(yǔ)言定義統(tǒng)計(jì)指標(biāo),動(dòng)態(tài)生成MapReduce任務(wù)進(jìn)行計(jì)算和聚合,對(duì)海量電信數(shù)據(jù)進(jìn)行高效處理,處理結(jié)果仍以文件格式存儲(chǔ)在HDFS中,并可導(dǎo)出為所需格式。
客戶會(huì)上,美豐加藍(lán)同與會(huì)客戶探討了市場(chǎng)情況、生產(chǎn)技術(shù)、售后服務(wù)等方面內(nèi)容。今年,美豐加藍(lán)創(chuàng)新設(shè)置了“推廣之星”“潛力之星”和“銷量之星”等三個(gè)獎(jiǎng)項(xiàng),對(duì)在合作過(guò)程中表現(xiàn)突出的優(yōu)秀客戶進(jìn)行表彰獎(jiǎng)勵(lì)。
圖2 海量電信數(shù)據(jù)云計(jì)算平臺(tái)框架結(jié)構(gòu)
(2)模型層
模型層利用數(shù)據(jù)層對(duì)海量電信數(shù)據(jù)進(jìn)行基于Hadoop的ETL處理輸出的匯總數(shù)據(jù),建立分析模型,如客戶位置模型、客戶上網(wǎng)行為模型、客戶短信行為模型、客戶話音行為模型等基礎(chǔ)模型,實(shí)現(xiàn)客戶位置、客戶離網(wǎng)預(yù)警、客戶交往圈等分析應(yīng)用。
(3)應(yīng)用層
應(yīng)用層是利用模型分析得出的結(jié)果,如生活軌跡特征、增值業(yè)務(wù)使用情況、用戶的交往圈特征等,精確定位營(yíng)銷目標(biāo)客戶,設(shè)計(jì)針對(duì)性營(yíng)銷方案,并對(duì)營(yíng)銷效果進(jìn)行評(píng)估分析。
海量電信數(shù)據(jù)云計(jì)算平臺(tái)的功能模塊包括用戶管理、數(shù)據(jù)管理、任務(wù)管理、集群管理4個(gè)模塊,如圖3所示。
·用戶管理模塊:包括賬號(hào)開(kāi)通、身份認(rèn)證、權(quán)限管理、交互控制。
·數(shù)據(jù)管理模塊:包括數(shù)據(jù)的上傳和下載、刪除。
·任務(wù)管理模塊:包括任務(wù)申請(qǐng)、資源申請(qǐng)、結(jié)果反饋。
·集群管理模塊:包括Hadoop集群狀態(tài)和任務(wù)進(jìn)度、節(jié)點(diǎn)管理。
圖3 海量電信數(shù)據(jù)云計(jì)算平臺(tái)的功能模塊
Hadoop集群局域網(wǎng)由 1臺(tái) NameNode服務(wù)器、1臺(tái)Secondary NameNode服務(wù)器、1臺(tái)JobTracker服務(wù)器和多臺(tái)從服務(wù)器組成。
·NameNode服務(wù)器負(fù)責(zé)管理海量數(shù)據(jù)文件的分割、存儲(chǔ)以及監(jiān)控DataNode的運(yùn)行情況。應(yīng)用程序需要讀取數(shù)據(jù)文件,首先訪問(wèn)NameNode服務(wù)器,獲取數(shù)據(jù)文件在各DataNode上的分布,然后直接與DataNode通信。一旦發(fā)現(xiàn)某個(gè)DataNode宕機(jī),NameNode將通知應(yīng)用程序訪問(wèn)宕機(jī)節(jié)點(diǎn)各數(shù)據(jù)塊的副本,并在其他DataNode上增加宕機(jī)節(jié)點(diǎn)各數(shù)據(jù)塊的副本,以保證平臺(tái)的可靠運(yùn)行。
·Secondary NameNode服務(wù)器用來(lái)監(jiān)控HDFS狀態(tài),與NameNode進(jìn)行通信,以便定期保存HDFS元數(shù)據(jù)的快照,若NameNode發(fā)生問(wèn)題,其作為備用NameNode使用。
·JobTracker服務(wù)器負(fù)責(zé)管理計(jì)算任務(wù)的分解和匯總,負(fù)責(zé)監(jiān)控各TaskTracker節(jié)點(diǎn)的運(yùn)行情況,一旦某個(gè)任務(wù)失敗,JobTracker自動(dòng)重新啟動(dòng)這個(gè)任務(wù)。
·從服務(wù)器承擔(dān)了DataNode和TaskTracker兩種角色,分別負(fù)責(zé)數(shù)據(jù)塊的存儲(chǔ)和數(shù)據(jù)計(jì)算的map、reduce任務(wù)的運(yùn)行。
由于Hadoop集群節(jié)點(diǎn)之間是互通的,對(duì)Hadoop集群節(jié)點(diǎn)操作的賬號(hào)是統(tǒng)一的,同時(shí)電信數(shù)據(jù)屬于敏感數(shù)據(jù),Hadoop本身的機(jī)制難以對(duì)數(shù)據(jù)進(jìn)行有效的安全控制,在一定程度上存在安全問(wèn)題。為規(guī)避安全風(fēng)險(xiǎn),防范安全事故的發(fā)生,必須采取相應(yīng)的安全機(jī)制加強(qiáng)對(duì)平臺(tái)和數(shù)據(jù)的安全管理。平臺(tái)采取的安全機(jī)制包括平臺(tái)自身安全管理、賬號(hào)安全管理和數(shù)據(jù)安全管理。
(1)平臺(tái)自身安全管理
將Hadoop集群網(wǎng)絡(luò)劃分為內(nèi)部局域網(wǎng),通過(guò)設(shè)置防火墻策略與其他網(wǎng)絡(luò)進(jìn)行隔離,NameNode作為唯一出口負(fù)責(zé)與外部進(jìn)行通信,內(nèi)部其他節(jié)點(diǎn)通過(guò)NameNode進(jìn)行訪問(wèn)。同時(shí),將NameNode加入堡壘機(jī),將其操作的任何記錄均保存在堡壘機(jī)服務(wù)器中。
(2)賬號(hào)安全管理
嚴(yán)格控制平臺(tái)管理員賬號(hào),定期更換口令;將操作Hadoop集群的賬號(hào)和用于數(shù)據(jù)傳輸?shù)馁~號(hào)分離,嚴(yán)格控制其訪問(wèn)權(quán)限;保存各賬號(hào)的操作記錄,定期審計(jì)。
(3)數(shù)據(jù)安全管理
電信數(shù)據(jù)屬于敏感數(shù)據(jù),必須加強(qiáng)敏感數(shù)據(jù)的保密工作,主要通過(guò)記錄數(shù)據(jù)進(jìn)出、分開(kāi)存放、傳輸加密和記錄人員對(duì)數(shù)據(jù)的操作、定期審計(jì)等措施,對(duì)數(shù)據(jù)進(jìn)行安全管理。
由于時(shí)間和精力有限,本文僅對(duì)海量電信數(shù)據(jù)云計(jì)算平臺(tái)的底層Hadoop集群部署進(jìn)行實(shí)現(xiàn),并通過(guò)實(shí)驗(yàn)論證本文提出的方法及設(shè)計(jì)平臺(tái)的有效性、可行性。
底層 Hadoop集群包括 1個(gè) NameNode服務(wù)器、1個(gè)JobTracker服務(wù)器和4個(gè)DataNode服務(wù)器,設(shè)備配置信息見(jiàn)表 1。
底層Hadoop集群采用Hadoop-0.20.2版本,操作系統(tǒng)為L(zhǎng)inux CentOS 5.6,Hadoop運(yùn)行需要JDK環(huán)境,本文選擇的是jdk1.6.0_31。
表1 集群設(shè)備配置信息
Hadoop的安裝過(guò)程為:配置host文件、新建Hadoop目錄和用戶、安裝JDK及配置環(huán)境變量、配置SSH免密碼登錄、安裝Hadoop及配置。此外,為了增強(qiáng)平臺(tái)的擴(kuò)展性,分別安裝了 Hive-0.8.1、Pig-0.9.2、Hbase-0.20.6、Zookeeper-3.3.3。其中,Hadoop、ZooKeeper和Hbase之間的啟動(dòng)和停止有順序要求,介紹如下。
·啟動(dòng)過(guò)程:啟動(dòng)Hadoop→啟動(dòng) ZooKeeper→啟動(dòng)Hbase。
·停止過(guò)程:停止Hbase→停止ZooKeeper→停止Hadoop。
在部署好的平臺(tái)中進(jìn)行相關(guān)實(shí)驗(yàn),驗(yàn)證本文提出的基于Hadoop的分布式云計(jì)算方法在海量電信數(shù)據(jù)分析方面是否存在優(yōu)勢(shì)。
在分布式和非分布式環(huán)境下,計(jì)算全網(wǎng)客戶的位置信息,主要字段為:IMSI、CGI、時(shí)長(zhǎng)、時(shí)間切片標(biāo)識(shí)。實(shí)驗(yàn)數(shù)據(jù)為網(wǎng)分A口數(shù)據(jù)文件,包括話音數(shù)據(jù)call_20120316.txt(2.2 GB)、短信數(shù)據(jù) SMS_20120316.txt(600 MB)和位置數(shù)據(jù)location_20120316.txt(3.3 GB)。實(shí)驗(yàn)的前提條件是假設(shè)各實(shí)驗(yàn)采用的機(jī)器設(shè)備在配置上都是相同的。
實(shí)驗(yàn)一:采用非分布式計(jì)算(Oracle數(shù)據(jù)庫(kù)),在Oracle環(huán)境下的計(jì)算時(shí)長(zhǎng)大約為4 h。
實(shí)驗(yàn)二:采用分布式計(jì)算,利用單數(shù)據(jù)節(jié)點(diǎn)進(jìn)行MapReduce計(jì)算,Hadoop配置信息為 1個(gè) NameNode、1個(gè)JobTracker和1個(gè)DataNode。運(yùn)行日志如圖5所示,運(yùn)行時(shí)長(zhǎng)大約為63 min。
實(shí)驗(yàn)三:采用分布式計(jì)算,利用兩個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行MapReduce計(jì)算,Hadoop配置信息為 1個(gè) NameNode、1個(gè)JobTracker和2個(gè)DataNode。運(yùn)行日志如圖6所示,運(yùn)行時(shí)長(zhǎng)大約為37 min。
通過(guò)對(duì)比實(shí)驗(yàn)一和實(shí)驗(yàn)二的運(yùn)算結(jié)果得出,在大運(yùn)算量上,利用Hadoop分布式計(jì)算可以大大提高計(jì)算速度和效率,本次實(shí)驗(yàn)縮短了3 h以上;通過(guò)對(duì)比實(shí)驗(yàn)二和實(shí)驗(yàn)三的運(yùn)算結(jié)果得出,Hadoop的數(shù)據(jù)節(jié)點(diǎn)數(shù)影響到Hadoop的整體性能,本次實(shí)驗(yàn)采用2個(gè)數(shù)據(jù)節(jié)點(diǎn)比1個(gè)數(shù)據(jù)節(jié)點(diǎn)的運(yùn)算時(shí)間快了近1倍。
圖5 實(shí)驗(yàn)二的MapReduce計(jì)算過(guò)程
圖6 實(shí)驗(yàn)三的MapReduce計(jì)算過(guò)程
可以看出,與傳統(tǒng)的數(shù)據(jù)分析方法相比,本文提出的針對(duì)海量電信數(shù)據(jù)的分布式云計(jì)算方法,即基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái),有效地提高了海量數(shù)據(jù)分析的速度和效率。
本文針對(duì)傳統(tǒng)數(shù)據(jù)分析方法面對(duì)海量電信數(shù)據(jù)存在分析效率不高的問(wèn)題,提出了基于Hadoop的分布式云計(jì)算方法,設(shè)計(jì)了基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái),并對(duì)平臺(tái)的部分功能進(jìn)行了實(shí)現(xiàn)。實(shí)驗(yàn)表明,本文提出的方法是有效和可行的,為進(jìn)一步研究Hadoop在海量電信數(shù)據(jù)分析方面的應(yīng)用做出了指引,在下一步的研究中,重點(diǎn)討論MapReduce編程模型改進(jìn)和數(shù)據(jù)節(jié)點(diǎn)的擴(kuò)展問(wèn)題,以進(jìn)一步提高海量數(shù)據(jù)的運(yùn)算效率。
1 Wbite T.Hadoop:the Definitive Guide.O’Reillly Media,Inc.,2009
2 張建勛,古志民,鄭超.云計(jì)算研究進(jìn)展綜述.計(jì)算機(jī)應(yīng)用研究,2010,27(2):429~433
3 施巖.云計(jì)算研究及Hadoop應(yīng)用程序的開(kāi)發(fā)與測(cè)試.北京郵電大學(xué)碩士學(xué)位論文,2011
4 Hadoop官方網(wǎng)站.http://hadoop.apache.org,2012
5 劉鵬,黃宜華,陳衛(wèi)衛(wèi).實(shí)戰(zhàn)Hadoop——開(kāi)啟通向云計(jì)算的捷徑.北京:電子工業(yè)出版社,2011