基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)研究

2012-03-12 05:16黎宏劍黃廣文

電信科學(xué) 2012年8期

黎宏劍，劉恒，黃廣文，卜立

（中國(guó)移動(dòng)通信集團(tuán)廣東有限公司中山分公司中山 528403）

1 引言

隨著3G時(shí)代的來(lái)臨，移動(dòng)業(yè)務(wù)日益豐富，用戶在使用移動(dòng)業(yè)務(wù)過(guò)程中產(chǎn)生的各類數(shù)據(jù)以TB級(jí)速度增長(zhǎng)。面對(duì)激烈的市場(chǎng)競(jìng)爭(zhēng)，如何快捷、高效、安全地管理和分析海量的業(yè)務(wù)數(shù)據(jù)，深度挖掘業(yè)務(wù)特征，實(shí)行精確營(yíng)銷策略，成為電信運(yùn)營(yíng)商確保競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵舉措之一。

目前，面對(duì)海量的業(yè)務(wù)數(shù)據(jù)，電信運(yùn)營(yíng)商存在管理和分析難的問(wèn)題。業(yè)務(wù)數(shù)據(jù)的管理要求高效存儲(chǔ)、高效讀取、高可用性及高擴(kuò)展性架構(gòu)，業(yè)務(wù)數(shù)據(jù)每天以TB級(jí)速度增長(zhǎng)，基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)管理難以滿足其要求，或需付出高昂的成本代價(jià)實(shí)現(xiàn)。對(duì)業(yè)務(wù)特征的挖掘分析，往往涉及網(wǎng)絡(luò)域和業(yè)務(wù)支撐域的大數(shù)據(jù)以及這些大數(shù)據(jù)之間的關(guān)聯(lián)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)對(duì)這些大數(shù)據(jù)的運(yùn)算需要搭配高性能的機(jī)器，運(yùn)算時(shí)間長(zhǎng)，分析結(jié)果存在嚴(yán)重滯后性，直接導(dǎo)致錯(cuò)過(guò)了對(duì)相應(yīng)行為采取有效措施的最佳時(shí)機(jī)。

Hadoop分布式技術(shù)的發(fā)展為解決上述問(wèn)題提供了技術(shù)手段。Hadoop是一個(gè)在集群上運(yùn)行大型數(shù)據(jù)庫(kù)處理應(yīng)用程序的開(kāi)放式源代碼框架，采用MapReduce編程模型對(duì)海量數(shù)據(jù)進(jìn)行有效分割和合理分配，以實(shí)現(xiàn)高效并行處理，并行程序編寫簡(jiǎn)單，節(jié)省時(shí)間。Hadoop分布式云計(jì)算平臺(tái)對(duì)硬件配置要求不高，具有可伸縮性和高容錯(cuò)性，實(shí)施成本低。本文在研究云計(jì)算和Hadoop的基礎(chǔ)上，設(shè)計(jì)并部分實(shí)現(xiàn)了基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)。

2 相關(guān)技術(shù)簡(jiǎn)介

2.1 云計(jì)算

云計(jì)算基于互聯(lián)網(wǎng)相關(guān)服務(wù)的增加、使用和交付模式，是并行計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算綜合發(fā)展的結(jié)果。它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上，使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和信息服務(wù)，具有數(shù)據(jù)安全可靠、可共享、擴(kuò)展性強(qiáng)、規(guī)模大、價(jià)格低廉等特點(diǎn)。按照提供服務(wù)的不同，云計(jì)算分為SaaS（software as a service，軟件即服務(wù)）、PaaS（platform as a service，平臺(tái) 即服務(wù)）和 IaaS（infrastructure as a service，基礎(chǔ)設(shè)施即服務(wù)）3類。云計(jì)算以數(shù)據(jù)為中心，在并行數(shù)據(jù)處理、編程模式和虛擬化等方面具有獨(dú)特的技術(shù)。

2.2 Hadoop

Hadoop是由Apache基金會(huì)組織開(kāi)發(fā)的分布式計(jì)算開(kāi)源框架，利用低廉設(shè)備搭建大計(jì)算池，以提高分析海量數(shù)據(jù)的速度和效率，是低成本的云計(jì)算解決方案。其模仿和實(shí)現(xiàn)了Google云計(jì)算的主要技術(shù)，包括HDFS（Hadoop distributed file system，Hadoop 分布式文件系統(tǒng)）、MapReduce、HBase、ZooKeeper等，分別對(duì)應(yīng)于Google成熟商用云計(jì)算平臺(tái)的GFS（Googlefilesystem，Google文件系統(tǒng)）、MapReduce、BigTable、Chubby，支持通過(guò) Google的MapReduce編程范例創(chuàng)建并執(zhí)行應(yīng)用程序。

Hadoop是相關(guān)子項(xiàng)目的集合，核心是Hadoop Common、HDFS和MapReduce，其他子項(xiàng)目提供補(bǔ)充性服務(wù)。Hadoop技術(shù)棧如圖1所示，具體介紹如下。

圖1 Hadoop技術(shù)棧

Hadoop Common:支撐Hadoop的公共部分，是最底層的模塊，為其他子項(xiàng)目提供各種工具。

HDFS:是一個(gè)主從（master/slave）結(jié)構(gòu)，由一個(gè)NameNode（名稱節(jié)點(diǎn)）和若干個(gè) DataNode（數(shù)據(jù)節(jié)點(diǎn)）構(gòu)成，NameNode管理文件系統(tǒng)的元數(shù)據(jù)，DataNode存儲(chǔ)實(shí)際數(shù)據(jù)。

MapReduce:處理海量數(shù)據(jù)的并行編程模型和計(jì)算框架，采用“分而治之”思想，包括分解任務(wù)的map函數(shù)和匯總結(jié)果的reduce函數(shù)，MapReduce任務(wù)由一個(gè)JobTracker和若干個(gè)TaskTracker控制完成，JobTracker負(fù)責(zé)調(diào)度和管理TaskTracker，TaskTracker負(fù)責(zé)執(zhí)行任務(wù)。

Pig:SQL-like語(yǔ)言，是在MapReduce上構(gòu)建的一種高級(jí)查詢語(yǔ)言，以簡(jiǎn)化MapReduce任務(wù)的開(kāi)發(fā)。

Hive:數(shù)據(jù)倉(cāng)庫(kù)工具，提供SQL查詢功能。

Hbase:基于列存儲(chǔ)模型的分布式數(shù)據(jù)庫(kù)。

ZooKeeper:針對(duì)分布式系統(tǒng)的協(xié)調(diào)服務(wù)。

Chukwa:分布式數(shù)據(jù)收集和分析系統(tǒng)。

Avro:提供高效、跨語(yǔ)言RPC的數(shù)據(jù)序列系統(tǒng)，持久化數(shù)據(jù)存儲(chǔ)。

Hadoop具有可擴(kuò)展、高容錯(cuò)、經(jīng)濟(jì)、可靠、高效的優(yōu)點(diǎn)，被廣泛應(yīng)用在云計(jì)算領(lǐng)域，在Yahoo、Facebook、支付寶、人人網(wǎng)等大型網(wǎng)站上都已經(jīng)得到了應(yīng)用，是目前應(yīng)用最為廣泛、成熟的開(kāi)源云計(jì)算平臺(tái)。

3 基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)設(shè)計(jì)

目前，電信運(yùn)營(yíng)商對(duì)海量電信數(shù)據(jù)的分析都是基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)，這種分析方法依賴于高性能機(jī)器，分析時(shí)間長(zhǎng)、效率不高，直接影響了業(yè)務(wù)決策時(shí)機(jī)。

針對(duì)這些問(wèn)題，結(jié)合海量電信數(shù)據(jù)的特點(diǎn)，本文提出利用Hadoop云計(jì)算技術(shù)對(duì)海量電信數(shù)據(jù)進(jìn)行分析的方法，該方法通過(guò)構(gòu)建基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)，采用MapReduce編程模型加強(qiáng)對(duì)數(shù)據(jù)的管理，提高數(shù)據(jù)分析的速度和效率，解決了電信運(yùn)營(yíng)商對(duì)海量電信數(shù)據(jù)管理和分析難的問(wèn)題。

3.1 平臺(tái)設(shè)計(jì)的目標(biāo)與原則

海量電信數(shù)據(jù)云計(jì)算平臺(tái)的設(shè)計(jì)目標(biāo)是利用Hadoop基于低廉設(shè)備的海量數(shù)據(jù)處理優(yōu)勢(shì)，利用一批下線的低端PC服務(wù)器搭建Hadoop云計(jì)算平臺(tái)，支撐海量電信數(shù)據(jù)的分析需求，提高數(shù)據(jù)分析的速度和效率，達(dá)到為業(yè)務(wù)決策提供即時(shí)、準(zhǔn)確信息的目的，同時(shí)為公司節(jié)約投資成本。

平臺(tái)的設(shè)計(jì)原則包括:經(jīng)濟(jì)原則，充分利用現(xiàn)有資源搭建平臺(tái)基礎(chǔ)設(shè)施，根據(jù)Hadoop對(duì)硬件要求不高的特點(diǎn)，采用一批下線低端PC服務(wù)器搭建Hadoop集群；高效原則，充分利用云計(jì)算平臺(tái)的特性，提高海量電信數(shù)據(jù)的處理效率；安全原則，在平臺(tái)設(shè)計(jì)過(guò)程中，必須充分考慮平臺(tái)的自身安全和信息安全，采取必要措施，規(guī)避安全風(fēng)險(xiǎn)。

3.2 平臺(tái)框架結(jié)構(gòu)

結(jié)合海量電信數(shù)據(jù)自身的特點(diǎn)，海量電信數(shù)據(jù)云計(jì)算平臺(tái)在設(shè)計(jì)上采用分布式、分層結(jié)構(gòu)，可以劃分為數(shù)據(jù)層、模型層、應(yīng)用層3層結(jié)構(gòu)，如圖2所示。

（1）數(shù)據(jù)層

海量電信數(shù)據(jù)包括網(wǎng)絡(luò)域數(shù)據(jù)和業(yè)務(wù)支撐域數(shù)據(jù)。其中，網(wǎng)絡(luò)域數(shù)據(jù)包括Gb口數(shù)據(jù)、A口數(shù)據(jù)、WLAN數(shù)據(jù)等；業(yè)務(wù)支持域數(shù)據(jù)包括客戶信息、客戶業(yè)務(wù)訂購(gòu)數(shù)據(jù)、客戶消費(fèi)數(shù)據(jù)等客戶基本數(shù)據(jù)。數(shù)據(jù)層通過(guò)Hadoop的HDFS存儲(chǔ)這些數(shù)據(jù)，然后利用 Hbase、Hive、Pig、ZooKeeper等數(shù)據(jù)處理和管理工具，用類SQL語(yǔ)言定義統(tǒng)計(jì)指標(biāo)，動(dòng)態(tài)生成MapReduce任務(wù)進(jìn)行計(jì)算和聚合，對(duì)海量電信數(shù)據(jù)進(jìn)行高效處理，處理結(jié)果仍以文件格式存儲(chǔ)在HDFS中，并可導(dǎo)出為所需格式。

客戶會(huì)上，美豐加藍(lán)同與會(huì)客戶探討了市場(chǎng)情況、生產(chǎn)技術(shù)、售后服務(wù)等方面內(nèi)容。今年，美豐加藍(lán)創(chuàng)新設(shè)置了“推廣之星”“潛力之星”和“銷量之星”等三個(gè)獎(jiǎng)項(xiàng)，對(duì)在合作過(guò)程中表現(xiàn)突出的優(yōu)秀客戶進(jìn)行表彰獎(jiǎng)勵(lì)。

圖2 海量電信數(shù)據(jù)云計(jì)算平臺(tái)框架結(jié)構(gòu)

（2）模型層

模型層利用數(shù)據(jù)層對(duì)海量電信數(shù)據(jù)進(jìn)行基于Hadoop的ETL處理輸出的匯總數(shù)據(jù)，建立分析模型，如客戶位置模型、客戶上網(wǎng)行為模型、客戶短信行為模型、客戶話音行為模型等基礎(chǔ)模型，實(shí)現(xiàn)客戶位置、客戶離網(wǎng)預(yù)警、客戶交往圈等分析應(yīng)用。

（3）應(yīng)用層

應(yīng)用層是利用模型分析得出的結(jié)果，如生活軌跡特征、增值業(yè)務(wù)使用情況、用戶的交往圈特征等，精確定位營(yíng)銷目標(biāo)客戶，設(shè)計(jì)針對(duì)性營(yíng)銷方案，并對(duì)營(yíng)銷效果進(jìn)行評(píng)估分析。

3.3 平臺(tái)功能模塊

海量電信數(shù)據(jù)云計(jì)算平臺(tái)的功能模塊包括用戶管理、數(shù)據(jù)管理、任務(wù)管理、集群管理4個(gè)模塊，如圖3所示。

·用戶管理模塊:包括賬號(hào)開(kāi)通、身份認(rèn)證、權(quán)限管理、交互控制。

·數(shù)據(jù)管理模塊:包括數(shù)據(jù)的上傳和下載、刪除。

·任務(wù)管理模塊:包括任務(wù)申請(qǐng)、資源申請(qǐng)、結(jié)果反饋。

·集群管理模塊:包括Hadoop集群狀態(tài)和任務(wù)進(jìn)度、節(jié)點(diǎn)管理。

圖3 海量電信數(shù)據(jù)云計(jì)算平臺(tái)的功能模塊

3.4 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

Hadoop集群局域網(wǎng)由 1臺(tái) NameNode服務(wù)器、1臺(tái)Secondary NameNode服務(wù)器、1臺(tái)JobTracker服務(wù)器和多臺(tái)從服務(wù)器組成。

·NameNode服務(wù)器負(fù)責(zé)管理海量數(shù)據(jù)文件的分割、存儲(chǔ)以及監(jiān)控DataNode的運(yùn)行情況。應(yīng)用程序需要讀取數(shù)據(jù)文件，首先訪問(wèn)NameNode服務(wù)器，獲取數(shù)據(jù)文件在各DataNode上的分布，然后直接與DataNode通信。一旦發(fā)現(xiàn)某個(gè)DataNode宕機(jī)，NameNode將通知應(yīng)用程序訪問(wèn)宕機(jī)節(jié)點(diǎn)各數(shù)據(jù)塊的副本，并在其他DataNode上增加宕機(jī)節(jié)點(diǎn)各數(shù)據(jù)塊的副本，以保證平臺(tái)的可靠運(yùn)行。

·Secondary NameNode服務(wù)器用來(lái)監(jiān)控HDFS狀態(tài)，與NameNode進(jìn)行通信，以便定期保存HDFS元數(shù)據(jù)的快照，若NameNode發(fā)生問(wèn)題，其作為備用NameNode使用。

·JobTracker服務(wù)器負(fù)責(zé)管理計(jì)算任務(wù)的分解和匯總，負(fù)責(zé)監(jiān)控各TaskTracker節(jié)點(diǎn)的運(yùn)行情況，一旦某個(gè)任務(wù)失敗，JobTracker自動(dòng)重新啟動(dòng)這個(gè)任務(wù)。

·從服務(wù)器承擔(dān)了DataNode和TaskTracker兩種角色，分別負(fù)責(zé)數(shù)據(jù)塊的存儲(chǔ)和數(shù)據(jù)計(jì)算的map、reduce任務(wù)的運(yùn)行。

3.5 平臺(tái)安全機(jī)制

由于Hadoop集群節(jié)點(diǎn)之間是互通的，對(duì)Hadoop集群節(jié)點(diǎn)操作的賬號(hào)是統(tǒng)一的，同時(shí)電信數(shù)據(jù)屬于敏感數(shù)據(jù)，Hadoop本身的機(jī)制難以對(duì)數(shù)據(jù)進(jìn)行有效的安全控制，在一定程度上存在安全問(wèn)題。為規(guī)避安全風(fēng)險(xiǎn)，防范安全事故的發(fā)生，必須采取相應(yīng)的安全機(jī)制加強(qiáng)對(duì)平臺(tái)和數(shù)據(jù)的安全管理。平臺(tái)采取的安全機(jī)制包括平臺(tái)自身安全管理、賬號(hào)安全管理和數(shù)據(jù)安全管理。

（1）平臺(tái)自身安全管理

將Hadoop集群網(wǎng)絡(luò)劃分為內(nèi)部局域網(wǎng)，通過(guò)設(shè)置防火墻策略與其他網(wǎng)絡(luò)進(jìn)行隔離，NameNode作為唯一出口負(fù)責(zé)與外部進(jìn)行通信，內(nèi)部其他節(jié)點(diǎn)通過(guò)NameNode進(jìn)行訪問(wèn)。同時(shí)，將NameNode加入堡壘機(jī)，將其操作的任何記錄均保存在堡壘機(jī)服務(wù)器中。

（2）賬號(hào)安全管理

嚴(yán)格控制平臺(tái)管理員賬號(hào)，定期更換口令；將操作Hadoop集群的賬號(hào)和用于數(shù)據(jù)傳輸?shù)馁~號(hào)分離，嚴(yán)格控制其訪問(wèn)權(quán)限；保存各賬號(hào)的操作記錄，定期審計(jì)。

（3）數(shù)據(jù)安全管理

電信數(shù)據(jù)屬于敏感數(shù)據(jù)，必須加強(qiáng)敏感數(shù)據(jù)的保密工作，主要通過(guò)記錄數(shù)據(jù)進(jìn)出、分開(kāi)存放、傳輸加密和記錄人員對(duì)數(shù)據(jù)的操作、定期審計(jì)等措施，對(duì)數(shù)據(jù)進(jìn)行安全管理。

4 平臺(tái)的部分實(shí)現(xiàn)及其效果

由于時(shí)間和精力有限，本文僅對(duì)海量電信數(shù)據(jù)云計(jì)算平臺(tái)的底層Hadoop集群部署進(jìn)行實(shí)現(xiàn)，并通過(guò)實(shí)驗(yàn)論證本文提出的方法及設(shè)計(jì)平臺(tái)的有效性、可行性。

4.1 底層Hadoop集群部署的實(shí)現(xiàn)

底層 Hadoop集群包括 1個(gè) NameNode服務(wù)器、1個(gè)JobTracker服務(wù)器和4個(gè)DataNode服務(wù)器，設(shè)備配置信息見(jiàn)表 1。

底層Hadoop集群采用Hadoop-0.20.2版本，操作系統(tǒng)為L(zhǎng)inux CentOS 5.6，Hadoop運(yùn)行需要JDK環(huán)境，本文選擇的是jdk1.6.0_31。

表1 集群設(shè)備配置信息

Hadoop的安裝過(guò)程為:配置host文件、新建Hadoop目錄和用戶、安裝JDK及配置環(huán)境變量、配置SSH免密碼登錄、安裝Hadoop及配置。此外，為了增強(qiáng)平臺(tái)的擴(kuò)展性，分別安裝了 Hive-0.8.1、Pig-0.9.2、Hbase-0.20.6、Zookeeper-3.3.3。其中，Hadoop、ZooKeeper和Hbase之間的啟動(dòng)和停止有順序要求，介紹如下。

·啟動(dòng)過(guò)程:啟動(dòng)Hadoop→啟動(dòng) ZooKeeper→啟動(dòng)Hbase。

·停止過(guò)程:停止Hbase→停止ZooKeeper→停止Hadoop。

4.2 實(shí)驗(yàn)結(jié)果

在部署好的平臺(tái)中進(jìn)行相關(guān)實(shí)驗(yàn)，驗(yàn)證本文提出的基于Hadoop的分布式云計(jì)算方法在海量電信數(shù)據(jù)分析方面是否存在優(yōu)勢(shì)。

在分布式和非分布式環(huán)境下，計(jì)算全網(wǎng)客戶的位置信息，主要字段為:IMSI、CGI、時(shí)長(zhǎng)、時(shí)間切片標(biāo)識(shí)。實(shí)驗(yàn)數(shù)據(jù)為網(wǎng)分A口數(shù)據(jù)文件，包括話音數(shù)據(jù)call_20120316.txt（2.2 GB）、短信數(shù)據(jù) SMS_20120316.txt（600 MB）和位置數(shù)據(jù)location_20120316.txt（3.3 GB）。實(shí)驗(yàn)的前提條件是假設(shè)各實(shí)驗(yàn)采用的機(jī)器設(shè)備在配置上都是相同的。

實(shí)驗(yàn)一:采用非分布式計(jì)算（Oracle數(shù)據(jù)庫(kù)），在Oracle環(huán)境下的計(jì)算時(shí)長(zhǎng)大約為4 h。

實(shí)驗(yàn)二:采用分布式計(jì)算，利用單數(shù)據(jù)節(jié)點(diǎn)進(jìn)行MapReduce計(jì)算，Hadoop配置信息為 1個(gè) NameNode、1個(gè)JobTracker和1個(gè)DataNode。運(yùn)行日志如圖5所示，運(yùn)行時(shí)長(zhǎng)大約為63 min。

實(shí)驗(yàn)三:采用分布式計(jì)算，利用兩個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行MapReduce計(jì)算，Hadoop配置信息為 1個(gè) NameNode、1個(gè)JobTracker和2個(gè)DataNode。運(yùn)行日志如圖6所示，運(yùn)行時(shí)長(zhǎng)大約為37 min。

通過(guò)對(duì)比實(shí)驗(yàn)一和實(shí)驗(yàn)二的運(yùn)算結(jié)果得出，在大運(yùn)算量上，利用Hadoop分布式計(jì)算可以大大提高計(jì)算速度和效率，本次實(shí)驗(yàn)縮短了3 h以上；通過(guò)對(duì)比實(shí)驗(yàn)二和實(shí)驗(yàn)三的運(yùn)算結(jié)果得出，Hadoop的數(shù)據(jù)節(jié)點(diǎn)數(shù)影響到Hadoop的整體性能，本次實(shí)驗(yàn)采用2個(gè)數(shù)據(jù)節(jié)點(diǎn)比1個(gè)數(shù)據(jù)節(jié)點(diǎn)的運(yùn)算時(shí)間快了近1倍。

圖5 實(shí)驗(yàn)二的MapReduce計(jì)算過(guò)程

圖6 實(shí)驗(yàn)三的MapReduce計(jì)算過(guò)程

可以看出，與傳統(tǒng)的數(shù)據(jù)分析方法相比，本文提出的針對(duì)海量電信數(shù)據(jù)的分布式云計(jì)算方法，即基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)，有效地提高了海量數(shù)據(jù)分析的速度和效率。

5 結(jié)束語(yǔ)

本文針對(duì)傳統(tǒng)數(shù)據(jù)分析方法面對(duì)海量電信數(shù)據(jù)存在分析效率不高的問(wèn)題，提出了基于Hadoop的分布式云計(jì)算方法，設(shè)計(jì)了基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)，并對(duì)平臺(tái)的部分功能進(jìn)行了實(shí)現(xiàn)。實(shí)驗(yàn)表明，本文提出的方法是有效和可行的，為進(jìn)一步研究Hadoop在海量電信數(shù)據(jù)分析方面的應(yīng)用做出了指引，在下一步的研究中，重點(diǎn)討論MapReduce編程模型改進(jìn)和數(shù)據(jù)節(jié)點(diǎn)的擴(kuò)展問(wèn)題，以進(jìn)一步提高海量數(shù)據(jù)的運(yùn)算效率。

1 Wbite T.Hadoop:the Definitive Guide.O’Reillly Media,Inc.,2009

2 張建勛,古志民,鄭超.云計(jì)算研究進(jìn)展綜述.計(jì)算機(jī)應(yīng)用研究,2010,27(2):429～433

3 施巖.云計(jì)算研究及Hadoop應(yīng)用程序的開(kāi)發(fā)與測(cè)試.北京郵電大學(xué)碩士學(xué)位論文,2011

4 Hadoop官方網(wǎng)站.http://hadoop.apache.org,2012

5 劉鵬,黃宜華,陳衛(wèi)衛(wèi).實(shí)戰(zhàn)Hadoop——開(kāi)啟通向云計(jì)算的捷徑.北京:電子工業(yè)出版社,2011

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡