国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Hadoop3.0大數(shù)據(jù)平臺(tái)性能

2019-06-20 10:31:23李士果盧建云
電子技術(shù)與軟件工程 2019年5期
關(guān)鍵詞:數(shù)據(jù)量排序分布式

李士果 盧建云

摘要??? 針對(duì)發(fā)布的Hadoop3.0,本文研究了Hadoop3.0大數(shù)據(jù)平臺(tái)性能。首先,采用華為云服務(wù)器搭建大數(shù)據(jù)平臺(tái);其次,利用Hadoop框架提供的基準(zhǔn)性能測(cè)試程序進(jìn)行性能驗(yàn)證,測(cè)試指標(biāo)包括TestDFSIO、MRBench和TeraSort。最后,對(duì)比分析不同負(fù)載、不同數(shù)據(jù)量對(duì)平臺(tái)性能的影響。實(shí)驗(yàn)結(jié)果表明,Hadoop3.0在HDFS讀寫能力、MapReduce計(jì)算能力上均表現(xiàn)出較優(yōu)的性能。

【關(guān)鍵詞】大數(shù)據(jù) Hadoop3.0 性能測(cè)試

1 引言

Hadoop作為開源的分布式系統(tǒng)基礎(chǔ)架構(gòu),具有高擴(kuò)展性、高可靠性、高容錯(cuò)性、低成本等特性,在政府、金融、工業(yè)、教育等領(lǐng)域得到了廣泛的應(yīng)用。Hadoop平臺(tái)發(fā)展至今,發(fā)布了三個(gè)大版本,分別是Hadoop1.0、2.0和3.0。從Hadoop1.0到Hadoop2.0,增加了資源管理系統(tǒng)Yarn,使得Hadoop2.0具有更好的擴(kuò)展性和性能,并支持多種計(jì)算框架。近來,Apache發(fā)布了Hadoop3.0版本,該版本在功能和性能方面做了多項(xiàng)改進(jìn),使得Hadoop3.0在存儲(chǔ)和計(jì)算性能方面得到很大提升。因此,對(duì)Hadoop3.0平臺(tái)性能進(jìn)行研究具有重要的實(shí)際應(yīng)用意義。本文基于華為云服務(wù)器搭建Hadoop3.0完全分布式集群,使用Hadoop3.0提供的基準(zhǔn)測(cè)試程序?qū)ζ脚_(tái)進(jìn)行性能測(cè)試。分析對(duì)比不同負(fù)載、不同數(shù)據(jù)量對(duì)Hadoop3.0平臺(tái)的性能影響。

2 Hadoop3.0平臺(tái)特性

Hadoop是Apache旗下一個(gè)頂級(jí)分布式計(jì)算開源框架項(xiàng)目,主要包括兩個(gè)核心組件:分布式存儲(chǔ)子系統(tǒng)HDFS和分布式計(jì)算子系統(tǒng)MapReduce。Hadoop采用主/從架構(gòu)管理存儲(chǔ)和計(jì)算。通常,在Hadoop完全分布式集群上,運(yùn)行了一系列后臺(tái)程序。這些后臺(tái)程序代表了不同的服務(wù),例如NameNode、DataNode、Secondary NameNode、JobTracker、TaskTracker等。其中NameNode、Secondary NameNode、JobTracker運(yùn)行在Master節(jié)點(diǎn)上,而在每個(gè)Worker節(jié)點(diǎn)上,部署一個(gè)DataNode和TaskTracker,以便這個(gè)Worker服務(wù)器運(yùn)行的數(shù)據(jù)處理程序能盡可能直接處理本機(jī)的數(shù)據(jù)。Hadoop3.0框架如圖1所示。

Hadoop3.0引入了一些重要的特性,如HDFS可擦除編碼技術(shù)、支持多NameNode、Yarn基于cgroup的內(nèi)存和磁盤IO隔離、MR Native Task優(yōu)化等,綜合性能有很大提升。

3 實(shí)驗(yàn)與結(jié)果分析

為了測(cè)試Hadoop3.0平臺(tái)性能,方便對(duì)平臺(tái)性能進(jìn)行調(diào)優(yōu)。實(shí)驗(yàn)采用Hadoop3.0具有代表性的基準(zhǔn)測(cè)試工具TestDFSIO、MRBench和TeraSort對(duì)HDFS讀寫性能、MapReduce并行計(jì)算能力進(jìn)行測(cè)試,通過吞吐量、執(zhí)行時(shí)間等指標(biāo)對(duì)測(cè)試結(jié)果進(jìn)行分析。

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)采用4臺(tái)華為云服務(wù)器搭建Hadoop3.0完全分布式集群。該集群包含4個(gè)節(jié)點(diǎn),其中2個(gè)節(jié)點(diǎn)部署為Master,全部4個(gè)節(jié)點(diǎn)作為Worker。Linux操作系統(tǒng)版本是Centos7.4,Java版本是1.8.0_191,Hadoop版本是3.1.0。表1列出了Hadoop3.0完全分布式集群部署信息。

3.2 實(shí)驗(yàn)與分析

3.2.1 TestDFSIO測(cè)試Test

DFSIO是Hadoop提供的基準(zhǔn)測(cè)試工具,用于測(cè)試HDFS的讀寫性能。TestDFSIO設(shè)計(jì)原理是每個(gè)文件讀寫都在單獨(dú)的Map任務(wù)中進(jìn)行,Map任務(wù)以并行方式讀寫文件,Reduce任務(wù)用于收集和匯總文件處理性能數(shù)據(jù)。該實(shí)驗(yàn)數(shù)據(jù)總量為20G,不斷增加文件數(shù)量進(jìn)行測(cè)試。測(cè)試結(jié)果如圖2和圖3所示。

圖2和圖3表明,在20G數(shù)據(jù)量保持不變的情況下,隨著文件數(shù)量的增加,并發(fā)Map數(shù)量不斷增加,HDFS讀寫吞吐量和讀寫時(shí)間均呈下降趨勢(shì)。其中,寫數(shù)據(jù)的吞吐量明顯低于讀數(shù)據(jù)的吞吐量,寫數(shù)據(jù)的執(zhí)行時(shí)間明顯高于讀數(shù)據(jù)的執(zhí)行時(shí)間。

3.2.2 MRBench測(cè)試MRBench

用于檢驗(yàn)小作業(yè)是否可重復(fù)高效運(yùn)行,它通過多次重復(fù)執(zhí)行一個(gè)小作業(yè)來驗(yàn)證MapReduce的并行處理性能。本實(shí)驗(yàn)使用MRBench默認(rèn)配置重復(fù)執(zhí)行小作業(yè)進(jìn)行測(cè)試。MRBench配置如下:inputLines=1,mapper=2,reducer=1,分別重復(fù)執(zhí)行10次、50次、100次、200次、500次和1000次,運(yùn)行結(jié)果如圖4所示。

圖4結(jié)果顯示,隨著重復(fù)執(zhí)行次數(shù)的增加,作業(yè)的平均執(zhí)行時(shí)間緩慢下降并趨于穩(wěn)定。從最后兩次測(cè)試結(jié)果發(fā)現(xiàn),重復(fù)執(zhí)行500次和1000次的時(shí)間相對(duì)持平,說明小作業(yè)重復(fù)執(zhí)行500次到1000次的性能趨于穩(wěn)定。

3.2.3 TeraSort測(cè)試

TeraSort是Hadoop壓力測(cè)試最具代表性的工具之一。TeraSort不僅測(cè)試HDFS文件系統(tǒng)的讀寫性能,也是對(duì)MapReduce自動(dòng)排序能力的一種測(cè)試。TeraSort包含三個(gè)工具,其中TeraGen用來生成排序的隨機(jī)數(shù)據(jù),TeraSort用來將隨機(jī)數(shù)據(jù)排序,TeraValidate用于校驗(yàn)TeraSort的排序結(jié)果是否正確。實(shí)驗(yàn)分別對(duì)1G、2G、5G、10G、20G、50G和100G文件進(jìn)行TeraSort測(cè)試,測(cè)試結(jié)果如圖5所示。

從圖5可以看出,隨著數(shù)據(jù)量的增加,TeraSort排序時(shí)間呈曲線增長(zhǎng)。當(dāng)數(shù)據(jù)量在20G以內(nèi)時(shí),排序時(shí)間增長(zhǎng)比較緩慢,當(dāng)數(shù)據(jù)量增加到50G,甚至100G時(shí),排序時(shí)間增長(zhǎng)顯著。

5 總結(jié)

本文采用華為云服務(wù)器搭建Hadoop3.0平臺(tái),利用Hadoop3.0提供的基準(zhǔn)測(cè)試工具TestDFSIO、MRBench和TereSort對(duì)平臺(tái)性能進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,Hadoop3.0大數(shù)據(jù)平臺(tái)在HDFS讀寫能力、MapReduce計(jì)算能力上均表現(xiàn)出較優(yōu)的性能。后續(xù)我們將對(duì)Hadoop2.0與3.0平臺(tái)進(jìn)行性能對(duì)比研究。

參考文獻(xiàn)

[1]White T.Hadoop權(quán)威指南[M].清華大學(xué)出版社,2015.

[2]Apache Hadoop website, http://hadoop. apache.org.

[3]MichealG.Noll. Benchmarking and Stress Testing an Hadoop ClusterWith TeraSort, TestDFSIO& Co., http:// www.michaelnoll.com/blog/2011/04/09/ benchmarking-and-stress-testing- an-hadoopcluster-with-terasort- testdfsio-nnbench-mrbench/.

[4]Apache Hadoop3.0, http://hadoop. apache.org/docs/r3.0.0/.

猜你喜歡
數(shù)據(jù)量排序分布式
排序不等式
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
恐怖排序
寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
電子制作(2019年13期)2020-01-14 03:15:18
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
岐山县| 德惠市| 通许县| 林甸县| 阳江市| 内黄县| 龙胜| 怀柔区| 沙河市| 崇阳县| 和龙市| 龙陵县| 德惠市| 英德市| 定兴县| 纳雍县| 抚宁县| 侯马市| 含山县| 道孚县| 永川市| 靖远县| 土默特右旗| 石嘴山市| 灵台县| 隆昌县| 浠水县| 舒城县| 孝义市| 马尔康县| 榕江县| 巴中市| 灵丘县| 德江县| 蛟河市| 邵阳市| 城步| 交城县| 巍山| 太和县| 孟州市|