国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

使用VMware Esxi和Hadoop進(jìn)行大數(shù)據(jù)平臺(tái)的搭建研究

2017-06-06 20:51:08馮健文
電腦知識(shí)與技術(shù) 2017年9期
關(guān)鍵詞:大數(shù)據(jù)平臺(tái)研究

馮健文

摘要:對(duì)于VMware Esxi與Hadoop進(jìn)行大數(shù)據(jù)平臺(tái)的搭建,該文主要考慮到實(shí)驗(yàn)室的成本以及對(duì)于監(jiān)控集群的方便性的操作,并最大程度的利用機(jī)器的性能。同時(shí)還要結(jié)合Linux系統(tǒng)本身的機(jī)制以及文件同步系統(tǒng)來對(duì)平臺(tái)進(jìn)行快速地搭建,最后進(jìn)行集群的測(cè)試,驗(yàn)證平臺(tái)的可操作性以及使用性。

關(guān)鍵詞:VMware Esxi;Hadoop;大數(shù)據(jù)平臺(tái);研究

互聯(lián)網(wǎng)與物聯(lián)網(wǎng)等新技術(shù)的快速發(fā)展,人們對(duì)于數(shù)據(jù)已經(jīng)進(jìn)入了一個(gè)爆炸的狀態(tài),數(shù)據(jù)量的增長(zhǎng)已經(jīng)呈現(xiàn)出指數(shù)性的增長(zhǎng)。因此來說,如何對(duì)如此龐大的數(shù)據(jù)量進(jìn)行計(jì)算成了人們需要面對(duì)的一個(gè)問題。使用傳統(tǒng)的計(jì)算模式顯然是無法實(shí)現(xiàn)的,當(dāng)前市面上使用比較廣泛的一些關(guān)系型數(shù)據(jù)庫(kù)也不能實(shí)現(xiàn)對(duì)這些海量數(shù)據(jù)的存儲(chǔ)。此時(shí)就需要人們研究一種新的實(shí)施方案,來對(duì)這些海量的數(shù)據(jù)進(jìn)行存儲(chǔ)于管理。而Hadoop公司已經(jīng)實(shí)現(xiàn)了谷歌公司的GFS,使用它可以很方便的來處理這些問題。通常情況下,人們都是在分布式的集群上搭建大數(shù)據(jù)應(yīng)用平臺(tái)而Hadoop則需要更多的配置文件,如果在分布式集群上進(jìn)行搭建就需要不斷的對(duì)配置進(jìn)行修改,顯然是非常繁瑣的,對(duì)于這個(gè)問題,本文提出了使用VMware Esxi與Hadoop進(jìn)行結(jié)合的辦法,希望能對(duì)這個(gè)問題實(shí)現(xiàn)完美的解決方案。

1.VMware Esxf與Hadoop

VMware Esxi是可以在服務(wù)器的硬件上建立的一個(gè)虛擬機(jī)系統(tǒng),在進(jìn)行建立的時(shí)候并通常是用宿主的操作系統(tǒng)進(jìn)行支持的,因此它就擁有了更高的穩(wěn)定性,卻也不會(huì)損耗機(jī)器的重要性能VMware Esxi能夠建立多個(gè)虛擬機(jī)系統(tǒng)的,每一個(gè)獨(dú)立的虛擬機(jī)都可以有自己獨(dú)立的操作系統(tǒng)與應(yīng)用程序,在對(duì)Esxi系統(tǒng)進(jìn)行安裝之后,就可以登錄進(jìn)行操作,此時(shí)就可以創(chuàng)建一些虛擬機(jī)或者是陜照了。

Hadoop屬于Apache公司,是Apache開發(fā)的一個(gè)比較開源的分布式的系統(tǒng)架構(gòu),主要的作用是可以提供接口與數(shù)據(jù)服務(wù)給應(yīng)用程序,具有穩(wěn)定性高與性能可靠的優(yōu)勢(shì)。Hadoop的組成主要有兩部分,一是HDFS,即Hadoop Distributed file System,二是Hadoop MapReduce。這兩部分中的HDFS屬于Hadoop的分布式文件系統(tǒng),主要使用的架構(gòu)方式是主從方式,通常是包括一個(gè)控制節(jié)點(diǎn)以及多個(gè)數(shù)據(jù)節(jié)點(diǎn)。其中控制節(jié)點(diǎn)負(fù)責(zé)對(duì)文件系統(tǒng)的命名空間進(jìn)行管理,主要是對(duì)所有的文件所在的數(shù)據(jù)節(jié)點(diǎn)的信息進(jìn)行記錄。而數(shù)據(jù)節(jié)點(diǎn)的主要任務(wù)則是對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。MapReduce則是整個(gè)HadoopDE計(jì)算引擎,當(dāng)然也是分布式的有了它就可以對(duì)數(shù)據(jù)進(jìn)行并行的處理,主要的實(shí)現(xiàn)思想用中國(guó)的一句話將就是分而治之,根據(jù)名字來對(duì)處理的階段進(jìn)行區(qū)分主要分為兩個(gè)階段,一個(gè)是map階段,一個(gè)是reduce階段,map階段的主要工作概括起來就是一個(gè)分字,就是把輸入來的諸多并行任務(wù)分成更多的map,l'edttce的工作的內(nèi)容則是將map的階段性的工作成果進(jìn)行一個(gè)匯總。

2.搭建平臺(tái)

1)需要的硬件以及其他準(zhǔn)備工作。對(duì)這套大數(shù)據(jù)平臺(tái)的搭建所需要的硬件條件需要有聯(lián)想服務(wù)器若干與至少一臺(tái)的IBM的服務(wù)器,而且要求IBM的服務(wù)器的性能是非常過關(guān)的,因?yàn)樾枰?dāng)做主節(jié)點(diǎn),其余的聯(lián)想服務(wù)器都需要單獨(dú)的構(gòu)造出兩個(gè)從節(jié)點(diǎn),并使之能夠運(yùn)行DataNode。這么多的服務(wù)器需要進(jìn)行統(tǒng)一的管理,需要給每臺(tái)服務(wù)器預(yù)先安裝VMware Esxi系統(tǒng),其他的諸如靜態(tài)IP、用戶名密碼都需要一并設(shè)置好,做好這些工作之后,就可以使用遠(yuǎn)程客戶端進(jìn)行登錄操作了。

可以使用光盤安裝VMware,本文所介紹的是5.1版本的Esxi系統(tǒng),需要注意的是在對(duì)系統(tǒng)進(jìn)行安裝成功并對(duì)服務(wù)器進(jìn)行重啟操作之后,如果沒有啟動(dòng)盤或者是其他必要的設(shè)備,這就要對(duì)系統(tǒng)進(jìn)行再次安裝,這時(shí)可以在安裝系統(tǒng)之時(shí)加上for-matwithnbr。對(duì)系統(tǒng)安裝成功之后還需要必要的設(shè)置,主要有主機(jī)名、靜態(tài)IP以及登錄賬戶名與密碼,將這些必須的參數(shù)配置完畢之后,就能夠使用遠(yuǎn)程客戶端訪問了,除此之外也可以在客戶端上安裝vSphere Client的機(jī)器上,這樣可以使管理員的工作更加方便。

2)創(chuàng)建虛擬機(jī)與安裝Linttx系統(tǒng)。首先需要在IBM的服務(wù)器上創(chuàng)建一個(gè)單獨(dú)的虛擬機(jī),而其余的服務(wù)器上則需要?jiǎng)?chuàng)建兩個(gè),相信對(duì)創(chuàng)建虛擬機(jī)都是比較熟悉的,創(chuàng)建完成之后就可以根據(jù)本地的鏡像文件安裝Linux了,而一個(gè)鏡像文件是能夠支持多個(gè)虛擬機(jī)的,也就是說可以同時(shí)安裝多個(gè)虛擬機(jī),這樣做可以很大程度的提升安裝的速度,也就能省下很大部分的安裝時(shí)間。本文介紹的大數(shù)據(jù)平臺(tái)用到的Linux系統(tǒng)是6.5版本的,在安裝的時(shí)候需要注意的是,不能忽略了對(duì)系統(tǒng)主機(jī)名與靜態(tài)IP以及啟動(dòng)時(shí)時(shí)間的同步等問題。

3)Hadoop的安裝。本套大數(shù)據(jù)平臺(tái)使用的是2.2.0版本的,相關(guān)的操作步驟如下。因?yàn)樵谥暗腖inux系統(tǒng)進(jìn)行配置的時(shí)候已經(jīng)對(duì)靜態(tài)TP、主機(jī)名以及NTP進(jìn)行了配置,因此在對(duì)Hadoop進(jìn)行配置的時(shí)候只需要配置相關(guān)的文件就可以了,在Hadoop2.2.0中需要配置的文件是/etc/hosts。對(duì)這個(gè)文件進(jìn)行配置完畢之后需要安裝JAVA以及設(shè)置SSH的登錄,本平臺(tái)使用的Java版本是1.7.011,在進(jìn)行安裝的時(shí)候可以使用命令安裝(rpm-ivh jdk-linux-x64.rpm),安裝成功之后還不能忘了在/efc/profile這個(gè)配置文件中配置必要的環(huán)境變量。

安裝好jdk之后還需要對(duì)ssh的無密碼登錄進(jìn)行設(shè)置,無密碼登錄就是要在主節(jié)點(diǎn)上生成一個(gè)密鑰對(duì),可以分成公鑰與私鑰兩種類型,使用的時(shí)候要把公鑰復(fù)制到Slave中,這樣還要求在集群中創(chuàng)建一個(gè)ssh的文件,同時(shí)還需要把權(quán)限修改為600。之后就可以生成無密碼的密鑰對(duì),使用的命令為ssh-key-gen-trsa-p。生成成功之后就可以將公鑰追加到授權(quán)的key中,然后再將其發(fā)送到其他的節(jié)點(diǎn)中。最后還要在/etc/ssh/ssh_config文件中進(jìn)行一些參數(shù)的設(shè)置,比如說啟用對(duì)RSA的認(rèn)證,命令為RSAAuthentication yes#;還有啟用對(duì)公鑰私鑰配對(duì)認(rèn)證的方式,命令為Pubkey Authentic ation yes#;還不能忘了公鑰文件的路徑,命令為AuthorizedKeysFile#

接下來就是配置Hadoop中的文件,對(duì)文件進(jìn)行配置之前需要先下載Hadoop的源碼,還需要進(jìn)行編譯,將編譯成64位的Hadoop存放到use/hadoop中,與此同時(shí)還要在這個(gè)里創(chuàng)建三個(gè)文件,分別是/dfs/name,dfs/data與tmp。下一步就是對(duì)Hadoop的配置文件進(jìn)行配置了,主要的配置文件有七個(gè),有一些是默認(rèn)沒有的,這些文件可以通過復(fù)制相關(guān)的template來獲取到。

最后還需要部署rsync,將修改好的Hadoop的配置文件復(fù)制到集群的所有節(jié)點(diǎn)。這時(shí)就會(huì)出現(xiàn)一個(gè)問題,就是在以后的開發(fā)中,隨著業(yè)務(wù)的不斷擴(kuò)展,需要對(duì)這些文件進(jìn)行一些修改,那樣的話就需要對(duì)所有的節(jié)點(diǎn)內(nèi)的文件進(jìn)行修改,這樣無疑會(huì)加大工作量,為了改善這種弊端,本平臺(tái)所采取的辦法是將rsync與crontab進(jìn)行結(jié)合,這樣就能夠?qū)崿F(xiàn)文件的同步,在對(duì)文件進(jìn)行首次同步的時(shí)候就可以實(shí)現(xiàn)文件的復(fù)制,而以后的所有傳輸?shù)膬?nèi)容就只有改動(dòng)以后的內(nèi)容了,此時(shí)在對(duì)內(nèi)容進(jìn)行傳輸?shù)倪^程中就能夠?qū)ξ募扇嚎s與解壓縮的辦法,這樣可以提高效率。此外,使用rsync還有一個(gè)優(yōu)勢(shì),就是可以保證源文件的權(quán)限以及時(shí)間的屬性。

4)測(cè)試平臺(tái)。第一步啟動(dòng)集群,需要對(duì)nomenode進(jìn)行格式化,使用命令為hdfs nanenode-forntat,第二部就是啟動(dòng)hdfe與yarn了,可以使用命令start-dfs.sh與start-yanLsh來進(jìn)行操作。在對(duì)集群進(jìn)行啟動(dòng)成功之后就可以來執(zhí)行wordcoura的程序了,第一步創(chuàng)建一個(gè)input的文件目錄,使用命令:hdfs dfs-mkdir-p/test/input。下一步創(chuàng)建兩個(gè)tst文件,使用命令:echo hello>file1.txt與echo hello world>file2.txt.文件創(chuàng)建好之后上傳到hdfs文件系統(tǒng),使用命令:hdfs dfs-put.file*.txt/test/input/。最后使用命令執(zhí)行程序:

Hadoop jar/use/hadoop/share/hadoop/mapreduce/hadoop-ma-preduce-examples-2.Z&iar wordcount/test/input/test/out。執(zhí)行完命令之后就可以查看結(jié)果了,使用命令:hdfs dfs-cat/input/oat/part-r-00000。如果出現(xiàn)結(jié)果為hell02與worldl,說明平臺(tái)運(yùn)行成功了。

3.結(jié)束語

根據(jù)平臺(tái)對(duì)測(cè)試的結(jié)果可以看出,平臺(tái)是可以正常運(yùn)行的,也是可以在平臺(tái)上進(jìn)行應(yīng)用的開發(fā)的,這足以說明,該方式是可行的。本文所介紹的大數(shù)據(jù)平臺(tái)最主要考慮是對(duì)成本的節(jié)約,以及對(duì)集群監(jiān)控的最方便地使用,以及對(duì)機(jī)器性能的最大利用,這樣才可能搭建起最完善的大數(shù)據(jù)平臺(tái),然而在對(duì)平臺(tái)進(jìn)行搭建時(shí),還是需要注意以下幾點(diǎn)的,首先就是對(duì)機(jī)器性能的充分利用,而在對(duì)Linux進(jìn)行選擇的時(shí)候不能忘記對(duì)幾個(gè)重要參數(shù)的配置,這樣才能更好地發(fā)揮Hadoop的作用。最后還要保障rsync等集群的配置文件,需要保持與節(jié)點(diǎn)的抑制,做到這些才可以更方便地對(duì)集群進(jìn)行管理。

猜你喜歡
大數(shù)據(jù)平臺(tái)研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
基于大數(shù)據(jù)的智能停車場(chǎng)管理系統(tǒng)設(shè)計(jì)
淺談電力大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)研究與應(yīng)用
基于大數(shù)據(jù)分析的智慧倉(cāng)儲(chǔ)運(yùn)營(yíng)支撐平臺(tái)設(shè)計(jì)
襪業(yè)行業(yè)大數(shù)據(jù)平臺(tái)的應(yīng)用研究
乐昌市| 荥经县| 潮州市| 嘉鱼县| 安仁县| 左云县| 内江市| 孟村| 青田县| 西乡县| 囊谦县| 大洼县| 锦州市| 南康市| 惠安县| 芜湖市| 大石桥市| 泰州市| 通海县| 泽库县| 西畴县| 扶绥县| 池州市| 河北省| 陆良县| 蒙自县| 龙江县| 略阳县| 武乡县| 德惠市| 渝北区| 咸丰县| 石家庄市| 绵阳市| 福清市| 南昌市| 马鞍山市| 旌德县| 托克托县| 宣化县| 华池县|