使用VMware Esxi和Hadoop進(jìn)行大數(shù)據(jù)平臺(tái)的搭建研究

2017-06-06 20:51:08馮健文

電腦知識(shí)與技術(shù) 2017年9期

馮健文

摘要：對(duì)于VMware Esxi與Hadoop進(jìn)行大數(shù)據(jù)平臺(tái)的搭建，該文主要考慮到實(shí)驗(yàn)室的成本以及對(duì)于監(jiān)控集群的方便性的操作，并最大程度的利用機(jī)器的性能。同時(shí)還要結(jié)合Linux系統(tǒng)本身的機(jī)制以及文件同步系統(tǒng)來對(duì)平臺(tái)進(jìn)行快速地搭建，最后進(jìn)行集群的測(cè)試，驗(yàn)證平臺(tái)的可操作性以及使用性。

關(guān)鍵詞：VMware Esxi；Hadoop；大數(shù)據(jù)平臺(tái)；研究

互聯(lián)網(wǎng)與物聯(lián)網(wǎng)等新技術(shù)的快速發(fā)展，人們對(duì)于數(shù)據(jù)已經(jīng)進(jìn)入了一個(gè)爆炸的狀態(tài)，數(shù)據(jù)量的增長(zhǎng)已經(jīng)呈現(xiàn)出指數(shù)性的增長(zhǎng)。因此來說，如何對(duì)如此龐大的數(shù)據(jù)量進(jìn)行計(jì)算成了人們需要面對(duì)的一個(gè)問題。使用傳統(tǒng)的計(jì)算模式顯然是無法實(shí)現(xiàn)的，當(dāng)前市面上使用比較廣泛的一些關(guān)系型數(shù)據(jù)庫(kù)也不能實(shí)現(xiàn)對(duì)這些海量數(shù)據(jù)的存儲(chǔ)。此時(shí)就需要人們研究一種新的實(shí)施方案，來對(duì)這些海量的數(shù)據(jù)進(jìn)行存儲(chǔ)于管理。而Hadoop公司已經(jīng)實(shí)現(xiàn)了谷歌公司的GFS，使用它可以很方便的來處理這些問題。通常情況下，人們都是在分布式的集群上搭建大數(shù)據(jù)應(yīng)用平臺(tái)而Hadoop則需要更多的配置文件，如果在分布式集群上進(jìn)行搭建就需要不斷的對(duì)配置進(jìn)行修改，顯然是非常繁瑣的，對(duì)于這個(gè)問題，本文提出了使用VMware Esxi與Hadoop進(jìn)行結(jié)合的辦法，希望能對(duì)這個(gè)問題實(shí)現(xiàn)完美的解決方案。

1.VMware Esxf與Hadoop

VMware Esxi是可以在服務(wù)器的硬件上建立的一個(gè)虛擬機(jī)系統(tǒng)，在進(jìn)行建立的時(shí)候并通常是用宿主的操作系統(tǒng)進(jìn)行支持的，因此它就擁有了更高的穩(wěn)定性，卻也不會(huì)損耗機(jī)器的重要性能VMware Esxi能夠建立多個(gè)虛擬機(jī)系統(tǒng)的，每一個(gè)獨(dú)立的虛擬機(jī)都可以有自己獨(dú)立的操作系統(tǒng)與應(yīng)用程序，在對(duì)Esxi系統(tǒng)進(jìn)行安裝之后，就可以登錄進(jìn)行操作，此時(shí)就可以創(chuàng)建一些虛擬機(jī)或者是陜照了。

Hadoop屬于Apache公司，是Apache開發(fā)的一個(gè)比較開源的分布式的系統(tǒng)架構(gòu)，主要的作用是可以提供接口與數(shù)據(jù)服務(wù)給應(yīng)用程序，具有穩(wěn)定性高與性能可靠的優(yōu)勢(shì)。Hadoop的組成主要有兩部分，一是HDFS，即Hadoop Distributed file System，二是Hadoop MapReduce。這兩部分中的HDFS屬于Hadoop的分布式文件系統(tǒng)，主要使用的架構(gòu)方式是主從方式，通常是包括一個(gè)控制節(jié)點(diǎn)以及多個(gè)數(shù)據(jù)節(jié)點(diǎn)。其中控制節(jié)點(diǎn)負(fù)責(zé)對(duì)文件系統(tǒng)的命名空間進(jìn)行管理，主要是對(duì)所有的文件所在的數(shù)據(jù)節(jié)點(diǎn)的信息進(jìn)行記錄。而數(shù)據(jù)節(jié)點(diǎn)的主要任務(wù)則是對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。MapReduce則是整個(gè)HadoopDE計(jì)算引擎，當(dāng)然也是分布式的有了它就可以對(duì)數(shù)據(jù)進(jìn)行并行的處理，主要的實(shí)現(xiàn)思想用中國(guó)的一句話將就是分而治之，根據(jù)名字來對(duì)處理的階段進(jìn)行區(qū)分主要分為兩個(gè)階段，一個(gè)是map階段，一個(gè)是reduce階段，map階段的主要工作概括起來就是一個(gè)分字，就是把輸入來的諸多并行任務(wù)分成更多的map，l'edttce的工作的內(nèi)容則是將map的階段性的工作成果進(jìn)行一個(gè)匯總。

2.搭建平臺(tái)

1）需要的硬件以及其他準(zhǔn)備工作。對(duì)這套大數(shù)據(jù)平臺(tái)的搭建所需要的硬件條件需要有聯(lián)想服務(wù)器若干與至少一臺(tái)的IBM的服務(wù)器，而且要求IBM的服務(wù)器的性能是非常過關(guān)的，因?yàn)樾枰?dāng)做主節(jié)點(diǎn)，其余的聯(lián)想服務(wù)器都需要單獨(dú)的構(gòu)造出兩個(gè)從節(jié)點(diǎn)，并使之能夠運(yùn)行DataNode。這么多的服務(wù)器需要進(jìn)行統(tǒng)一的管理，需要給每臺(tái)服務(wù)器預(yù)先安裝VMware Esxi系統(tǒng)，其他的諸如靜態(tài)IP、用戶名密碼都需要一并設(shè)置好，做好這些工作之后，就可以使用遠(yuǎn)程客戶端進(jìn)行登錄操作了。

可以使用光盤安裝VMware，本文所介紹的是5.1版本的Esxi系統(tǒng)，需要注意的是在對(duì)系統(tǒng)進(jìn)行安裝成功并對(duì)服務(wù)器進(jìn)行重啟操作之后，如果沒有啟動(dòng)盤或者是其他必要的設(shè)備，這就要對(duì)系統(tǒng)進(jìn)行再次安裝，這時(shí)可以在安裝系統(tǒng)之時(shí)加上for-matwithnbr。對(duì)系統(tǒng)安裝成功之后還需要必要的設(shè)置，主要有主機(jī)名、靜態(tài)IP以及登錄賬戶名與密碼，將這些必須的參數(shù)配置完畢之后，就能夠使用遠(yuǎn)程客戶端訪問了，除此之外也可以在客戶端上安裝vSphere Client的機(jī)器上，這樣可以使管理員的工作更加方便。

2）創(chuàng)建虛擬機(jī)與安裝Linttx系統(tǒng)。首先需要在IBM的服務(wù)器上創(chuàng)建一個(gè)單獨(dú)的虛擬機(jī)，而其余的服務(wù)器上則需要?jiǎng)?chuàng)建兩個(gè)，相信對(duì)創(chuàng)建虛擬機(jī)都是比較熟悉的，創(chuàng)建完成之后就可以根據(jù)本地的鏡像文件安裝Linux了，而一個(gè)鏡像文件是能夠支持多個(gè)虛擬機(jī)的，也就是說可以同時(shí)安裝多個(gè)虛擬機(jī)，這樣做可以很大程度的提升安裝的速度，也就能省下很大部分的安裝時(shí)間。本文介紹的大數(shù)據(jù)平臺(tái)用到的Linux系統(tǒng)是6.5版本的，在安裝的時(shí)候需要注意的是，不能忽略了對(duì)系統(tǒng)主機(jī)名與靜態(tài)IP以及啟動(dòng)時(shí)時(shí)間的同步等問題。

3）Hadoop的安裝。本套大數(shù)據(jù)平臺(tái)使用的是2.2.0版本的，相關(guān)的操作步驟如下。因?yàn)樵谥暗腖inux系統(tǒng)進(jìn)行配置的時(shí)候已經(jīng)對(duì)靜態(tài)TP、主機(jī)名以及NTP進(jìn)行了配置，因此在對(duì)Hadoop進(jìn)行配置的時(shí)候只需要配置相關(guān)的文件就可以了，在Hadoop2.2.0中需要配置的文件是/etc/hosts。對(duì)這個(gè)文件進(jìn)行配置完畢之后需要安裝JAVA以及設(shè)置SSH的登錄，本平臺(tái)使用的Java版本是1.7.011，在進(jìn)行安裝的時(shí)候可以使用命令安裝（rpm-ivh jdk-linux-x64.rpm），安裝成功之后還不能忘了在/efc/profile這個(gè)配置文件中配置必要的環(huán)境變量。

安裝好jdk之后還需要對(duì)ssh的無密碼登錄進(jìn)行設(shè)置，無密碼登錄就是要在主節(jié)點(diǎn)上生成一個(gè)密鑰對(duì)，可以分成公鑰與私鑰兩種類型，使用的時(shí)候要把公鑰復(fù)制到Slave中，這樣還要求在集群中創(chuàng)建一個(gè)ssh的文件，同時(shí)還需要把權(quán)限修改為600。之后就可以生成無密碼的密鑰對(duì)，使用的命令為ssh-key-gen-trsa-p。生成成功之后就可以將公鑰追加到授權(quán)的key中，然后再將其發(fā)送到其他的節(jié)點(diǎn)中。最后還要在/etc/ssh/ssh_config文件中進(jìn)行一些參數(shù)的設(shè)置，比如說啟用對(duì)RSA的認(rèn)證，命令為RSAAuthentication yes#；還有啟用對(duì)公鑰私鑰配對(duì)認(rèn)證的方式，命令為Pubkey Authentic ation yes#；還不能忘了公鑰文件的路徑，命令為AuthorizedKeysFile#

接下來就是配置Hadoop中的文件，對(duì)文件進(jìn)行配置之前需要先下載Hadoop的源碼，還需要進(jìn)行編譯，將編譯成64位的Hadoop存放到use/hadoop中，與此同時(shí)還要在這個(gè)里創(chuàng)建三個(gè)文件，分別是/dfs/name，dfs/data與tmp。下一步就是對(duì)Hadoop的配置文件進(jìn)行配置了，主要的配置文件有七個(gè)，有一些是默認(rèn)沒有的，這些文件可以通過復(fù)制相關(guān)的template來獲取到。

最后還需要部署rsync，將修改好的Hadoop的配置文件復(fù)制到集群的所有節(jié)點(diǎn)。這時(shí)就會(huì)出現(xiàn)一個(gè)問題，就是在以后的開發(fā)中，隨著業(yè)務(wù)的不斷擴(kuò)展，需要對(duì)這些文件進(jìn)行一些修改，那樣的話就需要對(duì)所有的節(jié)點(diǎn)內(nèi)的文件進(jìn)行修改，這樣無疑會(huì)加大工作量，為了改善這種弊端，本平臺(tái)所采取的辦法是將rsync與crontab進(jìn)行結(jié)合，這樣就能夠?qū)崿F(xiàn)文件的同步，在對(duì)文件進(jìn)行首次同步的時(shí)候就可以實(shí)現(xiàn)文件的復(fù)制，而以后的所有傳輸?shù)膬?nèi)容就只有改動(dòng)以后的內(nèi)容了，此時(shí)在對(duì)內(nèi)容進(jìn)行傳輸?shù)倪^程中就能夠?qū)ξ募扇嚎s與解壓縮的辦法，這樣可以提高效率。此外，使用rsync還有一個(gè)優(yōu)勢(shì)，就是可以保證源文件的權(quán)限以及時(shí)間的屬性。

4）測(cè)試平臺(tái)。第一步啟動(dòng)集群，需要對(duì)nomenode進(jìn)行格式化，使用命令為hdfs nanenode-forntat，第二部就是啟動(dòng)hdfe與yarn了，可以使用命令start-dfs.sh與start-yanLsh來進(jìn)行操作。在對(duì)集群進(jìn)行啟動(dòng)成功之后就可以來執(zhí)行wordcoura的程序了，第一步創(chuàng)建一個(gè)input的文件目錄，使用命令：hdfs dfs-mkdir-p/test/input。下一步創(chuàng)建兩個(gè)tst文件，使用命令：echo hello>file1.txt與echo hello world>file2.txt.文件創(chuàng)建好之后上傳到hdfs文件系統(tǒng)，使用命令：hdfs dfs-put.file*.txt/test/input/。最后使用命令執(zhí)行程序：

Hadoop jar/use/hadoop/share/hadoop/mapreduce/hadoop-ma-preduce-examples-2.Z&iar wordcount/test/input/test/out。執(zhí)行完命令之后就可以查看結(jié)果了，使用命令：hdfs dfs-cat/input/oat/part-r-00000。如果出現(xiàn)結(jié)果為hell02與worldl，說明平臺(tái)運(yùn)行成功了。

3.結(jié)束語

根據(jù)平臺(tái)對(duì)測(cè)試的結(jié)果可以看出，平臺(tái)是可以正常運(yùn)行的，也是可以在平臺(tái)上進(jìn)行應(yīng)用的開發(fā)的，這足以說明，該方式是可行的。本文所介紹的大數(shù)據(jù)平臺(tái)最主要考慮是對(duì)成本的節(jié)約，以及對(duì)集群監(jiān)控的最方便地使用，以及對(duì)機(jī)器性能的最大利用，這樣才可能搭建起最完善的大數(shù)據(jù)平臺(tái)，然而在對(duì)平臺(tái)進(jìn)行搭建時(shí)，還是需要注意以下幾點(diǎn)的，首先就是對(duì)機(jī)器性能的充分利用，而在對(duì)Linux進(jìn)行選擇的時(shí)候不能忘記對(duì)幾個(gè)重要參數(shù)的配置，這樣才能更好地發(fā)揮Hadoop的作用。最后還要保障rsync等集群的配置文件，需要保持與節(jié)點(diǎn)的抑制，做到這些才可以更方便地對(duì)集群進(jìn)行管理。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

使用VMware Esxi和Hadoop進(jìn)行大數(shù)據(jù)平臺(tái)的搭建研究