国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的海量數(shù)據(jù)處理平臺(tái)

2021-09-10 15:40:08國(guó)標(biāo)丁帥男吳雨桐
客聯(lián) 2021年4期
關(guān)鍵詞:數(shù)據(jù)處理

國(guó)標(biāo) 丁帥男 吳雨桐

【摘 要】近幾年,云計(jì)算產(chǎn)業(yè)飛速發(fā)展,大數(shù)據(jù)處理技術(shù)也在不斷成熟。與此同時(shí),國(guó)內(nèi)移動(dòng)互聯(lián)網(wǎng)市場(chǎng)規(guī)模不斷擴(kuò)大,用戶數(shù)量己經(jīng)超過(guò)5億,并帶來(lái)了海量的移動(dòng)互聯(lián)網(wǎng)流量數(shù)據(jù)。在此背景下,如何基于云計(jì)算大數(shù)據(jù)處理技術(shù)來(lái)承載海量網(wǎng)絡(luò)數(shù)據(jù)處理業(yè)務(wù),是一個(gè)非常有研究?jī)r(jià)值的課題。

【關(guān)鍵詞】流量數(shù)據(jù);Hadoop;數(shù)據(jù)處理

一、MapReduce分布式處理技術(shù)

Hadoop平臺(tái)的MapReduce框架采用主從架構(gòu),由一個(gè)JobTracker主節(jié)點(diǎn)和多個(gè)TaskTracker從節(jié)點(diǎn)構(gòu)成。JobTracker模塊負(fù)責(zé)MapReduce作業(yè)的調(diào)度,包括分配用戶提交的作業(yè)執(zhí)行順序、Map任務(wù)和Reduce任務(wù)的分配和執(zhí)行,推測(cè)性任務(wù)的執(zhí)行等,從節(jié)點(diǎn)中TaskTracker模塊負(fù)責(zé)處理主節(jié)點(diǎn)指派的任務(wù),包括執(zhí)行Map任務(wù)、Reduce任務(wù)和推測(cè)性任務(wù)。MapReduce框架運(yùn)行流程如下。

(一)用戶提交作業(yè)。用戶編寫自己的MapReduce程序并在客戶端節(jié)點(diǎn)上運(yùn)行,作業(yè)客戶端實(shí)例化后,向JobTracke:模塊提交該作業(yè)信息,申請(qǐng)分配作業(yè)的ID號(hào)。然后作業(yè)客戶端在驗(yàn)證本次作業(yè)相關(guān)信V、無(wú)誤的情況下,將作業(yè)資源存放到分布式文件系統(tǒng)中,默認(rèn)情況下,Hadoop使用HDFS作為其文件存儲(chǔ)系統(tǒng)。最后客戶端向JobTracker模塊提交作業(yè)執(zhí)行請(qǐng)求。

(二)JobTracker初始化用戶作業(yè)。JobTracker收到用戶提交的作業(yè)后,創(chuàng)建該作業(yè)實(shí)例對(duì)象并配置相關(guān)數(shù)據(jù),包括該作業(yè)使用的Jar包存放位置、輸入數(shù)據(jù)分塊信J自、以及作業(yè)對(duì)應(yīng)的配置文件信息、等等。然后JobTracker根據(jù)其配置的一調(diào)度算法(默認(rèn)為先進(jìn)先出調(diào)度算法)將該作業(yè)放入其作業(yè)對(duì)待,用于后續(xù)分配。

(三)任務(wù)分配。當(dāng)前MapReduce的機(jī)制中使用心跳通信機(jī)制來(lái)進(jìn)行任務(wù)分配。即從節(jié)點(diǎn)中的TaskTracke:模塊定時(shí)向.lobTracker發(fā)送心跳通信,JobTracker的作業(yè)隊(duì)列若有待分配的作業(yè),則其根據(jù)收到的信息、決定是否向該TaskTracker分配任務(wù)。當(dāng)從節(jié)點(diǎn)上TaskTracker模塊的Map任務(wù)槽有空閑時(shí),JobTracker節(jié)點(diǎn)根據(jù)感知策略向該節(jié)點(diǎn)分配合適的Map任務(wù)。需要說(shuō)明的是,JobTracker在分配任務(wù)時(shí),優(yōu)先往TaskTracker分配Map任務(wù),只有在TaskTracker模塊上Map任務(wù)槽無(wú)空閑時(shí)才分配Reduce任務(wù)。

(四)TaskTracker執(zhí)行Map任務(wù)。TaskTracker在執(zhí)行Map或者Reduce任務(wù)時(shí),每執(zhí)行一個(gè)任務(wù)均會(huì)啟動(dòng)一個(gè)Java子進(jìn)程來(lái)運(yùn)行該任務(wù)。當(dāng)啟動(dòng)子進(jìn)程之前,TaskTracker模塊首先從HDFS中讀取該作業(yè)客戶端之前存放的作業(yè)相關(guān)信息,然后再創(chuàng)建一個(gè)Java子進(jìn)程來(lái)執(zhí)行用戶自己編寫的Map任務(wù)。Map任務(wù)運(yùn)行后會(huì)定期輸出數(shù)據(jù)緩存在內(nèi)存中。當(dāng)緩存數(shù)據(jù)超過(guò)指定限額時(shí),Map任務(wù)會(huì)將數(shù)據(jù)緩存到該從節(jié)點(diǎn)的磁盤中。

(五)TaskTracke:執(zhí)行Reduce任務(wù)。當(dāng)有Map任務(wù)執(zhí)行完畢,同時(shí)有TaskTracker模塊存在空閑Reduce槽的情況下,當(dāng)該TaskTracker從節(jié)點(diǎn)與JobTracker通信時(shí),JobTracker會(huì)分配該作業(yè)對(duì)應(yīng)的Reduce任務(wù)給該從節(jié)點(diǎn)。需要說(shuō)明的是,由于Reduce任務(wù)的輸入數(shù)據(jù)來(lái)源于各個(gè)Map任務(wù)的輸出,沒(méi)有本地?cái)?shù)據(jù)的概念,因此JobTracker直接分配隊(duì)列中的Reduce任務(wù)即可。Reduce任務(wù)運(yùn)行時(shí),首先從對(duì)應(yīng)的Map任務(wù)所在的節(jié)點(diǎn)讀取中間數(shù)據(jù)。當(dāng)Reduce任務(wù)得到其所需的數(shù)據(jù)后開(kāi)始執(zhí)行用戶編寫的Reduce任務(wù)程序。Reduce任務(wù)運(yùn)行時(shí),

將其輸出結(jié)果存放到HDFS中。

(六)完成一次作業(yè)運(yùn)行。Reduce任務(wù)全部完成后,輸出結(jié)果根據(jù)用戶指定的目錄存放。JobTracker根據(jù)各個(gè)TaskTracker發(fā)送的心跳信息知道該作業(yè)已經(jīng)運(yùn)行完畢,設(shè)置該作業(yè)的完成標(biāo)記,同時(shí)向作業(yè)客戶端發(fā)送作業(yè)完成的通知和相關(guān)統(tǒng)計(jì)數(shù)據(jù)。需要說(shuō)明的是,在作業(yè)運(yùn)行期間,用戶客戶端從持續(xù)收到作業(yè)運(yùn)行的進(jìn)度信息。

二、結(jié)語(yǔ)

本章節(jié)介紹了在當(dāng)前移動(dòng)互聯(lián)網(wǎng)及其引發(fā)的網(wǎng)絡(luò)業(yè)務(wù)快速增長(zhǎng)的現(xiàn)狀下,本文使用Hadoop技術(shù)來(lái)進(jìn)行網(wǎng)絡(luò)流量數(shù)據(jù)處理的必要性。并對(duì)基于Hadoop的海量網(wǎng)絡(luò)數(shù)據(jù)處理平臺(tái)的總體架構(gòu),以及該平臺(tái)所使用的數(shù)據(jù)采集和傳輸技術(shù),基于HDFS的海量網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)技術(shù)和基于MapReduce的海量數(shù)據(jù)處理技術(shù)等關(guān)鍵技術(shù)進(jìn)行了詳細(xì)介紹。此外,本章節(jié)對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)處理平臺(tái)當(dāng)前需要重點(diǎn)解決的技術(shù)問(wèn)題進(jìn)行了詳細(xì)分析。從而為本文后續(xù)開(kāi)展的研究工作進(jìn)行了鋪墊,打下良好的基礎(chǔ)。

【參考文獻(xiàn)】

[1]劉軍,Hadoop大數(shù)據(jù)處理人民郵電出版社,2013

[2]趙衛(wèi)中,馬慧芳,傅燕翔等,基于云計(jì)算平臺(tái)Hadoop的并行K-Mean聚類算法設(shè)計(jì)研

究,計(jì)算機(jī)科學(xué),38(10) 2011, 166-168

[3]Xue S J, Pan W B, Fang W, A Novel Approach in Improving I/O Performance of SrnallMeteorological Files on HDFS, Applied Mechanics and Materials, 1172012 1759-1765.

[4]Yazd S A, Venkatesan S, Mittal N, Energy Efficient Hadoop Using MirroredReplication Policy, Reliable Distributed Systems (SRDS), 2012 IEEE 31st Symposium on:457-462.Data BlockIEEE, 2012

猜你喜歡
數(shù)據(jù)處理
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
基于POS AV610與PPP的車輛導(dǎo)航數(shù)據(jù)處理
依托陸態(tài)網(wǎng)的GNSS遠(yuǎn)程數(shù)據(jù)處理軟件開(kāi)發(fā)
岗巴县| 北宁市| 阿勒泰市| 民乐县| 英吉沙县| 仁寿县| 和硕县| 大兴区| 梅河口市| 彭泽县| 高邮市| 安国市| 庆阳市| 庄河市| 木兰县| 汾阳市| 合水县| 衡南县| 临猗县| 宜宾县| 娱乐| 商丘市| 错那县| 临清市| 黄陵县| 肇源县| 驻马店市| 临漳县| 土默特左旗| 蕉岭县| 嘉黎县| 贡觉县| 阿合奇县| 临漳县| 富蕴县| 孟连| 寻甸| 阿坝县| 兴山县| 赣州市| 麦盖提县|