国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的海量數(shù)據(jù)處理平臺的架構(gòu)與研究

2019-08-29 02:57關(guān)金金未培莊彥
科技視界 2019年20期

關(guān)金金 未培 莊彥

【摘 要】大數(shù)據(jù)時代的來臨,成就了海量數(shù)據(jù)的衍生,但如何快速聚類高價值數(shù)據(jù),深度挖掘電商行業(yè)客戶和服務(wù)數(shù)據(jù),搭建海量數(shù)據(jù)服務(wù)著陸平臺,監(jiān)測行業(yè)數(shù)據(jù)輿情,提升公共服務(wù)水平,拓寬數(shù)據(jù)資源應(yīng)用市場是“互聯(lián)網(wǎng)+”行業(yè)轉(zhuǎn)型的關(guān)鍵。借助Hadoop分布式存儲與計(jì)算平臺,以高效、可靠、可伸縮的方式維護(hù)數(shù)據(jù)精確度、緩解數(shù)據(jù)冷啟動問題,增強(qiáng)數(shù)據(jù)多樣化推薦。

【關(guān)鍵詞】Hadoop平臺;海量數(shù)據(jù);服務(wù)處理平臺;HDFS架構(gòu)

中圖分類號: TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 2095-2457(2019)20-0099-002

DOI:10.19694/j.cnki.issn2095-2457.2019.20.046

0 概述

多元化的數(shù)據(jù)來源,井噴式的數(shù)據(jù)增長,龐冗雜的數(shù)據(jù)規(guī)模正預(yù)示著大數(shù)據(jù)時代的來臨,擺脫了傳統(tǒng)數(shù)據(jù)庫儲存、管理和分析的約束,大數(shù)據(jù)正朝著深度學(xué)習(xí)、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)過濾,分布式計(jì)算、推薦算法等體現(xiàn)其時效價值性的方向發(fā)展。面對海量數(shù)據(jù),如何快速挖掘,過濾分析、決策處理成為各大“互聯(lián)網(wǎng)+”公司轉(zhuǎn)型的關(guān)鍵,而基于Hadoop分布式存儲與計(jì)算機(jī)平臺的誕生正是為改善企業(yè)數(shù)據(jù)資源的高效運(yùn)用,提升品牌價值市場競爭力而服務(wù)[1]。

1 Hadoop集群的偽分布環(huán)境的架構(gòu)

Hadoop分布式存儲與分布式計(jì)算環(huán)境,是基于JAVA語言開發(fā)的,需要部署在計(jì)算機(jī)集群中,因此可以首先在載有CentOS系統(tǒng)的master虛擬機(jī)器中,借助xshell和xftp工具完成主-虛兩機(jī)JAVA語言編程環(huán)境安裝。接著完成CentOS克隆,構(gòu)建三臺Hadoop基礎(chǔ)集群計(jì)算機(jī),三臺VM機(jī)之間實(shí)現(xiàn)SSH免密碼登錄,在master機(jī)器上修改Hadoop組件后,將Hadoop安裝目錄拷貝到兩個salve node節(jié)點(diǎn)上,修改$Hadoop Home/etc/hadoop目錄下的配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml內(nèi)容,完成配置,直至三個節(jié)點(diǎn)均安裝語言編程環(huán)境[1-2]。

2 海量數(shù)據(jù)分析

以電商網(wǎng)站為例,供應(yīng)商通過將企業(yè)商品和開放網(wǎng)絡(luò)彼此關(guān)聯(lián)為客戶提供了商用數(shù)據(jù)服務(wù), 運(yùn)用智能算法深度挖掘Web站點(diǎn)內(nèi)容和結(jié)構(gòu),構(gòu)建模型,運(yùn)用平臺推薦系統(tǒng),聚類高價值信息,規(guī)范關(guān)聯(lián)數(shù)據(jù)格式,形成個性化數(shù)據(jù)訂閱,提供精準(zhǔn)服務(wù),拓寬銷售渠道,提升平臺價值和品牌效應(yīng)。海量數(shù)據(jù)來源廣泛,包括電商平臺交易數(shù)據(jù),互聯(lián)網(wǎng)關(guān)聯(lián)數(shù)據(jù),傳感器數(shù)據(jù)等,數(shù)據(jù)類型包括非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù),異化半結(jié)構(gòu)數(shù)據(jù),但處理流程基本一致,主要有 “數(shù)據(jù)采集-數(shù)據(jù)分析-數(shù)據(jù)過濾-數(shù)據(jù)標(biāo)準(zhǔn)化-數(shù)據(jù)應(yīng)用”五個步驟,具體如圖1。

面向Hadoop平臺能夠快速獲取豐富的信息資源,但不可避免的會遇到“信息過載”和“信息失效”問題,及時過濾冗余數(shù)據(jù),篩選出對用戶有用的數(shù)據(jù),提供個性化和類似群體的信息推薦,識別潛在隱藏用戶,產(chǎn)生良好的推薦策略,引導(dǎo)用戶訪問和消費(fèi),提升電商平臺公共服務(wù)能力,完善網(wǎng)站精準(zhǔn)數(shù)據(jù)評估[3-4]。圖2給出了海量數(shù)據(jù)服務(wù)著陸平臺的架設(shè)。

3 基于Hadoop平臺的海量數(shù)據(jù)處理關(guān)鍵技術(shù)

Hadoop兩大大數(shù)據(jù)核心技術(shù),其一MapReduce分布式存儲框架遵循主-從結(jié)構(gòu),主-從節(jié)點(diǎn)中的數(shù)據(jù)一般屬于同一個命名空間(namespace)即文件系統(tǒng)的目錄結(jié)構(gòu)。主節(jié)點(diǎn)是用戶操作的入口,負(fù)責(zé)接收操作的各種請求信息,維護(hù)命名空間;而從節(jié)點(diǎn)主要負(fù)責(zé)存儲數(shù)據(jù)。其二HDFS分布式計(jì)算框架,存儲在其中的文件會被分割成若干塊(Block),然后這些塊會復(fù)制到多個計(jì)算機(jī)節(jié)點(diǎn)中,計(jì)算框架內(nèi)部之間的通信基于TCP/IP協(xié)議,Hdfs文件在各存儲節(jié)點(diǎn)間讀和寫的流程如下圖3[5]。

HDFS中的NameNode節(jié)點(diǎn)讀取從客戶端Client發(fā)送過來的路徑,將文件的元數(shù)據(jù)信息返回給請求客戶,Client端之后會根據(jù)這些信息找到對應(yīng)的DataNode獲取Block塊并在本地端整合數(shù)據(jù)還原文件內(nèi)容。

而客戶端Client向HDFS寫數(shù)據(jù)時,在獲得和NameNode節(jié)點(diǎn)通信確認(rèn)ACK信息后,接收文件Block的DataNode信息,按序?qū)lock傳遞給對應(yīng)的DataNode,DataNode-1和DataNode-2之間傳遞Block副本。

4 小結(jié)

海量數(shù)據(jù)信息量龐、冗、雜,為快速獲取關(guān)鍵數(shù)據(jù)、避免在分布式存儲和計(jì)算過程中出現(xiàn)數(shù)據(jù)稀疏、數(shù)據(jù)傾斜和數(shù)據(jù)失真,考慮通過加入正則表達(dá)式匹配防止數(shù)據(jù)堆棧溢出,清洗出有價值數(shù)據(jù),挖掘數(shù)據(jù)關(guān)聯(lián),引入推薦系統(tǒng),跨域提供精準(zhǔn)決策,豐富客戶需求,提升電商行業(yè)的數(shù)據(jù)資源競爭力,從而拓寬行業(yè)服務(wù)平臺。

【參考文獻(xiàn)】

[1]張趁香.基于Hadoop平臺的海量數(shù)據(jù)分析和處理[J].數(shù)據(jù)庫與信息管理.2019,01:95-97.

[2]申晉祥,鮑美英.基于Hadoop、平臺的優(yōu)化協(xié)同過濾推薦算法研究[J].軟件.2018,39(12):1-5.

[3]孫輝,馬躍,楊海波.一種相似度改進(jìn)的用戶聚類系統(tǒng)過濾算法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(9):1967-1970.

[4]王文賢,陳興蜀,王海舟,等.一種基于Solr的HBase海量數(shù)據(jù)二級索引方案[J].信息網(wǎng)絡(luò)安全.2017(8):39-44.

[5]宋陽.高校大數(shù)據(jù)存儲方案探索[J].中小企業(yè)管理與科技.2018(11):82-83.

东海县| 黎平县| 深泽县| 特克斯县| 隆昌县| 黑龙江省| 甘孜| 枝江市| 密山市| 湖南省| 额济纳旗| 连云港市| 胶南市| 济宁市| 东莞市| 清水县| 黄石市| 祁阳县| 尉氏县| 克东县| 伽师县| 江安县| 阜宁县| 开远市| 如东县| 蒙山县| 卢龙县| 无为县| 青川县| 尉犁县| 霍林郭勒市| 同仁县| 孝义市| 东至县| 无棣县| 宣汉县| 贡觉县| 罗城| 阳春市| 吴川市| 夹江县|