国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下基于Hadoop框架的數(shù)據(jù)挖掘算法的研究與實現(xiàn)

2017-11-14 12:16:10周佩朱嫻睿何漢張毅
電腦知識與技術(shù) 2017年29期
關(guān)鍵詞:大數(shù)據(jù)環(huán)境研究

周佩+朱嫻睿+何漢+張毅

摘要:隨著當(dāng)前科學(xué)技術(shù)的發(fā)展,我國各行業(yè)的發(fā)展進入了大數(shù)據(jù)時代,這就為數(shù)據(jù)挖掘算法創(chuàng)造了條件。在大數(shù)據(jù)環(huán)境下,為了使數(shù)據(jù)挖掘的速度得以提高,本次研究主要對基于Hadoop框架的數(shù)據(jù)挖掘算法進行研究,得出由PrePost算法改進的挖掘算法MRPrePost,這種挖掘算法是以Hadoop為平臺,使編程難度得到降低,并且容易管理,通過深度優(yōu)化使內(nèi)存的開銷得到降低,通過負載均衡的方法進行分組以使并行算法的重要性能得到提高,從而使這種算法提升運行速度,適應(yīng)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘。

關(guān)鍵詞:大數(shù)據(jù)環(huán)境;Hadoop框架;數(shù)據(jù)挖掘算法;研究

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)29-0222-02

隨著當(dāng)前一些設(shè)備走向高智能化、高存儲量,世界的信息量早已突破ZB級別,如此繁多的信息量已經(jīng)使我們進入了大數(shù)據(jù)環(huán)境中,但如何使這些信息中包含的優(yōu)質(zhì)信息極其潛在價值進行精準的挖掘是當(dāng)前面臨的工作重點以及難點。數(shù)據(jù)挖掘已經(jīng)在我國開展很多年,但這一方面的發(fā)展卻始終追逐不上信息量的暴增,目前所使用的數(shù)據(jù)挖掘算法在大數(shù)據(jù)環(huán)境下早已經(jīng)不再適用,大數(shù)據(jù)的挖掘出現(xiàn)了嚴重的滯后的現(xiàn)象,因此,在大數(shù)據(jù)環(huán)境下,掌握科學(xué)的數(shù)據(jù)挖掘算法是當(dāng)前的主要任務(wù)。本次研究主要通過Hadoop框架對已有的算法PrePost進行科學(xué)的改進,從而引出適合大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘算法MRPrePost,該算法具有計算快的特點,并能夠適應(yīng)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,是當(dāng)前數(shù)據(jù)挖掘算法的新模式。下文將對這種數(shù)據(jù)挖掘算法進行研究,以實現(xiàn)對大數(shù)據(jù)環(huán)境的適應(yīng)。

1 相關(guān)技術(shù)的簡要概述

1.1 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)

通過這項技術(shù)進行數(shù)據(jù)挖掘的目的在于搜尋事務(wù)之間存在的內(nèi)在聯(lián)系,并且這項技術(shù)已在各行業(yè)中得以推廣應(yīng)用,例如當(dāng)今與我們生活息息相關(guān)的超市購物,通過這項技術(shù)能夠?qū)⒔灰子涗涀鳛橐罁?jù),然后搜索相關(guān)的物品,并對顧客的購買習(xí)慣進行分析,然后根據(jù)分析的結(jié)果對貨架及庫存進行安排,并對顧客進行智能分類。數(shù)據(jù)挖掘的前期準備工作非常重要,首先它需要進行最小置信度以及支持數(shù)進行參數(shù)設(shè)置,從而使數(shù)據(jù)挖掘支持數(shù)高于最小支持數(shù),從而以最小置信度使有效的管理規(guī)則數(shù)據(jù)產(chǎn)生。

1.2 Hadoop技術(shù)框架

Hadoop作為Apache中的開源項目之一,其能夠進行提供可靠、開源、可擴展的分布式計算應(yīng)用工具。Hadoop的組件主要包括兩個,分別為MapReduce以及HDFS,這兩個組件的作用分別在于數(shù)據(jù)的計算和數(shù)據(jù)的存儲,以下將分別介紹這兩個組件。

1.2.1 MapReduce組件

此組件是能夠?qū)?shù)據(jù)進行計算,屬于一種分布式的計算框架,能夠?qū)﹄x線大數(shù)據(jù)進行有效的計算。并通過函數(shù)式編程這種模式,對Map函數(shù)以及Reduce函數(shù)進行合理的利用,從而實現(xiàn)較為繁雜的計算。分布式的計算框架如圖1所示。

1.2.2 HDFS組件

此組件是一種獨立形式的文件系統(tǒng),可以通過自身的存儲功能對MapReduce分布式計算框架進行服務(wù),具有高可用性以及高容錯性,以塊存儲作為基礎(chǔ),并通過流數(shù)據(jù)模式來進行正常的訪問,一般情況下,數(shù)據(jù)節(jié)點具備相互備份的功能。存儲塊的初始大小被默認為64M,使用者也可以根據(jù)自身的情況對其大小進行自定義。HDFS從結(jié)構(gòu)上來講,主要包括DataNode數(shù)據(jù)存儲、NameNode目錄管理以及Client訪問客戶端三大部分。其中DataNode主要是文件系統(tǒng)中基本的存儲單元;NameNode主要對系統(tǒng)集群配置管理、命名空間以及復(fù)制存儲塊;Client主要是文件系統(tǒng)中的一種應(yīng)用程序,HDFS具體的結(jié)構(gòu)體系如圖2所示。

2 大數(shù)據(jù)環(huán)境下基于Hadoop框架的數(shù)據(jù)挖掘算法

本文所提及的MRPrePost數(shù)據(jù)挖掘算法使以PrePost為基礎(chǔ)進行改進形成的,其能夠進行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘。次數(shù)據(jù)挖掘算法主要包含三個重要的部分,分別為統(tǒng)計頻繁的一項集、F-list的均勻分組以及并行挖掘頻繁模式。次算法具體的流程見圖3。

2.1 統(tǒng)計頻繁的一項集

并行計算以水平分片的方式將數(shù)據(jù)庫進行處理,以Block為各子文件進行命名,同時使其分配至各worker節(jié)點之上,并將其當(dāng)做Map函數(shù)的主要輸入值,對其出現(xiàn)的次數(shù)進行統(tǒng)計。此過程具體來講主要是通過Map函數(shù)使Block文件分為pair,然后將String以項集為依據(jù)進行分割,key在此為單項,通過Combine函數(shù)將同類的key值進行合并,得到新key值,并將其當(dāng)做下一階段的Reduce的輸入值,最后將各節(jié)點中包含的Key值進行總體合并,并將數(shù)閾值作為依據(jù)進行對FIM1進行生成,并生成全局的F-list。

2.2 F-list的均勻分組

為了使F-list的規(guī)模得到有效調(diào)節(jié),必須對數(shù)閾值進行設(shè)置,當(dāng)關(guān)聯(lián)規(guī)則的比價較為精準時,對頻繁一項集的需求量會增多,但是需要對其進行適當(dāng)?shù)目刂?,以確保PPC-Tree樹能夠正常的建立,使數(shù)據(jù)挖掘的后期工作能夠正常進行,為了達到這一點,可以對PPC-Tree樹進行分割若干個子樹,這些子樹相互獨立,從而使PPC-Tree樹的占存及深度得到降低。在對F-list進行分組的過程中,可能會產(chǎn)生系統(tǒng)的負載不平衡的狀態(tài),若對此不能得到有效的處理,將會使系統(tǒng)的性能受到嚴重的影響。因此需要將F-list中包含的所有的項集進行均勻分布,從而使系統(tǒng)的負載均衡化,充分發(fā)揮出系統(tǒng)的性能。本次研究主要通過使F-list中所包含的全部項集均勻分布各組中,將分好的項集記作G-list,將項集中的組員記作gid,當(dāng)組數(shù)為2的時候,最小支持數(shù)Supportmin即為2,其分組的情況如表1所示:

2.3 并行挖掘頻繁模式

將F-list進行分組的目的是為了使所有的事務(wù)進行重劃,從而保證獨立形式的PPC-Tree樹就此形成,本次研究將事務(wù)集中不頻繁出現(xiàn)的項集進行去除,并通過支持數(shù)的降序順序?qū)︻l繁項集進行排序,形成path路徑,通過此路徑對全部的項集進行遍歷,若path在項集中有對應(yīng)的組員(gid),則應(yīng)將該組員(gid)同path左側(cè)的項形成Key值發(fā)送至Reduce函數(shù)中,在進行發(fā)送前,應(yīng)將其進行Java序列化處理,使序列對象PathArray得以建立。在序列化處理完畢后,對各節(jié)點包含的新任務(wù)進行啟動。

2.4 數(shù)據(jù)挖掘算法的性能測試

為了測試MRPrePost數(shù)據(jù)挖掘算法的性能,本次研究特選取了我國2007年1月至2017年1月期間所發(fā)生的交通事故統(tǒng)計得來的數(shù)據(jù)集,并對PFP-Growth數(shù)據(jù)挖掘算法和MRPrePost數(shù)據(jù)挖掘算法進行實驗對比,兩者所選用的硬件設(shè)施均為相同配置的臺式設(shè)備,CPU、操作系統(tǒng)、內(nèi)存以及硬盤容量都相同,通過兩者的運算可以看出,MRPrePost數(shù)據(jù)挖掘算法在計算速度方面較PFP-Growth數(shù)據(jù)挖掘算法快,與此同時,MRPrePost數(shù)據(jù)挖掘算法在使用效果方面也較PFP-Growth數(shù)據(jù)挖掘算法要好很多。因此,這種數(shù)據(jù)挖掘計算方法較為實用。

3 結(jié)束語

綜上所述,由于當(dāng)前的數(shù)據(jù)挖掘算法在計算規(guī)則方面存在繁瑣復(fù)雜的狀態(tài),并且當(dāng)前所使用的數(shù)據(jù)挖掘算法的計算速度也較為緩慢,因此,本次研究主要針對目前數(shù)據(jù)挖掘算法存在的問題,引出一種基于Hadoop框架的數(shù)據(jù)挖掘算法MRPrePost,并對其計算原理、組成結(jié)構(gòu)、特點優(yōu)勢進行說明,通過對比性能實驗來說明其優(yōu)勢,性能實驗結(jié)果表明:通過PrePost改進而成的數(shù)據(jù)挖掘算法MRPrePost能夠?qū)﹃P(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘進行有效的適應(yīng),并且提高了計算的速度,縮減了數(shù)據(jù)挖掘計算方面所耗費的時間,對這種算法進行應(yīng)用,具有重要的現(xiàn)實意義。

參考文獻:

[1] 廖晶貴.基于Hadoop的大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法的研究與實現(xiàn)[J].華南理工大學(xué),2015,11(2):221-221.

[2] 洪波,呂燕霞,黃磊. 大數(shù)據(jù)環(huán)境下基于Hadoop框架的數(shù)據(jù)挖掘算法的研究與實現(xiàn)[J].北京宣武紅旗業(yè)余大學(xué)學(xué)報,2017,25(7):41-44.

[3] 劉木林,朱慶華.基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究——以Apriori算法為例[J].計算機技術(shù)與發(fā)展,2016,13(12):144-145.

[4] 李歐.大數(shù)據(jù)環(huán)境中科技創(chuàng)新服務(wù)平臺為創(chuàng)新主體提供深度數(shù)據(jù)挖掘[J].產(chǎn)業(yè)與科技論壇,2017,16(17):10-11.

[5] 劉占波,王立偉,王曉麗.大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術(shù)的高??蒲泄芾硐到y(tǒng)的設(shè)計[J].電子測試,2017,12(1):44-45.endprint

猜你喜歡
大數(shù)據(jù)環(huán)境研究
FMS與YBT相關(guān)性的實證研究
2020年國內(nèi)翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
新版C-NCAP側(cè)面碰撞假人損傷研究
大數(shù)據(jù)環(huán)境下云計算對電子商務(wù)的影響
基于大數(shù)據(jù)環(huán)境的新聞編輯理念變革創(chuàng)新機制
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘技術(shù)分析及若干研究
中文信息(2016年10期)2016-12-12 09:46:47
大數(shù)據(jù)環(huán)境下的新聞編輯理念創(chuàng)新探討
九台市| 永修县| 从化市| 铜鼓县| 巴青县| 革吉县| 宜宾市| 长岛县| 德庆县| 鹰潭市| 阿拉善左旗| 镇平县| 天镇县| 沐川县| 翁源县| 鸡泽县| 娄底市| 乐东| 徐水县| 秭归县| 禄丰县| 章丘市| 忻城县| 兴仁县| 万盛区| 阿图什市| 社旗县| 务川| 伊宁市| 牙克石市| 沂水县| 新乡市| 金华市| 乾安县| 新平| 古蔺县| 松江区| 深圳市| 丹巴县| 通化市| 汤原县|