国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MapReduce的分布式云計算數(shù)據(jù)挖掘方法

2020-11-09 02:06薛慧敏
安陽師范學院學報 2020年5期
關鍵詞:計算環(huán)境分布式數(shù)據(jù)挖掘

薛慧敏

(山西財貿(mào)職業(yè)技術(shù)學院,山西 太原 030031)

0 引言

數(shù)據(jù)挖掘技術(shù)能夠有效解決目前社會各領域海量數(shù)據(jù)頻繁增長問題,幫助行業(yè)管理者從大數(shù)據(jù)中獲得有價值的趨勢信息[1]。大規(guī)模數(shù)據(jù)挖掘需要搭載高效數(shù)據(jù)處理平臺,才能在短時間內(nèi)完成相關領域的數(shù)據(jù)挖掘任務,滿足行業(yè)對數(shù)據(jù)挖掘的效率需求[2]。云計算以網(wǎng)絡“云”為介質(zhì)將宏觀的數(shù)據(jù)計算程序劃分成多個子計算程序,呈現(xiàn)顯著的分布式計算特征。云計算將數(shù)據(jù)挖掘壓力分散開來,以此降低運算時間,克服硬件設施對計算效率的負面干擾[3]。因而,本文以云計算環(huán)境為載體進行大數(shù)據(jù)挖掘,擬選用云計算技術(shù)中的MapReduce計算模型作為大規(guī)模數(shù)據(jù)并行運算的技術(shù)支撐,以獲取基于MapReduce的分布式云計算數(shù)據(jù)挖掘方案。

1 分布式云計算環(huán)境下基于MapReduce的數(shù)據(jù)挖掘技術(shù)

1.1 基于MapReduce分布式云計算框架

MapReduce是一個包含Map函數(shù)與 Reduce 函數(shù)的、能夠解決海量數(shù)據(jù)并行運算的編程模式,Map函數(shù)用于解決MapReduce計算框架的映射任務,Reduce 函數(shù)用于解決計算框架的歸約任務[4]。MapReduce計算模型下的數(shù)據(jù)挖掘效率提升的原理在于:MapReduce能夠基于實際運行狀態(tài)科學分配各程序的運算任務與運算量,通過Reduce 函數(shù)歸約節(jié)點運算結(jié)果并匯總,達到實時并行化運算狀態(tài)[5];同時,運算過程中將計算機視為分布式運算的節(jié)點,網(wǎng)絡數(shù)據(jù)的交換、計算等任務均借助計算機的內(nèi)存空間來實現(xiàn),如此一來,MapReduce無需投入過多的計算成本并且擴大了數(shù)據(jù)運算的空間場所,相同時間內(nèi)可以完成更多的計算任務。

圖1為 MapReduce計算模型的計算過程。MapReduce計算過程包括Map與Reduce兩大步驟,<鍵,值>為Map函數(shù)與Reduce函數(shù)輸入值、輸出值的表達形式。海量待挖掘數(shù)據(jù)的存儲、傳輸、讀取工作借助HDFS文件系統(tǒng)完成,HDFS是云計算環(huán)境下常用的分布式文件系統(tǒng),可以高效解決分布式文件的存儲等工作[6]。首先,樣本數(shù)據(jù)在HDFS文件系統(tǒng)中進行分塊處理,得到n個數(shù)據(jù)塊;其次,數(shù)據(jù)塊被依次讀取至Map任務區(qū)域進行相應運算處理,數(shù)個節(jié)點可以同時供Map函數(shù)運行,解決若干數(shù)據(jù)分片問題;接下來進入到Reduce函數(shù)處理環(huán)節(jié),Reduce函數(shù)以并行化運行的方式處理Map函數(shù)輸出的中間結(jié)果。最后,得到被Map與Reduce處理完成的運算結(jié)果,作為最終結(jié)果輸出。

圖1 MapReduce計算過程

1.2 基于MapReduce的云計算K-means聚類算法實現(xiàn)

MapReduce計算模型在處理大規(guī)模數(shù)據(jù)問題上展現(xiàn)了并行、均衡負載等優(yōu)勢,行業(yè)技術(shù)人員愈發(fā)傾向于運用MapReduce模型解決數(shù)據(jù)挖掘問題[7]。在MapReduce計算模型的分布式云計算框架之下進行數(shù)據(jù)挖掘的方法較為豐富,K-means是一種經(jīng)典的數(shù)據(jù)聚類方法,其聚類原理是對比兩個樣本的歐氏距離從而判斷指標相似性大小,根據(jù)相似性進行數(shù)據(jù)歸類。海量數(shù)據(jù)樣本環(huán)境中,定義一個數(shù)據(jù)集M,任意獲得k個初始聚類中心,然后求取其他所有數(shù)據(jù)樣本與初始中心的歐氏距離[8];接下來完成樣本與聚類中心的分類,分類遵循“最小距離”標準;最后統(tǒng)計各類中全部樣本的距離均值,同時將其作為此類別的聚類中心更新結(jié)果,當誤差平方和函數(shù)趨于最小值并且穩(wěn)定時終止運算。

K-means聚類算法的誤差平方和函數(shù)確定方式如下,定義數(shù)據(jù)集M的具體形式為M={x1,x2,……,xn},樣本xi={xi1,xi2,……,xir},樣本xj={xj1,xj2,……,xjr},公式(1)為計算樣本xi、xj的歐式距離計算方法:

d(xi,xj)=

(1)

進而得到如公式(2)所示的誤差平方和函數(shù):

(2)

公式中,K-means聚類算法的類別數(shù)量用K表示,第i類樣本數(shù)量以及樣本均值分別用ri、ni表示。

為更加高效、精準地實現(xiàn)K-means算法在分布式云計算環(huán)境下的數(shù)據(jù)挖掘任務,在經(jīng)典的 MapReduce計算模型基礎上引入Combiner函數(shù),具體而言,為進行Map函數(shù)操作的機器布設Combiner函數(shù)解決一次性合并Map函數(shù)輸出結(jié)果的問題,無須多次反復合并操作[9]。利用優(yōu)化后的MapReduce計算模型完成K-means聚類的步驟如下:

Step 1:Map函數(shù)執(zhí)行運算。還原K-means聚類算法中k 個中心點,以并行方法求取中心點與數(shù)據(jù)對象間的距離,數(shù)據(jù)對象分類工作也依據(jù)該距離完成。求取云計算環(huán)境下服務器數(shù)據(jù)對象與聚類中心點的距離,以此更新此刻數(shù)據(jù)對象的聚類類型,各個樣本數(shù)據(jù)對象的聚類中心點即為當前Map函數(shù)的輸入項。

Step 2:Combiner函數(shù)優(yōu)化。對完成Map函數(shù)操作的數(shù)據(jù)實施Combiner處理,以差異性數(shù)據(jù)節(jié)點為介質(zhì)完成Map函數(shù)內(nèi)存寫入操作,以此節(jié)約內(nèi)存開銷及其成本投入,同時減少中間數(shù)據(jù)傳輸量。

Step 3:Reduce函數(shù)執(zhí)行運算。初始階段Combiner過程的中間結(jié)果獲取可通過Reduce函數(shù)過程實現(xiàn),各簇的樣本數(shù)量、差異性維度坐標值統(tǒng)計情況均可一并獲得,由此得到更新后的中心坐標值,在硬盤主函數(shù)部分進行安全存儲。分布式云計算 MapReduce計算模型框架下,各服務器的數(shù)據(jù)初始中心點均由主函數(shù)負責采集與存儲,將中心點信息傳遞至Map函數(shù)部分,從宏觀上向K-means聚類算法數(shù)據(jù)挖掘過程發(fā)號施令。

2 實驗分析

搭建云計算數(shù)據(jù)挖掘?qū)嶒炂脚_進行數(shù)據(jù)挖掘測試,系統(tǒng)環(huán)境為Ubuntul2.04,以驗證基于MapReduce的分布式云計算數(shù)據(jù)挖掘方法的可行性與性能。本次分布式云計算測試平臺包括6臺計算機,構(gòu)成集群式數(shù)據(jù)測試集群。其中,云計算環(huán)境的各個節(jié)點配備Inter Corel 7處理器,2.5GHz主頻,擁有8G內(nèi)存。本次測試從權(quán)威數(shù)據(jù)平臺獲得5個有效數(shù)據(jù)集作為數(shù)據(jù)挖掘的測試樣本,數(shù)據(jù)樣本總規(guī)模為1.02GB。為突出本文算法在云計算環(huán)境下的數(shù)據(jù)挖掘優(yōu)勢,同時選取未增加Combiner函數(shù)處理的傳統(tǒng)云計算K-means聚類算法以及G-means聚類算法作為對比測試方法,詳細的實驗結(jié)果如下。

整個數(shù)據(jù)挖掘測試過程中,隨著分布式計算節(jié)點的增加,三種數(shù)據(jù)聚類算法的時間開銷情況如表1所示。

表1 不同數(shù)據(jù)聚類算法的時間開銷情況/s

表1數(shù)據(jù)顯示,當分布式計算節(jié)點由1個增加至6個時,三種算法的時間開銷均呈下降趨勢。同時,可以明顯看出,本文算法的初始時間開銷便是三者中最低,直到節(jié)點增加至6個時,聚類時間開銷僅為4121s,為三種算法中效率最高者。這是因為本文算法在云計算環(huán)境下采用了 MapReduce計算模型,并且在Map函數(shù)操作的機器上布設Combiner函數(shù)解決一次性合并Map函數(shù)輸出結(jié)果的問題,無需多次合并操作,大大節(jié)省了算法運行的時間。

此外,還可以看出,隨著節(jié)點數(shù)量增加,本文算法聚類時間減少的數(shù)據(jù)量存在一定規(guī)律性,前期時間減少幅度約為2000s,后期時間減少幅度約為1000s,沒有大幅度波動情況,說明此算法在云計算環(huán)境下進行數(shù)據(jù)挖掘的穩(wěn)定性較優(yōu)。

3 結(jié)論

云計算的分布式計算特征使其成為大數(shù)據(jù)處理的必然發(fā)展趨勢,以“任務分發(fā)—合并”的形式解決大規(guī)模數(shù)據(jù)分析與處理問題,MapReduce模型則是突出的云計算工具。本文對云計算環(huán)境下的MapReduce計算模型進行優(yōu)化,獲得一種可以高效輔助K-means聚類算法完成數(shù)據(jù)挖掘的方案。經(jīng)過測試得出,該算法在聚類效率方面優(yōu)勢顯著,同時獲得了較優(yōu)的數(shù)據(jù)挖掘穩(wěn)定性。

猜你喜歡
計算環(huán)境分布式數(shù)據(jù)挖掘
云計算環(huán)境下船舶無線通信網(wǎng)絡入侵檢測方法
云計算環(huán)境下網(wǎng)絡安全等級保護的實現(xiàn)途徑
改進支持向量機在特征數(shù)據(jù)挖掘中的智能應用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于事故數(shù)據(jù)挖掘的AEB路口測試場景
云計算環(huán)境下的信息安全風險評估
淺析分布式發(fā)電對電力系統(tǒng)的影響
分布式計算環(huán)境下網(wǎng)絡數(shù)據(jù)加密技術(shù)研究
基于預處理MUSIC算法的分布式陣列DOA估計
軟件工程領域中的異常數(shù)據(jù)挖掘算法