◆張 珍
云計(jì)算環(huán)境下的數(shù)據(jù)挖掘算法探究
◆張 珍
(四川托普信息技術(shù)職業(yè)學(xué)院四川611743)
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,對(duì)數(shù)據(jù)挖掘的精度和速度要求也原來越高,傳統(tǒng)的數(shù)據(jù)挖掘算法已難以滿足要求,基于此探究了云計(jì)算環(huán)境下的幾種數(shù)據(jù)挖掘算法內(nèi)涵。首先對(duì)云計(jì)算和數(shù)據(jù)挖掘算法的內(nèi)涵進(jìn)行了概述;其次重點(diǎn)探究了云計(jì)算環(huán)境下基于Hadoop的海量數(shù)據(jù)挖掘算法、基于MapReduce的協(xié)同過濾數(shù)據(jù)挖掘算法及基于概率回歸模型的異常數(shù)據(jù)挖掘算法內(nèi)涵及應(yīng)用;最后展望了云計(jì)算環(huán)境下數(shù)據(jù)挖掘算法的發(fā)展中存在的問題和趨勢(shì)。
云計(jì)算;數(shù)據(jù)挖掘算法;Hadoop;MapReduce
關(guān)于云計(jì)算的理論概念,國內(nèi)外學(xué)術(shù)界尚未形成統(tǒng)一觀點(diǎn),以NIST(美國國家標(biāo)準(zhǔn)技術(shù)研究院)具有代表性:通過網(wǎng)絡(luò)搜集共享計(jì)算資源,并以最低的管理代價(jià)和最精準(zhǔn)的計(jì)算方式獲取結(jié)果的新型IT運(yùn)算模式。學(xué)者徐浙君(2018)[1]認(rèn)為:云計(jì)算是一種高速計(jì)算的分布式系統(tǒng),它以Web2.0技術(shù)為核心,通過抽象虛擬的網(wǎng)絡(luò)資源池為用戶提供計(jì)算機(jī)存儲(chǔ)和計(jì)算服務(wù)。目前,對(duì)云計(jì)算支撐技術(shù)的研究已形成多元化發(fā)展態(tài)勢(shì),其中以Hadoop、分布式文件系統(tǒng)HDFS和MapReduce編程模型為核心,通過基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)實(shí)現(xiàn)計(jì)算功能。
數(shù)據(jù)挖掘是20世紀(jì)60年代以來逐漸發(fā)展起來的一種高級(jí)計(jì)算機(jī)數(shù)據(jù)處理算法,它的內(nèi)涵為:從大量、有噪聲、模糊且隨機(jī)的數(shù)據(jù)中提煉出有潛在應(yīng)有價(jià)值信息的過程性算法。它主要包括收集云端海量數(shù)據(jù)、前期數(shù)據(jù)處理、數(shù)據(jù)挖掘、挖掘結(jié)果表達(dá)評(píng)估及提取有效信息五個(gè)過程。傳統(tǒng)模式下的數(shù)據(jù)挖掘算法通?;趶?fù)雜的數(shù)學(xué)邏輯運(yùn)算模型,需要研究人員在經(jīng)過大量運(yùn)算后才能夠得出針對(duì)挖掘數(shù)據(jù)的精確結(jié)果,整個(gè)過程專業(yè)性強(qiáng)且異常復(fù)雜。云計(jì)算技術(shù)出現(xiàn)后,大量的研究表明:依托云計(jì)算構(gòu)建的高效平臺(tái)可提供實(shí)時(shí)高效的分布式并行數(shù)據(jù)挖掘服務(wù),并體現(xiàn)出挖掘門檻低、系統(tǒng)自動(dòng)分配運(yùn)算等特點(diǎn),大大提升了針對(duì)海量數(shù)據(jù)挖掘處理的效率。
Hadoop是云計(jì)算技術(shù)中的核心技術(shù),它以HDFS為系統(tǒng)管理存儲(chǔ),并以MapReduce為模型進(jìn)行云計(jì)算操作,基于此構(gòu)建針對(duì)海量數(shù)據(jù)挖掘、分析和共享的平臺(tái)。Hadoop支持海量密集型數(shù)據(jù)的挖掘運(yùn)算,通過Apache 2.0許可協(xié)議發(fā)布開源算法軟件框架。以Hadoop為核心構(gòu)建海量數(shù)據(jù)挖掘算法的系統(tǒng)已成為近年來數(shù)據(jù)挖掘技術(shù)發(fā)展的新趨勢(shì),本文在綜合已有研究的基礎(chǔ)上提出基于Hadoop的海量數(shù)據(jù)挖掘算法模型如圖1。
圖1 Hadoop的海量數(shù)據(jù)挖掘算法模型
如圖1所示,Hadoop的海量數(shù)據(jù)挖掘算法模型由三層構(gòu)成,分別是云計(jì)算處理層、數(shù)據(jù)挖掘處理層和數(shù)據(jù)應(yīng)用展示層。首先,云計(jì)算處理層位于最底層,是數(shù)據(jù)挖掘及分布式并行處理的核心層,通?;贖DFS數(shù)據(jù)存儲(chǔ)技術(shù),實(shí)際運(yùn)行中平臺(tái)可自動(dòng)調(diào)用數(shù)據(jù)挖掘各節(jié)點(diǎn)的模型維持這對(duì)數(shù)據(jù)運(yùn)算的正常操作,達(dá)到分布式處理數(shù)據(jù)的基本目標(biāo)。其次,數(shù)據(jù)挖掘處理層位于中間層,由數(shù)據(jù)挖掘算法數(shù)據(jù)處理加載兩個(gè)子系統(tǒng)構(gòu)成,其功能為依托具體的數(shù)據(jù)挖掘算法,如:關(guān)聯(lián)類算法Apriori、FP-growth等,或聚類算法EM、DBSCAN等,對(duì)底層提供的數(shù)據(jù)進(jìn)行挖掘計(jì)算。最后,數(shù)據(jù)應(yīng)用展示層位于最頂層,是一個(gè)面向用戶的系統(tǒng)層,它負(fù)責(zé)將前期預(yù)處理后的數(shù)據(jù)流通過挖掘算法系統(tǒng)植入應(yīng)用程序中,建立起實(shí)現(xiàn)用戶交互功能的展示界面,解決了云計(jì)算環(huán)境下數(shù)據(jù)從挖掘到應(yīng)用的問題。
協(xié)同過濾算法是傳統(tǒng)數(shù)據(jù)挖掘的主流算法,其目標(biāo)為[2]:以用戶的興趣需求為依據(jù)通過協(xié)同過濾的算法系統(tǒng)生成最符合用戶要求的項(xiàng)目,并將該項(xiàng)目推薦給用戶使用。由此可見,協(xié)同過濾算法基于用戶需求,體現(xiàn)了數(shù)據(jù)挖掘算法中的人性化特色,傳統(tǒng)的協(xié)同過濾算法涵蓋M項(xiàng)用戶集合U,以及N項(xiàng)的項(xiàng)集I,主要通過求相似值的方法得到推薦項(xiàng)目。云計(jì)算環(huán)境下基于MapReduce可實(shí)現(xiàn)系統(tǒng)過濾算法對(duì)數(shù)據(jù)挖掘的植入功能,具體來說,可將原有協(xié)同過濾算法中項(xiàng)計(jì)算分為4個(gè)MapReduce步驟,首先,求解數(shù)據(jù)項(xiàng)的平均值。面對(duì)大量的數(shù)據(jù),在Map-I階段提取項(xiàng)目號(hào)、評(píng)分號(hào),將相同鍵值的輸入進(jìn)行求和運(yùn)算,在此基礎(chǔ)上在Reduce-I階段中運(yùn)用Combiner合成器輸入帶求的和值。其次,求解數(shù)據(jù)項(xiàng)的相似值。在Map-II階段分析Mapper的個(gè)數(shù),并判斷每個(gè)Mapper的復(fù)雜度系數(shù),并在Reduce-II階段中進(jìn)一步計(jì)算各個(gè)Reducer的復(fù)雜度。再次,求解用戶項(xiàng)預(yù)測(cè)評(píng)分。在Map-III和Reduce-III階段繼續(xù)通過預(yù)測(cè)計(jì)算法構(gòu)建預(yù)測(cè)值矩陣求解各用戶項(xiàng)的預(yù)測(cè)評(píng)分。最后,構(gòu)建MapReduce體系預(yù)測(cè)數(shù)據(jù)評(píng)分。將上述I、II和III三個(gè)階段的預(yù)測(cè)值整合起來構(gòu)建系統(tǒng)過濾模型,按照用戶的標(biāo)識(shí)需要輸入預(yù)測(cè)值,通過并行化算法得到數(shù)據(jù)挖掘的結(jié)果。
傳統(tǒng)數(shù)據(jù)挖掘算法執(zhí)行中常常會(huì)產(chǎn)生異常數(shù)據(jù),異常數(shù)據(jù)的產(chǎn)生與系統(tǒng)算法的精準(zhǔn)度和可靠度有密切關(guān)系,且難以完全消除,它會(huì)影響到針對(duì)數(shù)據(jù)挖掘的有效性和準(zhǔn)確度?;谠朴?jì)算環(huán)境下可通過構(gòu)建概率回歸模型的形式,對(duì)異常數(shù)據(jù)進(jìn)行精準(zhǔn)的發(fā)掘識(shí)別,為數(shù)據(jù)的高效處理提供依據(jù)。本文在綜合前人研究成果[3]的基礎(chǔ)上,提出通過在云計(jì)算環(huán)境下引入混沌算法構(gòu)建異常數(shù)據(jù)挖掘算法概率回歸模型的思路,具體的模型算式為:
本式中*和*指代云計(jì)算環(huán)境下數(shù)據(jù)挖掘算法的線性回歸系數(shù),異常數(shù)據(jù)的時(shí)間序列則以Xl、X2和X表示,上述概率回歸方程算式提供了云計(jì)算環(huán)境下針對(duì)異常數(shù)據(jù)的挖掘思路,在此基礎(chǔ)上進(jìn)一步引入混沌算法構(gòu)建如下算式可實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的精準(zhǔn)挖掘:
本式中的、和均來源于概率回歸方程式中針對(duì)待分析數(shù)據(jù)的挖掘,具體的算法判斷標(biāo)準(zhǔn)為:如分子項(xiàng)結(jié)果成立,則表明是異常數(shù)據(jù),且出現(xiàn)頻度較高;如分母項(xiàng)成立,則表明不是異常數(shù)據(jù)。通過引入混沌算法和云計(jì)算環(huán)境構(gòu)建的式(1)和式(2),可實(shí)現(xiàn)對(duì)海量數(shù)據(jù)挖掘過程中異常數(shù)據(jù)的精準(zhǔn)識(shí)別。
本文對(duì)云計(jì)算環(huán)境下的數(shù)據(jù)挖掘算法進(jìn)行了細(xì)致研究,通過對(duì)前人研究成果的梳理總結(jié)出三種應(yīng)用推廣性較強(qiáng)的具體算法,并進(jìn)行了詳細(xì)的解讀,希望能夠了為數(shù)據(jù)挖掘算法的發(fā)展提供理論參考。目前,針對(duì)云計(jì)算環(huán)境下的數(shù)據(jù)挖掘算法研究和應(yīng)用已逐漸成為學(xué)術(shù)界研究的焦點(diǎn),通過對(duì)已有文獻(xiàn)的查閱發(fā)現(xiàn),現(xiàn)階段該領(lǐng)域的發(fā)展呈現(xiàn)“算法多元化,但應(yīng)用局限化”的問題,即:很多學(xué)者在傳統(tǒng)數(shù)據(jù)挖掘算法的基礎(chǔ)上,通過引入云計(jì)算思想創(chuàng)設(shè)了多種全新的數(shù)據(jù)算法,但真正能夠?qū)⑦@些算法推廣并用于實(shí)踐項(xiàng)目的案例十分稀缺。此外,在算法的實(shí)踐中還有一些云計(jì)算配套環(huán)境搭建的問題有待解決,希望能夠通過更進(jìn)一步的研究盡快解決。
[1]徐浙君.云計(jì)算下的一種數(shù)據(jù)挖掘算法的研究[J].科技通報(bào),2018(11):209.
[2]耿德志.云計(jì)算環(huán)境下海量信息故障數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)產(chǎn)品與流通,2018(11):103.
[3]馬寧,廖慧惠.云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,33(03):31-32.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2019年5期