丁錦華
摘要:當(dāng)前廣泛使用的被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法存在關(guān)聯(lián)準(zhǔn)確性較低的不足,為此提出了一種基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法?;谠朴?jì)算平臺(tái)的引入,依托復(fù)雜網(wǎng)絡(luò)下的被動(dòng)數(shù)據(jù)節(jié)點(diǎn)解析,確定被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法核心步驟,實(shí)現(xiàn)了基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法設(shè)計(jì)。試驗(yàn)數(shù)據(jù)表明,提出的快速關(guān)聯(lián)算法較常規(guī)算法,具有較高的關(guān)聯(lián)準(zhǔn)確性以及穩(wěn)定性,適合復(fù)雜網(wǎng)絡(luò)下被動(dòng)數(shù)據(jù)的快速關(guān)聯(lián)計(jì)算。
關(guān)鍵詞:云計(jì)算平臺(tái);復(fù)雜網(wǎng)絡(luò);被動(dòng)數(shù)據(jù);關(guān)聯(lián)算法
中圖分類號(hào):N37 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)30-pppp-O
目前,我國(guó)對(duì)海量數(shù)據(jù)處理方式主要有兩種,一種是多處理器的服務(wù)器進(jìn)行處理,一種是采用高內(nèi)存處理器的服務(wù)器進(jìn)行處理,但是由于技術(shù)問(wèn)題,這兩種處理方式均存在著一定的問(wèn)題,比如處理器有限問(wèn)題等等。從計(jì)算能力到存儲(chǔ)能力均越來(lái)越無(wú)法有效的支撐網(wǎng)絡(luò)數(shù)據(jù)的“挖掘”海量數(shù)據(jù)處理分析進(jìn)人到了一個(gè)“瓶頸”期,它直接導(dǎo)致了網(wǎng)絡(luò)數(shù)據(jù)的潛在利用價(jià)值實(shí)效。與此同時(shí),Google MapReduce、Spark、Hadoop、BigTable以及GFS等一系列支持海量數(shù)據(jù)分析與儲(chǔ)存工具出現(xiàn),有效的解決了大數(shù)據(jù)的“瓶頸”問(wèn)題嘲。本文在立足我國(guó)現(xiàn)有數(shù)據(jù)分析的基礎(chǔ)之上,進(jìn)一步設(shè)計(jì)了一種新型的研究算法——基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法。
1基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法設(shè)計(jì)
1.1云計(jì)算平臺(tái)的引入
在我國(guó)現(xiàn)有的云計(jì)算平臺(tái)和復(fù)雜網(wǎng)絡(luò)的經(jīng)典算法基礎(chǔ)之上深入的研究,同時(shí)提出提出基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法。根據(jù)算法的特點(diǎn)進(jìn)一步選擇合適的云計(jì)算平臺(tái),以此來(lái)設(shè)計(jì)適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)。針對(duì)不同的云計(jì)算平臺(tái)所具有的不同應(yīng)用場(chǎng)景,在恰當(dāng)?shù)脑朴?jì)算平臺(tái)上進(jìn)行巧妙的算法設(shè)計(jì)以此來(lái)明顯提高算法效率。
引入云計(jì)算平臺(tái),利用云計(jì)算平臺(tái)的方式,進(jìn)行復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)計(jì)算。引入云計(jì)算平臺(tái)過(guò)程首先應(yīng)確定復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)與云計(jì)算平臺(tái)數(shù)據(jù)的兼容性,其數(shù)據(jù)串口與云計(jì)算平平臺(tái)通信示意圖如圖1所示:
1.2復(fù)雜網(wǎng)絡(luò)下的被動(dòng)數(shù)據(jù)節(jié)點(diǎn)解析
眾所周知,復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)重要性評(píng)價(jià)方法眾多,本文在研究該問(wèn)題時(shí)主要是從網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)角度進(jìn)行研究的。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)主要包括網(wǎng)絡(luò)的全局屬性、網(wǎng)絡(luò)的局部屬性、隨機(jī)游走、網(wǎng)絡(luò)的位置等方向,合理的實(shí)現(xiàn)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)的計(jì)算,對(duì)復(fù)雜網(wǎng)絡(luò)下的被動(dòng)數(shù)據(jù)節(jié)點(diǎn)解析是十分必要的。
復(fù)雜網(wǎng)絡(luò)下的被動(dòng)數(shù)據(jù)節(jié)點(diǎn)解析,考慮網(wǎng)絡(luò)的局部特性特征,如:頂點(diǎn)鄰居信息、頂點(diǎn)與其鄰居之間關(guān)系以及頂點(diǎn)自身信息等等,這些指標(biāo)計(jì)算相對(duì)比較簡(jiǎn)單,且其所需時(shí)間復(fù)雜度較低,比較適用于大型復(fù)雜網(wǎng)絡(luò)。對(duì)復(fù)雜網(wǎng)絡(luò)下的被動(dòng)數(shù)據(jù)節(jié)點(diǎn)解析,需要依托云計(jì)算平臺(tái)下的LeaderRank算法,并以此來(lái)作為基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法的基礎(chǔ)算法。
LeaderRank算法是在PageRank算法的基礎(chǔ)上進(jìn)行設(shè)計(jì)。并利用Hadoop和GraphLab對(duì)LeaderRank算法進(jìn)行架構(gòu)。在應(yīng)用云計(jì)算LeaderRank算法時(shí),首先需要建立一個(gè)GroundNode加入到網(wǎng)絡(luò)中,將其與圖中其他Ve~ex建立雙向連接。為盡可能的方便,在GraphLab平臺(tái)上,Ground Node頂點(diǎn)的加入在圖加載的過(guò)程中進(jìn)行;而在Hadoop中根據(jù)算法的輸入,我們把Ground Node的加入放在數(shù)據(jù)預(yù)處理階段。其次,對(duì)圖中的每個(gè)頂點(diǎn)的初始化,Ground Node初始化為0,而網(wǎng)絡(luò)中其他頂點(diǎn)初始化為1。然后根據(jù)相關(guān)數(shù)據(jù)對(duì)每個(gè)頂點(diǎn)進(jìn)行更新操作。最后達(dá)到穩(wěn)態(tài)后得到每個(gè)頂點(diǎn)的LeaderRank值,完成復(fù)雜網(wǎng)絡(luò)下的被動(dòng)數(shù)據(jù)節(jié)點(diǎn)解析。
1.3確定被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法核心步驟
基于復(fù)雜網(wǎng)絡(luò)下的被動(dòng)數(shù)據(jù)節(jié)點(diǎn)的解析,采用云計(jì)算的LeaderRank算法,構(gòu)建了被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法的基本結(jié)構(gòu);利用PageRank算法建立了算法網(wǎng)絡(luò);使用Hadoop和GraphLab構(gòu)建了數(shù)據(jù)結(jié)構(gòu),進(jìn)行復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)計(jì)算,其整個(gè)過(guò)程共分為五個(gè)階段,即Map階段、Reduce階段、迭代階段、Gather階段、Apply階段,其具體被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法核心步驟如表1所示:
2實(shí)驗(yàn)論證
為保證提出的基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法的有效性,進(jìn)行實(shí)例分析,分析過(guò)程中,目前廣泛使用使用的粒子群被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法、閾值被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法作為實(shí)驗(yàn)對(duì)比對(duì)象,進(jìn)行算法的關(guān)聯(lián)準(zhǔn)確性驗(yàn)證。
2.1實(shí)驗(yàn)準(zhǔn)備
本次實(shí)驗(yàn)環(huán)境為5臺(tái)普通PC組成的集群系統(tǒng),Inteli3-3.30GHz、8G內(nèi)存,Hadoop版本是Hadoop-0.20,GraphLab采用2.1版本。采用數(shù)據(jù)集com-Youtube、uS Football Network、com-Orkut、twitter7、Zacharys Karate Club五種數(shù)據(jù)集形式,進(jìn)行對(duì)比實(shí)驗(yàn)分析。
其中com-Youtube、US Football Network、com-Orkut、twit-ter7、Zacharys Karate Club數(shù)據(jù)集為實(shí)時(shí)數(shù)據(jù)集,具有統(tǒng)計(jì)相同性,同時(shí)因數(shù)據(jù)量不同,數(shù)據(jù)交互方式不同,為此選用了com-Youtube、US Football Network、com-Orkut、twitter7、Zacha-rys Karate Club五種數(shù)據(jù)集進(jìn)行分析。
2.2實(shí)驗(yàn)過(guò)程與結(jié)果分析
試驗(yàn)過(guò)程中,分別載入五種數(shù)據(jù)集,利用粒子群被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法、閾值被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法,以及本文提出的基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法進(jìn)行關(guān)聯(lián)準(zhǔn)確性驗(yàn)證。并記錄驗(yàn)證結(jié)果。
根據(jù)基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法、粒子群被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法、閾值被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法,在不同試驗(yàn)數(shù)據(jù)集情況下,試驗(yàn)記錄數(shù)據(jù),形成不同關(guān)聯(lián)算法驗(yàn)證試驗(yàn)結(jié)果對(duì)比表,如表2所示:
根據(jù)實(shí)驗(yàn)結(jié)果可以得出,粒子群被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法,在USFootballNetwork、Zacharys Karate Club數(shù)據(jù)集中,具有良好的驗(yàn)證關(guān)聯(lián)準(zhǔn)確性,但在其他數(shù)據(jù)集中,其關(guān)聯(lián)準(zhǔn)確性較低,體現(xiàn)出該方法的不全面性,應(yīng)用閾值被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法時(shí),其整體波動(dòng)較大,準(zhǔn)確率較低。因此,基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法具有較高的關(guān)聯(lián)準(zhǔn)確性,同時(shí)具有較高的穩(wěn)定性,適合復(fù)雜網(wǎng)絡(luò)下被動(dòng)數(shù)據(jù)的快速關(guān)聯(lián)計(jì)算。
3結(jié)束語(yǔ)
本文針對(duì)LeaderRank平臺(tái)設(shè)計(jì)了一個(gè)基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法,給出了該算法的具體思路及其應(yīng)用步驟,最后通過(guò)實(shí)驗(yàn)論證了該算法的正確性和實(shí)用性,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),本文研究的基于云計(jì)算平臺(tái)的復(fù)雜網(wǎng)絡(luò)被動(dòng)數(shù)據(jù)快速關(guān)聯(lián)算法既具有較高的模塊度,在處理海量網(wǎng)絡(luò)數(shù)據(jù)又具有很大的優(yōu)勢(shì)。