李忠+安建琴+劉海軍+宋奕瑤
摘要: 本文對(duì)關(guān)聯(lián)挖掘算法進(jìn)行了分析總結(jié)。首先提出了關(guān)聯(lián)挖掘問(wèn)題,闡述了關(guān)聯(lián)規(guī)則的有關(guān)概念,然后從靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)等3個(gè)方面分別介紹了關(guān)聯(lián)挖掘及其優(yōu)化算法,指出目前關(guān)聯(lián)挖掘算法存在的不足,認(rèn)為弱關(guān)聯(lián)分析和大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)算法研究將是未來(lái)的發(fā)展趨勢(shì)。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 頻繁項(xiàng)集; 關(guān)聯(lián)規(guī)則; 大數(shù)據(jù)
中圖分類號(hào):TP311
文獻(xiàn)標(biāo)志碼:A
文章編號(hào): 2095-2163(2017)05-0022-04
Association mining algorithm and its development trend
Abstract:
This paper summarizes the association mining algorithms to obtain some insights on its analysis. The correlation analysis problem is put forward first before setting forth association analysis as well as its optimization algorithms from static data, dynamic data and big data. An indepth analysis on what is considered to be defect of correlation analysis mining algorithms is made, which shows the weak correlation analysis and correlation algorithm study under big data environment will be the developing trend in the future.
Keywords: data mining; frequent item set; association rules; big data
基金項(xiàng)目:河北省科技支撐計(jì)劃項(xiàng)目(13210122);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(ZY20160106)。
收稿日期: 2017-08-19
0引言
“啤酒與尿布”的故事是關(guān)聯(lián)分析中引用最多、最經(jīng)典的例子,也有人提出“豬肉燉粉條”能更好地說(shuō)明關(guān)聯(lián)分析,無(wú)論哪個(gè)案例都旨在說(shuō)明關(guān)聯(lián)分析的目的是挖掘數(shù)據(jù)集中不同項(xiàng)之間的聯(lián)系。隨著電商時(shí)代和大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)由于能從眾多數(shù)據(jù)中有效地挖掘出對(duì)人類社會(huì)有用的信息,越來(lái)越受到各行各業(yè)的青睞。關(guān)聯(lián)分析方法是數(shù)據(jù)挖掘中最活躍的算法之一,被各領(lǐng)域用于挖掘事務(wù)之間隱含的關(guān)聯(lián)性。
1關(guān)聯(lián)分析問(wèn)題
關(guān)聯(lián)分析也稱關(guān)聯(lián)挖掘,是一種簡(jiǎn)單、實(shí)用的數(shù)據(jù)分析方法。從嚴(yán)格數(shù)學(xué)理論角度看,關(guān)聯(lián)分析技術(shù)并不復(fù)雜,只要把大量數(shù)據(jù)放一起,經(jīng)過(guò)運(yùn)算就可以發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性和相關(guān)聯(lián)的物理量,表明一個(gè)參數(shù)或者一組參數(shù)與事件的關(guān)系。
Agrawal等人[1]針對(duì)購(gòu)物籃分析問(wèn)題,在1993年提出了關(guān)聯(lián)規(guī)則概念,目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品之間的關(guān)聯(lián)性,藉此獲得顧客購(gòu)買商品的一般規(guī)則,從而科學(xué)地指導(dǎo)商家合理安排進(jìn)貨、管理庫(kù)存、布置貨架、制定商品營(yíng)銷策略等[2]。
其中, σ(X)表示X出現(xiàn)的頻次,σ(X∪Y)表示X和Y同時(shí)出現(xiàn)的頻次。
強(qiáng)關(guān)聯(lián)規(guī)則支持度表明規(guī)則的普遍性,而置信度表示規(guī)則的可靠性。如果某個(gè)蘊(yùn)含規(guī)則的支持度和置信度都滿足分別給定的閾值,則稱該蘊(yùn)含規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。
Apriori定理[WT5”BZ]如果項(xiàng)集X是頻繁項(xiàng)集,那么X的任一非空子集都是頻繁項(xiàng)集。
根據(jù)上述定理,其逆否命題也成立,即:如果某個(gè)項(xiàng)集X不是頻繁項(xiàng)集,那么以該項(xiàng)集X作為子集的任何集合都不是頻繁項(xiàng)集。
]2靜態(tài)數(shù)據(jù)關(guān)聯(lián)分析挖掘算法
目前,研究關(guān)聯(lián)分析挖掘算法的主要研究即是對(duì)靜態(tài)數(shù)據(jù)集進(jìn)行處理,這類方法可以稱為靜態(tài)關(guān)聯(lián)分析。
2.1經(jīng)典Apriori及其優(yōu)化
2.1.1經(jīng)典Apriori算法
Apriori算法是Agrawal和Strikant于1994年提出的第一個(gè)關(guān)聯(lián)規(guī)則挖掘算法[3],能夠較好地發(fā)現(xiàn)規(guī)則。Apriori算法的基本思想是采用從上至下逐層搜索迭代的方法,先逐次掃描數(shù)據(jù)庫(kù)計(jì)算每一項(xiàng)出現(xiàn)的個(gè)數(shù),將大于最小支持度的項(xiàng)作為頻繁1-項(xiàng)集L1,在頻繁1-項(xiàng)集L1基礎(chǔ)上按照大于最小支持度原則生成頻繁2-項(xiàng)集L2,依次找尋下去,直至找不到頻繁k-項(xiàng)集Lk為止。
Apriori算法的過(guò)程包括連接和剪枝兩個(gè)過(guò)程。連接指頻繁(k-1)-項(xiàng)集集合Lk-1中每個(gè)項(xiàng)集中的元素按照字典排序。如果任意2個(gè)(k-1)-項(xiàng)集包含的前(k-2)項(xiàng)相同,則連接成一個(gè)候選k-項(xiàng)集;剪枝指將不滿足最小支持度的候選項(xiàng)集剪去,生成頻繁項(xiàng)集。
2.1.2Apriori算法的改進(jìn)
Apriori算法不需要復(fù)雜的數(shù)學(xué)公式推導(dǎo),算法實(shí)現(xiàn)相對(duì)簡(jiǎn)單,并且,Apriori算法在產(chǎn)生候選項(xiàng)集的時(shí)候自動(dòng)進(jìn)行了剪枝處理,縮小了部分冗余的候選項(xiàng)集,為之后的剪枝降低了開(kāi)銷。但是,在生成頻繁項(xiàng)集的過(guò)程中需要多次掃描數(shù)據(jù)庫(kù),產(chǎn)生大量不必要的候選項(xiàng)集,其計(jì)算消耗的時(shí)間和內(nèi)存很大。另外,對(duì)于在線數(shù)據(jù)集,項(xiàng)集數(shù)目邊界不確定,Apriori算法已不再適用。
針對(duì)傳統(tǒng)Apriori算法存在的不足,Park等[4]采用散列技術(shù)改進(jìn)Apriori算法,提出了DHP(direct hashing and pruning)算法,主要是減少候選2-項(xiàng)集C2的個(gè)數(shù),很大程度上提高了關(guān)聯(lián)挖掘效率。AprioriTid_Hash算法針對(duì)DHP算法中出現(xiàn)的頻繁項(xiàng)目hash地址不唯一的缺點(diǎn)做了優(yōu)化[5];將矩陣思想引入算法中利用矩陣的優(yōu)勢(shì)可以減少掃描數(shù)據(jù)庫(kù)的次數(shù)[6-7],但是這些改進(jìn)仍需要多次掃描數(shù)據(jù)庫(kù),存在壓縮矩陣不徹底、矩陣數(shù)據(jù)結(jié)構(gòu)不合理等缺點(diǎn)。學(xué)者們?cè)诖嘶A(chǔ)上又做了進(jìn)一步的優(yōu)化,例如:減少了連接和剪枝過(guò)程的FIMM算法及其改進(jìn)[8-9],基于矩陣壓縮的改進(jìn)算法[10-11],基于矩陣的數(shù)據(jù)流Top-k頻繁項(xiàng)集挖掘算法,避免了冗余項(xiàng)集的產(chǎn)生[12];基于劃分的優(yōu)化是從數(shù)據(jù)庫(kù)、數(shù)據(jù)預(yù)處理的角度出發(fā),將大量的數(shù)據(jù)從邏輯上分成相互獨(dú)立的集合來(lái)挖掘頻繁項(xiàng)集[13-14];劃分算法雖然支持并行挖掘計(jì)算,但是運(yùn)行在單處理器上的串行算法,無(wú)法滿足海量數(shù)據(jù)的挖掘性能需求,關(guān)聯(lián)規(guī)則挖掘并行算法實(shí)現(xiàn)了多臺(tái)處理器同時(shí)計(jì)算候選項(xiàng)集,通過(guò)有效的負(fù)載均衡提高了算法效率[15-16]。endprint
2.2FP-growth關(guān)聯(lián)分析算法
2.2.1FP-growth分析算法
Apriori及其改進(jìn)算法將產(chǎn)生大量的候選項(xiàng)集,并需要多次掃描數(shù)據(jù)庫(kù),導(dǎo)致計(jì)算量龐大,因此Han等人對(duì)Apriori算法做了改進(jìn),提出了一種發(fā)現(xiàn)頻繁項(xiàng)集而不產(chǎn)生候選頻繁項(xiàng)集的FP-growth算法[17]。
FP-growth算法采用分而治之策略。首先構(gòu)造一顆FP樹(shù),第一次掃描數(shù)據(jù)庫(kù),找到頻繁項(xiàng)列表L1,將其按照支持度計(jì)數(shù)遞減排序;再次掃描數(shù)據(jù)庫(kù),將根節(jié)點(diǎn)設(shè)為null,每個(gè)事務(wù)按照頻繁項(xiàng)列表L1中的順序?qū)⑹聞?wù)中的頻繁項(xiàng)添加到FP樹(shù)的分支,并同時(shí)記錄下每個(gè)項(xiàng)的支持度,完成該過(guò)程就可構(gòu)建一顆FP樹(shù)。然后在FP樹(shù)上挖掘頻繁模式,從頻繁度最低的項(xiàng)開(kāi)始,到頻繁度最高的項(xiàng)挖掘頻繁模式。該算法將最不頻繁的項(xiàng)作為后綴,大大降低了搜索的開(kāi)銷。
2.2.2FP-growth算法改進(jìn)
傳統(tǒng)的FP-growth算法雖不需要產(chǎn)生候選項(xiàng)集,但是在挖掘頻繁模式的時(shí)候需要生成條件模式和子FP樹(shù),會(huì)消耗大量的時(shí)間和空間。Li等[18]提出了一種自上而下的FP增長(zhǎng)算法,該算法在減少搜索空間方面非常有效。將矩陣的思想引入FP-growth算法[19],只需要掃描一次數(shù)據(jù)庫(kù)就可以生成關(guān)聯(lián)挖掘規(guī)則,在大數(shù)據(jù)集下,降低了挖掘的時(shí)間復(fù)雜度。隨著數(shù)據(jù)量的增加,串行方式已滿足不了大數(shù)據(jù)集的運(yùn)算需求,而且單機(jī)環(huán)境的存儲(chǔ)能力有限,為此研究者們將FP-growth算法轉(zhuǎn)移到并行計(jì)算環(huán)境中。文獻(xiàn)[20]中提出了采用多核處理器的無(wú)鎖并行方法來(lái)構(gòu)建FP樹(shù)的方法;文獻(xiàn)[21]中沒(méi)有像傳統(tǒng)的FP-growth算法一樣構(gòu)建FP樹(shù),而是通過(guò)投影方法找到頻繁項(xiàng)集的條件模式基礎(chǔ),這樣避免了內(nèi)存的溢出;在文獻(xiàn)[22]中,Chen 提出了“Gridify FP-Growth”并行算法,該算法將任務(wù)分配給PC集群中的每個(gè)節(jié)點(diǎn)執(zhí)行,縮短挖掘時(shí)間,合理利用了每臺(tái)PC機(jī)的內(nèi)存。
3動(dòng)態(tài)數(shù)據(jù)關(guān)聯(lián)分析挖掘算法
商場(chǎng)交易是一個(gè)動(dòng)態(tài)過(guò)程,尤其是今天的電子商務(wù),交易數(shù)據(jù)在持續(xù)不斷變化中,數(shù)據(jù)量持續(xù)增加,因此在線關(guān)聯(lián)分析挖掘更有意義。
在1999年,美國(guó)Berkeley 大學(xué)的Hidber 教授提出了一種在線關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法CARMA,具有占用內(nèi)存少、在線挖掘關(guān)聯(lián)規(guī)則、根據(jù)用戶需要控制算法進(jìn)度、保證結(jié)果精度等特點(diǎn)[23]。CARMA算法最多需要2次對(duì)事務(wù)序列的掃描:第一階段掃描得到所有項(xiàng)集的一個(gè)超集和每個(gè)項(xiàng)集支持度的上下邊界,第二階段掃描通過(guò)計(jì)算每個(gè)大項(xiàng)集的精確支持度,并利用“前向剪枝”技術(shù)對(duì)所有的非大項(xiàng)集進(jìn)行修剪。用戶在挖掘過(guò)程中可以根據(jù)實(shí)時(shí)得到的關(guān)聯(lián)規(guī)則對(duì)支持度和置信度閾值進(jìn)行調(diào)整,當(dāng)獲得的規(guī)則滿足要求,可提前停止算法[24]。左映華等人分析發(fā)現(xiàn),在第一階段元素較多的子集滿足了條件,則元素較少的子集也滿足條件,故在計(jì)算時(shí)只需檢查元素最多的子集即可。據(jù)此,提出了一種改進(jìn)的CARMA算法,計(jì)算更為快速[25],該算法流程圖如圖1所示。
[BT4]4大數(shù)據(jù)環(huán)境下關(guān)聯(lián)分析挖掘算法
2005年,由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop為Apriori算法的優(yōu)化提供了新的思路,許多學(xué)者對(duì)高效的單機(jī)Apriori算法如何移植到MapReduce框架下進(jìn)行了相應(yīng)的研究[26-27]。移植的主要思路是:將數(shù)據(jù)庫(kù)劃分為N個(gè)相互獨(dú)立、規(guī)模相當(dāng)?shù)臄?shù)據(jù)庫(kù),并將其分給M個(gè)Slave節(jié)點(diǎn),執(zhí)行Map任務(wù),采用相應(yīng)的改進(jìn)方法得到各分塊數(shù)據(jù)庫(kù)的局部頻繁項(xiàng)集;然后執(zhí)行Reduce任務(wù),得到全局候選項(xiàng)集,以此生成全局頻繁項(xiàng)集;最后通過(guò)調(diào)用規(guī)則函數(shù)生成關(guān)聯(lián)規(guī)則。Hadoop平臺(tái)下Apriori算法移植流程則如圖2所示。
Hadoop平臺(tái)下的Map和Reduce任務(wù)是獨(dú)立運(yùn)行的,這保證了算法的高度并行化,大大提高了Apriori算法的性能。但是Hadoop平臺(tái)上的Map-Reduce框架不能實(shí)現(xiàn)有效的迭代計(jì)算和基于內(nèi)存的計(jì)算。2011年,由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開(kāi)發(fā)的Spark是一個(gè)基于內(nèi)存計(jì)算的開(kāi)源集群計(jì)算系統(tǒng),為大規(guī)模的數(shù)據(jù)挖掘提供了理想的平臺(tái)。近年來(lái),如何在Spark平臺(tái)下實(shí)現(xiàn)Apriori算法并行化已成為國(guó)內(nèi)外學(xué)者們的研究熱點(diǎn)[28-30],如Qiu等人[28]提出了基于Spark平臺(tái)的Apriori并行算法——YAFIM算法;Rathee等人[29]在Spark平臺(tái)上實(shí)現(xiàn)了R-Apriori并行算法,該算法消除了候選項(xiàng)集生成的步驟,大大降低了算法的復(fù)雜度。
雖然FP-Growth算法相對(duì)Apriori算法顯著降低了時(shí)間和空間復(fù)雜度,但是對(duì)海量數(shù)據(jù)集,時(shí)空復(fù)雜度仍很高。分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的產(chǎn)生為FP-Growth的并行化實(shí)現(xiàn)提供了很好的平臺(tái),其HDFS可以部署在低廉的硬件上,適合擁有超大數(shù)據(jù)集的應(yīng)用程序。而MapReduce為海量數(shù)據(jù)提供了快速的計(jì)算,將FP-Growth移植到Hadoop平臺(tái)上,無(wú)疑會(huì)提高挖掘計(jì)算的速度,降低海量數(shù)據(jù)的挖掘成本。近年來(lái)學(xué)者們也致力于FP-Growth算法在云計(jì)算平臺(tái)下的移植[31-33]。Spark分布式計(jì)算框架是基于內(nèi)存計(jì)算的,適合超大規(guī)模數(shù)據(jù)集的挖掘,將FP-Growth算法移植到Spark平臺(tái)下,會(huì)大幅度提高挖掘效率[34-35]。
5結(jié)束語(yǔ)
關(guān)聯(lián)規(guī)則挖掘算法經(jīng)過(guò)二十多年的研究與發(fā)展,經(jīng)歷了從單機(jī)模式到集群,從串行到并行的實(shí)現(xiàn)以及在云計(jì)算平臺(tái)下算法的改進(jìn)和移植。數(shù)據(jù)處理也從最初的事務(wù)數(shù)據(jù)庫(kù)到矢量空間數(shù)據(jù)庫(kù)、時(shí)間序列數(shù)據(jù)等多維數(shù)據(jù),從靜態(tài)數(shù)據(jù)分析到動(dòng)態(tài)在線數(shù)據(jù)分析等,關(guān)聯(lián)分析的應(yīng)用領(lǐng)域也從最初的商業(yè)領(lǐng)域擴(kuò)展開(kāi)來(lái),在圖書推送、醫(yī)療服務(wù)、人才發(fā)現(xiàn)、廣告的精準(zhǔn)投放、自然災(zāi)害成因分析等領(lǐng)域也獲得成功運(yùn)用。但是,關(guān)聯(lián)分析挖掘研究也存在一些問(wèn)題。其一,目前關(guān)聯(lián)規(guī)則的挖掘強(qiáng)調(diào)的是強(qiáng)關(guān)聯(lián)性,需要大支持度和高置信度,但是在實(shí)際應(yīng)用中不容易找到這種強(qiáng)關(guān)聯(lián)規(guī)則,因此需要重新定義關(guān)聯(lián)規(guī)則的形式,這樣相互之間的弱關(guān)聯(lián)性也許是用戶感興趣的;其二,目前基于大數(shù)據(jù)的關(guān)聯(lián)分析研究和應(yīng)用還處在初級(jí)階段,而大數(shù)據(jù)發(fā)展迅猛,因此相關(guān)研究迫在眉睫,這也是關(guān)聯(lián)挖掘研究的發(fā)展趨勢(shì)。endprint
參考文獻(xiàn):
AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in lagre database[C] Proc. 1993 ACM SIGMOD Int. Conf. on Management of Data. Washington DC, USA:ACM,1993:207-216.
[2] HAN Jiawei, KAMBER M. Data mining concepts and techniques [M]. 2nd ed. San Francisco: Morgan Kaufmann, 2006.
[3] AGRAWAL R,SRIKANT R.Fast algorithms for mining association rules[C]Proc of International Conference on Very Large Databases.Santiago de Chile:[s.n.],1994: 487-499.
[4] PARK J S, CHEN M S, YU P S. Using a hash-based method with transaction trimming for mining association rules[J]. IEEE Transactions on Knowledge & Data Engineering, 1997, 9(5):813-825.
[5] 俞燕燕, 李紹滋. 基于散列的關(guān)聯(lián)規(guī)則AprioriTid改進(jìn)算法[J]. 計(jì)算機(jī)工程, 2008, 34(5):60-62.
[6] 李超,余昭平. 基于矩陣的Apriori算法改進(jìn)[J]. 計(jì)算機(jī)工程,2006,32(23):68-69.
[7] 王柏盛,劉寒冰,靳書和,等. 基于矩陣的關(guān)聯(lián)規(guī)則挖掘算法[J]. 微計(jì)算機(jī)信息,2007,24(5-3):144-145,143.
[8] 張忠平,李巖,楊靜. 基于矩陣的頻繁項(xiàng)集挖掘算法[J]. 計(jì)算機(jī)工程,2009,35(1):84-86.
[9] 張笑達(dá),徐立臻. 一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2010, 20(4):93-96 .
[10]羅丹,李陶深. 一種基于壓縮矩陣的Apriori算法改進(jìn)研究[J]. 計(jì)算機(jī)科學(xué),2013,40(12):75-80.
[11]SHU S H, LIN Z Z. Algorithms of mining maximum frequent itemsets based on compression matrix[J]. Applied Mechanics & Materials, 2014, 571-572:57-62.
[12]尹紹宏,范桂丹. 基于矩陣的數(shù)據(jù)流Top-k頻繁項(xiàng)集挖掘算法[J]. 計(jì)算機(jī)工程,2014,40(3):55-58,75.
[13]OMIECINSKI E, SAVASERE A. Efficient mining of association rules in large dynamic databases[C] BNCOD 16 Proceedings of the 16th British National Conferenc on Databases: Advances in Databases. LONDON, UK:ACM, 1998:49-63.
[14] NGUYEN S N, ORLOWSKA M E. A further study in the data partitioning approach for frequent itemsets mining[C] ADC '06 Proceedings of the 17th Australasian Database Conference . Hobart, Australia:ACM, 2006:31-37.
[15]AGRAWAL R,SHAFER J C. Parallel mining of association rules[J]. IEEE Trans on Knowledge and Data Engeering,1996,8(6) : 962-969.
[16]SHAH K, MAHAJAN S. Maximizing the efficiency of parallel Apriori algorithm[C] International Conference on Advances in Recent Technologies in Communication and Computing. Washington, DC, USA:IEEE, 2009:107-109.
[17]HAN J, PEI J. YIN Yiwen. Mining frequent patterns without candidate generation[J]. ACM Sigmod Record, 2000, 29(2):1-12.
[18]LI Haoyuan, WANG Yi, ZHABG Dong, et al. Pfp: Parallel fpgrowth for query recommendation[C] ACM Conference on Recommender Systems. Lausanne, Switzerland:ACM, 2008:107-114.endprint
[19]鄧豐義, 劉震宇. 基于模式矩陣的FP—growth改進(jìn)算法[J]. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版), 2005, 44(5):629-633.
[20]LIU Li, LI E, ZHANG Yimin, et al. Optimization of frequent itemset mining on multiplecore processor[C] VLDB '07 Proceedings of the 33rd international conference on Very large data bases. Vienna, Austria:ACM, 2007:1275-1285.
[21]CHEN Min, GAO Xuedong, LI Huifeng. An efficient parallel FP-Growth algorithm[C] International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery. Zhangjiajie, China: IEEE, 2009:283-286.
[22]CHEN Min. Parallel FPGrowth algorithm on PC cluster[J]. China Management Informationization, 2009,12(15):36-38.
[23]楊海廷. CARMA 算法挖掘技術(shù)在圖書流通中的實(shí)證研究[J]. 圖書館雜志,2012,31(1):70-75,24.
[24]崔建,李強(qiáng),楊龍坡. 基于垂直數(shù)據(jù)分布的大型稠密數(shù)據(jù)庫(kù)快速關(guān)聯(lián)規(guī)則挖掘算法[J]. 計(jì)算機(jī)科學(xué),2011,38(4):216-220.
[25]左映華,高居泰,李晉宏. Carma關(guān)聯(lián)規(guī)則算法的一種改進(jìn)[J]. 韶關(guān)學(xué)院學(xué)報(bào)(自然科學(xué)版),2004,25(3):51-55.
[26]OTHMAN Y, OSMAN H, EHAB E. An effcient implementation of Apriori algorithm based on Hadoop—Mapreduce model[J]. International Journal of Reviews in Computing, 2012,12:59.
[27]EZHILVATHANI A, RAJA K. Implementation of parallel Apriori algorithm on Hadoop cluster[J]. International Journal of Computer Science & Mobile Computing, 2013, 2(4):513-516.
[28]QIU Hongjian, GU Rong, YUAN Chunfeng, et al. YAFIM: A parallel frequent itemset mining algorithm with Spark[C] IEEE International Parallel & Distributed Processing Symposium Workshops. Phoenix, AZ, USA:IEEE, 2014:1664-1671.
[29]RATHEE S, KAUL M, KASHYAP A. RApriori: An efficient Apriori based algorithm on Spark[C] Proceedings of the 8th Workshop on Ph.D. Workshop in Information and Knowledge Management. Melbourne, Australia :ACM,2015:27-34.
[30]牛海玲, 魯慧民, 劉振杰. 基于Spark的Apriori算法的改進(jìn)[J]. 東北師大學(xué)報(bào)(自然科學(xué)版), 2016,48(1):84-89.
[31]YANG Yong, WANG Wei. A parallel FP-growth algorithm based on Mapreduce[J]. Journal of Chongqing University of Posts & Telecommunications, 2013,25(5):651-657,670.
[32]陳興蜀, 張帥, 童浩,等. 基于布爾矩陣和MapReduce的FPGrowth算法[J]. 華南理工大學(xué)學(xué)報(bào) (自然科學(xué)版), 2014,42(1):135-141.
[33]ZHANG Zhenyou, SUN Yan, DING Tiefan, et al. A novel distributed parallel FPGrowth algorithm based on Hadoop framework[J]. Hebei Journal of Industrial Science & Technology, 2016,33(2):169-177.
[34]付永剛. 基于Spark的FpGrowth算法的并行化實(shí)現(xiàn)與優(yōu)化[D]. 武漢:華中科技大學(xué),2015.
[35]DENG Lingling, LOU Yuansheng, YE Feng. Improvement and research of FP-growth algorithm based on distributed Spark[J]. Microcomputer Applications, 2016,32(5):9-11,19.
5結(jié)束語(yǔ)
通過(guò)本文的研究,建立了一套比較客觀的對(duì)風(fēng)險(xiǎn)進(jìn)行分析和評(píng)估的方法。通過(guò)本文方法的應(yīng)用,將有利于IP網(wǎng)絡(luò)的廣大從業(yè)人員更好地應(yīng)對(duì)變更中的風(fēng)險(xiǎn)分析與評(píng)估,提升變更質(zhì)量。
在此基礎(chǔ)上,不但可使IP網(wǎng)絡(luò)從業(yè)人員掌握分析評(píng)估風(fēng)險(xiǎn)的方法,更能夠樹(shù)立正確的風(fēng)險(xiǎn)觀念,認(rèn)識(shí)到風(fēng)險(xiǎn)雖然無(wú)所不在,但卻可以引入研發(fā)控制的理念。通過(guò)應(yīng)用正確的風(fēng)險(xiǎn)分析方法,對(duì)風(fēng)險(xiǎn)作出正確的評(píng)價(jià)。同時(shí)對(duì)風(fēng)險(xiǎn)中的主要因素實(shí)施有目的性的控制,從而有效降低整體風(fēng)險(xiǎn)水平。
參考文獻(xiàn):
SAATY T L. 層次分析法—在資源分配、管理和沖突分析中的應(yīng)用[M]. 許樹(shù)柏,等譯. 北京:煤炭工業(yè)出版社,1988.
[2] 鄧聚龍. 灰色系統(tǒng)基本方法[M]. 武漢:華中科技大學(xué)出版社,2005.
[3] ZADEH L A. Fuzzy sets[J]. Information and Control, 1965,8(3): 338-353.
[4] 王浩倫,徐翔斌,甘衛(wèi)華. 基于三角模糊軟集的FMEA風(fēng)險(xiǎn)評(píng)估方法[J]. 計(jì)算機(jī)集成制造系統(tǒng),2015,21(11):3054-3062.
[5] 張吉軍. 模糊層次分析法[J]. 模糊系統(tǒng)與數(shù)學(xué), 2000,14(2):80-88.endprint