楊燕霞+馮林
摘 要:由候選項集C2生成頻繁2-項集L2是關聯(lián)規(guī)則Apriori算法的一個瓶頸。直接哈希修剪(DHP)算法利用一個生成的Hash表H2刪減C2中無用的候選項集,以此提高L2的生成效率。但傳統(tǒng)DHP算法是一個串行算法,不能有效處理較大規(guī)模數(shù)據(jù)。針對這一問題,提出DHP的并行化算法——H_DHP。首先,對DHP算法并行化策略的可行性進行了理論分析與證明;其次,基于Hadoop平臺,把Hash表H2的生成以及頻繁項集L1、L3~Lk的生成方法進行了并行實現(xiàn),并借助Hbase數(shù)據(jù)庫生成關聯(lián)規(guī)則。仿真實驗結果表明:與傳統(tǒng)DHP算法相比,H_DHP算法在數(shù)據(jù)的處理時間效率、處理數(shù)據(jù)集的規(guī)模大小,以及加速比和可擴展性等方面都有較好的性能。
關鍵詞:Hadoop;Hash表;Apriori算法;直接哈希修剪算法
中圖分類號: TP391.9
文獻標志碼:A
文章編號:1001-9081(2016)12-3280-05