邵婷婷
摘要:針對數(shù)據(jù)挖掘中項目權重的模糊性問題,通過引入直覺模糊數(shù)表示項目的權重,并采用項目的權重和支持數(shù)計算事務的加權支持度、可能度、置信度,提出了一種基于直覺模糊數(shù)的加權Apriori算法。闡述了算法的改進思想,描述了算法步驟,并采用優(yōu)化后的Apriori算法對商品銷售數(shù)據(jù)進行挖掘分析。研究結(jié)果表明:改進算法解決了權重信息的模糊性問題,其挖掘結(jié)果更具價值。
關鍵詞:Apriori算法 直覺模糊數(shù) 數(shù)據(jù)挖掘
中圖分類號:F1274
文獻標識碼:A
文章編號:2096-0298(2019)02(b)-245-03
關聯(lián)規(guī)則挖掘是經(jīng)典的數(shù)據(jù)挖掘技術,近年來應用廣泛且發(fā)展迅速。關聯(lián)規(guī)則挖掘算法是從大量、模糊、有噪聲、隨機的實際數(shù)據(jù)中,得出人們隱含在其中的、有用的關聯(lián)信息和知識的過程。Apriori算法是一種典型的關聯(lián)規(guī)則挖掘算法,主要用來在大型數(shù)據(jù)庫上進行快速挖掘關聯(lián)規(guī)則。該算法的核心思想就是對目標事務庫采用逐層迭代搜索的方式進行挖掘k階頻繁項目集,直至找到最高階的頻繁項目集即止,最后通過獲得的頻繁項目集進行關聯(lián)規(guī)則挖掘,從而實現(xiàn)挖掘目標數(shù)據(jù)間關聯(lián)關系的最終目標[1-4]。
在經(jīng)典的Apriori算法中,假設各個項目的重要程度是相當?shù)?,但事實上現(xiàn)實生活中項目的重要性具有差異(例如商品利潤)。其次,即便用引入權重來解決項目重要程度的差異性,項目的權重信息中仍然包含了不確定信息。柴巖等研究者將區(qū)間數(shù)引入Apriori算法,將權重設置為區(qū)間數(shù),并提出了最小支持度為區(qū)間數(shù)的加權Apriori算法[5]。徐頊將三角模糊數(shù)引入Apriori算法,提出了一種基于三角模糊數(shù)的Apriori算法[6]。雖然區(qū)間數(shù)、模糊集、三角模糊數(shù)的引入解決了Apriori算法中權重信息的模糊性,但仍不能表達權重信息的猶豫程度。例如,模糊集只能表達隸屬度,而不能表達非隸屬度。由于Apriori算法只考慮交易出現(xiàn)的概率,沒有考慮不同項及交易中每一個項目具有不同的重要性,因此挖掘具有一定的局限性。而且,在實際應用中,項目的權重用直覺模糊數(shù)更加合適,它不僅可以更好地模擬生活,而且引入了猶豫度的概念,可以幫助改進置信度的計算方法。
基于此,引入直覺模糊數(shù)來表示項目的權重,對Apriori算法進行改進。
1 基本概念
1.1 數(shù)據(jù)項與數(shù)據(jù)項集
假設,={I1、I2,……,I)是所有項目的集合,每個I(k =1,2,...,m)稱為數(shù)據(jù)項,集合I稱為數(shù)據(jù)項集,簡稱為項集,其中項目的個數(shù)稱為數(shù)據(jù)項集的長度,長度為k的項目集稱為k維數(shù)據(jù)項集,簡稱k-項集。
1.2 事務
2 權重為直覺模糊數(shù)的加權Apriori算法
2.1 算法改進思想
將項權重設為直覺模糊數(shù),根據(jù)項目的權重和項目的支持數(shù)應用式(7)得到加權支持度并引入可能度概念,根據(jù)可能度進行剪枝。通過引入可能度,改變Apriori算法僅根據(jù)支持度剪枝的策略,對于可能度小于0的項集進行減枝,對于可能度大于0小于1的項集,還根據(jù)置信度大小進行剪枝,因此該算法兼顧了規(guī)則的重要性和可靠性,加大了剪枝力度,提高了算法運行速度,提取了更多有價值的規(guī)則,并根據(jù)實驗證明了算法的合理性。
2.2 算法步驟
步驟3:通過L1自身連接,得到候選2一項目集C2,計算各項目集的加權支持度、可能度,刪除可能度小于0.5的項目,對于可能度大干0.5小于1的項目,再計算確信度,刪除確信度小于0.5的項目,得到頻繁2一項集L2。
步驟4:循環(huán)執(zhí)行連接步驟和減枝步驟,直到產(chǎn)生的項目集為空時,算法停止,輸出那些頻繁項集,并根據(jù)頻繁項集產(chǎn)生關聯(lián)規(guī)則。
步驟5:計算各關聯(lián)規(guī)則的置信度,設最小置信度為0 5,則通過與最小置信度進行比較,得到強關聯(lián)規(guī)則。
2.3 算例
以超市中商品的銷售數(shù)據(jù)為例說明算法的步驟,表1為商品出售數(shù)據(jù)庫,表2為項目權重。
計算這6種商品的支持數(shù)分別為6、5、6、5、2、2,則對應6種商品權重如表2所示。設已經(jīng)給出最小支持度為<0,1,0,2,0.7>,根據(jù)式(7)和式(8)計算1-項集的加權支持度及其大于最小支持度的可能度,如表3所示。
由于1、2、6的可能度小于0.5,因此刪除1、2、6,并計算3、4、5的確信度,均大干等于0 5,得到頻繁1一項集{3,4,5},由頻繁1一項集自身連接得到候選2一項集為{{3,4},{3,5},{4,5}},計算候選2-項集的加權支持度和可能度如表4所示。
由于項集{4,5}可能度小于0.5,刪除項集{{4,5}}得到頻繁2-項集{{3,4},{3,5}},2一項集進行自身連接得到候3一項集{3,4,5},由于{3,4,5}的子集出現(xiàn)非頻繁項集,因此刪除項集{3,4,5},這樣頻繁3項集為空,算法停止,得到頻繁2一項集{{3,4},{3,5}}。
接著根據(jù)式(10)計算以下規(guī)則的置信度:
由此可知,第3種商品=>第4種商品,第4種商品=>第3種商品,第5種商品=>第3種商品,是具有強關聯(lián)關系的。這對于商品的管理、合理的設置商品的擺放順序等方面都很有幫助。
3 結(jié)語
本文提出了一種改進的Apriori算法,將項目屬性設置為直覺模糊數(shù),這樣同時表達了隸屬度、非隸屬度、猶豫度三個方面的信息,通過自身連接得到候選項集,通過用每個項目的支持數(shù)與權重相乘,得到加權支持度,并與最小支持度進行比較,結(jié)合可能度與猶豫度進行剪枝,得到頻繁項集,循環(huán)執(zhí)行連接與剪枝步驟,直到頻繁項集為空,結(jié)束算法。再通過比較所得規(guī)則的置信度來得到強關聯(lián)規(guī)則。算例表明,與經(jīng)典Apriori算法比較,改進的Apriori算法具有一定的優(yōu)勢,它可以挖掘出更具價值、更有意義的強關聯(lián)規(guī)則,且項目權重的表示方式更貼近商品銷售數(shù)據(jù)的特征,更容易得出各個項目的權重值。
參考文獻
[1]佘朝兵.關聯(lián)規(guī)則挖掘算法在校園超市營銷的應用研究[J].數(shù)字技術及應用.2018,36(7).
[2]阮夢黎,吳磊.基于雙閾值Apriori算法和非頻繁項集的關聯(lián)規(guī)則挖掘方法[J].2018,35(12).
[3]唐杰,程云章.Apriori算法在醫(yī)療設備健康管理中的研究與應用(J].生物醫(yī)學工程學進展,2016,37(3).
[4]賈克斌,李含婧,袁野.基于Apriori算法的數(shù)據(jù)挖掘在移動醫(yī)療系統(tǒng)中的應用[J].北京工業(yè)大學學報,2017,43(3).
[5]柴巖,張京輝,魯新新.最小支持度為區(qū)間值的加權Apriori算法[J].遼寧工程技術大學學報,2016(12).
[6]徐頊.基于三角模糊數(shù)的關聯(lián)規(guī)則方法研究[D].蘭州交通大學,2007.