郝海濤 馬元元
摘 要: 隨著信息技術(shù)的發(fā)展,大數(shù)據(jù)時(shí)代的到來,在這種環(huán)境下必須進(jìn)行數(shù)據(jù)挖掘工作。從大量的應(yīng)用數(shù)據(jù)中將潛在的有價(jià)值的知識和信息挖掘出來,以便將其應(yīng)用在實(shí)際工作的改進(jìn)中。目前,數(shù)據(jù)挖掘的方法有很多,其中關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用比較廣泛,這種數(shù)據(jù)挖掘方式利用Aprion算法,挖掘出置信度和支持度均比較高的關(guān)聯(lián)信息,反映出數(shù)據(jù)庫中的數(shù)據(jù)相互之間的復(fù)雜性和有趣性,進(jìn)而挖掘出數(shù)據(jù)之間的有益關(guān)聯(lián),促進(jìn)大規(guī)模數(shù)據(jù)庫信息挖掘技術(shù)的發(fā)展,主要從Aprion算法方面分析大規(guī)模數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘的技術(shù)。
關(guān)鍵詞: Aprion算法; 大規(guī)模數(shù)據(jù)庫; 關(guān)聯(lián)規(guī)則挖掘; 置信度; 支持度
中圖分類號: TN911?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)07?0124?03
Abstract: With the development of information technology and coming of big data era, it is necessary to perform data mining work in this environment. The potential and valuable knowledge and information should be mined from the massive application data to apply it in the improvement of practical work. The methods of data mining are numerous at present, in which the association rule mining technology is widely used. The Aprion algorithm is used in this data mining way to mine the correlation information with high confidence coefficient and support degree, which can reflect the complexity and interestingness among the data in database. And then the useful correlation among the data is mined to promote the development of large?scale database information mining technology. The association rule mining technology of large?scale database is analyzed in the aspect of Aprion algorithm.
Keywords: Aprion algorithm; large?scale database; association rule mining; confidence coefficient; support degree
0 引 言
數(shù)據(jù)挖掘(Data Mining)主要是指在大型數(shù)據(jù)庫中從大量的原始數(shù)據(jù)中挖掘出一些具有未知潛在應(yīng)用價(jià)值的信息。數(shù)據(jù)挖掘是解決信息技術(shù)迅速發(fā)展下數(shù)據(jù)豐富而信息匱乏的一種有效解決方式。在眾多的數(shù)據(jù)挖掘方法中關(guān)聯(lián)規(guī)則是一種比較重要的挖掘技術(shù)方式,對關(guān)聯(lián)規(guī)則挖掘算法——Aprion算法進(jìn)行詳細(xì)分析,進(jìn)一步研究大規(guī)模數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘的技術(shù),促進(jìn)數(shù)據(jù)庫挖掘技術(shù)的發(fā)展。
1 Aprion算法概述
數(shù)據(jù)關(guān)聯(lián)是信息技術(shù)發(fā)展模式下各種軟件數(shù)據(jù)庫中存在的一縱橫能夠反映一個(gè)或其他事件之間依賴性和關(guān)聯(lián)性的一種信息。2個(gè)或者2個(gè)以上的數(shù)據(jù)之間存在的一種規(guī)律性,通過對這種規(guī)律性的分析,建立數(shù)據(jù)關(guān)聯(lián)規(guī)則,進(jìn)而挖掘出隱藏在數(shù)據(jù)之間的相互關(guān)系,并將這種關(guān)聯(lián)進(jìn)行有效分析。而關(guān)聯(lián)規(guī)則挖掘Aprion算法是一種比較全面的分析模式算法,它能夠發(fā)現(xiàn)記錄中不同數(shù)據(jù)屬性之間的關(guān)聯(lián)性,而且能夠反映出給定數(shù)據(jù)集中特征屬相鑒定的關(guān)聯(lián)性,發(fā)現(xiàn)每條信息記錄中不同特征屬相之間的相互依賴關(guān)系??梢哉fAprion算法是一種最經(jīng)典、最具影響力的關(guān)聯(lián)規(guī)則挖掘算法。
Aprion算法主要計(jì)算模式原理是利用一種稱作逐層迭代的候選集進(jìn)行測試的一種定點(diǎn),利用頻繁[k]項(xiàng)集搜索候選(k+1)項(xiàng)集。產(chǎn)生1?頻繁項(xiàng)目集[L1,]而后是2?頻繁項(xiàng)目集[L2,]一直到不能再擴(kuò)展頻繁項(xiàng)目集的元素?cái)?shù)據(jù)時(shí)才會停止算法;在Aprion算法的第[k]次循環(huán)中會產(chǎn)生k?候選項(xiàng)目集的集合Ck,而后實(shí)施數(shù)據(jù)庫掃描程序,以便生成支持度并測試產(chǎn)生k?候選項(xiàng)目集Lk,利用頻繁項(xiàng)目集產(chǎn)生關(guān)聯(lián)規(guī)則。然后結(jié)合頻繁項(xiàng)目集的向下封閉性特點(diǎn)實(shí)施進(jìn)一步的分析,這就是常說的頻繁項(xiàng)目集,同時(shí)也正是因?yàn)檫@個(gè)特點(diǎn)使得Aprion算法產(chǎn)生一種檢驗(yàn)方法使分析過程中的數(shù)據(jù)進(jìn)行有效壓縮,無限縮小候選集,提高Aprion算法性能。
Aprion算法在計(jì)算的過程中使用逐層搜索方法,k項(xiàng)集主要用于探索(k+1)?項(xiàng)集。在這個(gè)算法分析過程中首先找到頻繁1?項(xiàng)集,然后找到頻繁2?項(xiàng)集集合,以此類推便能夠有效提高Aprion算法的分析效率,壓縮其搜索空間。Aprion算法的性質(zhì)主要表現(xiàn)在以下幾個(gè)方面:
(1) 如果項(xiàng)集I不能夠滿足最小支持度閾值,那么I不是頻繁的,只有I出現(xiàn)頻繁的頻率時(shí)才被看做是其性質(zhì)的一種表現(xiàn);
(2) 如果項(xiàng)A被添加到項(xiàng)I中,項(xiàng)I會生成一種項(xiàng)集IUA的集合項(xiàng),IUA項(xiàng)也不是頻繁的,此性質(zhì)屬于反單調(diào)性質(zhì),也就是說如果一個(gè)集合不能通過測試,那么它所有的超集也不能通過相同的測試。
這種算法具有較高的效能性,能夠利用大項(xiàng)集合的封閉性達(dá)到縮小計(jì)算最小支持度頻繁項(xiàng)集數(shù)量的目的,也就是說具有避免計(jì)算不可能成為大項(xiàng)集的數(shù)量和候選集項(xiàng),進(jìn)而促進(jìn)算法效能的提高。
2 Aprion算法比較分析
Aprion算法在數(shù)據(jù)分析的過程中能夠產(chǎn)生大量的項(xiàng)集,而且在分析的過程中需要重復(fù)掃描數(shù)據(jù)庫信息,其他算法在數(shù)據(jù)庫信息分析中一般采取分而治之的策略,然后將數(shù)據(jù)庫壓縮到頻繁模式樹中,將其分為條件數(shù)據(jù)庫,以便減少后續(xù)數(shù)據(jù)掃描時(shí)間,同時(shí)又能夠采取頻繁模式增長的方法將候選項(xiàng)集剔除在外,以便使其挖掘過程數(shù)據(jù)庫中不存在新事務(wù)和需要解決的問題。
另外,通過對數(shù)據(jù)庫信息中典型數(shù)據(jù)集的分析和實(shí)驗(yàn),并進(jìn)行相應(yīng)的結(jié)果對比分析,發(fā)現(xiàn)對一些比較稀疏的數(shù)據(jù)集來說,數(shù)據(jù)挖掘分析中要求的最小支持度比0.2稍微大些,或者對于一些稠密的數(shù)據(jù)集在分析的過程中要求其支持度大于0.5,這種情況下采用Aprion算法比較合適,如果支持度不在這個(gè)范圍內(nèi)可以考慮其他形式算法的實(shí)施,以便最大限度的提高數(shù)據(jù)庫分析效能。
3 關(guān)聯(lián)分析規(guī)則的應(yīng)用
3.1 數(shù)據(jù)關(guān)聯(lián)規(guī)則的生成
數(shù)據(jù)挖掘工具中有很多集成了典型數(shù)據(jù)挖掘算法的模型,Aprion算法是其中之一,這種模型算法可以通過設(shè)置不同的最小置信度/支持度和關(guān)聯(lián)規(guī)模。制定事務(wù)項(xiàng)屬性在關(guān)聯(lián)規(guī)則中的位置,進(jìn)而優(yōu)化關(guān)聯(lián)規(guī)則。所以Aprion算法應(yīng)用于關(guān)聯(lián)數(shù)據(jù)的挖掘中能夠有效提高算法效率。
3.2 算法應(yīng)用舉例分析
比如分析一個(gè)病例關(guān)聯(lián)數(shù)據(jù),首先針對病例系統(tǒng)產(chǎn)生的數(shù)據(jù)事務(wù)建立病例數(shù)據(jù)關(guān)聯(lián)模型,然后過濾病歷號、姓名等對疾病無關(guān)緊要的數(shù)據(jù),然后剔除嗜煙嗜酒等對病例關(guān)聯(lián)性不強(qiáng)的數(shù)據(jù),然后將左側(cè)設(shè)置為診斷外事項(xiàng),將右側(cè)設(shè)置為最后診斷之間的關(guān)聯(lián)規(guī)則和因素。這時(shí)產(chǎn)生的關(guān)聯(lián)規(guī)則數(shù)據(jù)比較多,但是有很多規(guī)則價(jià)值性不大;必須通過模型進(jìn)行重新設(shè)置,增加最小支持度和最小置信度,此時(shí)事務(wù)數(shù)據(jù)庫中最小支持度和最小置信度分別為40%,60%,如表1所示,然后根據(jù)以上數(shù)據(jù)庫生成FP?tree。
4 結(jié) 語
在當(dāng)今這個(gè)大數(shù)據(jù)信息量時(shí)代,數(shù)據(jù)挖掘技術(shù)顯得尤為重要,挖掘方法也比較多,但是必須選擇合適的挖掘方法,提高數(shù)據(jù)挖掘效率,在數(shù)據(jù)關(guān)聯(lián)性分析過程中要充分利用Aprion算法,使數(shù)據(jù)挖掘的效率提高。
參考文獻(xiàn)
[1] 王祥瑞.數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究[J].煤炭技術(shù),2011,30(8):205?207.
[2] 于延,王建華,付偉,等.基于改進(jìn)的Apriori算法的入侵檢測系統(tǒng)研究[J].計(jì)算機(jī)工程與科學(xué),2010,32(9):23?26.
[3] 張梅峰,張建偉,張新敬,等.基于Apriori的有效關(guān)聯(lián)規(guī)則挖掘算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(19):196?198.
[4] 藍(lán)祺花.動態(tài)的關(guān)聯(lián)規(guī)則挖掘算法研究[D].廈門:廈門大學(xué),2009.
[5] 丁艷輝.大規(guī)模數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘算法研究[D].濟(jì)南:山東師范大學(xué),2007.
[6] MEYER C G, PAPASTAMATIOU Y P, HOLLAND K N. Seasonal, diel, and tidal movements of green jobfish (aprion virescens, lutjanidae) at remote Hawaiian atolls: implications for marine protected area design [J]. Marine biology, 2007, 151(6): 2133?2143.
[7] 劉海蓉,閆仁武.一種改進(jìn)的加權(quán)關(guān)聯(lián)規(guī)則挖掘算法[J].現(xiàn)代電子技術(shù),2011,34(12):51?54.
[8] 王玨.基于關(guān)聯(lián)規(guī)則的醫(yī)生診療數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2013,36(19):124?126.