摘 要:由于信息技術(shù)的發(fā)展迅速,海量信息不斷累積,如何從大量并且隨機(jī)的數(shù)據(jù)集中挖掘出一些有價值的信息,是一個重要而且有意義的研究方向,所以帶動了數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展。這樣能利用模糊關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)庫中各個數(shù)據(jù)之間的關(guān)聯(lián),更有效的為我們服務(wù)。本文則研究模糊關(guān)聯(lián)規(guī)則算法及其改進(jìn)算法。
關(guān)鍵詞:數(shù)據(jù)挖掘;模糊關(guān)聯(lián)規(guī)則
study of fuzzy association rule mining technology
Ran Na
(Department of Computer ,Sichuan TOP IT Vocational Institute ,Chengdu 611743 ,China)
【 ABSTRACT 】 Due to the rapid development of information technology and the accumulation of massive information, it is an important and meaningful research direction and research to excavate some valuable information from a large number of random data sets. So the rapid development of data mining technology. In this way, we can use fuzzy association rules to mine the association between data in the database and serve us more effectively. In this paper, the fuzzy association rules algorithm and its improved algorithm are studied.
【 KEY WORDS 】: data mining; fuzzy association rules mining;
一、研究背景及意義
關(guān)聯(lián)規(guī)則重點(diǎn)在于找到不同數(shù)據(jù)之間的關(guān)系,并且找到大于已經(jīng)設(shè)置好的支持度和置信度閥值的,并且隱藏在多個領(lǐng)域之間的數(shù)據(jù)關(guān)聯(lián)規(guī)律[1],按照給不一樣的屬性進(jìn)行取值方式,關(guān)聯(lián)規(guī)則包含兩種類型:第一種是布爾型關(guān)聯(lián)規(guī)則,第二種是多值屬性關(guān)聯(lián)規(guī)則,在對第二種類型的挖掘過程中,如果將屬性值精確劃分到某個特定范圍內(nèi),可能會導(dǎo)致比較突出的邊界問題,從而導(dǎo)致丟失了區(qū)間邊界周圍的有用信息。為了解決這個問題,在挖掘中加入模糊概念方法,可以將多值屬性進(jìn)行模糊化處理,達(dá)到從一個區(qū)間到另一個區(qū)間的過渡比較平順,保存區(qū)間周圍信息的目的[2]。因此,數(shù)據(jù)庫是多值屬性的可以用屬性模糊化的辦法來獲得更多、并且更有用的規(guī)則,本文的數(shù)據(jù)集就是屬于多值的。
二、算法分析和研究
在推薦系統(tǒng)中使用模糊關(guān)聯(lián)規(guī)則的原因如下:首先可以更直接地展示推薦結(jié)果,而且會以比較容易的方式讓用戶接受,其次可以輕松發(fā)現(xiàn)新的興趣點(diǎn),而且不需知道過多的專業(yè)知識。
(一)基于 Fuzzy FP-tree 的模糊關(guān)聯(lián)規(guī)則挖掘算法
Lin等人第一次使用了一種叫做模糊關(guān)聯(lián)規(guī)則挖掘方法——Fuzzy FP-tree算法進(jìn)行挖掘[3]。它借鑒了FP-tree的算法中心內(nèi)容,使用“分層治理”方法,先整理數(shù)據(jù)庫中的信息保存在FFP-tree這樣的結(jié)構(gòu)中。FFP-tree的優(yōu)勢是不需要構(gòu)成復(fù)雜的候選項(xiàng)集,基本沒有什么內(nèi)存占用,不足在于處理模糊屬性本領(lǐng)較弱,會直接挖掘結(jié)果中有意義的信息,無法獲得完整的挖掘規(guī)則。研究的改進(jìn)算法有比較強(qiáng)的能力,不會造成有用信息丟失。
(二)改進(jìn)的模糊關(guān)聯(lián)規(guī)則挖掘算法
通過研究了很多篇資料可以得知,對模糊關(guān)聯(lián)規(guī)則挖掘影響最大的因素就是支持度的確定和隸屬度的確定。隸屬度由隸屬函數(shù)計(jì)算出來的。所以要想改進(jìn)模糊關(guān)聯(lián)規(guī)則,就要挖掘出更高效的隸屬度函數(shù)確定的方法。改進(jìn)的算法為NFAR(New Fuzzy Association Rules),研究改進(jìn)算法需要首先通過隸屬函數(shù)將模糊化數(shù)據(jù)庫為Df 。接著計(jì)算各個模糊項(xiàng)目的支持度,篩選出支持度大于最小支持度的數(shù)據(jù)構(gòu)成頻繁1-項(xiàng)模糊集L1。由L1形成候選2-項(xiàng)集C2 ,通過Fuzzy FP-tree算法對C2去除噪聲數(shù)據(jù)形成包含有意義數(shù)據(jù)的頻繁模糊項(xiàng)目集。所有滿足ms的模糊項(xiàng)目都加入到L1 中,可以讓數(shù)據(jù)更加完整。
(三)算法實(shí)驗(yàn)
為了評估改進(jìn)算法的效率,實(shí)驗(yàn)數(shù)據(jù)來自大型數(shù)據(jù)庫訂單信息表,對Fuzzy FP-tree算法與改進(jìn)的模糊關(guān)聯(lián)規(guī)則算法NFAR算法進(jìn)行比較。10000 條相同屬性模糊化處理之后分別使用兩種算法挖掘關(guān)聯(lián)規(guī)則。將數(shù)值型屬性通過各自設(shè)定的隸屬函數(shù)轉(zhuǎn)化為模糊項(xiàng)目集,就能將數(shù)據(jù)庫 D轉(zhuǎn)化為模糊數(shù)據(jù)庫Df,接下來對轉(zhuǎn)化后的數(shù)據(jù)進(jìn)行算法性能測試。
在此部分的實(shí)驗(yàn)中,主要是比較兩種算法在相同支持度的情況下,對不同數(shù)量的數(shù)據(jù)集進(jìn)行挖掘,得出頻繁項(xiàng)集所用的時間。設(shè)置相同的最小支持度為10%,對于數(shù)據(jù)集取出不同數(shù)目的實(shí)驗(yàn)數(shù)據(jù),分別取出數(shù)據(jù)集的1000條,2000條,4000條,5000條和8000條進(jìn)行試驗(yàn),比較二者算法所用的時間。
比較結(jié)果如圖1所示
通過上面的實(shí)驗(yàn)證明了,改進(jìn)的NFAR算法在處理不同數(shù)量的數(shù)據(jù)集的情況下,效率是優(yōu)于Fuzzy FP-tree算法的。在數(shù)據(jù)集的數(shù)量較小時,兩種算法的性能相差很小,但是當(dāng)數(shù)據(jù)集中的數(shù)據(jù)的逐漸變多時,改進(jìn)算法的效率有了較大提高。原因在于改進(jìn)算法主要是去除噪聲數(shù)據(jù),去除了對生成頻繁項(xiàng)集毫無意義的數(shù)據(jù),也就減少了搜索頻繁項(xiàng)集所用的時間,所以在數(shù)據(jù)集多的時候,新的算法可以更好的提升挖掘效率。
三、結(jié)語
目前,學(xué)者們對關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘熱情越來越高漲,各個方面都能看到它的運(yùn)用。模糊關(guān)聯(lián)規(guī)則作為其中的一個非常重要的領(lǐng)域,對它的學(xué)習(xí)具有重大的意義。類似于大型購物網(wǎng)站,與我們的日常生活密切相關(guān),而且伴隨著挖掘技術(shù)的不斷成熟與發(fā)展,網(wǎng)站的前景發(fā)展廣闊。
參考文獻(xiàn):
[1] 廖志 ,郝志峰 ,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2011:188.
[2] 李雄飛 ,董元芳 ,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2015:12..
[3] Lin C W,Hong T P,Lu W H. Linguistic data mining with fuzzy FP-trees[J]. ExpertSystems with Applications,2015,37:4560-4567.
作者簡介:
①冉娜(1983-),女,漢,四川廣安人,講師,研究生,主要研究方向?yàn)閿?shù)據(jù)挖掘。