梁 凡 趙 麗
1(南寧職業(yè)技術(shù)學(xué)院信息工程學(xué)院 廣西 南寧 530008)2(山西大學(xué)軟件學(xué)院 山西 太原 030013)
隨著數(shù)據(jù)庫(kù)系統(tǒng)的大量建設(shè)與互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,采用大數(shù)據(jù)挖掘技術(shù)對(duì)海量數(shù)據(jù)中蘊(yùn)含的潛在價(jià)值進(jìn)行分析逐步受到世界各國(guó)的高度重視,如商業(yè)、科技、健康、智能電網(wǎng)等[1]。大數(shù)據(jù)分析技術(shù)作為有效手段之一,可發(fā)現(xiàn)不同項(xiàng)目間潛在的未觀察到的關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘[2]作為大數(shù)據(jù)分析中的一類技術(shù),指采用某種算法發(fā)現(xiàn)不同項(xiàng)目間可能存在的關(guān)聯(lián)或聯(lián)系[3]。例如,文獻(xiàn)[4]提出一種多尺度關(guān)聯(lián)規(guī)則挖掘算法,實(shí)現(xiàn)了多尺度數(shù)據(jù)集之間知識(shí)的跨尺度推導(dǎo),算法具有較高的覆蓋率、精確度和較低的支持度估計(jì)誤差。文獻(xiàn)[5]針對(duì)動(dòng)車組運(yùn)維數(shù)據(jù)的數(shù)據(jù)量巨大、價(jià)值密度低的特點(diǎn),提出了基于近似最小完美Hash函數(shù)的關(guān)聯(lián)規(guī)則挖掘算法,算例結(jié)果表明,挖掘出的規(guī)則可以有效地指導(dǎo)動(dòng)車組修程修制優(yōu)化,從而達(dá)到提高動(dòng)車組運(yùn)維效率的目的。類似研究見(jiàn)文獻(xiàn)[6-8]。但上述文獻(xiàn)均建立在經(jīng)典的布爾型關(guān)聯(lián)規(guī)則基礎(chǔ)上,即輸出結(jié)果是0-1型的二進(jìn)制數(shù)據(jù)。當(dāng)應(yīng)用經(jīng)典的布爾型關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)庫(kù)定量分析時(shí),會(huì)引入硬化數(shù)據(jù)“尖銳邊界”問(wèn)題。換言之,經(jīng)典布爾型關(guān)聯(lián)規(guī)則僅通過(guò)硬性的離散化劃分策略可能破壞了不同項(xiàng)數(shù)據(jù)間存在的內(nèi)在聯(lián)系。針對(duì)傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則挖掘算法存在的這一缺點(diǎn),文獻(xiàn)[9]提出一種顧及模糊屬性的空間關(guān)聯(lián)規(guī)則挖掘方法,結(jié)合模糊集理論,采用隸屬度函數(shù)將模糊空間數(shù)據(jù)轉(zhuǎn)化為由隸屬度表征的模糊數(shù)值,進(jìn)而將模糊空間屬性化為模糊集合,最終提取出模糊關(guān)聯(lián)規(guī)則。類似地,文獻(xiàn)[10]提出一種基于時(shí)間衰減模型的模糊會(huì)話關(guān)聯(lián)規(guī)則挖掘算法,同樣基于模糊理論進(jìn)行關(guān)聯(lián)規(guī)則的模糊化挖掘。然而,現(xiàn)有的模糊關(guān)聯(lián)規(guī)則挖掘方法在量化語(yǔ)言學(xué)術(shù)語(yǔ)時(shí)過(guò)多依賴于人工或?qū)<医?jīng)驗(yàn)進(jìn)行劃分,很少考慮到規(guī)則本身存在的不確定性,故導(dǎo)致很難以最優(yōu)方式生成關(guān)聯(lián)規(guī)則。
為解決現(xiàn)有關(guān)聯(lián)規(guī)則挖掘方法中存在的缺點(diǎn),提出了一種新型的中智關(guān)聯(lián)規(guī)則挖掘算法,主要?jiǎng)?chuàng)新點(diǎn)為:
1) 針對(duì)傳統(tǒng)布爾型挖掘算法硬性關(guān)聯(lián)規(guī)則處理導(dǎo)致數(shù)據(jù)間聯(lián)系被破壞的風(fēng)險(xiǎn),將模糊理論引入關(guān)聯(lián)規(guī)則挖掘模型中,從而提升數(shù)據(jù)間潛在聯(lián)系的挖掘成功率。
2) 針對(duì)傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法存在的語(yǔ)言學(xué)術(shù)語(yǔ)量化預(yù)處理過(guò)度依賴人工經(jīng)驗(yàn)的缺點(diǎn),基于中智集合理論對(duì)傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行改進(jìn)。不僅考慮了不同項(xiàng)間的隸屬度函數(shù),并且綜合考慮關(guān)聯(lián)規(guī)則自身不確定性以及項(xiàng)間的非隸屬度函數(shù),可更有效地實(shí)現(xiàn)關(guān)聯(lián)規(guī)則的模糊化處理并發(fā)現(xiàn)所有可能存在的關(guān)聯(lián)規(guī)則,有助于提升數(shù)據(jù)挖掘準(zhǔn)確性。
為便于后續(xù)分析,首先給出關(guān)于關(guān)聯(lián)規(guī)則挖掘模型的基本術(shù)語(yǔ)與相關(guān)定義,隨后建立基于模糊化的關(guān)聯(lián)規(guī)則挖掘模型。
令集合|D|為從一個(gè)給定數(shù)據(jù)集中挖掘得到的關(guān)聯(lián)規(guī)則集合,相關(guān)定義如下:
1)I={i1,i2, …,im}表示所有可能的數(shù)據(jù)集合,其中元素稱為項(xiàng)目(item)。
2) 資料庫(kù)T表示來(lái)源于數(shù)據(jù)集I中進(jìn)一步挖掘分析的數(shù)據(jù)集,滿足T?I。
3) 對(duì)于給定的項(xiàng)目集X?I以及一個(gè)給定的資料庫(kù)T,則T包含X當(dāng)且僅當(dāng)X?T。
4) 定義表示σX項(xiàng)集X的支持度(support frequency),其含義為項(xiàng)集X在整個(gè)數(shù)據(jù)集中出現(xiàn)的頻率,公式如下:
(1)
5) 對(duì)于項(xiàng)集X、Y,X∩Y的可信度定義為同時(shí)包含X、Y的支持度與包含X的支持度之比:
(2)
6) 關(guān)聯(lián)規(guī)則:一個(gè)形如X?Y的蘊(yùn)含式,其中X?I、Y?I且X∩Y=φ。關(guān)聯(lián)規(guī)則成立的條件是:① 資料庫(kù)T中至少有s%的項(xiàng)包含X∪Y,即具有最小支持度s;② 在資料庫(kù)T中包含X的項(xiàng)中最少有c%同時(shí)也包含Y,即具有最小可信度c。
關(guān)聯(lián)規(guī)則挖掘問(wèn)題本質(zhì)上就是確定不同項(xiàng)集見(jiàn)支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則(即強(qiáng)規(guī)則),具體包含以下兩個(gè)子問(wèn)題:
子問(wèn)題1:找出資料庫(kù)T中具有用戶定義的最小支持度的項(xiàng)目集,并將其定義為頻繁項(xiàng)目集,反之則成為非頻繁項(xiàng)目集。
子問(wèn)題2:利用頻繁項(xiàng)目集生成關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的主要任務(wù),其生成的關(guān)聯(lián)規(guī)則表征了不同屬性的項(xiàng)集間的聯(lián)系。對(duì)于傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則挖掘而言,其項(xiàng)目集的劃分往往采用精確截?cái)鄥^(qū)間劃分的方式。但此種方法存在過(guò)于硬化處理的弊端,如10.1和9.9在事實(shí)上是兩個(gè)非常接近的數(shù)值,但在[1, 10)、[10, 20)的劃分方式下則會(huì)分屬于兩個(gè)不同的項(xiàng)目集合,顯然會(huì)導(dǎo)致與實(shí)際結(jié)果不符的情況。因此,模糊關(guān)聯(lián)規(guī)則進(jìn)一步地運(yùn)用模糊理論對(duì)關(guān)聯(lián)規(guī)則進(jìn)行了改進(jìn),從而克服了傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則生成算法對(duì)數(shù)據(jù)過(guò)于硬化的處理缺陷。
模糊關(guān)聯(lián)規(guī)則挖掘的基本原理為:設(shè)資料庫(kù)T={ti|i=1, 2, …,n},項(xiàng)目集合I={i1,i2, …,im},項(xiàng)目集合的每個(gè)元素ii對(duì)應(yīng)一個(gè)模糊集合Lj={l1,l2, …,l|Lf|}(j=1, 2, …,m)。定義模糊項(xiàng)目集合為項(xiàng)目集合I中所有項(xiàng)目對(duì)應(yīng)的模糊集所有成的集合,而模糊集的隸屬度函數(shù)可由專家進(jìn)行人為定義,記為fjk,下標(biāo)滿足:1≤j≤m,1≤k≤|Lf|,其實(shí)際意義為表征了項(xiàng)目元素ij隸屬于資料庫(kù)T的程度。例如,f12為項(xiàng)目i1所對(duì)應(yīng)的模糊集合中第2個(gè)模糊項(xiàng)目的隸屬度函數(shù)。故根據(jù)給出的模糊集隸屬度函數(shù),可將原資料庫(kù)集合轉(zhuǎn)換為模糊資料庫(kù)T={t′1,t′2,…,t′n},且t′i= (f11,…,f1|L1|,…,fm1, …,fm|Lm|),i={1, 2, …,n}。與傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則相比,模糊關(guān)聯(lián)規(guī)則通過(guò)引入對(duì)數(shù)據(jù)的模糊化處理實(shí)現(xiàn)了劃分邊界的柔性過(guò)渡。
為更清晰地說(shuō)明本文所提模糊關(guān)聯(lián)規(guī)則生成方法,本文以溫度相關(guān)的數(shù)據(jù)挖掘?yàn)槔M(jìn)行說(shuō)明。在進(jìn)行數(shù)據(jù)挖掘過(guò)程前,本文需對(duì)數(shù)據(jù)項(xiàng)進(jìn)行預(yù)處理。其主要內(nèi)容記為將語(yǔ)言學(xué)術(shù)語(yǔ)轉(zhuǎn)換為具有量化的數(shù)值,并定義每個(gè)語(yǔ)言學(xué)術(shù)語(yǔ)對(duì)應(yīng)的量化數(shù)值范圍,此過(guò)程可基于專家知識(shí)進(jìn)行。例如,表征溫度的語(yǔ)言學(xué)術(shù)語(yǔ){very cold,cold,cool,warm,hot}。進(jìn)一步地,不同的表征溫度的語(yǔ)言學(xué)術(shù)語(yǔ)的模糊化隸屬度函數(shù)可按如表1所示的數(shù)據(jù)資料庫(kù)進(jìn)行計(jì)算,圖1為響應(yīng)的隸屬度函數(shù)曲線。
表1 數(shù)據(jù)庫(kù)事務(wù)的隸屬度函數(shù)
圖1 表征溫度的語(yǔ)言術(shù)語(yǔ)
將語(yǔ)言學(xué)術(shù)語(yǔ){very cold,cold,cool,warm,hot}添加到候選集中,并計(jì)算這些項(xiàng)集的支持度,從而實(shí)現(xiàn)每個(gè)語(yǔ)言學(xué)術(shù)語(yǔ)的量化特征值,從而生成模糊候選集。依據(jù)2.1節(jié)中支持度的定義,本文可計(jì)算出單項(xiàng)集和多項(xiàng)集的支持度。同樣以溫度的單一指標(biāo)和雙重指標(biāo)為例,支持度如表2和表3所示。后續(xù)內(nèi)容中,將包含k個(gè)項(xiàng)目的項(xiàng)集表示為k-項(xiàng)集,并記集合L中的k-項(xiàng)集為L(zhǎng)k。
表2 單一項(xiàng)集的支持度
表3 兩項(xiàng)集的支持度
在經(jīng)典的模糊關(guān)聯(lián)規(guī)則模型中,隸屬度函數(shù)的選擇仍存在過(guò)于依賴人工經(jīng)驗(yàn)的缺陷,即隸屬度函數(shù)同樣存在“硬化”的不足。此外,經(jīng)典的模糊關(guān)聯(lián)規(guī)則模型并未考慮到數(shù)據(jù)集自身存在的不確定性。上述兩點(diǎn)將導(dǎo)致最后的挖掘結(jié)果可能因模糊隸屬度函數(shù)的選擇不同而出現(xiàn)偏差。中智學(xué)作為模糊理論的進(jìn)一步發(fā)展,是模糊結(jié)合論、并行相容性集合論和直覺(jué)集合論的概括總結(jié)。因此,基于中智集合理論提出針對(duì)經(jīng)典模糊關(guān)聯(lián)規(guī)則挖掘的改進(jìn)算法,其進(jìn)一步將數(shù)據(jù)元素的不確定性考慮在內(nèi),有效克服了傳統(tǒng)模糊理論的缺點(diǎn)。為此,首先給出中智集合的基本定理和運(yùn)算規(guī)則,隨后進(jìn)一步建立基于中智模糊的關(guān)聯(lián)規(guī)則挖掘模型[12-13]。
中智集合理論中,設(shè)集合X為空間上的全集,而集合A是集合X的一個(gè)子集。而元素x∈X進(jìn)一步表示為x(t,i,f),其中t、i、f分別表示元素x的真實(shí)性、不確定性和非真實(shí)性概率,且有t=T(x)、i=I(x)、f=F(x)成立。T、I、F分別為元素x的真隸屬度、不確定性隸屬度和非隸屬度集合。根據(jù)文獻(xiàn)[11]定義,其為|-0, 1+|的標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)實(shí)數(shù)子集,其中|-0, 1+|表示非標(biāo)準(zhǔn)單位區(qū)間,-0=0-ε,1+=1+ε,其中“0”、“1”表示集合邊界的標(biāo)準(zhǔn)值,而“ε”則表示不確定度(即非標(biāo)準(zhǔn)部分)且為無(wú)窮小正數(shù)。故T、I、F的上確界和下確界以及對(duì)應(yīng)的模糊集合的上確界和下確界分別表示為:
SupT=tsupInfT=tinf
(3)
SupI=isupInfI=Iinf
(4)
SupF=fsupInfF=finf
(5)
nsup=tsup+isup+fsup
(6)
ninf=tinf+iinf+finf
(7)
-0≤SupT+SupI+SupF≤3+
(8)
進(jìn)一步,文獻(xiàn)[14]定義了單值中智集合的概念,以克服經(jīng)典中智集合理論中對(duì)真隸屬度、不確定性隸屬度和非隸屬度集合定義過(guò)于抽象不適合應(yīng)用于實(shí)際工程中的缺陷。設(shè)X為論域,而集合X上的單值中智集合A具有如下形式:
A={
(9)
式中:TA(x):X→[0,1],IA(x):X→[0,1],F(xiàn)A(x):X→[0,1],從而對(duì)于所有x∈X,都有0≤TA(x)+IA(x)+FA(x)≤3 。區(qū)間TA(x)、IA(x)和FA(x)分別表示單值真隸屬度、不確定隸屬度和假隸屬度函數(shù)。進(jìn)一步將式(9)簡(jiǎn)記為A=(a,b,c),其中a,b,c∈[0, 1],且有a+b+c≤3。
1) 交集運(yùn)算:對(duì)兩個(gè)單值中智集合A=
2) 并集運(yùn)算:對(duì)兩個(gè)單值中智集合A=
3) 包含運(yùn)算:中智集合A包含于另一個(gè)中智集合B,可表示為A?B,當(dāng)且僅當(dāng)對(duì)于所有x∈X,有TA(x)≤TB(x) 、IA(x)≤IB(x)且FA(x)≥FB(x)。
提出的基于中智模糊化關(guān)聯(lián)規(guī)則生成模型為:X→Y,其中X∩Y=?,X、Y均為中智集合。本文目標(biāo)為找到頻繁集和相應(yīng)的支持度,以及其相應(yīng)的關(guān)聯(lián)規(guī)則生成準(zhǔn)則。結(jié)合2.2節(jié)中的模糊化關(guān)聯(lián)規(guī)則定義,本文將中智集合添加到集合I中,集合I為所有可能的數(shù)據(jù)集(即項(xiàng)集)。具體操作為I=N∪M,其中N是中智集,M是經(jīng)典項(xiàng)集。關(guān)聯(lián)規(guī)則的一般形式為:
X→YX?I,Y?I,X∩Y=?
上述中智模糊關(guān)聯(lián)規(guī)則生成流程如圖2所示。
圖2 中智模糊關(guān)聯(lián)規(guī)則生成流程
同樣以溫度相關(guān)的關(guān)聯(lián)規(guī)則挖掘?yàn)槔f(shuō)明本文的中智模糊關(guān)聯(lián)規(guī)則建模流程。
Step1設(shè)置溫度相關(guān)的語(yǔ)言學(xué)術(shù)語(yǔ){very cold,cold,cool,warm,hot}的量化數(shù)值范圍如表4所示。
表4 語(yǔ)言術(shù)語(yǔ)的量化數(shù)值范圍
Step2基于表4中量化的語(yǔ)言術(shù)語(yǔ)范圍,定義溫度的真隸屬度、不確定隸屬度和非隸屬度函數(shù)。式(10)-式(14)為真隸屬度函數(shù),式(15)-式(19)為不確定隸屬度函數(shù),式(20)-式(24)為非隸屬度函數(shù)。
(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)
圖3為這些變量的真隸屬度、不確定隸屬度、非隸屬度函數(shù)以及中智模糊化隸屬度函數(shù)。
(a) 真隸屬度函數(shù)
(b) 不確定隸屬度函數(shù)
(c) 非隸屬度函數(shù)
(d) 中智模糊化隸屬度函數(shù)圖3 隸屬度函數(shù)波形
Step3基于隸屬度函數(shù)數(shù)值,不同的項(xiàng)集被劃分至不同的溫度集合中,如表5所示。
表5 不同數(shù)據(jù)庫(kù)事務(wù)的隸屬度函數(shù)
續(xù)表5
Step4計(jì)算資料庫(kù)中每個(gè)元素的語(yǔ)言學(xué)術(shù)語(yǔ)集合{very cold, cold, cool, warm, hot}。由于真隸屬度、假隸屬度和不確定隸屬度是獨(dú)立的函數(shù),所以語(yǔ)言學(xué)術(shù)語(yǔ)的集合可以擴(kuò)展到{Tvery-cold,Tcold,Tcool,Twarm,Thot,Fvery-cold,Fcold,Fcool,Fwarm,Fhot,Ivery-cold,Icold,Icool,Iwarm,Ihot}。其中,F(xiàn)warm表示不溫暖,而Iwarm表示不確定是否溫暖。
Step5使用表5中給出的隸屬度函數(shù),分別計(jì)算單項(xiàng)集和兩項(xiàng)集的頻數(shù)和支持度,如表6、表7所示。
表6 單項(xiàng)集中智集的支持度
續(xù)表7
為說(shuō)明所提方法的實(shí)際運(yùn)行效果,在同樣的實(shí)驗(yàn)條件下(計(jì)算機(jī)配置為Intel Core i5 CPU, 10 GB RAM, Windows 10 64位 旗艦版),并將其與文獻(xiàn)[15]所提布爾型關(guān)聯(lián)規(guī)則挖掘算法以及文獻(xiàn)[16]所提傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行對(duì)比。實(shí)驗(yàn)程序統(tǒng)一采用VB.net進(jìn)行編程。
股票交易市場(chǎng)的歷史數(shù)據(jù)來(lái)源于2012年9月至2017年9月期間埃及股票市場(chǎng)。數(shù)據(jù)包含每只股票的開(kāi)盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)和成交量。本文以開(kāi)盤價(jià)(openprice)與收盤價(jià)(closeprice)的差值比率定義股票的變化率(pricechangerate):
(25)
并定義股票成交比例如下:
(26)
此外,數(shù)據(jù)屬性項(xiàng)包含季度、月度、股票變化率、成交率、指標(biāo)變化率,表8表示了預(yù)處理后的部分?jǐn)?shù)據(jù)。
表8 預(yù)處理后部分?jǐn)?shù)據(jù)
根據(jù)上述語(yǔ)言學(xué)術(shù)語(yǔ),基于單值中智集合定義對(duì)上述數(shù)據(jù)進(jìn)行模糊化處理。本文將變化率模糊化處理為{“high up”,“high low”,“no change”,“l(fā)ow down”,“high down “},而對(duì)于成交量,模糊化處理為{“l(fā)ow”, “medium”, “high”},其對(duì)應(yīng)的隸屬度函數(shù)波形分別如圖3、圖4所示。
圖3 變化率真隸屬度函數(shù)
圖4 成交量的真隸屬度函數(shù)
3.2.1生成關(guān)聯(lián)項(xiàng)數(shù)量分析
基準(zhǔn)實(shí)驗(yàn)中,設(shè)最小支持度為0.02,對(duì)比分析不同關(guān)聯(lián)規(guī)則挖掘方法下生成的關(guān)聯(lián)項(xiàng)數(shù)量。如表9所示,由于所提中智模糊化算法考慮了不確定性和非隸屬度函數(shù),故在關(guān)聯(lián)項(xiàng)的數(shù)量上,應(yīng)用所提中智模糊關(guān)聯(lián)規(guī)則生成的關(guān)聯(lián)項(xiàng)較布爾型算法布爾型算法提升了270%,而較文獻(xiàn)[16]提出的傳統(tǒng)模糊算法提升了142.9%。由此可見(jiàn),本文方法能夠顯著挖掘出更多的潛在關(guān)聯(lián)規(guī)則。
表9 關(guān)聯(lián)項(xiàng)生成數(shù)量
3.2.2最小支持度對(duì)關(guān)聯(lián)規(guī)則生成數(shù)量的影響
本節(jié)研究了最小支持度對(duì)不同挖掘算法所生成的關(guān)聯(lián)規(guī)則的影響。圖5、圖6和圖7分別為文獻(xiàn)[15]提出的布爾型關(guān)聯(lián)挖掘算法、文獻(xiàn)[16]提出的模糊關(guān)聯(lián)挖掘算法和本文所提中智模糊關(guān)聯(lián)規(guī)則挖掘算法所生成的關(guān)聯(lián)規(guī)則數(shù)量隨項(xiàng)集數(shù)量的變化趨勢(shì)。橫向比較圖5-圖7,可發(fā)現(xiàn)隨著最小值尺度閾值的升高,關(guān)聯(lián)規(guī)則生成數(shù)量均處于下降狀態(tài),且隨著項(xiàng)目集合的增多,二者下降速率均逐漸加快。而縱向比較可知,當(dāng)最小支持度閾值設(shè)置較小且項(xiàng)目集合數(shù)量較低時(shí),中智模糊關(guān)聯(lián)規(guī)則挖掘算法的性能與文獻(xiàn)[16]提出的模糊關(guān)聯(lián)規(guī)則生成算法的性能相近,而文獻(xiàn)[15]提出的布爾型挖掘算法由于生成關(guān)聯(lián)數(shù)量較少,性能則較差。但當(dāng)項(xiàng)目集合增多時(shí),由于中智集合考慮了更多的隸屬度函數(shù),使得挖掘到的關(guān)聯(lián)規(guī)則數(shù)量遠(yuǎn)大于文獻(xiàn)[16]提出的模糊關(guān)聯(lián)規(guī)則挖掘算法。
圖5 文獻(xiàn)[15]提出的布爾型關(guān)聯(lián)規(guī)則生成數(shù)量隨項(xiàng)集數(shù)量變化趨勢(shì)
圖6 文獻(xiàn)[16]提出的模糊關(guān)聯(lián)規(guī)則生成數(shù)量隨項(xiàng)集數(shù)量變化趨勢(shì)
圖7 中智模糊化關(guān)聯(lián)規(guī)則生成數(shù)量隨項(xiàng)集數(shù)量變化趨勢(shì)
然而,中智模糊化方法雖然顯著增大了關(guān)聯(lián)規(guī)則數(shù)量,但過(guò)多的關(guān)聯(lián)規(guī)則數(shù)量可能給用戶帶來(lái)信息誤導(dǎo)的風(fēng)險(xiǎn)。因此,本文進(jìn)一步研究最小支持度對(duì)本文所提中智模糊關(guān)聯(lián)規(guī)則挖掘算法的性能算法。圖8為最小支持度閾值從0.5到0.9變化時(shí)采用中智模糊關(guān)聯(lián)規(guī)則生成算法所產(chǎn)生的關(guān)聯(lián)規(guī)則數(shù)量與支持度和項(xiàng)集數(shù)量的變化趨勢(shì)。
圖8 中智規(guī)則數(shù)量隨最小支持度變化關(guān)系
對(duì)比圖7和圖8可知,當(dāng)采用本文所提中智模糊關(guān)聯(lián)挖掘算法時(shí),最小支持度大于50%時(shí)能夠有效濾除過(guò)多生成的關(guān)聯(lián)規(guī)則,得到和傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法相近的性能。
綜上可得:1) 本文算法能夠得到用戶感興趣的強(qiáng)關(guān)聯(lián)、有價(jià)值的數(shù)據(jù)信息;2) 本文算法在挖掘得到的關(guān)聯(lián)規(guī)則上的可信度要強(qiáng)于其他兩種對(duì)比算法;3) 在算法中考慮更多的隸屬度函數(shù),有助于增加挖掘到的關(guān)聯(lián)規(guī)則數(shù)量。
針對(duì)傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則挖掘算法存在的硬化數(shù)據(jù)“尖銳邊界”問(wèn)題以及傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法未考慮關(guān)聯(lián)規(guī)則的不確定性與非真實(shí)性問(wèn)題,提出一種新型中智關(guān)聯(lián)規(guī)則挖掘算法。通過(guò)實(shí)例分析表明,相比其他兩種對(duì)比算法,本文算法在相同支持度時(shí)能夠挖掘更多數(shù)量的關(guān)聯(lián)規(guī)則,在多項(xiàng)集關(guān)聯(lián)規(guī)則生成數(shù)量與可信度上具有明顯優(yōu)勢(shì),有助于提高數(shù)據(jù)挖掘的準(zhǔn)確性。此外,算法考慮了更多的隸屬度函數(shù),有助于增加挖掘到的關(guān)聯(lián)規(guī)則數(shù)量。后續(xù)研究工作中,將繼續(xù)深入研究模糊邊界設(shè)定值對(duì)生成關(guān)聯(lián)規(guī)則數(shù)量的影響以及算法普適性研究。