基于中智模糊關(guān)聯(lián)規(guī)則生成的大數(shù)據(jù)挖掘分析算法

2019-10-21 01:09梁凡趙麗

計(jì)算機(jī)應(yīng)用與軟件 2019年10期

梁凡趙麗

1(南寧職業(yè)技術(shù)學(xué)院信息工程學(xué)院廣西南寧 530008)2(山西大學(xué)軟件學(xué)院山西太原 030013)

0 引言

隨著數(shù)據(jù)庫(kù)系統(tǒng)的大量建設(shè)與互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用，采用大數(shù)據(jù)挖掘技術(shù)對(duì)海量數(shù)據(jù)中蘊(yùn)含的潛在價(jià)值進(jìn)行分析逐步受到世界各國(guó)的高度重視，如商業(yè)、科技、健康、智能電網(wǎng)等[1]。大數(shù)據(jù)分析技術(shù)作為有效手段之一，可發(fā)現(xiàn)不同項(xiàng)目間潛在的未觀察到的關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘[2]作為大數(shù)據(jù)分析中的一類技術(shù)，指采用某種算法發(fā)現(xiàn)不同項(xiàng)目間可能存在的關(guān)聯(lián)或聯(lián)系[3]。例如，文獻(xiàn)[4]提出一種多尺度關(guān)聯(lián)規(guī)則挖掘算法，實(shí)現(xiàn)了多尺度數(shù)據(jù)集之間知識(shí)的跨尺度推導(dǎo)，算法具有較高的覆蓋率、精確度和較低的支持度估計(jì)誤差。文獻(xiàn)[5]針對(duì)動(dòng)車組運(yùn)維數(shù)據(jù)的數(shù)據(jù)量巨大、價(jià)值密度低的特點(diǎn)，提出了基于近似最小完美Hash函數(shù)的關(guān)聯(lián)規(guī)則挖掘算法，算例結(jié)果表明，挖掘出的規(guī)則可以有效地指導(dǎo)動(dòng)車組修程修制優(yōu)化，從而達(dá)到提高動(dòng)車組運(yùn)維效率的目的。類似研究見(jiàn)文獻(xiàn)[6-8]。但上述文獻(xiàn)均建立在經(jīng)典的布爾型關(guān)聯(lián)規(guī)則基礎(chǔ)上，即輸出結(jié)果是0-1型的二進(jìn)制數(shù)據(jù)。當(dāng)應(yīng)用經(jīng)典的布爾型關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)庫(kù)定量分析時(shí)，會(huì)引入硬化數(shù)據(jù)“尖銳邊界”問(wèn)題。換言之，經(jīng)典布爾型關(guān)聯(lián)規(guī)則僅通過(guò)硬性的離散化劃分策略可能破壞了不同項(xiàng)數(shù)據(jù)間存在的內(nèi)在聯(lián)系。針對(duì)傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則挖掘算法存在的這一缺點(diǎn)，文獻(xiàn)[9]提出一種顧及模糊屬性的空間關(guān)聯(lián)規(guī)則挖掘方法，結(jié)合模糊集理論，采用隸屬度函數(shù)將模糊空間數(shù)據(jù)轉(zhuǎn)化為由隸屬度表征的模糊數(shù)值，進(jìn)而將模糊空間屬性化為模糊集合，最終提取出模糊關(guān)聯(lián)規(guī)則。類似地，文獻(xiàn)[10]提出一種基于時(shí)間衰減模型的模糊會(huì)話關(guān)聯(lián)規(guī)則挖掘算法，同樣基于模糊理論進(jìn)行關(guān)聯(lián)規(guī)則的模糊化挖掘。然而，現(xiàn)有的模糊關(guān)聯(lián)規(guī)則挖掘方法在量化語(yǔ)言學(xué)術(shù)語(yǔ)時(shí)過(guò)多依賴于人工或?qū)＜医?jīng)驗(yàn)進(jìn)行劃分，很少考慮到規(guī)則本身存在的不確定性，故導(dǎo)致很難以最優(yōu)方式生成關(guān)聯(lián)規(guī)則。

為解決現(xiàn)有關(guān)聯(lián)規(guī)則挖掘方法中存在的缺點(diǎn)，提出了一種新型的中智關(guān)聯(lián)規(guī)則挖掘算法，主要?jiǎng)?chuàng)新點(diǎn)為：

1) 針對(duì)傳統(tǒng)布爾型挖掘算法硬性關(guān)聯(lián)規(guī)則處理導(dǎo)致數(shù)據(jù)間聯(lián)系被破壞的風(fēng)險(xiǎn)，將模糊理論引入關(guān)聯(lián)規(guī)則挖掘模型中，從而提升數(shù)據(jù)間潛在聯(lián)系的挖掘成功率。

2) 針對(duì)傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法存在的語(yǔ)言學(xué)術(shù)語(yǔ)量化預(yù)處理過(guò)度依賴人工經(jīng)驗(yàn)的缺點(diǎn)，基于中智集合理論對(duì)傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行改進(jìn)。不僅考慮了不同項(xiàng)間的隸屬度函數(shù)，并且綜合考慮關(guān)聯(lián)規(guī)則自身不確定性以及項(xiàng)間的非隸屬度函數(shù)，可更有效地實(shí)現(xiàn)關(guān)聯(lián)規(guī)則的模糊化處理并發(fā)現(xiàn)所有可能存在的關(guān)聯(lián)規(guī)則，有助于提升數(shù)據(jù)挖掘準(zhǔn)確性。

1 關(guān)聯(lián)規(guī)則挖掘模型相關(guān)知識(shí)

為便于后續(xù)分析，首先給出關(guān)于關(guān)聯(lián)規(guī)則挖掘模型的基本術(shù)語(yǔ)與相關(guān)定義，隨后建立基于模糊化的關(guān)聯(lián)規(guī)則挖掘模型。

1.1 關(guān)聯(lián)規(guī)則挖掘模型

令集合|D|為從一個(gè)給定數(shù)據(jù)集中挖掘得到的關(guān)聯(lián)規(guī)則集合，相關(guān)定義如下：

1)I={i1,i2, …,im}表示所有可能的數(shù)據(jù)集合，其中元素稱為項(xiàng)目(item)。

2) 資料庫(kù)T表示來(lái)源于數(shù)據(jù)集I中進(jìn)一步挖掘分析的數(shù)據(jù)集，滿足T?I。

3) 對(duì)于給定的項(xiàng)目集X?I以及一個(gè)給定的資料庫(kù)T，則T包含X當(dāng)且僅當(dāng)X?T。

4) 定義表示σX項(xiàng)集X的支持度(support frequency)，其含義為項(xiàng)集X在整個(gè)數(shù)據(jù)集中出現(xiàn)的頻率，公式如下：

(1)

5) 對(duì)于項(xiàng)集X、Y，X∩Y的可信度定義為同時(shí)包含X、Y的支持度與包含X的支持度之比：

(2)

6) 關(guān)聯(lián)規(guī)則：一個(gè)形如X?Y的蘊(yùn)含式，其中X?I、Y?I且X∩Y=φ。關(guān)聯(lián)規(guī)則成立的條件是：① 資料庫(kù)T中至少有s%的項(xiàng)包含X∪Y，即具有最小支持度s；② 在資料庫(kù)T中包含X的項(xiàng)中最少有c%同時(shí)也包含Y，即具有最小可信度c。

關(guān)聯(lián)規(guī)則挖掘問(wèn)題本質(zhì)上就是確定不同項(xiàng)集見(jiàn)支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則(即強(qiáng)規(guī)則)，具體包含以下兩個(gè)子問(wèn)題：

子問(wèn)題1：找出資料庫(kù)T中具有用戶定義的最小支持度的項(xiàng)目集，并將其定義為頻繁項(xiàng)目集，反之則成為非頻繁項(xiàng)目集。

子問(wèn)題2：利用頻繁項(xiàng)目集生成關(guān)聯(lián)規(guī)則。

1.2 模糊關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的主要任務(wù)，其生成的關(guān)聯(lián)規(guī)則表征了不同屬性的項(xiàng)集間的聯(lián)系。對(duì)于傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則挖掘而言，其項(xiàng)目集的劃分往往采用精確截?cái)鄥^(qū)間劃分的方式。但此種方法存在過(guò)于硬化處理的弊端，如10.1和9.9在事實(shí)上是兩個(gè)非常接近的數(shù)值，但在[1, 10)、[10, 20)的劃分方式下則會(huì)分屬于兩個(gè)不同的項(xiàng)目集合，顯然會(huì)導(dǎo)致與實(shí)際結(jié)果不符的情況。因此，模糊關(guān)聯(lián)規(guī)則進(jìn)一步地運(yùn)用模糊理論對(duì)關(guān)聯(lián)規(guī)則進(jìn)行了改進(jìn)，從而克服了傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則生成算法對(duì)數(shù)據(jù)過(guò)于硬化的處理缺陷。

模糊關(guān)聯(lián)規(guī)則挖掘的基本原理為：設(shè)資料庫(kù)T={ti|i=1, 2, …,n}，項(xiàng)目集合I={i1,i2, …,im}，項(xiàng)目集合的每個(gè)元素ii對(duì)應(yīng)一個(gè)模糊集合Lj={l1,l2, …,l|Lf|}(j=1, 2, …,m)。定義模糊項(xiàng)目集合為項(xiàng)目集合I中所有項(xiàng)目對(duì)應(yīng)的模糊集所有成的集合，而模糊集的隸屬度函數(shù)可由專家進(jìn)行人為定義，記為fjk，下標(biāo)滿足：1≤j≤m，1≤k≤|Lf|，其實(shí)際意義為表征了項(xiàng)目元素ij隸屬于資料庫(kù)T的程度。例如，f12為項(xiàng)目i1所對(duì)應(yīng)的模糊集合中第2個(gè)模糊項(xiàng)目的隸屬度函數(shù)。故根據(jù)給出的模糊集隸屬度函數(shù)，可將原資料庫(kù)集合轉(zhuǎn)換為模糊資料庫(kù)T={t′1,t′2,…,t′n}，且t′i= (f11,…,f1|L1|,…,fm1, …,fm|Lm|)，i={1, 2, …,n}。與傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則相比，模糊關(guān)聯(lián)規(guī)則通過(guò)引入對(duì)數(shù)據(jù)的模糊化處理實(shí)現(xiàn)了劃分邊界的柔性過(guò)渡。

為更清晰地說(shuō)明本文所提模糊關(guān)聯(lián)規(guī)則生成方法，本文以溫度相關(guān)的數(shù)據(jù)挖掘?yàn)槔M(jìn)行說(shuō)明。在進(jìn)行數(shù)據(jù)挖掘過(guò)程前，本文需對(duì)數(shù)據(jù)項(xiàng)進(jìn)行預(yù)處理。其主要內(nèi)容記為將語(yǔ)言學(xué)術(shù)語(yǔ)轉(zhuǎn)換為具有量化的數(shù)值，并定義每個(gè)語(yǔ)言學(xué)術(shù)語(yǔ)對(duì)應(yīng)的量化數(shù)值范圍，此過(guò)程可基于專家知識(shí)進(jìn)行。例如，表征溫度的語(yǔ)言學(xué)術(shù)語(yǔ){very cold，cold，cool，warm，hot}。進(jìn)一步地，不同的表征溫度的語(yǔ)言學(xué)術(shù)語(yǔ)的模糊化隸屬度函數(shù)可按如表1所示的數(shù)據(jù)資料庫(kù)進(jìn)行計(jì)算，圖1為響應(yīng)的隸屬度函數(shù)曲線。

表1 數(shù)據(jù)庫(kù)事務(wù)的隸屬度函數(shù)

圖1 表征溫度的語(yǔ)言術(shù)語(yǔ)

將語(yǔ)言學(xué)術(shù)語(yǔ){very cold，cold，cool，warm，hot}添加到候選集中，并計(jì)算這些項(xiàng)集的支持度，從而實(shí)現(xiàn)每個(gè)語(yǔ)言學(xué)術(shù)語(yǔ)的量化特征值，從而生成模糊候選集。依據(jù)2.1節(jié)中支持度的定義，本文可計(jì)算出單項(xiàng)集和多項(xiàng)集的支持度。同樣以溫度的單一指標(biāo)和雙重指標(biāo)為例，支持度如表2和表3所示。后續(xù)內(nèi)容中，將包含k個(gè)項(xiàng)目的項(xiàng)集表示為k-項(xiàng)集，并記集合L中的k-項(xiàng)集為L(zhǎng)k。

表2 單一項(xiàng)集的支持度

表3 兩項(xiàng)集的支持度

2 中智模糊化關(guān)聯(lián)規(guī)則挖掘模型

在經(jīng)典的模糊關(guān)聯(lián)規(guī)則模型中，隸屬度函數(shù)的選擇仍存在過(guò)于依賴人工經(jīng)驗(yàn)的缺陷，即隸屬度函數(shù)同樣存在“硬化”的不足。此外，經(jīng)典的模糊關(guān)聯(lián)規(guī)則模型并未考慮到數(shù)據(jù)集自身存在的不確定性。上述兩點(diǎn)將導(dǎo)致最后的挖掘結(jié)果可能因模糊隸屬度函數(shù)的選擇不同而出現(xiàn)偏差。中智學(xué)作為模糊理論的進(jìn)一步發(fā)展，是模糊結(jié)合論、并行相容性集合論和直覺(jué)集合論的概括總結(jié)。因此，基于中智集合理論提出針對(duì)經(jīng)典模糊關(guān)聯(lián)規(guī)則挖掘的改進(jìn)算法，其進(jìn)一步將數(shù)據(jù)元素的不確定性考慮在內(nèi)，有效克服了傳統(tǒng)模糊理論的缺點(diǎn)。為此，首先給出中智集合的基本定理和運(yùn)算規(guī)則，隨后進(jìn)一步建立基于中智模糊的關(guān)聯(lián)規(guī)則挖掘模型[12-13]。

2.1 中智集合理論基本概念

中智集合理論中，設(shè)集合X為空間上的全集，而集合A是集合X的一個(gè)子集。而元素x∈X進(jìn)一步表示為x(t,i,f)，其中t、i、f分別表示元素x的真實(shí)性、不確定性和非真實(shí)性概率，且有t=T(x)、i=I(x)、f=F(x)成立。T、I、F分別為元素x的真隸屬度、不確定性隸屬度和非隸屬度集合。根據(jù)文獻(xiàn)[11]定義，其為|-0, 1+|的標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)實(shí)數(shù)子集，其中|-0, 1+|表示非標(biāo)準(zhǔn)單位區(qū)間，-0=0-ε，1+=1+ε，其中“0”、“1”表示集合邊界的標(biāo)準(zhǔn)值，而“ε”則表示不確定度(即非標(biāo)準(zhǔn)部分)且為無(wú)窮小正數(shù)。故T、I、F的上確界和下確界以及對(duì)應(yīng)的模糊集合的上確界和下確界分別表示為：

SupT=tsupInfT=tinf

(3)

SupI=isupInfI=Iinf

(4)

SupF=fsupInfF=finf

(5)

nsup=tsup+isup+fsup

(6)

ninf=tinf+iinf+finf

(7)

-0≤SupT+SupI+SupF≤3+

(8)

進(jìn)一步，文獻(xiàn)[14]定義了單值中智集合的概念，以克服經(jīng)典中智集合理論中對(duì)真隸屬度、不確定性隸屬度和非隸屬度集合定義過(guò)于抽象不適合應(yīng)用于實(shí)際工程中的缺陷。設(shè)X為論域，而集合X上的單值中智集合A具有如下形式：

A={:x∈X}

(9)

式中：TA(x):X→[0,1]，IA(x):X→[0,1]，F(xiàn)A(x):X→[0,1]，從而對(duì)于所有x∈X，都有0≤TA(x)+IA(x)+FA(x)≤3 。區(qū)間TA(x)、IA(x)和FA(x)分別表示單值真隸屬度、不確定隸屬度和假隸屬度函數(shù)。進(jìn)一步將式(9)簡(jiǎn)記為A=(a,b,c)，其中a,b,c∈[0, 1]，且有a+b+c≤3。

2.2 中智集合的基本運(yùn)算

1) 交集運(yùn)算：對(duì)兩個(gè)單值中智集合A=和B=，其并集操作定義為C=A∩B，C的真隸屬度函數(shù)、不確定隸屬度函數(shù)和假隸屬度函數(shù)分別定義為TC(x)=min(TA(x),TB(x))、IC(x)=min(IA(x),IB(x))和FC(x)=max(FA(x),FB(x))。

2) 并集運(yùn)算：對(duì)兩個(gè)單值中智集合A=和B=，其并集操作定義為C=A∪B，C的真隸屬度函數(shù)、不確定隸屬度函數(shù)和假隸屬度函數(shù)分別定義為TC(x)=max(TA(x),TB(x))、IC(x)=max(IA(x),IB(x))和FC(x)=min(FA(x),FB(x))。

3) 包含運(yùn)算：中智集合A包含于另一個(gè)中智集合B，可表示為A?B，當(dāng)且僅當(dāng)對(duì)于所有x∈X，有TA(x)≤TB(x) 、IA(x)≤IB(x)且FA(x)≥FB(x)。

2.3 中智模糊化關(guān)聯(lián)規(guī)則模型

提出的基于中智模糊化關(guān)聯(lián)規(guī)則生成模型為：X→Y，其中X∩Y=?，X、Y均為中智集合。本文目標(biāo)為找到頻繁集和相應(yīng)的支持度，以及其相應(yīng)的關(guān)聯(lián)規(guī)則生成準(zhǔn)則。結(jié)合2.2節(jié)中的模糊化關(guān)聯(lián)規(guī)則定義，本文將中智集合添加到集合I中，集合I為所有可能的數(shù)據(jù)集(即項(xiàng)集)。具體操作為I=N∪M，其中N是中智集，M是經(jīng)典項(xiàng)集。關(guān)聯(lián)規(guī)則的一般形式為：

X→YX?I，Y?I，X∩Y=?

上述中智模糊關(guān)聯(lián)規(guī)則生成流程如圖2所示。

圖2 中智模糊關(guān)聯(lián)規(guī)則生成流程

同樣以溫度相關(guān)的關(guān)聯(lián)規(guī)則挖掘?yàn)槔f(shuō)明本文的中智模糊關(guān)聯(lián)規(guī)則建模流程。

Step1設(shè)置溫度相關(guān)的語(yǔ)言學(xué)術(shù)語(yǔ){very cold，cold，cool，warm，hot}的量化數(shù)值范圍如表4所示。

表4 語(yǔ)言術(shù)語(yǔ)的量化數(shù)值范圍

Step2基于表4中量化的語(yǔ)言術(shù)語(yǔ)范圍，定義溫度的真隸屬度、不確定隸屬度和非隸屬度函數(shù)。式(10)-式(14)為真隸屬度函數(shù)，式(15)-式(19)為不確定隸屬度函數(shù)，式(20)-式(24)為非隸屬度函數(shù)。

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

(23)

(24)

圖3為這些變量的真隸屬度、不確定隸屬度、非隸屬度函數(shù)以及中智模糊化隸屬度函數(shù)。

(a) 真隸屬度函數(shù)

(b) 不確定隸屬度函數(shù)

(d) 中智模糊化隸屬度函數(shù)圖3 隸屬度函數(shù)波形

Step3基于隸屬度函數(shù)數(shù)值，不同的項(xiàng)集被劃分至不同的溫度集合中，如表5所示。

表5 不同數(shù)據(jù)庫(kù)事務(wù)的隸屬度函數(shù)

續(xù)表5

Step4計(jì)算資料庫(kù)中每個(gè)元素的語(yǔ)言學(xué)術(shù)語(yǔ)集合{very cold, cold, cool, warm, hot}。由于真隸屬度、假隸屬度和不確定隸屬度是獨(dú)立的函數(shù)，所以語(yǔ)言學(xué)術(shù)語(yǔ)的集合可以擴(kuò)展到{Tvery-cold,Tcold,Tcool,Twarm,Thot,Fvery-cold,Fcold,Fcool,Fwarm,Fhot,Ivery-cold,Icold,Icool,Iwarm,Ihot}。其中，F(xiàn)warm表示不溫暖，而Iwarm表示不確定是否溫暖。

Step5使用表5中給出的隸屬度函數(shù)，分別計(jì)算單項(xiàng)集和兩項(xiàng)集的頻數(shù)和支持度，如表6、表7所示。

表6 單項(xiàng)集中智集的支持度

續(xù)表7

3 實(shí) 驗(yàn)

為說(shuō)明所提方法的實(shí)際運(yùn)行效果，在同樣的實(shí)驗(yàn)條件下(計(jì)算機(jī)配置為Intel Core i5 CPU, 10 GB RAM, Windows 10 64位旗艦版)，并將其與文獻(xiàn)[15]所提布爾型關(guān)聯(lián)規(guī)則挖掘算法以及文獻(xiàn)[16]所提傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行對(duì)比。實(shí)驗(yàn)程序統(tǒng)一采用VB.net進(jìn)行編程。

3.1 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

股票交易市場(chǎng)的歷史數(shù)據(jù)來(lái)源于2012年9月至2017年9月期間埃及股票市場(chǎng)。數(shù)據(jù)包含每只股票的開(kāi)盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)和成交量。本文以開(kāi)盤價(jià)(openprice)與收盤價(jià)(closeprice)的差值比率定義股票的變化率(pricechangerate)：

(25)

并定義股票成交比例如下：

(26)

此外，數(shù)據(jù)屬性項(xiàng)包含季度、月度、股票變化率、成交率、指標(biāo)變化率，表8表示了預(yù)處理后的部分?jǐn)?shù)據(jù)。

表8 預(yù)處理后部分?jǐn)?shù)據(jù)

根據(jù)上述語(yǔ)言學(xué)術(shù)語(yǔ)，基于單值中智集合定義對(duì)上述數(shù)據(jù)進(jìn)行模糊化處理。本文將變化率模糊化處理為{“high up”，“high low”，“no change”，“l(fā)ow down”，“high down “}，而對(duì)于成交量，模糊化處理為{“l(fā)ow”, “medium”, “high”}，其對(duì)應(yīng)的隸屬度函數(shù)波形分別如圖3、圖4所示。

圖3 變化率真隸屬度函數(shù)

圖4 成交量的真隸屬度函數(shù)

3.2 實(shí)驗(yàn)結(jié)果

3.2.1生成關(guān)聯(lián)項(xiàng)數(shù)量分析

基準(zhǔn)實(shí)驗(yàn)中，設(shè)最小支持度為0.02，對(duì)比分析不同關(guān)聯(lián)規(guī)則挖掘方法下生成的關(guān)聯(lián)項(xiàng)數(shù)量。如表9所示，由于所提中智模糊化算法考慮了不確定性和非隸屬度函數(shù)，故在關(guān)聯(lián)項(xiàng)的數(shù)量上，應(yīng)用所提中智模糊關(guān)聯(lián)規(guī)則生成的關(guān)聯(lián)項(xiàng)較布爾型算法布爾型算法提升了270%，而較文獻(xiàn)[16]提出的傳統(tǒng)模糊算法提升了142.9%。由此可見(jiàn)，本文方法能夠顯著挖掘出更多的潛在關(guān)聯(lián)規(guī)則。

表9 關(guān)聯(lián)項(xiàng)生成數(shù)量

3.2.2最小支持度對(duì)關(guān)聯(lián)規(guī)則生成數(shù)量的影響

本節(jié)研究了最小支持度對(duì)不同挖掘算法所生成的關(guān)聯(lián)規(guī)則的影響。圖5、圖6和圖7分別為文獻(xiàn)[15]提出的布爾型關(guān)聯(lián)挖掘算法、文獻(xiàn)[16]提出的模糊關(guān)聯(lián)挖掘算法和本文所提中智模糊關(guān)聯(lián)規(guī)則挖掘算法所生成的關(guān)聯(lián)規(guī)則數(shù)量隨項(xiàng)集數(shù)量的變化趨勢(shì)。橫向比較圖5-圖7，可發(fā)現(xiàn)隨著最小值尺度閾值的升高，關(guān)聯(lián)規(guī)則生成數(shù)量均處于下降狀態(tài)，且隨著項(xiàng)目集合的增多，二者下降速率均逐漸加快。而縱向比較可知，當(dāng)最小支持度閾值設(shè)置較小且項(xiàng)目集合數(shù)量較低時(shí)，中智模糊關(guān)聯(lián)規(guī)則挖掘算法的性能與文獻(xiàn)[16]提出的模糊關(guān)聯(lián)規(guī)則生成算法的性能相近，而文獻(xiàn)[15]提出的布爾型挖掘算法由于生成關(guān)聯(lián)數(shù)量較少，性能則較差。但當(dāng)項(xiàng)目集合增多時(shí)，由于中智集合考慮了更多的隸屬度函數(shù)，使得挖掘到的關(guān)聯(lián)規(guī)則數(shù)量遠(yuǎn)大于文獻(xiàn)[16]提出的模糊關(guān)聯(lián)規(guī)則挖掘算法。

圖5 文獻(xiàn)[15]提出的布爾型關(guān)聯(lián)規(guī)則生成數(shù)量隨項(xiàng)集數(shù)量變化趨勢(shì)

圖6 文獻(xiàn)[16]提出的模糊關(guān)聯(lián)規(guī)則生成數(shù)量隨項(xiàng)集數(shù)量變化趨勢(shì)

圖7 中智模糊化關(guān)聯(lián)規(guī)則生成數(shù)量隨項(xiàng)集數(shù)量變化趨勢(shì)

然而，中智模糊化方法雖然顯著增大了關(guān)聯(lián)規(guī)則數(shù)量，但過(guò)多的關(guān)聯(lián)規(guī)則數(shù)量可能給用戶帶來(lái)信息誤導(dǎo)的風(fēng)險(xiǎn)。因此，本文進(jìn)一步研究最小支持度對(duì)本文所提中智模糊關(guān)聯(lián)規(guī)則挖掘算法的性能算法。圖8為最小支持度閾值從0.5到0.9變化時(shí)采用中智模糊關(guān)聯(lián)規(guī)則生成算法所產(chǎn)生的關(guān)聯(lián)規(guī)則數(shù)量與支持度和項(xiàng)集數(shù)量的變化趨勢(shì)。

圖8 中智規(guī)則數(shù)量隨最小支持度變化關(guān)系

對(duì)比圖7和圖8可知，當(dāng)采用本文所提中智模糊關(guān)聯(lián)挖掘算法時(shí)，最小支持度大于50%時(shí)能夠有效濾除過(guò)多生成的關(guān)聯(lián)規(guī)則，得到和傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法相近的性能。

綜上可得：1) 本文算法能夠得到用戶感興趣的強(qiáng)關(guān)聯(lián)、有價(jià)值的數(shù)據(jù)信息；2) 本文算法在挖掘得到的關(guān)聯(lián)規(guī)則上的可信度要強(qiáng)于其他兩種對(duì)比算法；3) 在算法中考慮更多的隸屬度函數(shù)，有助于增加挖掘到的關(guān)聯(lián)規(guī)則數(shù)量。

4 結(jié) 語(yǔ)

針對(duì)傳統(tǒng)布爾型關(guān)聯(lián)規(guī)則挖掘算法存在的硬化數(shù)據(jù)“尖銳邊界”問(wèn)題以及傳統(tǒng)模糊關(guān)聯(lián)規(guī)則挖掘算法未考慮關(guān)聯(lián)規(guī)則的不確定性與非真實(shí)性問(wèn)題，提出一種新型中智關(guān)聯(lián)規(guī)則挖掘算法。通過(guò)實(shí)例分析表明，相比其他兩種對(duì)比算法，本文算法在相同支持度時(shí)能夠挖掘更多數(shù)量的關(guān)聯(lián)規(guī)則，在多項(xiàng)集關(guān)聯(lián)規(guī)則生成數(shù)量與可信度上具有明顯優(yōu)勢(shì)，有助于提高數(shù)據(jù)挖掘的準(zhǔn)確性。此外，算法考慮了更多的隸屬度函數(shù)，有助于增加挖掘到的關(guān)聯(lián)規(guī)則數(shù)量。后續(xù)研究工作中，將繼續(xù)深入研究模糊邊界設(shè)定值對(duì)生成關(guān)聯(lián)規(guī)則數(shù)量的影響以及算法普適性研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡