周興斌,駱?biāo)拿?/p>
(南昌大學(xué) 信息工程學(xué)院 計(jì)算機(jī)中心,江西 南昌330031)
為獲取數(shù)據(jù)之間隱藏的關(guān)系或者規(guī)律,人們?cè)跀?shù)據(jù)挖掘領(lǐng)域方面進(jìn)行了不斷的努力探索與研究,而在1994 年,R.Aglawal等人在他們的AIS 算法基礎(chǔ)上提出了Apriori算法[1]。該算法便進(jìn)一步地促進(jìn)了人們?cè)跀?shù)據(jù)挖掘方面的研究工作,但其也仍含有不足之處,如在該算法的第一步中,頻集所需要的計(jì)算等開銷遠(yuǎn)大于規(guī)則所需要的計(jì)算等開銷,這使得頻集挖掘成為關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵[2,3],而頻集挖掘的關(guān)鍵是最小支持度閥值的確定。因此,本文針對(duì)如何能很好適應(yīng)其事務(wù)數(shù)據(jù)庫的最小支持度確定等問題進(jìn)行了探討,即自適應(yīng)最小支持度。根據(jù)已查閱的文獻(xiàn)資料顯示,目前,許多研究學(xué)者等已通過利用牛頓插值算法對(duì)自適應(yīng)支持度進(jìn)行了研究,這使得關(guān)聯(lián)規(guī)則挖掘的結(jié)果更加精確,但該項(xiàng)研究也仍然存在著許多的不足,如過高的數(shù)據(jù)掃描量導(dǎo)致過高的時(shí)間復(fù)雜度和因點(diǎn)值誤差導(dǎo)致的凸點(diǎn)問題等。而為有效解決高時(shí)間復(fù)雜度和凸點(diǎn)問題,本文分別通過結(jié)合分塊算法和哈希表中處理沖突的方法思想進(jìn)行了探討,并通過在電子商務(wù)應(yīng)用系統(tǒng)中的運(yùn)行情況來驗(yàn)證該解決方案的可行性,以期最終增強(qiáng)支持度閥值的自適應(yīng)性。
Apriori算法思想是通過利用已經(jīng)預(yù)先設(shè)置的最小支持度挖掘出符合要求的頻集,然后再通過也已經(jīng)預(yù)先設(shè)置的最小置信度來挖掘出關(guān)聯(lián)規(guī)則[4],而下文便通過利用形式化描述語言對(duì)關(guān)聯(lián)規(guī)則的相關(guān)基本概念進(jìn)行了清晰地闡述。
假設(shè)R ={r0,r1,r2,…,ri,…,rm},即R 是由m 個(gè)不同數(shù)據(jù)項(xiàng)組成的集合,其中的ri元素稱為項(xiàng),而由m 個(gè)項(xiàng)組成的集合稱為m-項(xiàng)集。另外,若有一個(gè)事務(wù)數(shù)據(jù)庫P,一般地,則表中的每條記錄代表了一個(gè)事務(wù)T,每個(gè)事務(wù)T 都含有唯一標(biāo)識(shí)符ID,且每條記錄中的每個(gè)屬性字段 (具體含義或是一個(gè)產(chǎn)品的代表標(biāo)號(hào),或是某個(gè)產(chǎn)品的一個(gè)基本屬性)作為一個(gè)項(xiàng),因此事務(wù)也是由許多項(xiàng)組成的集合,且是項(xiàng)集R 的子集,即T R。
定義1 (求規(guī)則):若有一頻集H,找出其中的所有非空子集h,得出的規(guī)則則為h→H-h(huán),即作為規(guī)則的前件和后件的子集交集為空,且該規(guī)則在P 中具有一定水平的支持度sup和置信度conf。
定義2 (支持度):在P 中,若有一項(xiàng)集F,包含該項(xiàng)集的事務(wù)數(shù)為N,總事務(wù)數(shù)為M,則支持該項(xiàng)集的支持度為 (N/M)。而若一條規(guī)則W →Q,支持W ∪Q 的事務(wù)數(shù)是U,則整條規(guī)則的支持度是 (U/M)。
定義3 (置信度):在P中,若有一條規(guī)則W →Q,支持W 的事務(wù)數(shù)為N,而在支持W 的事務(wù)數(shù)中同時(shí)支持Q的事務(wù)數(shù)是L,則該規(guī)則的置信度是 (L/N)。
定義4 (關(guān)聯(lián)規(guī)則):從P 中挖掘出規(guī)則實(shí)質(zhì)上便是要求挖掘出同時(shí)大于或等于最小支持度和最小置信度的規(guī)則,即強(qiáng)規(guī)則,又稱為關(guān)聯(lián)規(guī)則。
定義5 (自我連接):若有一頻集HK,生成Hk+1的步驟名為自我連接,即只要保證某個(gè)項(xiàng)集的前K 項(xiàng)相同,只有最后一項(xiàng)不同即可連接生成新的k+1項(xiàng)集,形式上描述為若X= {x0,x1,x2,…,xi,…,xk,xk+1},Y={y0,y1,y2,…,yi,…,yk,yk+1},且滿足x0=y(tǒng)0,x1=y(tǒng)1,x2=y(tǒng)2,…,xi=y(tǒng)i,…,xk=y(tǒng)k,xk+1 <yk+1 (表示最后兩項(xiàng)不相同)。
定義6 (剪枝規(guī)則):對(duì)由頻集Hk新生成的k+1-項(xiàng)集進(jìn)行剪枝時(shí),只要k+1項(xiàng)集中有任何一個(gè)子集不在頻集Hk中就可丟棄,不加入候選集Ck+1中。
由以上定義易知,從數(shù)學(xué)角度分析,關(guān)聯(lián)規(guī)則實(shí)質(zhì)上是一種項(xiàng)集之間的蘊(yùn)含關(guān)系。同時(shí),從所代表的實(shí)際意義角度分析,支持度是對(duì)關(guān)聯(lián)規(guī)則在某事務(wù)數(shù)據(jù)庫中重要性的衡量,表明該規(guī)則出現(xiàn)的頻率,而置信度是對(duì)關(guān)聯(lián)規(guī)則在某事務(wù)數(shù)據(jù)庫中準(zhǔn)確度的衡量,表示規(guī)則的強(qiáng)度。此外,項(xiàng)集中包含項(xiàng)的個(gè)數(shù)稱為項(xiàng)集長(zhǎng)度。
在挖掘關(guān)聯(lián)規(guī)則時(shí),如果支持度[5,6]被設(shè)置得過高,則稀有規(guī)則很容易被泄露,知識(shí)覆蓋面窄小,導(dǎo)致偏頗的決策產(chǎn)生,而如果其被設(shè)置得過低,則規(guī)則數(shù)過多,冗余度偏高,即產(chǎn)生組合爆炸,易導(dǎo)致決策無重點(diǎn),不利于其優(yōu)勢(shì)的發(fā)揮。所以,針對(duì)支持度在自適應(yīng)時(shí)所產(chǎn)生的過高時(shí)間復(fù)雜度問題,本章提出了一種改進(jìn)的方法,即牛頓插值法和分塊算法進(jìn)行結(jié)合。
該改進(jìn)算法的主要思想是算法首先對(duì)事物數(shù)據(jù)庫進(jìn)行分塊挖掘[7]和自主經(jīng)驗(yàn)學(xué)習(xí),根據(jù)每塊形成的點(diǎn)值,運(yùn)用牛頓插值算法重新確定最小支持度閥值,之后以整個(gè)事物數(shù)據(jù)庫為目標(biāo)對(duì)象進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。其中,每塊的大小取占整個(gè)事務(wù)數(shù)據(jù)庫的百分比來確定。之后,系統(tǒng)自動(dòng)確定每塊的實(shí)際大小。另外,期望的規(guī)則數(shù)N (塊規(guī)則數(shù))也需根據(jù)用戶的一定經(jīng)驗(yàn)來設(shè)定,或者采取默認(rèn)方式,即其取值為各個(gè)塊所挖掘出規(guī)則數(shù)的平均值。當(dāng)不分塊時(shí),每次牛頓插值算法對(duì)整體事物數(shù)據(jù)庫的挖掘相當(dāng)于對(duì)一子集事物塊進(jìn)行挖掘。每一塊也需要確定各不相同的最小支持度,每塊最小支持度確定的方式可以是根據(jù)初始設(shè)定的支持度以微小增幅進(jìn)行線性改變 (如每次增加1個(gè)單位)。同時(shí),在實(shí)驗(yàn)過程中,系統(tǒng)自動(dòng)記錄下對(duì)每塊所挖掘出的關(guān)聯(lián)規(guī)則數(shù)。根據(jù)牛頓插值公式[8,9]
其中,C、n、M 分別為置信度、規(guī)則條數(shù)、事務(wù)集的最大屬性個(gè)數(shù)。為減少可變因子和有重點(diǎn)性的研究本算法在支持度自適應(yīng)方面的性能,大寫字母在本算法中表示為固定值,且每一塊形成一個(gè)點(diǎn)值坐標(biāo),即 (C*n/M,sup)。之后,改進(jìn)后的算法再調(diào)用牛頓插值算法求取出含X 的多項(xiàng)式。在本文中,X=C*N/M,并被代入已求取出的X 多項(xiàng)式中。于是,該改進(jìn)后的算法獲取到自適應(yīng)的支持度SUP。最后,新的Apriori算法根據(jù)SUP 進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,增強(qiáng)了其自我快速學(xué)習(xí)的能力。
此外,因在利用牛頓插值算法時(shí)用來確定X 多項(xiàng)式的點(diǎn)值偏差可能會(huì)使該算法產(chǎn)生凸點(diǎn)問題,即該問題會(huì)使牛頓插值算法產(chǎn)生異常點(diǎn),不利于實(shí)驗(yàn)的正常進(jìn)行及觀察。針對(duì)該問題,本文通過充分借用哈希表中處理沖突方法的思想[10,11]來解決。具體而言,為讓原本用來確定關(guān)于X 多項(xiàng)式的初始點(diǎn)值在求取差分商時(shí)不致使牛頓插值算法出現(xiàn)凸點(diǎn),本文采用線性函數(shù)對(duì)點(diǎn)值進(jìn)行誤差修正,即如果初始點(diǎn)值數(shù)組中含有相同值,則運(yùn)用以下函數(shù)進(jìn)行修正,并編寫了相應(yīng)的修正算法
其中,根據(jù)挖掘經(jīng)驗(yàn)和相對(duì)誤差修正的幅度,在本文中,a=1,b=2。實(shí)驗(yàn)證明,該問題被得到了良好的解決,算法運(yùn)行流暢,數(shù)據(jù)處理的平滑性更強(qiáng),從而使算法挖掘出的結(jié)果更加精確。以下是具體的改進(jìn)過程,且用偽代碼進(jìn)行示意。
算法名稱:Apriori_newton
輸入:P-事務(wù)數(shù)據(jù)庫;min_sup-初始最小支持度;期望規(guī)則數(shù)N;塊大小占比subsetLen (不分塊時(shí)為挖掘次數(shù),分塊時(shí)為塊的個(gè)數(shù))
輸出:H-P中的頻集
方法:
判斷各值是否有相同,若相同,運(yùn)用函數(shù) (2)進(jìn)行誤差修正 (據(jù)挖掘經(jīng)驗(yàn),2屬誤差可控范圍);
針對(duì)pointMap,根據(jù)差分和差商思想,形成關(guān)于X的多項(xiàng)式時(shí);
代入X 值取得更佳支持度值;
本系統(tǒng)所用數(shù)據(jù)主要是通過采用購物系統(tǒng)所產(chǎn)生的實(shí)際數(shù)據(jù),生成的數(shù)據(jù)量規(guī)模為10萬以上。其數(shù)據(jù)所存放的數(shù)據(jù)庫是Mysql。
通過對(duì)有關(guān)電子商務(wù)應(yīng)用系統(tǒng)的開發(fā),本節(jié)附表1和圖1所示分別為實(shí)驗(yàn)結(jié)果對(duì)比數(shù)據(jù)表和實(shí)驗(yàn)數(shù)據(jù)分析結(jié)果曲線圖 (采用Fushion Charts編碼自動(dòng)繪制)。
表1 對(duì)同級(jí)事務(wù)集分塊或次數(shù)不同實(shí)驗(yàn)結(jié)果數(shù)據(jù)
圖1 對(duì)異級(jí)事務(wù)集分塊或次數(shù)同實(shí)驗(yàn)結(jié)果分析
在對(duì)本節(jié)中的上述附圖作出分析之前,本文需要說明的是,在運(yùn)行分塊時(shí)的算法時(shí),實(shí)驗(yàn)結(jié)果中的規(guī)則數(shù)是262條,而在運(yùn)行不分塊時(shí)的算法時(shí),實(shí)驗(yàn)結(jié)果中的規(guī)則數(shù)是267條 (限于篇幅,結(jié)果圖未列出),兩種算法所得出的實(shí)驗(yàn)結(jié)果誤差為5,且其有262條規(guī)則相同。實(shí)驗(yàn)表明,改進(jìn)后算法只遺漏了5 條規(guī)則,且該5 條規(guī)則為冗余性規(guī)則,這表明了該誤差是屬于可控范圍的,所提出的改進(jìn)方案是可行的。以下便是針對(duì)上述附圖中的實(shí)驗(yàn)結(jié)果分別作出相應(yīng)的數(shù)據(jù)分析或性能解析。
在表1中,為利于對(duì)比每次實(shí)驗(yàn)效果,本文通過針對(duì)相同級(jí)別規(guī)模下的 (事務(wù)數(shù)=1000條)事務(wù)數(shù)據(jù)庫進(jìn)行挖掘,設(shè)置了不同的分塊數(shù)或次數(shù),并分別對(duì)算法運(yùn)行時(shí)間和自適應(yīng)最小支持事務(wù)數(shù)作了記錄 (為便于觀察,本文采用最小支持事務(wù)數(shù)來分析實(shí)驗(yàn)結(jié)果。事實(shí)上,最小支持度=最小支持事務(wù)數(shù)/總事務(wù)數(shù))。通過對(duì)表中數(shù)據(jù)進(jìn)行觀察并發(fā)現(xiàn),當(dāng)被挖掘出的結(jié)果所含有的誤差不是很大時(shí),系統(tǒng)采用分塊算法時(shí)分塊的數(shù)目越多,運(yùn)行時(shí)間趨少,而其采用不分塊算法時(shí)運(yùn)行的次數(shù)越多,運(yùn)行的時(shí)間趨多。同時(shí),隨著點(diǎn)值數(shù)增多,分塊時(shí)算法運(yùn)行時(shí)間比不分塊時(shí)算法運(yùn)行時(shí)間要更少,并前后兩者的時(shí)間差值趨大。
在圖1中,在塊數(shù)或次數(shù)相同 (取值為2)的情況下,本文設(shè)置了不同級(jí)別規(guī)模的事務(wù)數(shù)據(jù)庫,并分別對(duì)算法運(yùn)行時(shí)間和新的自適應(yīng)最小支持事務(wù)數(shù)作了記錄。其中,虛線代表了不分塊時(shí)牛頓插值算法與Apriori算法的結(jié)合方案,即圖1中標(biāo)明為NOparting_Newton_Apriori(NOPNA)線,而實(shí)線代表了分塊時(shí)牛頓插值算法與Apriori算法的結(jié)合方案,即圖1中標(biāo)明為Parting_Newton_Apriori(PNA)。通過對(duì)圖1中兩線走勢(shì)及其間距進(jìn)行觀察并發(fā)現(xiàn),PNA 線始終處于NOPNA 線之下,且隨著事務(wù)數(shù)的不斷增多 (即事務(wù)數(shù)據(jù)庫規(guī)模不斷增大),兩線所代表的方案所需用的挖掘時(shí)間都分別趨增,當(dāng)事務(wù)數(shù)小于8000條時(shí),其增速較緩,當(dāng)事務(wù)數(shù)大于8000條時(shí),其增速陡快。同時(shí),當(dāng)事務(wù)數(shù)小于8000 時(shí),兩線間距不明顯,而當(dāng)事務(wù)數(shù)大于8000時(shí),兩線間距明顯,并趨大,這說明了在事務(wù)數(shù)據(jù)庫規(guī)模比較大時(shí),分塊時(shí)算法比不分塊時(shí)算法具有比較大的優(yōu)勢(shì),適合于對(duì)實(shí)時(shí)性或數(shù)據(jù)量大等要求較高的情況,而在事務(wù)數(shù)據(jù)庫規(guī)模比較小時(shí),僅從時(shí)間復(fù)雜度角度上而言,PNA 和NOPNA 算法兩者間無較大明顯區(qū)別,兩者一般可以互為換用。
綜上所述,Apriori算法的改進(jìn)方案比其現(xiàn)有的方案更加高效,尤其是在面對(duì)事務(wù)數(shù)據(jù)庫規(guī)模比較大時(shí),該改進(jìn)方案的優(yōu)勢(shì)更加突出,更加明顯。同時(shí),對(duì)于牛頓插值算法中的凸點(diǎn)問題,通過系統(tǒng)的多次正常執(zhí)行及測(cè)試,這說明該凸點(diǎn)問題已得到較好的解決。這些改進(jìn)措施所帶來的優(yōu)勢(shì)也因此能在一定程度上滿足用戶的實(shí)時(shí)性要求,從而用戶的滿意度及其相關(guān)的收益能力被得到了有效的提高,達(dá)到了預(yù)期目標(biāo)。
針對(duì)自適應(yīng)支持度等問題,通過分塊算法和哈希表沖突處理方法思想的運(yùn)用,本文有效的降低了過高的時(shí)間復(fù)雜度水平和有力的解決了牛頓插值算法中的凸點(diǎn)問題。實(shí)驗(yàn)證明,在挖掘出的結(jié)果偏差屬于允許的誤差范圍之內(nèi)時(shí),該新方法在某方面是有效的,可行的,而且關(guān)聯(lián)規(guī)則挖掘的時(shí)間得到了較大程度的縮短,挖掘結(jié)果的精度也在一定程度上得到了提高,從而增強(qiáng)了支持度的快速自適應(yīng)性能力。但該方案中仍然有如下幾個(gè)方面的不足:第一,在表1中,隨著在分塊時(shí)分塊數(shù)的增多,雖然改進(jìn)后算法的挖掘時(shí)間不斷得到縮短,但新自適應(yīng)最小支持事務(wù)數(shù)不穩(wěn)定,其取值的抖動(dòng)幅度偏大,而不分塊時(shí)其取值則較為穩(wěn)定;第二,在圖1中,PNA 線斜率仍然偏高,其時(shí)間增速仍然較快,PNA 線代表的算法在時(shí)間復(fù)雜度方面仍有很大的改善空間;第三,初始最小支持度、每塊支持度增幅及期望規(guī)則數(shù)等如何進(jìn)行更好的設(shè)置,以便契合實(shí)時(shí)性要求及環(huán)境;第四,為使牛頓插值算法在處理數(shù)據(jù)時(shí)更加平滑,異常數(shù)據(jù)的檢測(cè)方法[12]或誤差修正函數(shù)的選擇有待進(jìn)一步的探討。總之,為將系統(tǒng)設(shè)計(jì)為一個(gè)能夠快速響應(yīng)、決策準(zhǔn)確等高要求的電子商務(wù)[13]應(yīng)用系統(tǒng),相關(guān)的工作步伐仍將有序而堅(jiān)定的行進(jìn)下去。
[1]LIU Huating,GUO Renxiang,JIANG Hao.Research and improvement of Apriori algorithm form in ing association rules[J].Computer Applications and Software,2009,26 (1):146-149 (in Chinese).[劉華婷,郭仁祥,姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn) [J].計(jì)算機(jī)應(yīng)用與軟件,2009,26 (1):146-149.]
[2]LI Yanwei,DAI Yueming,WANG Jinxin.Improved algorithm for mining weighted frequent itemsets[J].Computer Engineering and Applications,2011,47 (15):165-167 (in Chinese).[李彥偉,戴月明,王金鑫.一種挖掘加權(quán)頻繁項(xiàng)集的改進(jìn)算法 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47 (15):165-167.]
[3]LIU Jingchao,GENG Boying,SONG Shengfeng.Mining weighted frequent items in intrusion detection [J].Computer Engineering and Design,2008,29 (8):1961-1962 (in Chinese).[柳景超,耿伯英,宋勝鋒.入侵檢測(cè)中加權(quán)頻繁項(xiàng)集挖掘 [J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29 (8):1961-1962.]
[4]QIAN Xuezhong,KONG Fang.Research of improved Apriori algorithm in mining association rules [J].Computer Engineering and Applications,2008,44 (17):138-140 (in Chinese).[錢雪忠,孔芳.關(guān)聯(lián)規(guī)則挖掘中對(duì)Apriori算法的研究 [J].計(jì)算機(jī)工程與應(yīng)用,2008,44 (17):138-140.]
[5]SHEN Yaping,ZHENG Cheng.Efficient strategy to obtain support in multi-database[J].Computer Engineering and Design,2008.12,29 (23):6037-6038 (in Chinese).[沈亞萍,鄭誠.在多數(shù)據(jù)庫中確定支持度的有效方法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2008.12,29 (23):6037-6038.]
[6]ZHANG Chunsheng,SONG Linlin.Sub-support Apriori algorithm and its application [J].Computer Engineering and Applications,2010,46 (16):157-159 (in Chinese).[張春生,宋琳琳.分段支持度Apriori算法及應(yīng)用 [J].計(jì)算機(jī)工程與應(yīng)用,2010,46 (16):157-159.]
[7]GAO Le,ZHANG Jian,TIAN Xianzhong.Improvement and implementation of VIPS algorithm [J].Computer System and Applications,2009 (4):65-69 (in Chinese). [高樂,張健,田賢忠.基于視覺的Web 頁面分塊算法的改進(jìn)與實(shí)現(xiàn) [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009 (4):65-69.]
[8]FU Xiang,GUO Baolong.Overview of image interpolation technology[J].Computer Engineering and Design,2009,30(1):141-143 (in Chinese).[符祥,郭寶龍.圖像插值技術(shù)綜述 [J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30 (1):141-143.]
[9]LIN Zhixian,YANG Wenchao,GUO Tailiang.A field emission display zooming system based on the improved Newton algorithm [J].Journal of Optoelectronics·Laser,2012,23 (5):844-848 (in Chinese). [林志賢,楊文超,郭太良.基于改進(jìn)型Newton算法的場(chǎng)致發(fā)射顯示器縮放系統(tǒng)研究 [J].光電子·激光,2012,23 (5):844-848.]
[10]XIE Yun.HCAA:A hash collision excessive dynamic solution algorithm [J].Computer Applications and Software,2011,28 (11):145-149 (in Chinese).[謝云.HCAA:一種哈希沖突過度的動(dòng)態(tài)解決算法 [J].計(jì)算機(jī)應(yīng)用與軟件,2011,28 (11):145-149.]
[11]ZHANG Zhaoxia,LIU Yaojun.Effective solution to Hash collision[J].Journal of Computer Applications,2010,30 (11):2965-2966 (in Chinese).[張朝霞,劉耀軍.有效的哈希沖突解決辦法[J].計(jì)算機(jī)應(yīng)用,2010,30 (11):2965-2966.]
[12]WANG Yuanming,XIONG Wei.Outlier detection methods in data analysis[J].Journal of Chongqing Institute of Technology (Natural Science),2009,23 (2):86-89 (in Chinese).[王元明,熊偉.異常數(shù)據(jù)的檢測(cè)方法 [J].重慶工學(xué)院學(xué)報(bào)(自然科學(xué)),2009,23 (2):86-89.]
[13]QU Zhenggeng,TANG Xiaoqin.Research of data mining technology based on electronic commerce [J].Electronic Design Engineering,2009,17 (3):37-39 (in Chinese).[屈正庚,唐曉琴.基于電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)研究 [J].電子設(shè)計(jì)工程,2009,17 (3):37-39.]