鄒金花
〔摘要〕介紹了關(guān)聯(lián)規(guī)則的相關(guān)概念及理論知識,然后針對關(guān)聯(lián)規(guī)則的經(jīng)典算法Apriori算法提出了改進(jìn),即Apriori-high算法,以及改進(jìn)算法的好處,最后介紹了關(guān)聯(lián)規(guī)則在圖書館中的應(yīng)用,可以提高讀者的效率,更好的為讀者服務(wù)。
〔關(guān)鍵詞〕關(guān)聯(lián)規(guī)則;圖書館;Apriori算法
DOI:10.3969/j.issn.1008-0821.2013.05.005
〔中圖分類號〕G250〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2013)05-0017-04
114最小支持度和最小可信度
最小支持度是指項(xiàng)集滿足它的最小支持度,最小支持度也稱支持度閾值,通常記作minsup。最小可信度或者稱最低置信度,指項(xiàng)集滿足它的最小可信度或者最小置信度,最小可信度也稱置信度閾值,通常記作minconf。
115關(guān)聯(lián)規(guī)則產(chǎn)生
關(guān)聯(lián)規(guī)則產(chǎn)生是找出所有支持度不小于最小支持度且置信度不小于最小置信度的規(guī)則。即S(A→B)≥minsup,C(A→B)≥minconf。
因此,我們可將關(guān)聯(lián)規(guī)則挖掘問題分為以下的兩個子問題:
頻繁項(xiàng)集 找出所有滿足最小支持度閾值的項(xiàng)集,我們稱這些項(xiàng)集為頻繁項(xiàng)集體。
規(guī)則的發(fā)現(xiàn)或者規(guī)則的產(chǎn)生 找出滿足頻繁項(xiàng)集和置信度閾值的規(guī)則,我們把這些規(guī)則稱為強(qiáng)規(guī)則。
12關(guān)聯(lián)規(guī)則中的Apriori(先驗(yàn))算法
關(guān)聯(lián)規(guī)則挖掘的算法有很多種,Apriori(先驗(yàn))算法是首個關(guān)聯(lián)規(guī)則挖掘算法。下面介紹的就是關(guān)聯(lián)規(guī)則最經(jīng)典的算法——Apriori(先驗(yàn))算法[23]。其基本思想是:第一步,產(chǎn)生頻繁1-項(xiàng)集L1,初始時每個項(xiàng)都被看作候選1-項(xiàng)集,我們記為C1,掃描整個數(shù)據(jù)庫,對C1計(jì)數(shù),根據(jù)已知的最小支持度計(jì)數(shù),刪除C1中不滿足最小支持度的項(xiàng),得到頻繁1-項(xiàng)集L1。第二步,產(chǎn)生頻繁2-項(xiàng)集L2,由L1產(chǎn)生候選2-項(xiàng)集C2,掃描數(shù)據(jù)庫,同樣的刪除C2中小于最小支持度的項(xiàng),得到頻繁2-項(xiàng)集L2。以此類推,第N步,產(chǎn)生頻繁N-項(xiàng)集LN,根據(jù)前面一步得到的頻繁(N-1)-項(xiàng)集LN-1,與自己連接產(chǎn)生N-項(xiàng)候選項(xiàng)集CN,然后掃描數(shù)據(jù)庫,確定CN中各項(xiàng)的支持度,刪除不滿足最小支持度的項(xiàng),得到頻繁N-項(xiàng)集LN。
14改進(jìn)算法Apriori-high算法概述
針對Apriori算法的兩個不足之處,前面一節(jié)中提出了幾種改進(jìn)的算法,但是針對我院即江蘇農(nóng)林職業(yè)技術(shù)學(xué)院圖書館的數(shù)據(jù)量比較龐大,而且隨著時間的增加,數(shù)據(jù)庫中存儲的數(shù)據(jù)量會越來越大,這時,Apriori算法中通過重復(fù)的掃描數(shù)據(jù)庫的已經(jīng)變得不太現(xiàn)實(shí),如何來處理這個問題,我們針對這個問題,提出了一種新的改進(jìn)算法,即Apriori-high算法。
Apriori-high算法掃描數(shù)據(jù)庫時為了產(chǎn)生更高效的頻繁項(xiàng)集,在第K步時,可以通過(K-1)-項(xiàng)頻繁項(xiàng)集產(chǎn)生K-項(xiàng)頻繁項(xiàng)集,其中在得到(K-1)-項(xiàng)頻繁項(xiàng)集的時候,可以對此項(xiàng)頻繁項(xiàng)集中出現(xiàn)的元素個數(shù)進(jìn)行計(jì)數(shù)。對出現(xiàn)的元素計(jì)數(shù)完成后,可以刪除那些計(jì)數(shù)個數(shù)小于(K-1)的元素。這樣由該元素組合的大規(guī)模的情況就可以排除在外。因?yàn)榧偃缯f某個元素要成為K-項(xiàng)頻繁項(xiàng)集中的一員,那么此元素的(K-1)項(xiàng)頻繁項(xiàng)集計(jì)數(shù)個數(shù)一定要大于(K-1),否則它是不會生成K-項(xiàng)集的。并且在此運(yùn)算過程中,我們只需要掃描一遍原始數(shù)據(jù)庫,比如可以利用LK-1得到的結(jié)果對事務(wù)數(shù)據(jù)庫D縮減,可以將不滿足條件的項(xiàng)和項(xiàng)數(shù)小于(K-1)的事務(wù)直接刪除,然后由新得到的事務(wù)數(shù)據(jù)D1來產(chǎn)生K-項(xiàng)候選項(xiàng)集CK。
然后,可以通過新的K-項(xiàng)頻繁項(xiàng)集驗(yàn)證(K-1)-項(xiàng)集,包不包含在得到的(K-1)-項(xiàng)頻繁項(xiàng)集中[29]。只要有一個未被包含,則該組合就可以刪除,這樣得到的K-項(xiàng)候選項(xiàng)集就比較完整。
這種改進(jìn)的算法減少了數(shù)據(jù)庫中的事務(wù)個數(shù)和提高了產(chǎn)生頻繁項(xiàng)集的效率,節(jié)省了時間,這種算法對大型的數(shù)據(jù)庫挖掘尤其適用。
3關(guān)聯(lián)規(guī)則在圖書館的應(yīng)用
大學(xué)圖書館中的數(shù)據(jù)一般是按中圖分類法來分類的,這種分類法就是將書籍按專業(yè)來分類,但是往往不好把握各專業(yè)書籍內(nèi)部之間的一個聯(lián)系,特別是某些專業(yè)性很強(qiáng)的學(xué)科。此時圖書館管理員就不知道該怎樣擺放這些書籍。針對圖書館所面臨的讀者的數(shù)據(jù)量大,專業(yè),年齡,興趣度等等的差別,而且隨著現(xiàn)代通訊技術(shù)的迅速發(fā)展,經(jīng)調(diào)查發(fā)現(xiàn),很多高校近幾年紙質(zhì)圖書的借閱量越來越低。
4總結(jié)
本文采用關(guān)聯(lián)規(guī)則算法,對高職類高校圖書管理系統(tǒng)中一些的數(shù)據(jù)進(jìn)行分析和研究,找出其中的關(guān)聯(lián)和隱性聯(lián)系,并結(jié)合實(shí)際工作,提出一些建議和方案,不但具有重要的理論價(jià)值,而且對于圖書館的數(shù)字化建設(shè)具有較大的指導(dǎo)意義。數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘是挖掘領(lǐng)域的一個非常重要的研究課題,有著廣泛和長遠(yuǎn)的應(yīng)用前景。
參考文獻(xiàn)
[1]Agrawal R,et al.A.Mining assocation rules between sets of items in large databases,In Proc.ACM SIGMOD Conf.on Management of Data,1993:207-216.
[2]Agrawal R and Srikant R,F(xiàn)ast algorithms for mining association rules in large databases,InProc.20th Intl Conf,Very Large DataBases,1994:478-499.
[3]Agrawal R et al.The QUEST data mining system.In Proc.Int.Conf.Data Mining and Knowledge Discovery(KDD96),1996:244-249.
[4]崔立新,范森淼,趙春喜.約束性相聯(lián)規(guī)則發(fā)現(xiàn)方法及算法[J].計(jì)算機(jī)學(xué)報(bào),2000,23(2):216-220.
[5]Agrawal R,et al.Parallel mining of association rules:Design,implementation,and experience[J].IEEE Transactions on knowledge and Data Engineering,1996,8(6):962-969.
[6]嚴(yán)嘉,鄔海峰,左潔,等.數(shù)據(jù)挖掘技術(shù)及工具研究[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2003,(6):6-9.
[7]Pang-Ning Tan,Michael Steinbach,Vipin Kumar,數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2006:201-205.
[8]JiaWei Han,Micheline Kamber,DATA MINING-Concept and Technique(Canada)[M].北京:高等教育出版社,2001.
[9]JiaWei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001:70-87.
[10]彭儀普,熊擁軍.關(guān)聯(lián)規(guī)則挖掘AprioriTid算法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用,2005,25(5):979-981.
(本文責(zé)任編輯:馬卓)