關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)在圖書管理中的應(yīng)用

2014-06-20 04:18:08蔣冬生

科技經(jīng)濟(jì)市場 2014年2期

關(guān)鍵詞：關(guān)聯(lián)規(guī)則圖書管理數(shù)據(jù)挖掘

摘要：本文以儀征技師學(xué)院圖書館數(shù)據(jù)為例，通過對借閱信息的數(shù)據(jù)挖掘，生成一些且有指導(dǎo)意義的信息，證明算法的可行性。

關(guān)鍵詞：關(guān)聯(lián)規(guī)則；數(shù)據(jù)挖掘；圖書管理

數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域中的成功應(yīng)用，給圖書館帶來了很大的啟發(fā)，圖書館的特點(diǎn)是巨大的圖書量，不同年齡、不同專業(yè)的讀者，研究領(lǐng)域也不同。這使讀者對圖書館提出了不同特性的個(gè)人要求。如何滿足讀者的需求，提高讀者滿意度，優(yōu)化圖書館的館藏，合理對圖書進(jìn)行布局，從而更好地為讀者服務(wù)，是一個(gè)值得研究的問題。

數(shù)據(jù)挖掘技術(shù)的運(yùn)用可以有效的幫助圖書館逐步規(guī)范管理流程，幫助圖書館擴(kuò)大業(yè)務(wù)范圍、提高服務(wù)水平、加強(qiáng)內(nèi)部管理。

1 數(shù)據(jù)挖掘任務(wù)

采用關(guān)聯(lián)規(guī)則對圖書流通數(shù)據(jù)進(jìn)行挖掘的任務(wù)主要是通過對讀者借閱歷史信息的分析，發(fā)現(xiàn)兩方面的規(guī)律性。

（1）發(fā)現(xiàn)讀者的特性與閱讀習(xí)慣的聯(lián)系。檢索讀者不同的特征，如性別、年齡、專業(yè)等方面對借閱圖書的影響，最后發(fā)現(xiàn)有什么特點(diǎn)的讀者往往借什么類型的圖書，這對以后的讀者借閱具有很好的指導(dǎo)意義。

（2）發(fā)現(xiàn)不同書籍在圖書庫中的聯(lián)系。例如，如果半數(shù)以上的的讀者借閱書籍A，往往也會(huì)隨帶借閱書籍B，從這個(gè)現(xiàn)象中我們可以統(tǒng)計(jì)書A與B間的借閱關(guān)系，當(dāng)出現(xiàn)下一個(gè)讀者也借閱A時(shí)，管理員可以根據(jù)統(tǒng)計(jì)結(jié)果推薦書B。并且在書籍管理時(shí)，管理員可以對書A和書B的集中放置，合理安排，從而給予借閱者最直接的指導(dǎo)，此舉對提高館藏書的借閱量也大有裨益。

2 數(shù)據(jù)處理

根據(jù)數(shù)據(jù)挖掘?qū)?shù)據(jù)的需要，提取 2011年第二季度（4～6月）內(nèi)所有儀征技師學(xué)院讀者借閱的信息。讀者借閱的基本數(shù)據(jù)是通過讀者信息表、圖書信息表、借閱歷史表中數(shù)據(jù)進(jìn)行匯總得到的，具體格式包括Readers（讀者信息表）、Books（圖書信息表）、Book_Lend（借閱歷史表結(jié)構(gòu)）三類，Readers主要參數(shù)有R_Code（讀者編號）、R_Name（讀者姓名）…，Books主要參數(shù)有B_NO（索書號）、B_Name（圖書名稱）…，Book_Lend主要參數(shù)有Lend_Date（借書日期）等。

（1）數(shù)據(jù)的選取

這里將讀者信息表、圖書信息表、借閱歷史表三個(gè)表格合并成一個(gè)讀者借閱事務(wù)表（Reader_T），然后放入SQL Server中進(jìn)行導(dǎo)入和提取，然后使用JDBC-ODBC橋?qū)?shù)據(jù)導(dǎo)入到圖書館數(shù)據(jù)挖掘系統(tǒng)里。

（2）數(shù)據(jù)的預(yù)處理

通過選取就得到了初步的目標(biāo)數(shù)據(jù)，但里面還含有一些缺失的、不完整的數(shù)據(jù)，而且有些數(shù)據(jù)可能存在著前后不一致的問題，即有噪聲，要進(jìn)一步進(jìn)行加工處理。

（3）數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換是對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，首先找到特征的數(shù)據(jù)表示，然后將數(shù)據(jù)轉(zhuǎn)換或合并成一個(gè)適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包括以下內(nèi)容：平滑處理、聚集處理、抽象處理、標(biāo)準(zhǔn)化處理。

3 實(shí)際挖掘過程

由于我們學(xué)院的圖書館是根據(jù)《中國圖書館分類法》分類的。因此可以只選取表3-1中借閱圖書的書號屬性，再對讀者借閱信息表進(jìn)行挖掘，就可挖掘出圖書的22個(gè)基本大類之間的隱性關(guān)聯(lián)情況和各類圖書的使用情況。將其他不用的屬性刪除，只保留讀者編號（學(xué)號）及借閱圖書種類屬性，對源數(shù)據(jù)表進(jìn)行修改，使它由多維的數(shù)據(jù)表變成單維的數(shù)據(jù)表。

最后，我們將讀者學(xué)號這一參數(shù)進(jìn)行刪除，就可以得到單維的讀者借閱信息數(shù)據(jù)表，根據(jù)實(shí)際情況，我們將最小支持度設(shè)置為30%，最小置信度設(shè)置為80%，用FP-growth算法來對該表進(jìn)行挖掘。

4 讀者借閱關(guān)聯(lián)規(guī)則挖掘算法

由于讀者可以多次借閱，每次借閱的數(shù)量都可能不同，為了分析讀者的借閱關(guān)系，本文以借閱數(shù)據(jù)表里最早的借閱時(shí)間為開始時(shí)間，最近的一個(gè)借閱結(jié)束時(shí)間為分析的截止點(diǎn)，在分析時(shí)間區(qū)間里以兩個(gè)星期為一個(gè)時(shí)間段，對于一個(gè)讀者在一個(gè)時(shí)間段內(nèi)所借的不同圖書為一個(gè)事務(wù)，分析時(shí)間區(qū)間里所有讀者的借閱信息組成的事務(wù)為挖掘的事務(wù)數(shù)據(jù)庫DBLend，主要參數(shù)如下：R_Code（讀者借書編號）、Period_id（借閱時(shí)間段）、B_NO（索書號）。

通過對DBLend的挖掘就可以得到有關(guān)借閱信息關(guān)聯(lián)規(guī)則。挖掘借閱信息關(guān)聯(lián)規(guī)則的算法：算法：借閱信息關(guān)聯(lián)規(guī)則挖掘，輸入：DBLend 、minsup、minconf，輸出：借閱信息關(guān)聯(lián)規(guī)則。

Open DBLend alias DBL

FrequentItemSet fis=FP-Growth（DBL，minsup） //用FP算法得到頻繁項(xiàng)集

RegualtionRule rr=generate_rule（fis，minconf） //計(jì)算置信度，得到關(guān)聯(lián)規(guī)則

Return rr

在生成關(guān)聯(lián)規(guī)則后，可以根據(jù)DBLend里的B_No找到對應(yīng)圖書的有關(guān)信息，通過B_No的上卷操作可以得到有關(guān)圖書的類別信息，也可以用于對學(xué)科之間的關(guān)聯(lián)分析。

5 挖掘結(jié)果及結(jié)論

對借閱信息表挖掘最大頻繁項(xiàng)集，從挖掘的結(jié)果可以看出，T（工業(yè)技術(shù)）、I（文學(xué)地理）、E（軍事）等幾類圖書是借閱較為的種類，支持度都超過 48%。T類圖書借閱量之所以這么高，這與儀征技師學(xué)院的自身特點(diǎn)有關(guān)，因?yàn)槲以褐饕膬纱髮I(yè)就是機(jī)電、汽車，而男生比例也比女生要高，所以，E類借閱量也高。因此在圖書館中，這五類圖書間有很強(qiáng)的關(guān)聯(lián)度。所以在對本學(xué)院圖書館的藏書進(jìn)館時(shí)，可以考慮將以上五類圖書集中管理，這樣無論從讀者查找還是從管理人員管理的角度來說都較為合理。同時(shí)也可加大這五類圖書的采購量。

參考文獻(xiàn)：

[1]蔣冬生.數(shù)據(jù)挖掘技術(shù)在中職院校圖書管理中的應(yīng)用研究.[D].揚(yáng)州大學(xué)，2013

[2] （美）Jiawei Han 等著，范明等譯.數(shù)據(jù)挖掘：概念與技術(shù)（第3版）. 機(jī)械工業(yè)出版社2012.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)在圖書管理中的應(yīng)用