摘 要:本文以儀征技師學(xué)院圖書館數(shù)據(jù)為例,通過對借閱信息的數(shù)據(jù)挖掘,生成一些且有指導(dǎo)意義的信息,證明算法的可行性。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;圖書管理
數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域中的成功應(yīng)用,給圖書館帶來了很大的啟發(fā),圖書館的特點(diǎn)是巨大的圖書量,不同年齡、不同專業(yè)的讀者,研究領(lǐng)域也不同。這使讀者對圖書館提出了不同特性的個(gè)人要求。如何滿足讀者的需求,提高讀者滿意度,優(yōu)化圖書館的館藏,合理對圖書進(jìn)行布局,從而更好地為讀者服務(wù),是一個(gè)值得研究的問題。
數(shù)據(jù)挖掘技術(shù)的運(yùn)用可以有效的幫助圖書館逐步規(guī)范管理流程,幫助圖書館擴(kuò)大業(yè)務(wù)范圍、提高服務(wù)水平、加強(qiáng)內(nèi)部管理。
1 數(shù)據(jù)挖掘任務(wù)
采用關(guān)聯(lián)規(guī)則對圖書流通數(shù)據(jù)進(jìn)行挖掘的任務(wù)主要是通過對讀者借閱歷史信息的分析,發(fā)現(xiàn)兩方面的規(guī)律性。
(1)發(fā)現(xiàn)讀者的特性與閱讀習(xí)慣的聯(lián)系。檢索讀者不同的特征,如性別、年齡、專業(yè)等方面對借閱圖書的影響,最后發(fā)現(xiàn)有什么特點(diǎn)的讀者往往借什么類型的圖書,這對以后的讀者借閱具有很好的指導(dǎo)意義。
(2)發(fā)現(xiàn)不同書籍在圖書庫中的聯(lián)系。例如,如果半數(shù)以上的的讀者借閱書籍A,往往也會(huì)隨帶借閱書籍B,從這個(gè)現(xiàn)象中我們可以統(tǒng)計(jì)書A與B間的借閱關(guān)系,當(dāng)出現(xiàn)下一個(gè)讀者也借閱A時(shí),管理員可以根據(jù)統(tǒng)計(jì)結(jié)果推薦書B。并且在書籍管理時(shí),管理員可以對書A和書B的集中放置,合理安排,從而給予借閱者最直接的指導(dǎo),此舉對提高館藏書的借閱量也大有裨益。
2 數(shù)據(jù)處理
根據(jù)數(shù)據(jù)挖掘?qū)?shù)據(jù)的需要,提取 2011年第二季度(4~6月)內(nèi)所有儀征技師學(xué)院讀者借閱的信息。讀者借閱的基本數(shù)據(jù)是通過讀者信息表、圖書信息表、借閱歷史表中數(shù)據(jù)進(jìn)行匯總得到的,具體格式包括Readers(讀者信息表)、Books(圖書信息表)、Book_Lend(借閱歷史表結(jié)構(gòu))三類,Readers主要參數(shù)有R_Code(讀者編號)、R_Name(讀者姓名)…,Books主要參數(shù)有B_NO(索書號)、B_Name(圖書名稱)…,Book_Lend主要參數(shù)有Lend_Date(借書日期)等。
(1)數(shù)據(jù)的選取
這里將讀者信息表、圖書信息表、借閱歷史表三個(gè)表格合并成一個(gè)讀者借閱事務(wù)表(Reader_T),然后放入SQL Server中進(jìn)行導(dǎo)入和提取,然后使用JDBC-ODBC橋?qū)?shù)據(jù)導(dǎo)入到圖書館數(shù)據(jù)挖掘系統(tǒng)里。
(2)數(shù)據(jù)的預(yù)處理
通過選取就得到了初步的目標(biāo)數(shù)據(jù),但里面還含有一些缺失的、不完整的數(shù)據(jù),而且有些數(shù)據(jù)可能存在著前后不一致的問題,即有噪聲,要進(jìn)一步進(jìn)行加工處理。
(3)數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換是對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,首先找到特征的數(shù)據(jù)表示,然后將數(shù)據(jù)轉(zhuǎn)換或合并成一個(gè)適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包括以下內(nèi)容:平滑處理、聚集處理、抽象處理、標(biāo)準(zhǔn)化處理。
3 實(shí)際挖掘過程
由于我們學(xué)院的圖書館是根據(jù)《中國圖書館分類法》分類的。因此可以只選取表3-1中借閱圖書的書號屬性,再對讀者借閱信息表進(jìn)行挖掘,就可挖掘出圖書的22個(gè)基本大類之間的隱性關(guān)聯(lián)情況和各類圖書的使用情況。將其他不用的屬性刪除,只保留讀者編號(學(xué)號)及借閱圖書種類屬性,對源數(shù)據(jù)表進(jìn)行修改,使它由多維的數(shù)據(jù)表變成單維的數(shù)據(jù)表。
最后,我們將讀者學(xué)號這一參數(shù)進(jìn)行刪除,就可以得到單維的讀者借閱信息數(shù)據(jù)表,根據(jù)實(shí)際情況,我們將最小支持度設(shè)置為30%,最小置信度設(shè)置為80%,用FP-growth算法來對該表進(jìn)行挖掘。
4 讀者借閱關(guān)聯(lián)規(guī)則挖掘算法
由于讀者可以多次借閱,每次借閱的數(shù)量都可能不同,為了分析讀者的借閱關(guān)系,本文以借閱數(shù)據(jù)表里最早的借閱時(shí)間為開始時(shí)間,最近的一個(gè)借閱結(jié)束時(shí)間為分析的截止點(diǎn),在分析時(shí)間區(qū)間里以兩個(gè)星期為一個(gè)時(shí)間段,對于一個(gè)讀者在一個(gè)時(shí)間段內(nèi)所借的不同圖書為一個(gè)事務(wù),分析時(shí)間區(qū)間里所有讀者的借閱信息組成的事務(wù)為挖掘的事務(wù)數(shù)據(jù)庫DBLend,主要參數(shù)如下:R_Code(讀者借書編號)、Period_id(借閱時(shí)間段)、B_NO(索書號)。
通過對DBLend的挖掘就可以得到有關(guān)借閱信息關(guān)聯(lián)規(guī)則。挖掘借閱信息關(guān)聯(lián)規(guī)則的算法:算法:借閱信息關(guān)聯(lián)規(guī)則挖掘,輸入:DBLend 、minsup、minconf,輸出:借閱信息關(guān)聯(lián)規(guī)則。
Open DBLend alias DBL
FrequentItemSet fis=FP-Growth(DBL,minsup) //用FP算法得到頻繁項(xiàng)集
RegualtionRule rr=generate_rule(fis,minconf) //計(jì)算置信度,得到關(guān)聯(lián)規(guī)則
Return rr
在生成關(guān)聯(lián)規(guī)則后,可以根據(jù)DBLend里的B_No找到對應(yīng)圖書的有關(guān)信息,通過B_No的上卷操作可以得到有關(guān)圖書的類別信息,也可以用于對學(xué)科之間的關(guān)聯(lián)分析。
5 挖掘結(jié)果及結(jié)論
對借閱信息表挖掘最大頻繁項(xiàng)集,從挖掘的結(jié)果可以看出,T(工業(yè)技術(shù))、I(文學(xué)地理)、E(軍事)等幾類圖書是借閱較為的種類,支持度都超過 48%。T類圖書借閱量之所以這么高,這與儀征技師學(xué)院的自身特點(diǎn)有關(guān),因?yàn)槲以褐饕膬纱髮I(yè)就是機(jī)電、汽車,而男生比例也比女生要高,所以,E類借閱量也高。因此在圖書館中,這五類圖書間有很強(qiáng)的關(guān)聯(lián)度。所以在對本學(xué)院圖書館的藏書進(jìn)館時(shí),可以考慮將以上五類圖書集中管理,這樣無論從讀者查找還是從管理人員管理的角度來說都較為合理。同時(shí)也可加大這五類圖書的采購量。
參考文獻(xiàn):
[1]蔣冬生.數(shù)據(jù)挖掘技術(shù)在中職院校圖書管理中的應(yīng)用研究.[D].揚(yáng)州大學(xué),2013
[2] (美)Jiawei Han 等著,范明等譯.數(shù)據(jù)挖掘:概念與技術(shù)(第3版). 機(jī)械工業(yè)出版社2012.