謝康
摘 要: 傳統(tǒng)圖書館服務缺乏個性化設置,無法充分利用資源進行準確書目推薦,為了改善這一問題,提出基于讀者個性化特征數(shù)據(jù)挖掘的圖書館書目推薦系統(tǒng)。根據(jù)讀者類聚特點與數(shù)據(jù)關聯(lián)規(guī)則,設計節(jié)目個性化推薦系統(tǒng),并將挖掘出的關聯(lián)規(guī)則應用到推薦服務當中;根據(jù)挖掘流程可得到大量數(shù)據(jù),并對多余數(shù)據(jù)進行清理,不完整數(shù)據(jù)進行補充,計算支持度和置信度;采用基于讀者個性化特征數(shù)據(jù)挖掘圖書館書目并進行推薦,由此完成圖書館書目推薦。通過實驗分析可知,該推薦方法可充分利用圖書館資源,快速、準確完成書目推薦。
關鍵詞: 圖書館服務; 個性化特征; 數(shù)據(jù)關聯(lián)規(guī)則; 數(shù)據(jù)挖掘; 圖書館書目; 書目推薦
中圖分類號: TN911?34; TP311.13 文獻標識碼: A 文章編號: 1004?373X(2018)06?0034?03
Abstract: The traditional library service lacks personalized setting, and cannot make full use of resources to conduct catalogue recommendation accurately. To resolve this problem, library catalogue recommendation based on readers′ personalized feature data mining is proposed. According to reader clustering characteristics and data association rules, a personalized program recommendation system is designed, and the mined association rules are applied to recommendation service. A large amount of data can be obtained according to the mining process, with redundant data cleaned and incomplete data supplemented, so as to calculate the support degree and confidence coefficient. Readers′ personalized feature data is used to mine and recommend library catalogue, so as to complete library catalogue recommendation. The experimental analysis shows that this recommendation method can make full use of library resources and complete catalogue recommendation quickly and accurately.
Keywords: library service; personalized feature; data association rule; data mining; library catalogue; catalogue recommendation
0 引 言
高校圖書館中應用數(shù)據(jù)庫技術促使系統(tǒng)硬件與軟件都得到改善,每天都會更新資源,學生和教師等讀者對資源也會充分利用,這就使圖書館數(shù)據(jù)庫中積累大量的歷史信息。圖書館是面向全校讀者所提供的一個方便快捷查找資料的場所,但是隨著讀者對圖書館資料查詢要求不斷提高,從資源中準確篩選讀者需要的圖書信息成為了當務之急[1]。
傳統(tǒng)圖書館服務缺乏個性化設置,無法充分利用資源,為了改善這一問題,提出基于讀者個性化特征數(shù)據(jù)挖掘的圖書館書目推薦。其利用數(shù)據(jù)挖掘技術對圖書館數(shù)據(jù)庫中的海量借閱信息進行挖掘,可找到其中隱藏的關聯(lián)規(guī)則,根據(jù)這些規(guī)則可幫助圖書館完成個性化信息推薦工作,也為讀者提供了良好服務。
1 圖書館書目推薦特征數(shù)據(jù)挖掘算法的實施
根據(jù)讀者類聚特點與數(shù)據(jù)關聯(lián)規(guī)則,在圖書館傳統(tǒng)管理系統(tǒng)基礎上,設計基于讀者個性化數(shù)據(jù)挖掘的信息服務系統(tǒng)[2?3],如圖1所示,針對數(shù)據(jù)與處理模塊和數(shù)據(jù)挖掘模塊進行詳細分析。
基于讀者個性化特征數(shù)據(jù)挖掘的圖書館書目推薦系統(tǒng)主要能實現(xiàn)以下兩個方面能力:一是數(shù)據(jù)挖掘,首先對圖書館讀者進行調查,并根據(jù)借閱數(shù)據(jù)信息進行聚類群分,根據(jù)聚類群體中讀者借閱的數(shù)據(jù)信息完成數(shù)據(jù)關聯(lián)規(guī)則挖掘;二是個性化推薦,將挖掘出的關聯(lián)規(guī)則應用到推薦服務當中[4?5],該系統(tǒng)是基于Windows XP上運行的,并采用B/S模式,而前臺使用Visual Studio 2008集成環(huán)境,將Visual C++作為開發(fā)工具,后臺使用SQL Server 2008數(shù)據(jù)庫來保存用戶數(shù)據(jù)[1]。
2 基于讀者個性化特征數(shù)據(jù)挖掘書目推薦算法
2.1 讀者個性化特征數(shù)據(jù)挖掘
數(shù)據(jù)挖掘中最常用的方法是對個性化關聯(lián)規(guī)則展開分析,利用該規(guī)則對圖書館書目進行推薦,具體算法如下:
書目推薦算法通常采用項集合x和y來表示,兩個項集合是相互獨立的,且不具有重復屬性[6],可表示為:[x?y=?]。集合x和y之間的個性化規(guī)則需滿足如下條件:兩項集合有用并且集合之間個性化規(guī)則具有一定普遍性和有趣性。比如:[T=T1,T2,…,Tm]是項的集合,相關數(shù)據(jù)[D]是數(shù)據(jù)庫信息的集合,其中每條信息d是項的集合[7],使得[d?1]。每條信息具有一個標志符號,稱為[d1]。設a是一個項集,信息d所包含的a當且僅當[a∈d]。個性化關聯(lián)規(guī)則具有[a?b]蘊涵式,其中[a?1,b?1],并且[a?b=?]。endprint
2.2 書目推薦算法
如果個性化關聯(lián)規(guī)則[a?b]在信息集合[D]中成立,具有特征屬性支持度s,信息集合[D]中包含[a?b]的百分比也被稱為支持度,即為[pa?b]。
如果個性化關聯(lián)規(guī)則[a?b]在信息集合[D]中成立,具有置信度c,信息集合[D]中包含信息a的同時也包含b的全部信息比,也被稱為置信度[8?9],即為[pba]??删唧w表示為:
[Supporta?b=pa?bConfidencea?b=pba]
通常情況下,特征數(shù)據(jù)挖掘是在基于讀者個性化關聯(lián)規(guī)則基礎上實現(xiàn)的,該挖掘主要分成兩個部分:一部分是將找到的所有與關聯(lián)規(guī)則有關項集進行統(tǒng)計;另一部分是在上一部分產(chǎn)生項集基礎上進行強關聯(lián)規(guī)則分析[10]。在挖掘過程中,中心問題是要進行高效頻繁項集搜索,如果效率較低,那么每次所產(chǎn)生的候選項會導致算法在運行過程中需要進行一次數(shù)據(jù)庫掃描,所耗費工作量較大,為此利用個性化關聯(lián)規(guī)則進行繁瑣項集搜索。繁瑣項集搜索完成后,會產(chǎn)生強大的關聯(lián)規(guī)則,如果項目集中每一個頻繁項目集為1,那么就會產(chǎn)生1個非空子集;如果項目集為非空子集,且滿足大于等于最小置信度的條件,則該子集可輸出作為書目推薦。
3 實 驗
3.1 實驗參數(shù)設置
為了驗證基于讀者個性化特征數(shù)據(jù)挖掘的圖書館書目推薦方法合理性,使用科學試驗和技巧與程序的調試方法進行相關數(shù)據(jù)收集,設計實驗并進行驗證,分析個性化推薦數(shù)據(jù)挖掘算法的使用效果與準確度。實驗開發(fā)環(huán)境設置如下:處理器為[Intel?][CoreTM i5-4590CPU @3.30 GHz;]內存為32.0 GB;系統(tǒng)種類為[Windows 10,]64位操作系統(tǒng),使用64位的處理器。
3.2 實驗結果與分析
選舉6位閱讀者所借閱5本圖書為例,假設學生編號為[PZ],書目借閱信息為[Tx],具體數(shù)據(jù)如表1所示。
將傳統(tǒng)書目推薦方法與本文使用的推薦方法在最小置信度閾值為70%的情況下,對書目推薦準確率進行對比,結果如圖2所示。
由圖2可知,當讀者借閱了T1和T5,傳統(tǒng)方法推薦書目為T1,而正確推薦書目應該為T2;當讀者借閱了T2和T5,傳統(tǒng)方法推薦書目為T2,而正確推薦書目應該為T1;當讀者借閱了T5,傳統(tǒng)方法推薦書目為T1和T2,與正確推薦書目一致。由此可知,當最小置信度閾值為70%,傳統(tǒng)方法對書目推薦準確率小于本文使用的方法。
將傳統(tǒng)書目推薦方法與本文使用的推薦方法在最小置信度閾值為50%的情況下,對書目推薦準確率進行對比,結果如圖3所示。
由圖3可知,當讀者借閱了T1和T2,傳統(tǒng)方法推薦書目為T2,而正確推薦書目應該為T3;當讀者借閱了T1和T3,傳統(tǒng)方法推薦書目為T2,與正確推薦書目一致;當讀者借閱了T2和T3,傳統(tǒng)方法推薦書目為T3,而正確推薦書目應該為T1。由此可知,當最小置信度閾值為50%,傳統(tǒng)方法對書目推薦準確率小于本文使用的方法。
4 結 語
由于圖書館書目推薦工作意義繁重,利用基于讀者個性化特征數(shù)據(jù)挖掘中的關聯(lián)規(guī)則,根據(jù)歷史記錄,可方便為讀者推薦感興趣書目。圖書館可通過數(shù)據(jù)挖掘將珍藏的圖書推薦給閱讀者,使讀者快速尋找到自己感興趣書目,具有省時、高效特征,采用該推薦方法能滿足不同借閱者個性化需求,具有一定真實性。
參考文獻
[1] 周欣,陸康.基于圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究[J].現(xiàn)代情報,2016,36(1):51?56.
ZHOU Xin, LU Kang. Data mining on reader behaviors based on library digital resource system [J]. Modern information, 2016, 36(1): 51?56.
[2] 何勝,馮新翎,武群輝,等.基于用戶行為建模和大數(shù)據(jù)挖掘的圖書館個性化服務研究[J].圖書情報工作,2017,61(1):40?46.
HE Sheng, FENG Xinling, WU Qunhui, et al. Research on personalized services of library based on user behavior modeling and big data mining [J]. Library and information service, 2017, 61(1): 40?46.
[3] 陳臣.基于大數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的智慧圖書館構建[J].現(xiàn)代情報,2017,37(8):85?91.
CHEN Chen. Construction of smart library based on the big data mining and knowledge discovery [J]. Modern information, 2017, 37(8): 85?91.
[4] 韓雪飛,丁玉東,杜瑾.高校畢業(yè)季圖書館開展讀者數(shù)據(jù)留存活動調查與建議[J].圖書情報工作,2015,59(20):77?82.
HAN Xuefei, DING Yudong, DU Jin. Investigation and suggestion on readers′ date retention activities in the graduation season in university libraries [J]. Library and information service, 2015, 59(20): 77?82.endprint