蔡璐
摘 要:提出了一種基于數(shù)據(jù)挖掘技術(shù)的文獻(xiàn)自動推薦系統(tǒng)架構(gòu),分析了系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù),并完成了系統(tǒng)模塊化設(shè)計(jì)和算法實(shí)現(xiàn)。經(jīng)實(shí)踐驗(yàn)證,該推薦系統(tǒng)在特色資源庫中具有良好的文獻(xiàn)推薦效果和廣闊的應(yīng)用前景。
關(guān)鍵詞:數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 分類規(guī)則 個性化服務(wù)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A
Abstract: A system frame of library literature personalized recommender based on data mining is proposed in this paper. At the same time,analyzed their key technologies,design system modularization and arithmetic realization of the recommender system. At last,it greatly achieves good recommending result and application prospect in Characteristic DataBase in proctice.
Keywords: data mining;association rules;classify rules;personalized services
1 引 言
隨著現(xiàn)代信息技術(shù)的快速發(fā)展,越來越多的數(shù)字化技術(shù)應(yīng)用于特色資源的保存、展示和服務(wù)工作。如何幫助用戶快速地從以海量存儲為特征的資源中發(fā)現(xiàn)自己需要的資料,提供個性化信息服務(wù)是特色資源庫建設(shè)首先要解決的問題。
基于關(guān)聯(lián)規(guī)則與分類規(guī)則的數(shù)據(jù)挖掘技術(shù),以用戶興趣特征為導(dǎo)向,通過從大量數(shù)據(jù)中挖掘潛在的、有價(jià)值的信息,分析用戶潛在興趣愛好,實(shí)現(xiàn)有針對性的特色文獻(xiàn)自動推薦服務(wù)。經(jīng)實(shí)踐檢驗(yàn),本文提出的基于數(shù)據(jù)挖掘技術(shù)的文獻(xiàn)自動推薦系統(tǒng),具有良好的文獻(xiàn)推薦效果和廣闊的應(yīng)用前景。
2 文獻(xiàn)自動推薦系統(tǒng)架構(gòu)
特色文獻(xiàn)自動推薦系統(tǒng)是一個基于B/S模式的三層結(jié)構(gòu),如圖1所示。
(1) 網(wǎng)站服務(wù)平臺
網(wǎng)站服務(wù)平臺是連接用戶與應(yīng)用服務(wù)之間的橋梁。主要作用有兩個:一是收集用戶的個人瀏覽網(wǎng)頁、查詢或下載文獻(xiàn)等習(xí)慣行為資料,并按照一定的格式存儲于電子證照數(shù)據(jù)庫中;二是接收應(yīng)用服務(wù)器對比特色資源庫中相關(guān)信息后分析產(chǎn)生的結(jié)果,生成動態(tài)網(wǎng)頁推薦并呈現(xiàn)給用戶。
(2)電子證照數(shù)據(jù)庫
電子證照數(shù)據(jù)庫主要用于存儲用戶基本信息和用戶使用信息。其中,用戶基本信息利用證照采集、掃描、錄入的方式獲取存量證照信息,并通過前置設(shè)備進(jìn)行證照封裝與加蓋電子印章,形成具有唯一標(biāo)識的統(tǒng)一電子證照庫,存儲用戶的個人資料;用戶使用信息主要通過數(shù)據(jù)挖掘方法來獲得,也可以由用戶自己網(wǎng)上輸入來修改。
(3)應(yīng)用服務(wù)系統(tǒng)
應(yīng)用服務(wù)系統(tǒng)是進(jìn)行文獻(xiàn)自動推薦的核心部分。其主要功能是將電子證照資源庫中的用戶信息,經(jīng)數(shù)據(jù)預(yù)處理模塊后,利用分類規(guī)則和關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,對比特色資源庫內(nèi)容,按照相似度從大到小的順序,以某種指定形式推薦給用戶,從而實(shí)現(xiàn)特色資源庫文獻(xiàn)自動推薦的功能。
(4)特色資源庫
特色資源庫是具有一定特點(diǎn)的文獻(xiàn)信息資源總和,其核心元數(shù)據(jù)結(jié)構(gòu)決定了特色資源庫中所有資源都應(yīng)遵循的標(biāo)準(zhǔn),因此,特色資源庫中的基本元數(shù)據(jù)可參照都柏林核心元素集標(biāo)準(zhǔn),擴(kuò)展元素參照我國各類文獻(xiàn)已有的規(guī)范進(jìn)行著錄和標(biāo)引,整個資源庫通過各子庫字段相互關(guān)聯(lián)和數(shù)據(jù)庫間相互鏈接的方式將各子庫整合而成。
3 系統(tǒng)關(guān)鍵技術(shù)
3.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則定義為:設(shè)I = {I1,I2,……,Im}是所有項(xiàng)的集合,其中Ik = {k = 1,2,……,m}稱為項(xiàng),項(xiàng)的集合稱為項(xiàng)集,包含k個項(xiàng)的項(xiàng)集稱為k項(xiàng)集。一個事務(wù)T是一個項(xiàng)集,它是I的一個子集,每個事務(wù)均與一個惟一標(biāo)識符Tid相聯(lián)系。不同的事務(wù)構(gòu)成了事務(wù)集D,它構(gòu)成了關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫。如果項(xiàng)集X∈T,則稱事務(wù)T支持項(xiàng)集X,也稱事務(wù)T包含項(xiàng)集X。關(guān)聯(lián)規(guī)則是這樣一種形式的蘊(yùn)涵:X?T,其中X[∩]I,Y[∩]I,且X∩Y = ?。
一般地,采用支持度、可信度、期望可信度和作用度等四個參數(shù)來描述關(guān)聯(lián)規(guī)則的屬性。其中,支持度和可信度能夠比較直觀地描述關(guān)聯(lián)規(guī)則的性質(zhì),因此,關(guān)聯(lián)規(guī)則的選擇主要基于支持度和可信度這兩個參數(shù)的值。本文采用FP-Growth 算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,其算法核心是FP-Tree(頻繁模式樹)的構(gòu)建,它通過合并一些重復(fù)路徑,實(shí)現(xiàn)數(shù)據(jù)的壓縮,之后以樹遍歷的操作替代Apriori算法中的事務(wù)記錄遍歷,從而大大提高了運(yùn)算效率。
3.2 分類規(guī)則
數(shù)據(jù)分類規(guī)則是通過學(xué)習(xí)訓(xùn)練集來構(gòu)造一個分類模型或分類函數(shù),然后利用該模型或函數(shù)將數(shù)據(jù)記錄進(jìn)行分類。常見的分類方法有貝葉斯分類方法、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法和遺傳算法等。其中,決策樹方法具有計(jì)算量較小、容易轉(zhuǎn)化成分類規(guī)則、挖掘出的分類規(guī)則準(zhǔn)確性較高等優(yōu)點(diǎn),因此決策樹方法在數(shù)據(jù)分類方面得到了廣泛應(yīng)用。
決策樹(Decision Tree,DT)是一種以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,類似于流程圖,它從一組無規(guī)則、無次序的事例中歸納出分類規(guī)則,找出屬性和類別間的關(guān)系,且以樹的形式表示,也可以用它來預(yù)測未知類別記錄的歸屬。Quinlan提出的ID3 算法是國際上公認(rèn)的最具影響力的決策樹算法,該算法基于信息熵的概念,并根據(jù)屬性集的取值進(jìn)行數(shù)據(jù)分類。
3.3 用戶興趣度模型
用戶興趣度模型是通過收集和描述用戶的個人信息、使用偏好信息和上網(wǎng)行為記錄等來建立,同時(shí)可以利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)和預(yù)測用戶潛在的興趣需求。針對特色資源庫使用對象的特點(diǎn),本文提出了將用戶注冊興趣和動態(tài)使用興趣進(jìn)行有機(jī)結(jié)合來構(gòu)建用戶興趣的方法,將每個用戶特征模型對應(yīng)分為常規(guī)屬性部分和動態(tài)屬性部分。常規(guī)屬性主要是指用戶性別、年齡、研究方向、專業(yè)背景、教育程度等,這些屬性可以從用戶個人注冊信息中得到,反映了用戶較為穩(wěn)定的興趣傾向;動態(tài)屬性則是會經(jīng)常發(fā)生變更的數(shù)據(jù),如用戶的文獻(xiàn)閱讀信息、檢索關(guān)鍵詞、下載記錄、對文獻(xiàn)評分等需要經(jīng)常變更的數(shù)據(jù)。
據(jù)此,建立用戶興趣模型為aML + (1 - a)MS。其中,ML為用戶興趣常規(guī)特征向量,MS為用戶興趣動態(tài)特征向量。a為[0,1] 之間的參數(shù),也可以將a和(1 - a)分別看作為用戶興趣常規(guī)屬性和動態(tài)屬性的權(quán)重,用以調(diào)節(jié)對用戶最終興趣的影響程度。
通過建立以上的用戶興趣模型,就可以挖掘出用戶的真實(shí)興趣傾向。而使用分類規(guī)則,通過學(xué)習(xí)用戶的上網(wǎng)行為記錄,可以較容易地發(fā)現(xiàn)興趣類似的用戶群。
3.4 基于數(shù)據(jù)挖掘的文獻(xiàn)自動推薦算法流程
從圖2可以看出,特色文獻(xiàn)自動推薦系統(tǒng)主要包括四大模塊:用戶興趣偏好模塊、推薦算法及功能模塊、用戶使用信息模塊以及用戶評價(jià)和反饋信息模塊。
基于數(shù)據(jù)挖掘的特色文獻(xiàn)自動推薦算法基本流程為:先通過分類規(guī)則對使用用戶進(jìn)行分類,再結(jié)合用戶的上網(wǎng)習(xí)慣和用戶反饋信息計(jì)算用戶對文獻(xiàn)的興趣度,最后利用關(guān)聯(lián)規(guī)則,將與用戶興趣關(guān)聯(lián)程度大的文獻(xiàn),以某種指定形式自動推薦給用戶。
4 圖書館文獻(xiàn)自動推薦系統(tǒng)運(yùn)行結(jié)果 及分析
4.1 圖書館文獻(xiàn)自動推薦系統(tǒng)功能及運(yùn)行結(jié)果
4.1.1 開發(fā)平臺及系統(tǒng)功能
基于數(shù)據(jù)挖掘的圖書館文獻(xiàn)自動推薦系統(tǒng)基于開源系統(tǒng)作為開發(fā)平臺,依托開源的Linux系統(tǒng)、NoSQL數(shù)據(jù)庫、Apache服務(wù)器進(jìn)行建設(shè),結(jié)果呈現(xiàn)采用了 Microsoft Internet Explorer 9.0 瀏覽器。
該系統(tǒng)具有文獻(xiàn)瀏覽、檢索、下載以及文獻(xiàn)自動推薦等功能。用戶首次使用需要注冊,并填寫個人相關(guān)信息。成功登陸系統(tǒng)后,有兩種檢索方式,即按類別檢索或全部檢索方式,來實(shí)現(xiàn)文獻(xiàn)的查找,用戶只需點(diǎn)擊具體文獻(xiàn)鏈接就可以實(shí)現(xiàn)全文在線閱讀。此外,有些文獻(xiàn)還提供了客戶端下載功能。
4.1.2 系統(tǒng)運(yùn)行結(jié)果
以讀者證號為530136的用戶為例,來說明圖書館文獻(xiàn)自動推薦系統(tǒng)的使用。當(dāng)該用戶成功登錄“我的圖書館”后,點(diǎn)擊“文獻(xiàn)推薦”欄目,系統(tǒng)就會根據(jù)用戶的特點(diǎn)、借閱史、瀏覽史等信息,經(jīng)綜合處理后自動推薦并羅列出該用戶可能感興趣的文獻(xiàn)列表,其中,文獻(xiàn)后“new”標(biāo)識說明該文獻(xiàn)為數(shù)據(jù)庫近期新增文獻(xiàn)。用戶點(diǎn)擊列表中的文獻(xiàn)超鏈接就可以直接訪問到該資源。系統(tǒng)運(yùn)行結(jié)果如圖3所示。
另外,用戶也可以在“個人信息維護(hù)”欄目中,進(jìn)行信息更改和反饋,如個人基本情況修改、文獻(xiàn)評分、推薦參數(shù)修改等,而這些更新都將重新存儲到用戶管理信息庫,成為再次初始化該用戶興趣度的依據(jù)。
4.2 系統(tǒng)驗(yàn)證與評價(jià)
為了檢驗(yàn)圖書館文獻(xiàn)自動推薦系統(tǒng)模塊的運(yùn)行效果,隨機(jī)抽取20篇推薦文獻(xiàn),查看用戶對這些推薦文獻(xiàn)應(yīng)用情況的信息反饋和評價(jià)。采用3個等級來評價(jià)所推薦的文獻(xiàn),分別為:I表示差,II表示一般,III表示好。按照文獻(xiàn)編號從小到大的順序排序得到表1。從表1用戶的反饋情況來看,該系統(tǒng)文獻(xiàn)推薦結(jié)果比較好地滿足了用戶個性化需求,取得了良好的推薦效果。相對而言,文獻(xiàn)推薦概率越大,用戶的滿意程度也就越高。
從表2中可以看出,隨著推薦概率(即系統(tǒng)自動推薦支持度)由大到小的變化,文獻(xiàn)查全率逐漸升高,而文獻(xiàn)查準(zhǔn)率逐漸降低,MAE變小。當(dāng)推薦概率為0.33時(shí),系統(tǒng)MAE值最小,系統(tǒng)性能最佳。
5 結(jié)束語
基于圖書館數(shù)字資源個性化信息服務(wù)的實(shí)際需要,提出了一種基于數(shù)據(jù)挖掘的特色文獻(xiàn)自動推薦系統(tǒng)框架,分析了系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù),并進(jìn)行了系統(tǒng)模塊化設(shè)計(jì)和算法實(shí)現(xiàn)。該推薦系統(tǒng)基于湖南圖書館用戶個人基本信息庫、網(wǎng)上使用信息庫等數(shù)據(jù),利用關(guān)聯(lián)規(guī)則與分類規(guī)則的數(shù)據(jù)挖掘技術(shù),獲取和分析用戶之間、文獻(xiàn)之間、以及用戶與文獻(xiàn)之間有用的關(guān)聯(lián)和潛在的聯(lián)系,構(gòu)建了用戶興趣度模型,并按照用戶興趣度大小向用戶自動推薦感興趣的相關(guān)文獻(xiàn)。最后,將文獻(xiàn)自動推薦系統(tǒng)進(jìn)行了實(shí)際應(yīng)用,通過用戶對推薦系統(tǒng)使用情況的信息反饋,以及對推薦系統(tǒng)模塊工作性能的客觀指標(biāo)評價(jià),驗(yàn)證了該系統(tǒng)的實(shí)用性和有效性。
參考文獻(xiàn)
[1] RICCI F,ROKACH L,SHAPIRA B,et al.推薦系統(tǒng):技術(shù)、評估及高效算法[M].李艷民,胡聰,吳賓,等譯.北京:機(jī)械工業(yè)出版社,2015.
[2] 葉柏龍,徐靜靜,嚴(yán)筍.基于評分和項(xiàng)目特征的群組推薦方法[J].計(jì)算機(jī)應(yīng)用研究,2017,34(4):1032—1035,1046.
[3] JANNACH D,ZANKER M,F(xiàn)ELFERNING A,et al.推薦系統(tǒng)[M].蔣凡譯.北京: 人民郵電出版社,2013.
[4] 喬冬春,劉曉燕,付曉東,曹存根.一種基于本體的推薦系統(tǒng)模型[J].計(jì)算機(jī)工程,2014(11):282—287.