淺談基于內容過濾的數(shù)字圖書館推薦系統(tǒng)研究

2013-04-29 00:44:03車毅光陳澤波

網(wǎng)友世界 2013年9期

車毅光陳澤波

【摘要】隨著管理系統(tǒng)的廣泛應用，信息數(shù)據(jù)在飛速增長，一方面人們擁有了海量的信息資源，另一方面人們尋找合適信息的時間成本和難度也增加了。目前廣泛采用的信息檢索技術只能夠向用戶提供數(shù)量巨大的、缺乏個性化的檢索結果。推薦系統(tǒng)是一個由人、計算機軟硬件和數(shù)據(jù)資源共同組成的系統(tǒng)，它把用戶對目標對象的使用、評價等相關數(shù)據(jù)按照特定算法模型進行處理，根據(jù)處理的結果形成推薦列表，進而為用戶選擇決策時提供推薦參考。本文就基于內容過濾的數(shù)字圖書館推薦系統(tǒng)展開研究和探討。

【關鍵詞】內容過濾；數(shù)字圖書館；推薦系統(tǒng)

1.基于內容過濾的推薦方法的特點

1.1 基于內容過濾的圖書推薦系統(tǒng)的原理

基于內容的推薦系統(tǒng)（Content-based

Recommendation）也被一些學者稱為“Fea-

turebased Recommendation”，其技術方法主要源于“信息檢索（Information Retrieval，IR）”。最初的基于內容的推薦系統(tǒng)根據(jù)用戶對內容的偏好，自動檢索過濾眾多內容，選擇一些與用戶偏好匹配度高的信息推薦給用戶。

基于內容過濾的圖書推薦系統(tǒng)根據(jù)讀者的興趣向量在圖書特征向量中自動尋找與之匹配的產(chǎn)品，并依據(jù)相似度的高低順序，產(chǎn)生推薦圖書序列表，進而主動向讀者推薦產(chǎn)品。讀者興趣向量主要包括讀者的專業(yè)、學歷、導師等身份信息和歷史借閱、查詢數(shù)據(jù)等信息，據(jù)此建立讀者模型。圖書特征向量主要是指經(jīng)過人工著錄的圖書書目數(shù)據(jù)庫，包含了書名、責任者、主題詞、出版社、ISBN、出版日期等信息。當某本圖書的特征向量與讀者的興趣特征向量產(chǎn)生較大交集（即較大效用值）時，系統(tǒng)就把該圖書作為讀者的備選推薦產(chǎn)品。系統(tǒng)再依據(jù)效用值的大小對備選產(chǎn)品進行排序，最后向用戶推薦。

基于內容過濾的圖書推薦系統(tǒng)的主要分為以下四個步驟：（1）讀者興趣向量的建模與表達，圖書特征向量的建模與表達；（2）在同一向量空間下，計算讀者興趣特征向量與圖書特征向量的相似度；（3）根據(jù)相似度的大小對結果進行排序，取前幾位圖書產(chǎn)生推薦列表；（4）若讀者興趣特征模型產(chǎn)生更新，或增加新的圖書特征向量模型則返回步驟1。

1.2 基于內容過濾的推薦系統(tǒng)的優(yōu)點和存在問題

基于內容過濾的推薦系統(tǒng)利用資源和用戶興趣的相似性來過濾信息，它的關鍵問題是相似性計算，優(yōu)點是簡單、有效，缺點是難以區(qū)分資源內容的品質和風格，而且不能為用戶發(fā)現(xiàn)新的感興趣的資源，只能發(fā)現(xiàn)和用戶已有興趣相似的資源?；趦热葸^濾的推薦系統(tǒng)根據(jù)用戶查詢內容而進行推薦，其推薦結果具有短期效應，適合電子購物系統(tǒng)。而對于擁有長期用戶的系統(tǒng)來說，則沒有充分利用用戶的歷史數(shù)據(jù)尤其是相似用戶的相關數(shù)據(jù)，缺乏推薦潛在興趣產(chǎn)品的功能。

1.3 內容過濾推薦系統(tǒng)有利于充分開發(fā)數(shù)字圖書館資源

數(shù)字圖書館的建設不應該僅考慮組織眾多的數(shù)字化資源，被動地等待用戶前來選擇，而應以用戶為中心，整合數(shù)字資源，提供主動的信息服務。構建一個融多種技術為一體的信息推薦系統(tǒng)。在數(shù)字圖書館的環(huán)境下，圖書文獻信息的種類和數(shù)量都非常多，用戶不可能像在實際的圖書館那樣直接選取所需的文獻資料。因此，數(shù)字圖書館應該充分揭示有關信息，自動推薦用戶可能感興趣的圖書文獻，實現(xiàn)數(shù)字資源的深層次挖掘分析，提高其使用價值。

1.4 基于內容過濾推薦是數(shù)字圖書館環(huán)境下的基本需要

數(shù)字圖書館具有信息量龐大、內容繁雜、形式多樣、數(shù)據(jù)對象異構、分布式存儲等特征，用戶選擇和利用所需信息比較困難。數(shù)字化圖書館雖然提供服務的方式與傳統(tǒng)圖書館有些不同，但為用戶提供高質量的服務的職能卻沒有改變。通過對信息資源的推薦有助于用戶作出正確的評價和選擇，使價值高的信息資源能夠充分被利用。

2.基于讀者文件的內容推薦算法

為了計算讀者與推薦圖書的相似度，首先需要將讀者的興趣表達出來以供系統(tǒng)識別和計算。讀者的興趣在系統(tǒng)中表示成讀者興趣文件，文件應該包括讀者興趣的內容并用系統(tǒng)可以理解的形式表達出來。讀者興趣文件是圖書推薦系統(tǒng)的重要組成部分，是推薦算法的重要依據(jù)。

讀者的興趣主要受到讀者的專業(yè)、身份、借閱行為等信息影響。根據(jù)系統(tǒng)建模工程方法，本文將讀者的信息抽象為屬性和操作。讀者的屬性主要指讀者的專業(yè)、身份、職稱、研究方向等較為固定的靜態(tài)信息。這些可以從圖書館管理系統(tǒng)的讀者數(shù)據(jù)庫中獲取，也可以通過讀者自行修改完善個人信息而獲得。讀者的操作主要是指借閱、查詢等行為信息。該信息可以從圖書館管理系統(tǒng)中的流通數(shù)據(jù)庫中獲得。本文假定讀者在圖書管理系統(tǒng)中的操作行為都因興趣動機而起，因此操作行為可以反映讀者的興趣特征。于是本文通過對操作行為的研究揭示讀者興趣。

根據(jù)興趣的時效性，將用戶的興趣模型概括為近期興趣和長期興趣。近期興趣主要依據(jù)讀者的近期借閱、查詢行為而產(chǎn)生，具有高效用性、亟需性和短期性等特性。長期興趣主要依據(jù)讀者的專業(yè)、身份等靜態(tài)屬性而產(chǎn)生，具有高匹配性、穩(wěn)定性和長期性等特性。

與讀者的操作行為產(chǎn)生關聯(lián)的讀者屬性通常為讀者的專業(yè)、課程、研究方向、身份、職稱、年齡、性別、興趣愛好等。

表1 讀者屬性列表

專業(yè) 課程研究方向職稱年齡性別興趣愛好

教師

學生

其他

讀者屬性可以通過讀者個人ID信息自動抽取或通過讀者主動填寫個人資料獲取。

讀者的操作信息主要記錄了讀者的外借圖書信息，檢索、下載的文獻信息。

表2 讀者操作信息列表

外借圖書信息

借閱時長

評價

檢索下載內容主題

評價

在基于內容過濾的圖書推薦系統(tǒng)中，從讀者的屬性列表和操作信息列表中提取若干興趣特征詞，形成讀者興趣特征向量。因此采用讀者的興趣向量模型來表示讀者興趣文件。在介紹圖書特征向量的表示之前，本文先對向量空間模型加以說明。向量空間模型（Vector Space Model，VSM）是由康奈爾大學G.Salton教授提出的，把文本簡化為以向量分量的權重為分量的向量表示，把文本處理過程簡化為空間向量的運算，使問題復雜性大大降低，關鍵是基于空間向量模型的。

在讀者興趣特征向量建立后，需要對此進行定量化表達，以便推薦系統(tǒng)能夠進行精確計算。在圖書推薦系統(tǒng)中，采用對不同的興趣特征賦予不同的權重，以達到對特征向量的量化處理。權重值依據(jù)喜愛程度從低到高表示為-1分到1分不等。未曾獲得讀者評價的特征值表示為0分。讀者的近期興趣特征值和長期興趣特征值應該賦予較高的權重。當讀者的操作信息表更新，讀者的近期興趣特征值就相應變化。而讀者的長期興趣特征值則應保持穩(wěn)定的權重值，除非讀者的屬性表中更新了讀者的研究方向、專業(yè)、興趣愛好等信息。

3.基于讀者文件和圖書文件相似度計算

在讀者文件和圖書文件建立之后，需要將二者進行相似度計算。通過計算，可以精確計算讀者與圖書的匹配度，從大量圖書中迅速過濾出與讀者興趣匹配值高的圖書，進而形成推薦列表，幫助讀者選擇圖書。

3.1 幾種常見的相似度計算方法

計算相似度的方法比較多，常見的有余弦相似性計算法、皮爾森相關系數(shù)法和改進的余弦相似性法。如今許多計算方法都是基于這三種方法做出的修正和改進。下面對這三種方法分別簡要介紹。

（1）余弦相似性（Cosine）：在信息檢索領域，兩篇文檔之間的相似度往往通過把文檔看作是一個詞頻矢量，然后計算兩詞頻矢量的夾角余弦來表示。同樣，也可以將這種方法用于圖書推薦系統(tǒng)，將讀者對圖書的評分看作為n維圖書空間上的向量，如果讀者對圖書沒有進行評分，則將讀者對該圖書的評分設為0，讀者間的相似性通過矢量間的夾角余弦來度量。設讀者i和讀者j在n維圖書空間上的評分分別表示成，則讀者i和讀者j之間的相似性sim（i，j）為：

其中，分子為兩個讀者評分向量的內積，分母為兩個讀者評分向量模的乘積。

（2）皮爾森相關系數(shù)（Pearson）：也稱為相似相關性（Correlation）。假設讀者i和讀者j共同評分過的圖書集合用Ii，j表示，則讀者i和讀者j之間的相似性sim（i，j）可以通過Pearson相關系數(shù)來度量：

其中，Ri，c表示讀者i對圖書c的評分，分別代表讀者i和讀者j的平均評分。

3.2 形成推薦列表，幫助讀者選擇圖書

讀者文件與圖示文件的相似度值計算出來以后，重復N次計算，得到讀者文件與所有圖書文件的相似度值。按照值的大小，從高到低依次排序。選取前幾項，查檢對應的圖書，形成推薦列表，推薦給讀者。

4.結語

隨著信息網(wǎng)絡的廣泛應用，信息數(shù)據(jù)在飛速增長，一方面為人們提供了極為豐富的信息資源，另一方面也增加了人們尋找合適資源的時間成本和難度。人們在信息領域的個性化需求，必將推動推薦系統(tǒng)的快速發(fā)展。當推薦系統(tǒng)進一步成熟并在現(xiàn)實網(wǎng)絡中得到廣泛深入的應用，人們將享受到推薦系統(tǒng)所帶來的人性化的推薦服務。

參考文獻：

[1]謝琳惠.推薦系統(tǒng)在高校數(shù)字圖書館的應用[J].現(xiàn)代情報，2006（11）：72-74.

[2]黃希全.數(shù)字圖書館推薦系統(tǒng)中用戶偏好的建模方法[J].情報雜志，2006（1）：28-30.

[3]張俊，黃水清.國內外數(shù)字圖書館個性化信息服務系統(tǒng)的功能與特征比較研究[J].情報理論與實踐，2005，28（6）：609-612.

[4]陸覺民，鄭宇.數(shù)據(jù)挖掘技術的改進在圖書館個性化服務中的應用[J].現(xiàn)代圖書情報技術，2006，140（8）：65-68.

[5]高鳳榮.個性化推薦系統(tǒng)關鍵技術研究[D].人民大學博士論文，2003，11.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺談基于內容過濾的數(shù)字圖書館推薦系統(tǒng)研究