車毅光 陳澤波
【摘 要】隨著管理系統(tǒng)的廣泛應用,信息數(shù)據(jù)在飛速增長,一方面人們擁有了海量的信息資源,另一方面人們尋找合適信息的時間成本和難度也增加了。目前廣泛采用的信息檢索技術只能夠向用戶提供數(shù)量巨大的、缺乏個性化的檢索結果。推薦系統(tǒng)是一個由人、計算機軟硬件和數(shù)據(jù)資源共同組成的系統(tǒng),它把用戶對目標對象的使用、評價等相關數(shù)據(jù)按照特定算法模型進行處理,根據(jù)處理的結果形成推薦列表,進而為用戶選擇決策時提供推薦參考。本文就基于內容過濾的數(shù)字圖書館推薦系統(tǒng)展開研究和探討。
【關鍵詞】內容過濾;數(shù)字圖書館;推薦系統(tǒng)
1.基于內容過濾的推薦方法的特點
1.1 基于內容過濾的圖書推薦系統(tǒng)的原理
基于內容的推薦系統(tǒng)(Content-based
Recommendation)也被一些學者稱為“Fea-
turebased Recommendation”,其技術方法主要源于“信息檢索(Information Retrieval,IR)”。最初的基于內容的推薦系統(tǒng)根據(jù)用戶對內容的偏好,自動檢索過濾眾多內容,選擇一些與用戶偏好匹配度高的信息推薦給用戶。
基于內容過濾的圖書推薦系統(tǒng)根據(jù)讀者的興趣向量在圖書特征向量中自動尋找與之匹配的產(chǎn)品,并依據(jù)相似度的高低順序,產(chǎn)生推薦圖書序列表,進而主動向讀者推薦產(chǎn)品。讀者興趣向量主要包括讀者的專業(yè)、學歷、導師等身份信息和歷史借閱、查詢數(shù)據(jù)等信息,據(jù)此建立讀者模型。圖書特征向量主要是指經(jīng)過人工著錄的圖書書目數(shù)據(jù)庫,包含了書名、責任者、主題詞、出版社、ISBN、出版日期等信息。當某本圖書的特征向量與讀者的興趣特征向量產(chǎn)生較大交集(即較大效用值)時,系統(tǒng)就把該圖書作為讀者的備選推薦產(chǎn)品。系統(tǒng)再依據(jù)效用值的大小對備選產(chǎn)品進行排序,最后向用戶推薦。
基于內容過濾的圖書推薦系統(tǒng)的主要分為以下四個步驟:(1)讀者興趣向量的建模與表達,圖書特征向量的建模與表達;(2)在同一向量空間下,計算讀者興趣特征向量與圖書特征向量的相似度;(3)根據(jù)相似度的大小對結果進行排序,取前幾位圖書產(chǎn)生推薦列表;(4)若讀者興趣特征模型產(chǎn)生更新,或增加新的圖書特征向量模型則返回步驟1。
1.2 基于內容過濾的推薦系統(tǒng)的優(yōu)點和存在問題
基于內容過濾的推薦系統(tǒng)利用資源和用戶興趣的相似性來過濾信息,它的關鍵問題是相似性計算,優(yōu)點是簡單、有效,缺點是難以區(qū)分資源內容的品質和風格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶已有興趣相似的資源?;趦热葸^濾的推薦系統(tǒng)根據(jù)用戶查詢內容而進行推薦,其推薦結果具有短期效應,適合電子購物系統(tǒng)。而對于擁有長期用戶的系統(tǒng)來說,則沒有充分利用用戶的歷史數(shù)據(jù)尤其是相似用戶的相關數(shù)據(jù),缺乏推薦潛在興趣產(chǎn)品的功能。
1.3 內容過濾推薦系統(tǒng)有利于充分開發(fā)數(shù)字圖書館資源
數(shù)字圖書館的建設不應該僅考慮組織眾多的數(shù)字化資源,被動地等待用戶前來選擇,而應以用戶為中心,整合數(shù)字資源,提供主動的信息服務。構建一個融多種技術為一體的信息推薦系統(tǒng)。在數(shù)字圖書館的環(huán)境下,圖書文獻信息的種類和數(shù)量都非常多,用戶不可能像在實際的圖書館那樣直接選取所需的文獻資料。因此,數(shù)字圖書館應該充分揭示有關信息,自動推薦用戶可能感興趣的圖書文獻,實現(xiàn)數(shù)字資源的深層次挖掘分析,提高其使用價值。
1.4 基于內容過濾推薦是數(shù)字圖書館環(huán)境下的基本需要
數(shù)字圖書館具有信息量龐大、內容繁雜、形式多樣、數(shù)據(jù)對象異構、分布式存儲等特征,用戶選擇和利用所需信息比較困難。數(shù)字化圖書館雖然提供服務的方式與傳統(tǒng)圖書館有些不同,但為用戶提供高質量的服務的職能卻沒有改變。通過對信息資源的推薦有助于用戶作出正確的評價和選擇,使價值高的信息資源能夠充分被利用。
2.基于讀者文件的內容推薦算法
為了計算讀者與推薦圖書的相似度,首先需要將讀者的興趣表達出來以供系統(tǒng)識別和計算。讀者的興趣在系統(tǒng)中表示成讀者興趣文件,文件應該包括讀者興趣的內容并用系統(tǒng)可以理解的形式表達出來。讀者興趣文件是圖書推薦系統(tǒng)的重要組成部分,是推薦算法的重要依據(jù)。
讀者的興趣主要受到讀者的專業(yè)、身份、借閱行為等信息影響。根據(jù)系統(tǒng)建模工程方法,本文將讀者的信息抽象為屬性和操作。讀者的屬性主要指讀者的專業(yè)、身份、職稱、研究方向等較為固定的靜態(tài)信息。這些可以從圖書館管理系統(tǒng)的讀者數(shù)據(jù)庫中獲取,也可以通過讀者自行修改完善個人信息而獲得。讀者的操作主要是指借閱、查詢等行為信息。該信息可以從圖書館管理系統(tǒng)中的流通數(shù)據(jù)庫中獲得。本文假定讀者在圖書管理系統(tǒng)中的操作行為都因興趣動機而起,因此操作行為可以反映讀者的興趣特征。于是本文通過對操作行為的研究揭示讀者興趣。
根據(jù)興趣的時效性,將用戶的興趣模型概括為近期興趣和長期興趣。近期興趣主要依據(jù)讀者的近期借閱、查詢行為而產(chǎn)生,具有高效用性、亟需性和短期性等特性。長期興趣主要依據(jù)讀者的專業(yè)、身份等靜態(tài)屬性而產(chǎn)生,具有高匹配性、穩(wěn)定性和長期性等特性。
與讀者的操作行為產(chǎn)生關聯(lián)的讀者屬性通常為讀者的專業(yè)、課程、研究方向、身份、職稱、年齡、性別、興趣愛好等。
表1 讀者屬性列表
專業(yè) 課程 研究方向 職稱 年齡 性別 興趣愛好
教師
學生
其他
讀者屬性可以通過讀者個人ID信息自動抽取或通過讀者主動填寫個人資料獲取。
讀者的操作信息主要記錄了讀者的外借圖書信息,檢索、下載的文獻信息。
表2 讀者操作信息列表
外借 圖書信息
借閱時長
評價
檢索下載 內容主題
評價
在基于內容過濾的圖書推薦系統(tǒng)中,從讀者的屬性列表和操作信息列表中提取若干興趣特征詞,形成讀者興趣特征向量。因此采用讀者的興趣向量模型來表示讀者興趣文件。在介紹圖書特征向量的表示之前,本文先對向量空間模型加以說明。向量空間模型(Vector Space Model,VSM)是由康奈爾大學G.Salton教授提出的,把文本簡化為以向量分量的權重為分量的向量表示,把文本處理過程簡化為空間向量的運算,使問題復雜性大大降低,關鍵是基于空間向量模型的。
在讀者興趣特征向量建立后,需要對此進行定量化表達,以便推薦系統(tǒng)能夠進行精確計算。在圖書推薦系統(tǒng)中,采用對不同的興趣特征賦予不同的權重,以達到對特征向量的量化處理。權重值依據(jù)喜愛程度從低到高表示為-1分到1分不等。未曾獲得讀者評價的特征值表示為0分。讀者的近期興趣特征值和長期興趣特征值應該賦予較高的權重。當讀者的操作信息表更新,讀者的近期興趣特征值就相應變化。而讀者的長期興趣特征值則應保持穩(wěn)定的權重值,除非讀者的屬性表中更新了讀者的研究方向、專業(yè)、興趣愛好等信息。
3.基于讀者文件和圖書文件相似度計算
在讀者文件和圖書文件建立之后,需要將二者進行相似度計算。通過計算,可以精確計算讀者與圖書的匹配度,從大量圖書中迅速過濾出與讀者興趣匹配值高的圖書,進而形成推薦列表,幫助讀者選擇圖書。
3.1 幾種常見的相似度計算方法
計算相似度的方法比較多,常見的有余弦相似性計算法、皮爾森相關系數(shù)法和改進的余弦相似性法。如今許多計算方法都是基于這三種方法做出的修正和改進。下面對這三種方法分別簡要介紹。
(1)余弦相似性(Cosine):在信息檢索領域,兩篇文檔之間的相似度往往通過把文檔看作是一個詞頻矢量,然后計算兩詞頻矢量的夾角余弦來表示。同樣,也可以將這種方法用于圖書推薦系統(tǒng),將讀者對圖書的評分看作為n維圖書空間上的向量,如果讀者對圖書沒有進行評分,則將讀者對該圖書的評分設為0,讀者間的相似性通過矢量間的夾角余弦來度量。設讀者i和讀者j在n維圖書空間上的評分分別表示成,則讀者i和讀者j之間的相似性sim(i,j)為:
其中,分子為兩個讀者評分向量的內積,分母為兩個讀者評分向量模的乘積。
(2)皮爾森相關系數(shù)(Pearson):也稱為相似相關性(Correlation)。假設讀者i和讀者j共同評分過的圖書集合用Ii,j表示,則讀者i和讀者j之間的相似性sim(i,j)可以通過Pearson相關系數(shù)來度量:
其中,Ri,c表示讀者i對圖書c的評分,分別代表讀者i和讀者j的平均評分。
3.2 形成推薦列表,幫助讀者選擇圖書
讀者文件與圖示文件的相似度值計算出來以后,重復N次計算,得到讀者文件與所有圖書文件的相似度值。按照值的大小,從高到低依次排序。選取前幾項,查檢對應的圖書,形成推薦列表,推薦給讀者。
4.結語
隨著信息網(wǎng)絡的廣泛應用,信息數(shù)據(jù)在飛速增長,一方面為人們提供了極為豐富的信息資源,另一方面也增加了人們尋找合適資源的時間成本和難度。人們在信息領域的個性化需求,必將推動推薦系統(tǒng)的快速發(fā)展。當推薦系統(tǒng)進一步成熟并在現(xiàn)實網(wǎng)絡中得到廣泛深入的應用,人們將享受到推薦系統(tǒng)所帶來的人性化的推薦服務。
參考文獻:
[1]謝琳惠.推薦系統(tǒng)在高校數(shù)字圖書館的應用[J].現(xiàn)代情報,2006(11):72-74.
[2]黃希全.數(shù)字圖書館推薦系統(tǒng)中用戶偏好的建模方法[J].情報雜志,2006(1):28-30.
[3]張俊,黃水清.國內外數(shù)字圖書館個性化信息服務系統(tǒng)的功能與特征比較研究[J].情報理論與實踐,2005,28(6):609-612.
[4]陸覺民,鄭宇.數(shù)據(jù)挖掘技術的改進在圖書館個性化服務中的應用[J].現(xiàn)代圖書情報技術,2006,140(8):65-68.
[5]高鳳榮.個性化推薦系統(tǒng)關鍵技術研究[D].人民大學博士論文,2003,11.