柳燕,高蕾
(煙臺職業(yè)學院,山東煙臺264670)
數(shù)字圖書館個性化服務技術研究*
柳燕,高蕾
(煙臺職業(yè)學院,山東煙臺264670)
個性化服務技術是目前非常流行的一種技術,個性化服務針對不同的用戶,以不同的策略和方式提供不同的信息內容。本文介紹了數(shù)字圖書館個性化服務的含義,并在此基礎上探討了建立個性化服務的關鍵技術。
個性化信息描述;個性化信息獲取;用戶建模
全球互聯(lián)網(wǎng)技術和數(shù)字圖書館建設的高速發(fā)展,使得目前數(shù)字圖書館中的信息資源更加豐富,但隨著信息量的膨脹,出現(xiàn)了“信息過載”和“信息迷向”現(xiàn)象。為了更好地為用戶提供符合其偏好特征的信息,個性化服務技術成為數(shù)字圖書館領域重要的研究內容并得到研究者越來越多的關注。個性化服務體現(xiàn)了對用戶的人性化、知識化關懷,強調信息服務的針對性、連續(xù)性和專業(yè)性。隨著社會信息化程度的加快,用戶對個性化服務的需求越來越大。鑒于此,本文介紹了數(shù)字圖書館的個性化服務的概念,并對其關鍵技術進行了研究與探討。
數(shù)字圖書館個性化服務是根據(jù)用戶的知識結構、信息需求、行為方式和心理傾向,為不同時期、不同背景、不同目的的讀者用戶提供滿足其個性化需求的信息內容和系統(tǒng)功能的一種服務,進而可以提高數(shù)字圖書館的服務質量和資源的利用率。
為滿足不同用戶的需求,個性化服務在數(shù)字圖書館領域得到了較快的發(fā)展,按其關鍵技術主要可分為個性化的信息描述、個性化信息獲取和用戶建模。
用戶個性化信息用來描述用戶的個性化特征和偏愛,用戶的很多特征和動作都能不同程度反映用戶的偏愛,如用戶的性別、年齡、所在國家和地區(qū)、職業(yè)、教育程度、婚否、愛好、專業(yè)領域、閱讀的文章內容等。對個性化推薦系統(tǒng)來說,最重要的是用戶的參與,為了跟蹤用戶的興趣與行為,有必要為每個用戶建立一個用戶描述文件。用戶描述文件刻畫用戶的特征與用戶之間的關系,用戶描述文件表達不同的個性化服務系統(tǒng)中的用戶描述文件各自的特點,用戶描述文件從內容上可以劃分為基于興趣的和基于行為的兩種類型?;谂d趣的用戶描述文件可以表示為加權矢量模型、類型層次結構模型、加權語義網(wǎng)模型、書簽和目錄結構等?;谛袨榈挠脩裘枋鑫募梢员硎緸橛脩魹g覽模式或訪問模式。在具體實現(xiàn)時可以綜合基于興趣和基于行為這兩種表達方式。用戶描述文件可以用文件來組織,也可以用關系數(shù)據(jù)庫或其他數(shù)據(jù)庫來組織。目前有一些系統(tǒng)采用基于XML的RDF(Resource Definition Framework)來表達用戶描述文件,并利用支持XML的數(shù)據(jù)庫系統(tǒng)來存儲用戶描述文件,這樣不僅利用了XML的優(yōu)點,也保持了系統(tǒng)的性能。
不同的個性化系統(tǒng)的用戶個性化信息的內容會有所不同,亞利桑那大學的Zan Huang等提出的基于圖的推薦算法中,用戶描述信息包括所在國家、城市、生日、教育情況、職業(yè)、性別、婚否、是否有孩子、孩子個數(shù)、孩子的平均年齡,表示成一個特征向量來描述用戶的個性。Camegie MellonUniversity開發(fā)的WebWatcher系統(tǒng)的用戶個性化信息在初始時以關鍵字列表的形式給出,用戶瀏覽后要給出是否找到所需信息的反饋信息,用它來更新個性化描述。Personal WebWatcher不需用戶給出表示目的的關鍵字和對結果頁面的評價,只記錄用戶請求的頁面地址。明尼蘇達大學的GroupLen系統(tǒng)是一個NetNews協(xié)作過濾系統(tǒng)。用戶需要顯式給出反饋信息,系統(tǒng)記錄用戶瀏覽的頁面以及所花費的時間。StanFord大學的Fab系統(tǒng)是一個基于協(xié)作過濾的推薦系統(tǒng),把內容過濾和協(xié)作過濾技術相結合,用戶個性化信息用加權關鍵字向量表示,從用戶喜歡的頁面中提取的關鍵字權重被加到用戶個性化信息中相應關鍵字的權重值上。Susan Gauch等人把Ontology用于個性化信息的描述中,根據(jù)用戶瀏覽的網(wǎng)頁以及網(wǎng)頁的內容、長度、瀏覽時間等產(chǎn)生用于描述用戶個性的概念層次。大多數(shù)推薦系統(tǒng)都是基于用戶行為進行推薦的,即通過分析用戶的行為獲取用戶的個性化描述信息。
不同系統(tǒng)的個性化信息不同,獲取的方式也不同,主要有兩種方式:顯式獲取和隱式獲取。
用戶第一次使用個性化系統(tǒng)時,系統(tǒng)可要求用戶注冊自己的基本信息,如姓名、性別、年齡、職業(yè)等,并填寫自己感興趣的內容。用戶的自然情況和興趣愛好都可能隨著時間的變化而變化,系統(tǒng)需保持用戶個性化信息與用戶當前情況的一致性。系統(tǒng)可以讓用戶自主地修改個性化信息,也可以根據(jù)用戶的反饋信息自動修改。通過用戶主動給出自己的基本信息或反饋信息而獲得個性化信息的方法稱為個性化信息的顯式獲取,顯式獲取個性化信息的方法簡單而直接,用戶信息是顯式給出的和確定的,可作為個性化服務的依據(jù)。但是,它存在兩個主要的問題:一方面,用戶一般都很注意個人信息的保密性,因此在收集用戶信息之前,需要分析用戶愿意提供什么信息。另一方面,用戶提供的信息過少時不能充分表達用戶的個性,而系統(tǒng)要求過多的用戶干預則會讓用戶厭煩。一般情況下,很少有用戶向系統(tǒng)主動表達自己的喜好,因此這種做法很難收到實效。
隱式獲取是在用戶與系統(tǒng)交互的過程中,通過分析用戶的行為獲取用戶的個性化信息。個性化信息的隱式獲取不要求用戶提供什么信息,由系統(tǒng)自動完成,隱式獲取又可分為行為跟蹤和日志挖掘。
比較實際的做法是行為跟蹤,因為用戶的很多動作都能暗示用戶的喜好。不同的系統(tǒng)中用戶有不同的動作,如電子商務中用戶的動作是購買;Web檢索中用戶的動作是提交查詢、瀏覽、前進、后退、點擊鼠標、拖動滾動條等;數(shù)字圖書館中用戶的動作包括查詢、瀏覽、下載、標記書簽、反饋信息等。研究表明,簡單的動作(如點擊鼠標)不能有效地揭示用戶的興趣,而瀏覽頁面和拖動滾動條所花的時間可以有效地揭示用戶的興趣。用戶查詢、訪問頁面、標記書簽能有效揭示用戶的興趣。
個性化信息獲取常采用數(shù)據(jù)挖掘的方法,通過分析系統(tǒng)日志可以獲得相關頁面、相似用戶群體和用戶訪問模式等信息,個性化服務系統(tǒng)可以利用這些信息創(chuàng)建或更新用戶個性化信息。Web日志挖掘中最常使用的方法是根據(jù)網(wǎng)頁的點擊次數(shù)來評價用戶對該網(wǎng)頁的興趣,其實這種方法是不完整的,而且經(jīng)常是不正確的,但該方法可用于輔助其它日志分析技術。盡管Web日志的信息不夠全面,但還是可以從中發(fā)現(xiàn)許多有意義的信息,比如通過收集用戶順序請求的日期和時間,可以分析出用戶在每個資源上所花費的時間,從而可以推斷用戶對該資源感興趣的程度;通過收集用戶感興趣的領域,有利于對用戶感興趣的內容進行分類;通過分析用戶請求的順序有利于預測用戶將來可能的行為,從而推薦合適的信息。
用戶建模是指從有關用戶興趣和行為的信息中歸納出可計算的用戶模型的過程。可計算性是用戶模型的基本要求,在個性化服務系統(tǒng)中的用戶模型不是針對用戶個體的一般性描述,而是一種面向算法的、具有特定數(shù)據(jù)結構的形式化的用戶描述。
用戶建模是個性化服務的基礎和核心,無論何種形式的個性化服務,都需要首先建立對用戶的描述,然后才能據(jù)此提供針對不同用戶的個性化服務。根據(jù)建模過程中用戶的參與程度,用戶建模技術可以分為用戶手工定制建模、示例建模和自動用戶建模。
1.用戶手工定制建模
用戶手工定制建模是指用戶模型由用戶自己手工輸入或選擇的用戶建模方法。如用戶自己輸入感興趣的關鍵詞列表,或選擇感興趣的欄目等。卡內基·梅隆大學的Web Watcher和Yahoo站點1996年推出的My Yahoo是用戶手工定制建模的典型代表。但用戶手工定制建模存在著3個方面的不足。
(1)因為建模過程完全依賴于用戶,容易降低用戶使用系統(tǒng)的積極性;用戶不愿意參于對系統(tǒng)的訓練,即使用戶知道對系統(tǒng)進行訓練會給自己帶來好處。
(2)用戶難以全面、準確的羅列自己感興趣的欄目或關鍵詞,從而導致用戶模型不夠準確。
(3)當用戶興趣發(fā)生變化時,用戶必須重新輸入用戶模型;用戶手工定制的用戶模型是靜態(tài)的這與用戶興趣的漸變性不符。
2.示例用戶建模
示例用戶建模是指由用戶提供與自己興趣相關的示例及其類別屬性來建立用戶模型的建模方法。由于用戶對自己的興趣和偏好等最有發(fā)言權,因此由用戶提供的有關自己興趣的示例最能集中、準確的反應用戶的興趣和偏好等特點,加州大學Irvine校的Syskill&Webert是示例用戶建模的典型代表。
3.自動用戶建模
自動用戶建模是指根據(jù)用戶的瀏覽內容和瀏覽行為自動構建用戶模型、建模過程無須用戶主動提供信息的建模方法。主要代表有卡內基·梅隆大學的Web Watcher,德國國家研究中心的ELFI麻省理工學院的Letizia等。
自動用戶建模實際上是改進了示例用戶建模方法中的示例獲取途徑,將其轉化為無須用戶標注的自動示例獲取方法。通過對用戶瀏覽頁面的聚類和分類就能夠得到用戶感興趣的主題,從而實現(xiàn)自動建模。此外,Web日志挖掘也是一條實現(xiàn)自動用戶建模的途徑。自動用戶建模雖然存在著容易引入噪聲,不利于構建高質量的用戶模型的缺點,但是,自動用戶建模無需用戶主動地提供信息,不會對用戶造成干擾,有利于提高個性化服務的易用性,促進個性化服務的快速發(fā)展。
近年來數(shù)字圖書館個性化服務的研究可謂是碩果累累。數(shù)字圖書館個性化服務改變了圖書情報機構以往“我提供什么用戶就接受什么”的運作方式,開創(chuàng)了“用戶需要什么我就提供什么”的發(fā)展思路。我們相信,隨著對數(shù)字圖書館個性化服務理論研究和實踐的不斷深入,我國數(shù)字圖書館個性化服務一定能夠再上一個新臺階,真正實現(xiàn)以用戶需求為中心,利用數(shù)字圖書館信息資源開展不同層次的、多種類型的、滿足用戶個性需求的有效信息服務。
[1]張智慧.圖書館的個性化信息服務分析[J].情報科學,2003,(6):124-125.
[2]李培.數(shù)字圖書館原理及應用[M].北京:高等教育出版社,2004.
[3]馬文峰.數(shù)字圖書館個性化信息服務的探索[J].圖書館雜志,2003,(5):31-32.
[4]袁會香.關于數(shù)字圖書館個性化信息服務研究[J].大學圖書情報學刊,2005,(6):57-59.
[5]李陽暉.面向用戶的圖書館信息資源整合模式分析[J].情報雜志,2005,(10):34-35.
2011-10-08
柳燕(1971-),女,山東青島人,碩士。