黃婷
(上海理工大學(xué)圖書館,上海 200093)
基于微博的智能數(shù)字圖書館個(gè)性化推薦
黃婷
(上海理工大學(xué)圖書館,上海 200093)
針對(duì)傳統(tǒng)圖書館在為用戶提供準(zhǔn)確多樣的個(gè)性化服務(wù)方面的不足,文章提出基于用戶微博信息的個(gè)性化推薦模型。通過挖掘用戶的微博文本短信息,引入本體描述用戶對(duì)本體領(lǐng)域概念的偏好,建立基于微博用戶的多層語義社區(qū)網(wǎng)絡(luò)模型,并將該模型應(yīng)用于混合協(xié)同過濾推薦系統(tǒng)中,實(shí)現(xiàn)智能數(shù)字圖書館的個(gè)性化推薦。
微博;本體;多層語義社區(qū)網(wǎng)絡(luò);智能圖書館;個(gè)性化推薦
數(shù)字圖書館最早于1994年提出,作為知識(shí)倉(cāng)儲(chǔ)和信息交流的渠道,成為未來社會(huì)的公共信息中心和樞紐[1]?,F(xiàn)今信息資源空前膨脹,其形式由單一化發(fā)展到如今的海量化、復(fù)雜化和多樣化,用戶的信息需求也不斷提升。為了更好地為用戶服務(wù),數(shù)字圖書館需要進(jìn)入新的知識(shí)階段,自動(dòng)發(fā)現(xiàn)知識(shí)和幫助用戶獲取知識(shí),滿足用戶更加個(gè)性化、多樣化和智能化的服務(wù)需求。
目前,多數(shù)高校圖書館只是依據(jù)借閱次數(shù)進(jìn)行熱門讀物的推薦,且其圖書標(biāo)簽只有學(xué)科主題等信息,不能很好地與用戶興趣相對(duì)應(yīng)。微博作為新興的信息媒介,近些年來取得了迅猛發(fā)展,用戶發(fā)布的帖子內(nèi)容真實(shí)反應(yīng)了其興趣取向。其中,豆瓣讀書是國(guó)內(nèi)信息最全、用戶數(shù)量最大且最為活躍的讀書網(wǎng)站,它的圖書幾乎涵蓋了高校圖書館的館藏資源,而且標(biāo)簽更加豐富。
信息推薦中,社會(huì)關(guān)系往往比推薦內(nèi)容與用戶喜好的匹配程度更加重要。文獻(xiàn)[2-3]將信任機(jī)制融入到個(gè)性化推薦過程中,提出基于社會(huì)網(wǎng)絡(luò)信任的多樣推薦算法;A. Bellogin[4]等提出基于社會(huì)推薦和協(xié)同過濾的混合推薦算法?;谖⒉┑耐扑]研究,大部分文獻(xiàn)[5-6]是對(duì)微博用戶進(jìn)行好友推薦、散列標(biāo)簽推薦或新聞推薦,將微博作為信息資源推薦的工具;曾琦[7]將圖書館資源進(jìn)行整合,把圖書館微博作為一個(gè)信息共享的平臺(tái),開展各種資源的推薦服務(wù);蔡淑琴[8]設(shè)計(jì)了基于社會(huì)化網(wǎng)絡(luò)修訂的協(xié)同過濾推薦,有效的實(shí)現(xiàn)了個(gè)性化推薦。
我們將人工智能原理運(yùn)用到數(shù)字圖書館中,重點(diǎn)在于智能推薦。通過算法分析用戶的微博文本信息,挖掘用戶的行為數(shù)據(jù),從關(guān)鍵詞入手,引入本體概念,描述用戶對(duì)本體領(lǐng)域概念群的偏好,建立基于微博用戶的多層語義社區(qū)網(wǎng)絡(luò)模型,最大程度地自動(dòng)分析獲取用戶的興趣,進(jìn)而針對(duì)用戶興趣從豆瓣網(wǎng)信息源中抽取相應(yīng)的信息并過濾,給用戶推送其最感興趣、更多樣的閱讀材料。這樣不僅省去了用戶在面對(duì)海量資源時(shí)的手工檢索和瀏覽時(shí)間,還可以為用戶提供個(gè)性化和多樣化的服務(wù)。
為了將微博用戶信息集成進(jìn)協(xié)同過濾推薦系統(tǒng),實(shí)現(xiàn)智能數(shù)字圖書館的個(gè)性化推薦,本文提出了基于微博的智能數(shù)字圖書館個(gè)性化推薦模型框架,如圖1所示。
微博用戶登錄到圖書館系統(tǒng),基于領(lǐng)域本體和獲取到的用戶微博信息內(nèi)容建立個(gè)性化本體用戶興趣模型,隨著用戶微博內(nèi)容的不斷更新,該模型能夠自動(dòng)識(shí)別和適應(yīng)用戶行為的變化。最終,通過個(gè)性化本體用戶興趣模型獲得多層語義社區(qū),并參考用戶的興趣偏好和豆瓣數(shù)據(jù)集產(chǎn)生推薦列表。該框架最重要的特征有:
(1)用戶利用微博賬號(hào)登陸圖書館系統(tǒng),推薦框架通過用戶的微博信息獲取用戶的興趣模型,對(duì)用戶的興趣特征屬性進(jìn)行相似度計(jì)算,使具有相同語義特征的用戶聚集成一個(gè)社區(qū),從而形成多層語義社區(qū)網(wǎng)絡(luò);
圖1 個(gè)性化推薦框架
(2)隨著用戶微博信息的不斷更新,用戶的興趣模型發(fā)生變化,該模型能自動(dòng)識(shí)別和適應(yīng)該變化,并更新推薦列表。
基于本體的知識(shí)表示相較于基于關(guān)鍵詞或者項(xiàng)目的模型顯得更加豐富,不容易引起歧義。它為用戶興趣由粗到細(xì)粒度的表示提供了足夠的依據(jù),是處理用戶偏好之間細(xì)微差別的關(guān)鍵。此外,本體是標(biāo)準(zhǔn)化的(如RDF和OWL),提供的推理機(jī)制可以加強(qiáng)個(gè)性化特征,這些特征在我們的個(gè)性化推薦模型中將被利用。
基于本體的個(gè)性化框架[9-10],用戶偏好向量表示為其中ui,j∈[0,1],衡量的是在領(lǐng)域本體O中,用戶ui∈U對(duì)概念cj∈O(類或?qū)嵗┑呐d趣程度,Q是本體里總的概念數(shù)。同樣,我們定義檢索空間中閱讀材料dk∈D的概念權(quán)重向量它表示同一個(gè)向量空間中的用戶偏好?;谏鲜鲞壿嫳硎?,用戶對(duì)閱讀材料內(nèi)容的偏好程度可以通過比較用戶的特征和閱讀材料的標(biāo)注向量來衡量,這些方法能以個(gè)性化的方式優(yōu)先、過濾和排序閱讀材料。
下圖2形象地表明了基于本體的雙重空間的知識(shí)表示,M和N分別表示系統(tǒng)中登記用戶和閱讀材料的數(shù)量。
圖2 基于本體的用戶特征和閱讀材料的描述
目前,用戶在使用很多推薦系統(tǒng)時(shí),必須采用手工方式為自己添加多個(gè)個(gè)性標(biāo)簽。由于不明白添加個(gè)性標(biāo)簽對(duì)推薦結(jié)果的影響,用戶通常不愿意花費(fèi)時(shí)間添加,更不用說為標(biāo)簽添加權(quán)重。如果能夠自動(dòng)識(shí)別用戶的偏好特征,用戶配置稀疏的問題就能迎刃而解了。
由于每個(gè)微博用戶的特征屬性都有所不同,文章運(yùn)用了基于用戶不同興趣特點(diǎn)的個(gè)性化本體概要方法[11],發(fā)現(xiàn)隱藏的知識(shí)和特征屬性間的關(guān)系。通過挖掘用戶的微博文本信息,捕捉用戶的特征屬性,然后建立個(gè)性化的本體概念領(lǐng)域。知識(shí)發(fā)現(xiàn)提供一個(gè)個(gè)性化本體表示,其能夠自動(dòng)地推理和適應(yīng)用戶行為的隱式變化,無需用戶的干預(yù)。語義偏好擴(kuò)展機(jī)制,通過發(fā)現(xiàn)本體里與其它概念的語義關(guān)系,明確本體概念領(lǐng)域里的用戶特征屬性。該擴(kuò)展基于約束傳播激活(CSA)策略[12-13],每次遍歷關(guān)系時(shí),通過為用戶偏好強(qiáng)度施加一個(gè)衰減因子控制其擴(kuò)展,如圖3所示。
這樣,系統(tǒng)輸出的閱讀材料排名列表不僅考慮了當(dāng)前用戶的偏好,而且通過用戶特征屬性和領(lǐng)域本體考慮到了用戶所隱藏的偏好,使用戶的推薦更加多樣化。用戶的特征屬性是很簡(jiǎn)化的,不同用戶之間特征屬性的匹配度也很低?;诒倔w的特征屬性表示比基于關(guān)鍵字的特征屬性表示具有更好性能。該擴(kuò)展不僅對(duì)用戶個(gè)性化的表現(xiàn)很關(guān)鍵,而且對(duì)下一部分描述的聚類策略至關(guān)重要。
4.1用戶的聚類
社區(qū)網(wǎng)絡(luò)中,普遍認(rèn)為有共同興趣的人們之間存在其他相關(guān)聯(lián)的興趣[14]。例如,對(duì)旅游感興趣的人也有可能對(duì)攝影、美食或語言有興趣。事實(shí)上,這種假設(shè)是多數(shù)推薦系統(tǒng)的技術(shù)基礎(chǔ)[15-18]。為了根據(jù)多個(gè)用戶的共同興趣組聚類出本體領(lǐng)域概念群,我們也假定這種設(shè)想成立。
圖3 用戶語義特征擴(kuò)展
利用概念之間的聯(lián)系和用戶對(duì)概念的偏好,基于出現(xiàn)在用戶偏好里的概念相關(guān)性,聚類成語義空間。之后,根據(jù)用戶特征屬性在概念群中的投影將其劃分成用戶的興趣子集。然后,根據(jù)產(chǎn)生的興趣子集比較用戶,可以發(fā)現(xiàn)兩個(gè)用戶之間的權(quán)值關(guān)系。
向量cj=(cj,1,cj,2,…cj,Q)表示至少一個(gè)用戶對(duì)概念向量cj的偏好比,其中cj,i=ui,j,cj,i表示在用戶ui的語義特征中概念cj的權(quán)重?;谶@些向量,通過應(yīng)用分層聚類策略[19-20]形成多層語義社區(qū)網(wǎng)絡(luò)。獲得的聚類表示大量用戶共享的概念用戶向量空間中的偏好(興趣主題)群體。
一旦創(chuàng)建了本體領(lǐng)域概念集群,每個(gè)用戶將被分配到一個(gè)特定的集群中。用戶ui=(ui,1,ui,2,…,ui,N)和集群Cr的相似度計(jì)算如下:
這里,cj表示的概念相當(dāng)于用戶偏好向量ui,j的組成,|Cr|是所在概念集群中的概念總數(shù)。用戶被分配到與其相似度最高的概念集群中,這樣就創(chuàng)建了具有共同興趣偏好的用戶群。
根據(jù)上節(jié)用戶語義特征擴(kuò)展,圖4闡述了用戶的聚類過程。
圖4 建立用戶興趣模型
第一步,挖掘用戶的微博文本信息,提取用戶的興趣偏好,擴(kuò)展用戶語義偏好,發(fā)現(xiàn)隱藏在用戶興趣愛好之間的語義關(guān)系,建立個(gè)性化的本體領(lǐng)域概念。
第二步,依據(jù)用戶的偏好空間向量,將語義本體領(lǐng)域概念劃分成不同的語義群,每個(gè)語義群代表一個(gè)語義特征屬性,每個(gè)語義特征屬性又包含多個(gè)不同的本體概念。
第三步,根據(jù)用戶的偏好權(quán)重,聚類成不同的社區(qū)。
4.2語義社區(qū)網(wǎng)絡(luò)的形成
概念領(lǐng)域和用戶集群被用來發(fā)現(xiàn)語義社區(qū)網(wǎng)絡(luò)。一方面,利用用戶的偏好權(quán)重,用戶成員對(duì)每個(gè)集群的聚類程度和集群間的相似性發(fā)現(xiàn)兩種不同的社會(huì)網(wǎng)絡(luò)關(guān)系:個(gè)人的和團(tuán)體的。另一方面,利用概念集群將用戶的特征屬性劃分成若干個(gè)語義片段。每個(gè)片段對(duì)應(yīng)一個(gè)概念集群,代表一個(gè)用戶偏好的子集,這些用戶共享的興趣偏好引發(fā)了聚類過程。通過在用戶特征屬性中引入更多這樣的結(jié)構(gòu),可以定義在不同層次中用戶間的關(guān)系,獲得一個(gè)用戶的多層網(wǎng)絡(luò)(見圖5)。
圖5 語義社區(qū)網(wǎng)絡(luò)的形成
圖5描述了聚類出的兩個(gè)用戶群的情況,每個(gè)用戶群中的用戶特征屬性被劃分到兩個(gè)語義層。在每個(gè)語義層,得到用戶間的權(quán)重關(guān)系,建立不同的興趣社區(qū)。這些社區(qū)有很多潛在的應(yīng)用,可以在協(xié)同過濾推薦中被利用,因?yàn)樯鐓^(qū)不僅建立了用戶之間的相似性,而且為不同的信息需求提供了不同語義上下文。下節(jié)將介紹兩種不同的推薦模型。
個(gè)性化服務(wù)是推薦系統(tǒng)根據(jù)用戶的微博信息行為,動(dòng)態(tài)調(diào)節(jié)用戶興趣模型,自動(dòng)適應(yīng)用戶的動(dòng)作,并為用戶推薦可能感興趣的內(nèi)容的過程。個(gè)性化推薦系統(tǒng)可以使用戶快速、準(zhǔn)確地得到所需信息。在個(gè)性化推薦中,協(xié)同過濾是當(dāng)前應(yīng)用最成功的技術(shù)。協(xié)同過濾技術(shù)主要強(qiáng)調(diào)人與人之間的交互,結(jié)合基于用戶興趣的潛在社區(qū)網(wǎng)絡(luò)關(guān)系和語義項(xiàng)的偏好信息,將對(duì)協(xié)同過濾推薦系統(tǒng)帶來重要的影響。
5.1用戶興趣度遺忘
由于用戶的微博信息不斷更新,導(dǎo)致用戶的興趣模型也不斷更新,從而用戶的興趣偏好發(fā)生變化。為了適應(yīng)用戶不斷變化的興趣,我們引進(jìn)用戶概念興趣度遺忘因子[21]。將個(gè)性化本體中的概念節(jié)點(diǎn)進(jìn)行遺忘,以適應(yīng)用戶興趣的變化,提高推薦的準(zhǔn)確度。遺忘因子公式為:
其中Tnow表示當(dāng)前時(shí)間,Tcreated表示本體概念節(jié)點(diǎn)在個(gè)性化本體中被創(chuàng)建的時(shí)間,Tvisited表示概念節(jié)點(diǎn)被更新的時(shí)間,取Tnow?-Tvisited作為半衰期(用戶興趣遺忘一半的天數(shù))。
5.2個(gè)性化推薦模型
協(xié)同過濾分析用戶興趣,在用戶群中找到與指定用戶的相似(興趣)用戶,綜合這些相似用戶對(duì)此信息的喜好程度預(yù)測(cè)。
語義社區(qū)網(wǎng)絡(luò)的形成可以使我們進(jìn)一步研究社區(qū)網(wǎng)絡(luò)在推薦系統(tǒng)中作用??紤]到用戶興趣模型不斷更新的特點(diǎn),我們提出了兩種混合推薦模型,加入興趣遺忘因子,使推薦模型更加適用于微博的特性。
(1)基于用戶的混合推薦模型
該混合推薦模型利用了基于本體描述的閱讀材料的相似性和多層用戶的相似性。利用由用戶興趣衍生出的潛在社區(qū)網(wǎng)絡(luò)的關(guān)系,并結(jié)合語義項(xiàng)偏好信息,對(duì)協(xié)同過濾推薦具有很好的作用?;谏鲜龅亩鄬诱Z義社區(qū)網(wǎng)絡(luò),我們提出兩種推薦模型,它們考慮了生成的社區(qū)網(wǎng)絡(luò)中用戶之間的聯(lián)系和其所處的不同場(chǎng)景,生成了閱讀材料的有序排名列表。第一種模型稱為HUP,是基于所有用戶的語義特征生成唯一排名列表;第二種模型稱為HUP-r,是對(duì)每個(gè)語義集群Cr輸出一個(gè)排名列表。
HUP
混合推薦系統(tǒng)利用用戶ui的特征屬性返回唯一的排序列表。這種模型比較了當(dāng)前用戶和其他用戶的興趣,并考慮了他們之間的相似性,衡量了所有用戶對(duì)不同閱讀材料的興趣度,以及隨著用戶模型的更新,用戶對(duì)閱讀材料興趣的銳減度。同時(shí),還比較了每個(gè)概念集群來衡量閱讀材料和集群的相似性。我們還結(jié)合了兩種方法在不同的語義層中推薦閱讀材料,一種是根據(jù)閱讀材料的特征,一種是根據(jù)用戶偏好間的聯(lián)系。
閱讀材料dk的偏好值是每個(gè)概念集群中用戶與其他用戶的相似性的間接偏好加權(quán)和,計(jì)算公式如下:
HUP-r
混合推薦系統(tǒng)通過比較每個(gè)社區(qū)網(wǎng)絡(luò)層用戶和閱讀材料的相似性,預(yù)測(cè)用戶的偏好值,對(duì)每個(gè)社區(qū)返回一個(gè)排名列表。排名靠前的是集群中具有最大相似性的用戶。計(jì)算公式如下所示:
該計(jì)算公式不考慮閱讀材料與社區(qū)Cr的關(guān)系,r是sim (ui,Cr)的最大值。
與HUP模型類似,該模型利用了用戶興趣之間的關(guān)系和用戶感興趣的閱讀材料。不同的是該模型在不同的社區(qū)層分別進(jìn)行推薦。如果當(dāng)前語義社區(qū)能夠較好的識(shí)別某個(gè)閱讀材料,與整體推薦模型相比,該模型會(huì)得到更好的精度召回率。
(2)基于項(xiàng)目的混合推薦模型
該模型忽略用戶的興趣特征,適用于沒有興趣偏好的新用戶或用戶的興趣偏好過于籠統(tǒng),不利于用戶與社區(qū)網(wǎng)絡(luò)比較的情況。
HIP
混合推薦系統(tǒng)忽略用戶的特征屬性并返回唯一的有序列表。閱讀材料dk的排名由它與社區(qū)的相似性、它與每個(gè)社區(qū)中用戶特征的相似性確定。由于當(dāng)前用戶與其他用戶之間沒有聯(lián)系,每個(gè)用戶特征的影響因子由用戶數(shù)量M平均。
該模型適用于當(dāng)前用戶特征屬性不明確的情況下,在不同語義社區(qū)層中收集所有用戶對(duì)閱讀材料的滿意度。雖然在精度召回率方面不如前面兩種模型,但這個(gè)相較于之前需要手動(dòng)配置用戶特征屬性,已經(jīng)得到了明顯的改善。
HIP-r
混合推薦系統(tǒng)忽略用戶的特征屬性,每個(gè)社區(qū)返回一個(gè)有序推薦列表,與社區(qū)相似度最接近的用戶排在前面。用戶和閱讀材料語義屬性相似性的計(jì)算表示如下:
這個(gè)模型是最簡(jiǎn)單的,它只衡量了每個(gè)社區(qū)中最適合用戶的閱讀材料對(duì)象,代表了基于項(xiàng)目對(duì)象的協(xié)同過濾系統(tǒng)。
文章選擇來自新浪微博(http://weibo.com)和豆瓣的數(shù)據(jù)集,驗(yàn)證所提出框架的有效性。在新浪微博數(shù)以億計(jì)的注冊(cè)用戶中,選擇上海理工大學(xué)圖書館作為數(shù)據(jù)收集的種子,通過新浪微博開放的API獲取關(guān)注用戶,剔除垃圾數(shù)據(jù),只保留上海理工大學(xué)圖書館資源對(duì)其開放的粉絲數(shù)據(jù)。由于用戶發(fā)布的帖子數(shù)據(jù)形式各樣,在剩余的用戶中,再挑選2000位用戶,且這2000位用戶發(fā)布的微博帖子原創(chuàng)性文字較多,更新頻率高。抽取其近3個(gè)月的微博數(shù)據(jù),進(jìn)行分詞和關(guān)鍵詞過濾這兩個(gè)預(yù)處理過程。本文采用中國(guó)科學(xué)院的漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)對(duì)微博文本進(jìn)行分詞,其支持中文分詞、詞性標(biāo)注等功能,分詞準(zhǔn)確度可達(dá)到98.45%,滿足實(shí)驗(yàn)要求。我們根據(jù)豆瓣的分類標(biāo)簽,將主題屬性定義為文學(xué)、流行、文化、生活、經(jīng)管、科技,每個(gè)主題屬性又包含不同的項(xiàng)目和關(guān)鍵詞。
本文利用自然語言處理工具,抽取微博關(guān)鍵詞并度量其權(quán)重作為用戶的偏好評(píng)分,使用向量空間模型[22]構(gòu)建用戶偏好評(píng)分向量模型,并計(jì)算用戶之間的相似關(guān)系。表1表示了20組用戶(每組100個(gè)用戶)對(duì)不同主題屬性的偏好程度。
表2顯示了主題屬性相關(guān)的初始概念,需要注意的是用戶的主題屬性不一定包含它下面的所有概念。
表1 不同用戶對(duì)不同主題屬性的興趣度及其預(yù)期聚類
表2 參考主題屬性的初始概念
接下來,利用這20組用戶的特征屬性測(cè)試所提出方法的有效性。首先,通過CSA策略擴(kuò)展新的概念,增加概念領(lǐng)域并促進(jìn)用戶聚類。文中采用基于歐式距離計(jì)算概念相似度和基于平均連鎖法測(cè)量聚類相似度的分層策略。表3總結(jié)了用戶實(shí)際分配到的聚類及相應(yīng)的相似性。實(shí)驗(yàn)表明,獲取到的結(jié)果與表1中列出的期望值是完全重合的,所有的用戶均被分配到了與其相關(guān)的聚類中,用戶的相似性值反映了它們與每個(gè)聚類的相似度。
表3 用戶與社區(qū)聚類的相似度
概念形成之后,每組用戶被劃分到特定的社區(qū),利用信息檢索模型獲得了與社區(qū)聚類相關(guān)的概念內(nèi)容,并將其分組,如表4所示。從表中可以看出,獲得的大多數(shù)概念內(nèi)容不包含在最初的用戶概念領(lǐng)域中,但對(duì)聚類的創(chuàng)建有很大的幫助。
表4 聚類及所屬概念領(lǐng)域
通過計(jì)算三個(gè)社區(qū)聚類中的用戶的平均精確度/召回度曲線,我們總結(jié)出了四種不同的模型,如圖6所示。從實(shí)驗(yàn)結(jié)果中可以看出:根據(jù)不同社區(qū)返回特定推薦列表模型(HUP-r和HIP-r)的精確率和召回率都優(yōu)于只返回一個(gè)推薦列表的模型;利用社區(qū)網(wǎng)絡(luò)中用戶關(guān)系(HUP 和HUP-r)的模型與沒有使用用戶特征屬性相似度的模型相比,結(jié)果得到了明顯的提升。
圖6 社區(qū)聚類中用戶的精確度和召回度
本文提出了基于微博的個(gè)性化信息推薦系統(tǒng),該系統(tǒng)可以自動(dòng)識(shí)別和適應(yīng)用戶微博信息的變化,建立基于本體的個(gè)性化興趣模型,形成多層語義社區(qū)網(wǎng)絡(luò),并提出了基于用戶的混合過濾推薦模型和基于項(xiàng)目的混合過濾推薦模型,每種推薦模型分別有兩種預(yù)測(cè)方法,對(duì)用戶進(jìn)行閱讀材料的智能推薦。最后,通過收集新浪微博數(shù)據(jù)和豆瓣數(shù)據(jù),對(duì)所提出的系統(tǒng)進(jìn)行了有效性的驗(yàn)證。實(shí)驗(yàn)表明,該推薦系統(tǒng)可以自動(dòng)識(shí)別用戶的興趣特征,用戶不需要手動(dòng)標(biāo)注其特征。此外,系統(tǒng)能夠自動(dòng)適應(yīng)用戶興趣的變化,及時(shí)調(diào)整個(gè)性化推薦模型。
研究結(jié)果對(duì)數(shù)字化圖書館的發(fā)展有啟示意義:(1)圖書館應(yīng)重視新興媒體對(duì)讀者的影響,與新媒體融合,讓兩者相互激發(fā),利用微博數(shù)據(jù)提高對(duì)用戶興趣偏好的自動(dòng)化識(shí)別;(2)圖書館作為海量信息的提供者,應(yīng)當(dāng)依據(jù)用戶興趣偏好的變化,構(gòu)建針對(duì)用戶的偏好空間,提供個(gè)性化的服務(wù)。未來的研究工作將從動(dòng)態(tài)視角處理用戶社區(qū)網(wǎng)絡(luò)關(guān)系,而不是作為靜態(tài)網(wǎng)絡(luò),進(jìn)一步提高個(gè)性化推薦的多樣性和效率。
[1] Ioannidis Y, Kourtrika G. Digital Library Information- Technology Infrastructure [J]. INTERNATIONAL JOURNAL ON DIGITAL LIBRARIES, 2005, 5(4):266.
[2] 張富國(guó),徐升華.基于信任的電子商務(wù)推薦多樣性研究[J].情報(bào)學(xué)報(bào),2010, 29(2):350-355.
[3] Zhang Fuzhi,Bai Long,Gao Feng.A User Trust-Based Collaborative Filtering Recommendation Algorithm[J].LECTURE NOTES IN COMPUTER SCIENCE, 2009(5927):411-424.
[4] Bellogin A,Cantador I,Pablo C. A Study of Heterogeneity in Recommendations for a Social Music Service[C]. PROCEEDINGS OF THE 1st INTERNATIONAL WORKSHOP ON INFORMATION HETEROGENEITY AND FUSION IN RECOMMENDER SYSTEMS. New York: ACM,2010:1-8.
[5] Phelan O, McCarthy K, Bennett M, et al. Terms of a Feather: Content-Based News Recommendation and Discovery Using Twitter [J].LECTRUE NOTES IN COMPUTER SCIENCE, 2011(6611):448-459.
[6] Su Mon Kywe, Ee-Peng Lim, FeidaZhu.A Survey of Recommender Systems in Twitter [J]. LECTRUE NOTES IN COMPUTER SCIENCE, 2012(7710):420-433.
[7]曾琦.基于微博的圖書館資源推薦系統(tǒng)設(shè)計(jì)[J].圖書館學(xué)研究,2012(14):25-28.
[8] 蔡淑琴,袁乾,周鵬.基于社會(huì)網(wǎng)絡(luò)關(guān)系的微博個(gè)性化推薦模型[J].情報(bào)學(xué)報(bào),2014,33(5): 520-529.
[9] Vallet D, Castells P, Fernández M,et al. Personalized Content Retrieval in Context Using Ontological Knowledge[C].IEEE Transactions on Circuits and Systems forVideo Technology, Special Issue on "TheConvergence of Knowledge Engineering, Semanticsand Signal Processing in Audiovisual InformationRetrieval", 2007,17(3):336-346.
[10] Vallet D, Mylonas P, Corella M A,et al. A Semantically-Enhanced Personalization Framework for Knowledge-Driven Media Services[C].In Proceedings of IADIS International Conference on WWW / Internet(ICWI 2005), Lisbon, Portugal, 2005.
[11] Hawalah A, Fasli M. Using User Personalized Ontological Profile to Infer Semantic Knowledge for Personalized Recommendation [J].LECTRUE NOTES IN BUSINESS INFORMATION PROCESSING, 2011(85):282-295
[12] Cohen P R,Kjeldsen R. Information Retrieval by Constrained Spreading Activation in Semantic Networks[J]. INFORMATION PROCESSING AND MANAGEMENT, 1987, 23(2):255-268.
[13] Crestani F,Lee P L.Searching the Web by Constrained Spreading Activation [J]. INFORMATION PROCESSING & MANAGEMENT, 2000, 36(4):585-605.
[14] Liu H, Maes P, Davenport G. Unraveling the Taste Fabric of Social Networks [J]. INTERNATIONAL JOURNAL ON SEMANTIC WEB AND INFORMATION SYSTEMS, 2006, 2 (1):42-71.
[15] Balabanovic M, Shoham Y.Content-Based Collaborative Recommendation [J]. COMMUNICATIONS OF THE ACM, 1997, 40(3):66-72.
[16] Linden G,Smith B, York J. Amazon.com Recommendations: Itemto-Item CollaborativeFiltering[J]. IEEE INTERNET COMPTING, 2003, 7(1):76-80.
[17] Montaner M, López B, Lluís de la Rosa, J.Taxonomy of Recommender Agents on theInternet[J]. ARTIFICIAL INTELLIGENCE REVIEW, 2003, 19(4): 285-330.
[18] Sarwar B M, et al. Item-Based Collaborative Filtering Recommendation Algorithms[C].WWW '01 Proceedings of the 10th international conference on World Wide Web, 2001:285-295.
[19] Duda R O,Hart P,Stork D G. Pattern Classification[M]. Wiley-Interscience, 2001.
[20] Ungar L, Foster D. Clustering Methods for Collaborative Filtering[C]. Proceedings of the Workshop on Recommendation Systems at the 15th National Conference on Artificial Intelligence, 1998.
[21] 蔣萍,崔志明.智能搜索引擎中用戶興趣模型分析與研究[J].微電子學(xué)與計(jì)算機(jī),2004,21(11):24-26.
[22] Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing [J].COMMUNICATIONS OF THE ACM, 1975, 18(11):613-620.
Microblog-based Personalized Recommendation for Intelligent Digital Library
HUANG Ting
(University of Shanghai for Science and Technology Library, Shanghai 200093, China)
As the traditional library can't provide accurate and diverse personalized service, we propose a personalized information recommendation model based on micro-blog. By mining microblog users' text messages and decrypting their common p
of concepts space based on ontology, we build a multilayered semantic social network model. The applicability of the proposed model to a hybrid collaborative filtering system is empirically suitable to be used in personalized recommendation of intelligent digital library.
Microblog; Ontology Concept; Multilayered Semantic Social Network; Intelligent Digital Library; Personalized Recommendation
G250.76
10.3772/j.issn.1673-2286.2015.11.009
黃婷,女,1987年生,研究方向:信息檢索、數(shù)據(jù)挖掘,E-mail:huangtingusst@163.com。
2015-09-09)