趙凱華徐建民鮑彩倩
(河北大學(xué) 網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北 保定 071002)
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,以微博為代表的在線社交網(wǎng)絡(luò)平臺(tái)已經(jīng)成為人們獲取信息、進(jìn)行日常交流的重要渠道[1].截至2021年9月,微博月活躍用戶達(dá)到5.73億[2],龐大的用戶群體導(dǎo)致微博信息爆炸性增長(zhǎng),信息過(guò)載和知識(shí)缺乏問(wèn)題越發(fā)突出,用戶獲取感興趣微博難度增大,因此向用戶推薦高質(zhì)量信息,滿足用戶的信息需求就顯得尤為重要[3-4].
近年來(lái),微博個(gè)性化推薦多數(shù)依據(jù)用戶發(fā)布的微博或標(biāo)簽來(lái)實(shí)現(xiàn),Wang等[5]通過(guò)用戶發(fā)布微博獲取用戶標(biāo)簽,構(gòu)建用戶興趣模型,并向用戶進(jìn)行微博推薦.馬慧芳等[6]利用用戶發(fā)布微博構(gòu)建超圖,通過(guò)隨機(jī)游走獲得一定關(guān)鍵詞來(lái)擴(kuò)充標(biāo)簽,根據(jù)標(biāo)簽的概率相關(guān)性更新用戶-標(biāo)簽矩陣構(gòu)建用戶興趣模型,并應(yīng)用于微博推薦中.Sun等[7]使用實(shí)體抽取方法,從用戶的發(fā)布微博中抽取部分能夠代表用戶個(gè)性化偏好的興趣關(guān)鍵詞來(lái)實(shí)現(xiàn)推薦.王戰(zhàn)平等[8]對(duì)用戶興趣標(biāo)簽進(jìn)行語(yǔ)義映射和相關(guān)性挖掘,進(jìn)而實(shí)現(xiàn)微博推薦.上述方法可以在一定程度上提高微博推薦效果,但微博作為一種短文本[9],語(yǔ)言靈活、不規(guī)范,所含有效信息較少,且微博中用戶標(biāo)簽偏少[10].因此,僅利用用戶發(fā)布微博或標(biāo)簽進(jìn)行推薦,易出現(xiàn)因數(shù)據(jù)稀疏而導(dǎo)致推薦效果不理想的情況.考慮到組合不同證據(jù)提高系統(tǒng)性能在信息檢索系統(tǒng)中已經(jīng)得到證明[11]以及信息檢索和個(gè)性化推薦固有的相似性,可以結(jié)合與用戶相關(guān)的證據(jù)信息來(lái)緩解數(shù)據(jù)稀疏問(wèn)題,改善推薦效果.在微博推薦中,一些研究者將用戶關(guān)系或微博特征等因素作為證據(jù)實(shí)現(xiàn)推薦,以有效提高推薦效果.Li等[12]根據(jù)用戶標(biāo)簽獲得用戶興趣,結(jié)合地域和年齡等因素對(duì)相似用戶進(jìn)行聚類,將近鄰用戶發(fā)布的微博推薦給目標(biāo)用戶.Zhang等[13]根據(jù)用戶歷史瀏覽話題數(shù)據(jù)得到的用戶興趣向量,對(duì)用戶進(jìn)行聚類,將微博話題與核心用戶的興趣相比來(lái)篩選微博話題,繼而推薦給用戶.Kim 等[14]提出一種概率生成模型,依據(jù)用戶文本信息和用戶關(guān)系對(duì)待推薦微博進(jìn)行排序,將Top-k條結(jié)果推薦給用戶.劉宇東等[15]通過(guò)用戶發(fā)布或轉(zhuǎn)發(fā)的微博來(lái)提取用戶興趣,使用Word2vec計(jì)算得到用戶與微博文本的相似度,結(jié)合微博特征對(duì)微博進(jìn)行排序來(lái)實(shí)現(xiàn)對(duì)用戶的微博推薦.陳杰等[16]提出基于用戶興趣和社交網(wǎng)絡(luò)的微博推薦方法,將待推薦微博進(jìn)行聚類分組,根據(jù)用戶興趣為用戶選擇最匹配的微博組,進(jìn)而利用用戶與組內(nèi)的微博發(fā)布者間的信任度和相似度來(lái)實(shí)現(xiàn)推薦.韓康康等[17]利用用戶間的信任關(guān)系來(lái)改進(jìn)基于內(nèi)容的微博推薦方法,并在真實(shí)數(shù)據(jù)集上驗(yàn)證了該方法可以改善推薦效果.上述方法多采用線性組合的形式補(bǔ)充證據(jù)信息向用戶進(jìn)行推薦,但仍存在推薦過(guò)程不夠直觀、組合證據(jù)方式單一、可擴(kuò)展性不理想的局限性.
信念網(wǎng)絡(luò)(又稱貝葉斯網(wǎng)絡(luò))以貝葉斯定理為理論基礎(chǔ),通過(guò)圖形網(wǎng)絡(luò)直觀地揭示變量間的概率關(guān)系,可以結(jié)合不同的證據(jù)信息來(lái)提高系統(tǒng)性能[18].徐建民[19]使用信念網(wǎng)絡(luò)來(lái)應(yīng)對(duì)查詢語(yǔ)句簡(jiǎn)短帶來(lái)的不確定性問(wèn)題,并組合同義詞證據(jù)來(lái)提高檢索性能.Pan等[20]將信念網(wǎng)絡(luò)應(yīng)用到電子商務(wù)推薦中,使用貝葉斯網(wǎng)絡(luò)模型來(lái)描述協(xié)同過(guò)濾算法,根據(jù)用戶的歷史行為信息及項(xiàng)目相關(guān)性分別構(gòu)建用戶相似度模型和項(xiàng)目相似度模型,結(jié)合2種模型預(yù)測(cè)用戶對(duì)項(xiàng)目的偏好,并結(jié)合用戶的反饋信息更新用戶對(duì)項(xiàng)目的偏好,提高推薦質(zhì)量.Huang等[21]提出一種應(yīng)用于推薦系統(tǒng)的概率推理模型,使用結(jié)合專家信息的信念網(wǎng)絡(luò)模型來(lái)推薦項(xiàng)目,并在GPS和MovieLens數(shù)據(jù)集上驗(yàn)證了加入證據(jù)信息可以提高推薦預(yù)測(cè).通過(guò)分析上述研究發(fā)現(xiàn),在個(gè)性化服務(wù)中,可以將文檔或用戶的已知信息數(shù)據(jù)看作信念網(wǎng)絡(luò)的先驗(yàn)知識(shí),將文檔或用戶的潛在特征作為信念網(wǎng)絡(luò)中待求解的后驗(yàn)概率,利用概率推理來(lái)完成個(gè)性化服務(wù)的概率計(jì)算.信念網(wǎng)絡(luò)與個(gè)性化服務(wù)間的內(nèi)在思想聯(lián)系,證明了將信念網(wǎng)絡(luò)應(yīng)用到個(gè)性化服務(wù)中的可行性.然而,目前尚未有將其應(yīng)用于微博推薦的研究.
本文將信念網(wǎng)絡(luò)引入到微博推薦中,構(gòu)建一個(gè)基本推薦模型,該模型具有便于組合證據(jù)的優(yōu)點(diǎn),以此為基礎(chǔ),依據(jù)用戶的交互微博(界定為用戶點(diǎn)贊、轉(zhuǎn)發(fā)和評(píng)論的微博)擴(kuò)展基本模型.本文的主要貢獻(xiàn)如下:1)基于貝葉斯條件概率計(jì)算微博與用戶的相關(guān)度,結(jié)合微博推薦相關(guān)知識(shí),構(gòu)建基本信念網(wǎng)絡(luò)推薦模型(basic belief network recommendation model,BBNR).該模型作為一個(gè)通用的推薦框架,通過(guò)對(duì)推薦過(guò)程中的概率函數(shù)進(jìn)行合理定義,可以將不同模型(如布爾模型、概率模型和向量空間模型)的特點(diǎn)借助該框架表示出來(lái).同時(shí)基本模型框架靈活,可以方便地組合證據(jù)信息來(lái)解決數(shù)據(jù)稀疏問(wèn)題,提高推薦效果.2)利用基本模型方便組合不同證據(jù)的特點(diǎn),將交互微博作為證據(jù),構(gòu)建融合用戶交互微博的擴(kuò)展模型(extended model with user interaction microblogs,EUIM),在緩解微博數(shù)據(jù)缺失問(wèn)題的同時(shí),提升推薦效果.
設(shè)目標(biāo)用戶集合為U={uj|j=1,2,…,n},其中每個(gè)用戶都可以通過(guò)一組能夠體現(xiàn)用戶興趣的特征詞來(lái)表示,稱為興趣特征詞.所有用戶的興趣特征詞集合為C={cl|l=1,2,…,t},t為所有興趣特征詞的數(shù)目,cl表示第l個(gè)興趣特征詞.
1)興趣特征詞cl稱為基本概念,與一個(gè)二值隨機(jī)變量(亦用cl表示)相關(guān).
2)c為C的一個(gè)子集,稱為概念.由于用戶可以由一組與其相關(guān)的興趣特征詞表示,因此用戶uj可以看作是C中的一個(gè)概念.同樣,微博b經(jīng)過(guò)分詞,得到部分關(guān)鍵詞,亦可用相關(guān)的興趣特征詞來(lái)表示,因此微博b也可以看作是C中的一個(gè)概念.
3)基本概念集合C構(gòu)成本文所考慮的樣本空間,稱為概念空間.
借鑒文獻(xiàn)[22],基本信念網(wǎng)絡(luò)推薦模型(BBNR)的拓?fù)浣Y(jié)構(gòu)如圖1所示.
1)模型包括微博節(jié)點(diǎn)b、興趣特征詞節(jié)點(diǎn)cl和用戶節(jié)點(diǎn)uj.節(jié)點(diǎn)b、cl和uj均與一個(gè)二值隨機(jī)變量(分別用b、cl和uj表示)相關(guān).當(dāng)cl為1時(shí),表示cl包含在概念c中;當(dāng)b或uj為1時(shí),表示b或uj為概念空間的一個(gè)概念.
2)若興趣特征詞cl屬于組成微博b的一個(gè)關(guān)鍵詞,則有一條弧從節(jié)點(diǎn)cl指向節(jié)點(diǎn)b.若興趣特征詞cl用來(lái)描述用戶uj的興趣特征,則有一條弧從節(jié)點(diǎn)cl指向節(jié)點(diǎn)uj.
3)推薦模型假設(shè)興趣特征詞節(jié)點(diǎn)之間相互獨(dú)立,用戶節(jié)點(diǎn)之間相互獨(dú)立,因此同一層節(jié)點(diǎn)之間沒(méi)有弧.
微博推薦就是將符合用戶興趣取向的微博推薦給用戶,其實(shí)質(zhì)是用戶興趣與微博相關(guān)性匹配問(wèn)題.由于用戶與微博均可表示為概念空間C的一個(gè)概念,因此可以將用戶興趣與微博的匹配過(guò)程看作為概念匹配過(guò)程.而概念空間中的任一概念d對(duì)概念空間C的匹配程度,即覆蓋程度通過(guò)式(1)可得
在微博平臺(tái)中,用戶除發(fā)布微博外,還可以對(duì)平臺(tái)中感興趣的微博進(jìn)行轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊的交互操作,這些交互操作產(chǎn)生的信息數(shù)據(jù)豐富,能夠在一定程度上反映用戶的興趣取向,對(duì)于提高推薦性能具有重要意義[23-24].本文將用戶uj曾經(jīng)交互操作過(guò)的微博稱為uj的交互微博,將交互微博作為證據(jù)整合到基本推薦模型中,構(gòu)建融合用戶交互微博的擴(kuò)展模型(EUIM).擴(kuò)展模型同樣包括拓?fù)浣Y(jié)構(gòu)和概率推導(dǎo)2部分.
融合用戶交互微博的擴(kuò)展模型(EUIM)的拓?fù)浣Y(jié)構(gòu)如圖2所示.
圖2 EUIM 模型Fig.2 EUIM model
1)模型中左側(cè)部分為基于興趣特征詞證據(jù)的基本網(wǎng)絡(luò),bv為當(dāng)前待評(píng)估微博.右側(cè)部分為基于交互微博證據(jù)的擴(kuò)展網(wǎng)絡(luò),令P={p1,p2,…,pi,…,pm},pi(i=1,2,…,m)表示交互微博;p1,p2,…,pi,…,pm均為交互微博概念空間P中的一個(gè)基本概念,因此這些微博節(jié)點(diǎn)都與一個(gè)二值隨機(jī)變量相關(guān)聯(lián),本文將P中的任一概念記為p.
2)微博節(jié)點(diǎn)bv和be是待評(píng)估微博b在左右兩側(cè)網(wǎng)絡(luò)中的不同表示,用戶節(jié)點(diǎn)ucj和upj是對(duì)同一用戶uj在左右兩側(cè)網(wǎng)絡(luò)中的不同表示,這種表示形式是為了方便建模.
3)若pi與be至少包含1個(gè)共同興趣特征詞,則認(rèn)為pi與be相關(guān),就有1條弧從pi指向be.節(jié)點(diǎn)bv和節(jié)點(diǎn)be通過(guò)合取操作將當(dāng)前待評(píng)估微博與交互微博所提供的證據(jù)信息組合起來(lái).
4)若用戶upj對(duì)微博pi有過(guò)交互操作,則有1條弧從pi指向用戶節(jié)點(diǎn)upj.upj產(chǎn)生的證據(jù)信息與ucj產(chǎn)生的證據(jù)信息通過(guò)and或者or方式進(jìn)行組合來(lái)產(chǎn)生用戶節(jié)點(diǎn)uj的最終排序.
擴(kuò)展模型仍采用P(uj|b)來(lái)實(shí)現(xiàn)對(duì)目標(biāo)用戶的排序.在擴(kuò)展模型中,用戶節(jié)點(diǎn)產(chǎn)生的證據(jù)信息有2種:基于興趣特征詞的證據(jù),用P(ucj|c)表示;基于交互微博的證據(jù),用P(upj|p)表示,2種證據(jù)的取值范圍均為[0,1].擴(kuò)展模型中對(duì)于用戶節(jié)點(diǎn)ucj和upj產(chǎn)生的證據(jù)信息的組合方式有合取(and)和析取(or)2種[25].2種組合方式得到的概率推導(dǎo)過(guò)程如下.
1)and:采用and方式組合證據(jù)時(shí),對(duì)于用戶的排序取決于2種證據(jù)的共同作用,當(dāng)關(guān)于用戶的興趣特征詞證據(jù)值和交互微博證據(jù)值都較大時(shí),該用戶的排序要靠前,其排序如式(10)所示.
在式(12)或(14)中,只有當(dāng)pi=1時(shí),才會(huì)將每個(gè)交互微博pi對(duì)當(dāng)前排序的影響考慮在內(nèi).在推導(dǎo)過(guò)程中,通過(guò)設(shè)置閾值?對(duì)待評(píng)估微博與用戶的相關(guān)度進(jìn)行篩選,當(dāng)P(uj|b)>?時(shí),則認(rèn)為推薦成功.
實(shí)驗(yàn)通過(guò)編程爬取了具有關(guān)注關(guān)系的889 名用戶及其自2019 年1 月1 日至2019 年4 月1 日的192 729條發(fā)布、點(diǎn)贊、轉(zhuǎn)發(fā)和評(píng)論的微博,為了驗(yàn)證推薦模型的準(zhǔn)確性,將每個(gè)用戶的微博數(shù)據(jù)按9∶1比例劃分為訓(xùn)練集和測(cè)試集2部分,其中訓(xùn)練集有174 834條微博,測(cè)試集有17 895條微博.
本文采用準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-measure)和平均準(zhǔn)確率均值(mean average precision,MAP)作為評(píng)價(jià)指標(biāo).準(zhǔn)確率表示在Top-k條微博中用戶感興趣微博所占的比例,如式(18)所示.召回率表示用戶感興趣的微博被推薦的比例,如式(19)所示.F-measure指標(biāo)同時(shí)考慮了準(zhǔn)確率和召回率[26],可以較為全面地評(píng)估算法的性能,如式(20)所示.
3.3.1 用戶興趣特征詞數(shù)量確定
對(duì)于用戶發(fā)布微博采用jieba分詞進(jìn)行分詞處理,保留名詞作為用戶的候選興趣特征詞,并使用TF-IDF方法對(duì)名詞進(jìn)行排序.由于興趣特征詞的數(shù)目的選取直接影響推薦質(zhì)量,因此通過(guò)實(shí)驗(yàn)分析來(lái)確定用戶的興趣特征詞數(shù)目.圖3為興趣特征詞數(shù)量分別為10、15、20和25時(shí)所對(duì)應(yīng)的準(zhǔn)確率和召回率的變化曲線.
圖3 興趣特征詞數(shù)量對(duì)推薦性能的影響Fig.3 Influence of the number of interest feature words on recommendation performance
由圖3可知,當(dāng)興趣特征詞數(shù)量為20時(shí),推薦的準(zhǔn)確率、召回率和F值達(dá)到最優(yōu).分析原因發(fā)現(xiàn),當(dāng)興趣特征詞較少時(shí),對(duì)于用戶興趣的描述不夠準(zhǔn)確,當(dāng)興趣特征詞較多時(shí),容易引入噪聲信息,這2種情況都會(huì)使推薦的準(zhǔn)確率和召回率下降.因此,本文選取權(quán)重高的前20個(gè)特征詞作為用戶的興趣特征詞.例如用戶“饞**橙”的興趣特征詞如表1所示.
從格律上看,44字的《卜算子》句式為5575,5575。從平仄看,◎仄◎平平,◎仄◎平仄(注:◎表示可平可仄)。與五言詩(shī)格律相仿。從起句方式看,多用對(duì)偶句。從表達(dá)功能上看,有“情起”式、“景起”式、“事起”式。
表1 用戶“饞**橙”的興趣特征詞Tab.1 Interest feature words of“饞**橙”
數(shù)據(jù)集中889名用戶的興趣特征詞經(jīng)匯總和去重處理后,共得到8 591個(gè)興趣特征詞,部分興趣特征詞如表2所示.
表2 部分興趣特征詞Tab.2 Part of the interest feature words
3.3.2 閾值?的確定
閾值?的確定是衡量推薦是否成功的重要參數(shù),本文借鑒文獻(xiàn)[27]中人工構(gòu)建相關(guān)判斷集的方法來(lái)判斷目標(biāo)用戶對(duì)待評(píng)估微博的感興趣程度,繼而確定用戶的興趣微博集.具體評(píng)分標(biāo)準(zhǔn)為:很不喜歡評(píng)分為0~0.20分;有些不喜歡評(píng)分為0.21~0.40分;喜歡評(píng)分為0.41~0.60分;很喜歡評(píng)分為0.61~0.80分;特別喜歡評(píng)分為0.81~1.00分;將專家評(píng)分在0.60分以上的微博視為用戶的興趣微博集.當(dāng)P(uj|b)>?時(shí),則認(rèn)為該條微博是用戶感興趣的,故閾值?取值為0.60.
3.3.3 實(shí)驗(yàn)結(jié)果及分析
本文設(shè)置了3組實(shí)驗(yàn):1)用戶交互操作權(quán)重αi的確定;2)BBNR 模型和EUIM 模型的推薦性能比較;3)與現(xiàn)有推薦方法比較.表3為實(shí)驗(yàn)所設(shè)計(jì)的推薦方法簡(jiǎn)寫(xiě)及其解釋.
表3 推薦方法簡(jiǎn)寫(xiě)及其說(shuō)明Tab.3 Abbreviations and describe of recommendation methods
1)用戶交互操作權(quán)重αi的確定
在表征用戶對(duì)微博的感興趣程度方面,3種用戶交互操作的貢獻(xiàn)程度是不同的,其重要性等級(jí)為:轉(zhuǎn)發(fā)>評(píng)論>點(diǎn)贊,利用層次分析法,對(duì)用戶轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊的交互操作權(quán)重α1、α2、α3進(jìn)行兩兩比較,構(gòu)造的判定矩陣如表4所示.
表4 用戶交互操作權(quán)重判定矩陣Tab.4 Decision matrix of user interaction weight
該矩陣的最大特征值為3.003 7,對(duì)應(yīng)的特征向量為μ=(0.871 1,0.462 9,0.164),將該特征向量進(jìn)行標(biāo)準(zhǔn)化操作,得到的向量為μ′=(0.581 5,0.309,0.109 5),因此轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊的權(quán)重分別為α1=0.581 5,α2=0.309,α3=0.109 5.
2)BBNR 模型和EUIM 模型的推薦性能比較
對(duì)構(gòu)建的BBNR 模型和EUIM 模型的性能比較,考慮到微博每頁(yè)的微博數(shù)為15條,而用戶會(huì)仔細(xì)瀏覽的推薦頁(yè)數(shù)一般為2頁(yè),因此本文選擇比較模型在Top-30結(jié)果下的推薦性能.表5為2種模型的3種推薦策略在Top-30推薦結(jié)果下的準(zhǔn)確率、召回率和F值.
表5 本文推薦策略的性能比較Tab.5 Performance comparison of recommendation strategies in this paper
如表5所示,EUIM 模型較BBNR 模型來(lái)說(shuō),準(zhǔn)確率至少提高了約5%,召回率至少提高了約4.5%,F值至少提高了約4.9%.分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),結(jié)合用戶交互微博作為擴(kuò)展證據(jù),可以有效解決微博中不活躍用戶的數(shù)據(jù)稀疏問(wèn)題,提高推薦性能.其中,在EUIM 模型的2種組合推薦方法中,and方法的準(zhǔn)確率要高于or方法,這是由于在and方法中,2種證據(jù)共同作用,對(duì)于只符合1種證據(jù)要求的微博起到過(guò)濾的作用,必須2種證據(jù)概率值都較大,推薦給用戶的可能性才會(huì)大,因此在提高推薦的準(zhǔn)確性方面具有較好的改善效果;而or方法的召回率要高于and方法,這是由于在or方法中,有1個(gè)證據(jù)較大,則其排序就會(huì)靠前,對(duì)于推薦的準(zhǔn)確性有一定的影響,但能夠做到為用戶推薦更加多元化的符合用戶興趣的微博,提高微博推薦的多樣性.由此可見(jiàn),2種組合方式適用于2種不同的人群:當(dāng)用戶為不活躍用戶,發(fā)布微博較少,用戶興趣不明顯的情況下,可以使用or組合方式,為用戶提供盡可能多的選擇;當(dāng)用戶微博數(shù)據(jù)充足的情況下,可以使用and組合方式,為用戶較為準(zhǔn)確地定位到感興趣微博.
3)不同推薦方法的比較
該實(shí)驗(yàn)將基于標(biāo)簽的微博推薦方法MCPRM-STM、基于用戶聚類的微博推薦方法RA-CD 和基于瀏覽數(shù)據(jù)的微博推薦方法KFUS作為對(duì)比實(shí)驗(yàn),以驗(yàn)證本文方法的推薦有效性.選擇上述3種推薦方法作為對(duì)比方法的原因是
①M(fèi)CPRM-STM 為使用用戶興趣標(biāo)簽的推薦方法,沒(méi)有引入證據(jù)信息.
②RA-CD 推薦方法考慮了用戶關(guān)系證據(jù).
③KFUS推薦方法使用用戶關(guān)系證據(jù)來(lái)完成推薦,未考慮用戶的發(fā)布微博.
本文的BBNR 方法通過(guò)用戶發(fā)布微博挖掘用戶興趣,實(shí)現(xiàn)了向量空間模型的排序結(jié)果,而EUIM-and和EUIM-or為通過(guò)用戶發(fā)布微博挖掘用戶興趣,采用用戶交互微博作為附加證據(jù)的推薦方法.圖4為不同推薦方法在Top-30推薦結(jié)果下的準(zhǔn)確率、召回率、F值和MAP值.
分析圖4可得:1)EUIM-and方法和EUIM-or方法的推薦性能明顯優(yōu)于BBNR 方法、KFUS 方法和MCPRM-STM 方法,較優(yōu)于RA-CD 方法.產(chǎn)生這種結(jié)果的原因:擴(kuò)展模型在使用用戶發(fā)布微博的基礎(chǔ)上,方便自然地組合用戶交互微博證據(jù)來(lái)支持推薦,并靈活使用組合方式,在緩解數(shù)據(jù)稀疏性的同時(shí),可以很好地改善推薦性能;而EUIM-and和EUIM-or的F值基本相等,這就說(shuō)明了擴(kuò)展模型在靈活采用2種組合方式滿足不同人群的信息需求的同時(shí),又能夠保證推薦性能,從而驗(yàn)證了使用本文模型組合證據(jù)來(lái)改善推薦效果的準(zhǔn)確性;2)BBNR 方法的準(zhǔn)確率、召回率和F值最低,這是因?yàn)樵撏扑]方法僅使用了用戶的發(fā)布微博來(lái)進(jìn)行推薦,數(shù)據(jù)稀疏導(dǎo)致推薦性能最差;3)MCPRM-STM 方法通過(guò)用戶發(fā)布微博獲取興趣標(biāo)簽,并使用加入了語(yǔ)義信息的用戶興趣標(biāo)簽進(jìn)行推薦,因而推薦性能優(yōu)于BBNR 方法;4)KFUS方法使用用戶的瀏覽數(shù)據(jù)挖掘用戶興趣,進(jìn)而結(jié)合用戶關(guān)系證據(jù)來(lái)進(jìn)行推薦,可以在一定程度上緩解數(shù)據(jù)稀疏問(wèn)題,提升推薦性能,但提升空間有限,分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),不是所有的用戶瀏覽數(shù)據(jù)都可以體現(xiàn)用戶的興趣,用戶的瀏覽數(shù)據(jù)中存在一部分干擾信息;5)RA-CD 方法的準(zhǔn)確率、召回率和F值略低于EUIM-and方法和EUIM-or方法,這是因?yàn)殡m然用戶背景信息可以用來(lái)挖掘用戶興趣,但多數(shù)用戶的背景信息是不完善的,可利用信息有限.
圖4 不同推薦方法的性能比較Fig.4 Performance comparison of different recommendation methods
在個(gè)性化推薦中,不僅需要衡量推薦方法的準(zhǔn)確性,還需要衡量推薦列表中用戶感興趣微博的排序合理性,對(duì)于用戶感興趣的微博,應(yīng)盡可能地靠前排序.因此,對(duì)圖4中6種推薦方法的MAP值進(jìn)行觀察發(fā)現(xiàn),EUIM-and方法的MAP值最高,其次為EUIM-or方法,說(shuō)明本文所提模型在微博推薦排序方面更為合理.
通過(guò)對(duì)上述的實(shí)驗(yàn)結(jié)果進(jìn)行分析可知,本文所提模型作為一個(gè)通用的推薦框架,能夠方便靈活地組合證據(jù)來(lái)提高微博推薦的準(zhǔn)確性;此外,使用語(yǔ)義信息或用戶關(guān)系也可以提高微博推薦的準(zhǔn)確性.
針對(duì)現(xiàn)有微博推薦方法或模型不便組合證據(jù)的問(wèn)題,將信念網(wǎng)絡(luò)應(yīng)用到微博推薦場(chǎng)景中,提出BBNR模型和EUIM 模型,通過(guò)計(jì)算微博與用戶的相關(guān)度來(lái)完成推薦,并在真實(shí)微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明了本文所構(gòu)建模型的有效性,為微博推薦的研究提供了新思路.與其他推薦方法相比,本文提出的信念網(wǎng)絡(luò)推薦模型能夠通過(guò)方便地組合證據(jù)來(lái)緩解數(shù)據(jù)稀疏性,并進(jìn)一步提高推薦性能,更好地滿足用戶的信息需求.在未來(lái)的工作中,可以考慮結(jié)合用戶關(guān)系或外部知識(shí)庫(kù)(如知識(shí)圖譜)擴(kuò)充語(yǔ)義等諸多證據(jù),實(shí)現(xiàn)更好的推薦效果;也可以考慮將該思想應(yīng)用到其他個(gè)性化推薦領(lǐng)域,如電影推薦、圖書(shū)推薦等,提升該領(lǐng)域的推薦性能.