吳曉桐 梁永全
摘? 要: 傳統(tǒng)推薦系統(tǒng)大多使用基于協(xié)同過濾的方法進(jìn)行推薦,然而在現(xiàn)實(shí)場景中,大多數(shù)用戶只對很少的項(xiàng)目進(jìn)行了評分,因?yàn)槿鄙贇v史評分?jǐn)?shù)據(jù)造成了冷啟動問題,導(dǎo)致協(xié)同過濾方法的推薦質(zhì)量不佳。本文使用豐富的評論數(shù)據(jù)挖掘用戶之間和項(xiàng)目之間的隱式鄰居關(guān)系,并聯(lián)合項(xiàng)目信譽(yù)問題建立基于評論數(shù)據(jù)的社交矩陣分解模型ReTOMF。實(shí)驗(yàn)表明,與對應(yīng)的其他推薦模型相比,ReTOMF展現(xiàn)了更好的推薦性能。
關(guān)鍵詞: 評論數(shù)據(jù);隱式鄰居關(guān)系;項(xiàng)目信譽(yù)
中圖分類號: TP311? ? 文獻(xiàn)標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.07.034
【Abstract】: Traditional recommendation systems mostly use collaborative filtering-based methods for recom-mendation. However, in real-life scenarios, most users only score very few items, because the lack of historical score data causes a cold start problem. This paper uses rich comment data to mine the implicit neighbor relationship, and combines project reputation to establish a social matrix decomposition model ReTOMF. Experiments show that ReTOMF exhibits better recommendation performance than the corresponding other recommended models.
【Key words】: Comment data; Implicit neighbor relationship; Project reputation
0? 引言
近年來,推薦系統(tǒng)越來越多的幫助用戶從大型資源集合里發(fā)現(xiàn)其感興趣的項(xiàng)目,用戶對項(xiàng)目的偏好用評分表示,并通過預(yù)測評分對用戶進(jìn)行個性化的推薦,傳統(tǒng)的推薦方法,例如矩陣分解,用戶和項(xiàng)目由低維潛在向量表示,并且偏好度由相關(guān)向量的乘積計算。但是這種顯示反饋在對用戶建模時經(jīng)常面臨冷啟動的問題,因此,很多研究者開始關(guān)注不同類型的隱式反饋,而評論數(shù)據(jù)是隱式反饋中最常見的數(shù)據(jù)資源之一。它可以比評分更加清晰的顯示出用戶對物品的偏好側(cè)重,對用戶進(jìn)行個性化推薦[1-3]。例如在音樂評論中,有些用戶關(guān)注的是歌曲風(fēng)格,有些用戶關(guān)注的是歌手,明確用戶的側(cè)重點(diǎn),可以在推薦過程中獲得更大的精度。但是,評論數(shù)
據(jù)并沒有被充分的利用,在不同平臺和系統(tǒng)中對評論數(shù)據(jù)建模也具有很大的挑戰(zhàn)性。
目前常用的推薦算法可以分為基于內(nèi)存的推薦算法和基于模型的推薦算法。基于模型的推薦算法可以很好的融合先驗(yàn)知識,現(xiàn)有的基于模型的算法的基本思路是從已有的評分矩陣中挖掘用戶和項(xiàng)目的潛在特征,并通過矩陣相乘的方法對缺失評分預(yù)測,這種方式已經(jīng)得到了廣泛的實(shí)踐[4]。但是這類推薦算法普遍基于一種假設(shè),既用戶之間的關(guān)系是相互獨(dú)立的,這種假設(shè)在很大一部分情況下是不符合實(shí)際情況的。所以,基于社會關(guān)系的推薦系統(tǒng)開始被更多研究者青睞。在社交平臺越來越流行的今天,社交關(guān)系信息更易獲取,雖然有些關(guān)系不能夠直接應(yīng)用于推薦系統(tǒng)中,但是我們可以挖掘隱式鄰居關(guān)系[5],用于表明用戶之間和物品之間的潛在相關(guān)關(guān)系。
在本文中,我們挖掘用戶之間和項(xiàng)目之間的隱式鄰居關(guān)系。研究表明,用戶之間的相似性來源于用戶之間相似的偏好,用戶的行為會受其直接鄰居的影響。通過用戶的歷史評分可以挖掘出用戶之間的相似性,但是評分?jǐn)?shù)據(jù)的稀疏性影響了推薦系統(tǒng)的性能,為了解決數(shù)據(jù)稀疏性問題,本文利用評論數(shù)據(jù)挖掘用戶之間和項(xiàng)目之間的隱式鄰居關(guān)系。
概率主題模型已成功應(yīng)用于許多文本挖掘任務(wù)[6-7]。這些模型的基本思想是使用K個主題的有限混合模型對文檔進(jìn)行建模,并通過將數(shù)據(jù)集與模型擬合來估計模型參數(shù)。 兩個基本的統(tǒng)計主題模型是概率潛在語義分析(PLSA)和潛在狄利克雷分布(LDA)。我們還在隱式鄰居關(guān)系的基礎(chǔ)上加入了項(xiàng)目信譽(yù),因?yàn)轫?xiàng)目信譽(yù)可以代表一個項(xiàng)目的質(zhì)量和可信度。挖掘出隱式鄰居關(guān)系后,我們將評論數(shù)據(jù)中的主題信息集成到基于信任傳播的矩陣分解技術(shù)socialMF中。
1? 相關(guān)工作
在眾多推薦算法中,協(xié)同過濾算法因?yàn)閮H僅利用評分信息受到廣泛關(guān)注[8]-[9],基于物品的協(xié)同過濾和基于矩陣分解的協(xié)同過濾算法被相繼提出?;诰仃嚪纸獾膮f(xié)同過濾算法將用戶對物品的評分信息以矩陣形式表示,挖掘低維隱特征空間,并把用戶和物品在低維空間上重新表示,提出了一種基于概率矩陣分解的因子分析方法,同時使用用戶的社交網(wǎng)絡(luò)信息和評分記錄來解決數(shù)據(jù)稀疏性和預(yù)測準(zhǔn)確性差的問題;然而我們使用的評分矩陣存在數(shù)據(jù)高度稀疏并且分布不均勻,這會導(dǎo)致推薦系統(tǒng)的性能低下,冷啟動問題等。
為了解決上述問題,研究人員開始引入額外信息來解決冷啟動等問題,例如,文獻(xiàn)[10]通過引入物品的內(nèi)容介紹和評論信息為用戶提供了信息保障。文獻(xiàn)[11]表明在社交網(wǎng)絡(luò)中,用戶間是否存在社交關(guān)系往往依賴于用戶之間是否相互信任,這種信任關(guān)系從某種程度上來說提供了用戶的偏好信息。社交網(wǎng)絡(luò)中擁有較強(qiáng)社交關(guān)系的用戶在某些方面往往具有相似偏好且互相影響,因此有助于構(gòu)建個性化推薦系統(tǒng)。文獻(xiàn)[12]中將用戶之間的距離作為額外的正則項(xiàng)添加到損失函數(shù)中。該方法把用戶之間的影響看作是相等的,但是在現(xiàn)實(shí)世界中,用戶之間的親密程度決定了用戶對其他用戶的影響程度。文獻(xiàn)[13]通過連接具有相似評分信息的用戶來挖掘用戶之間的隱式社交關(guān)系。但是在現(xiàn)實(shí)世界中,評分信息的稀疏性導(dǎo)致了用戶之間的相似度的不可靠性。文獻(xiàn)[14]使用聚類的方法對用戶和項(xiàng)目建立生成模型,他們假設(shè)用戶具有類別,使用生成模型計算隱式因子并聚類。但是也同樣存在評分?jǐn)?shù)據(jù)稀疏的問題。
本文內(nèi)容安排如下:第1節(jié)介紹文章相關(guān)工作;第2節(jié)提供了有關(guān)ReTOMF的詳細(xì)信息;第3節(jié)驗(yàn)證了ReTOMF的實(shí)際性能,并與幾種有代表性的方法進(jìn)行了比較; 第4節(jié)對本文作出結(jié)論。
2? 模型部分
本節(jié),我們介紹提出的推薦模型。在現(xiàn)實(shí)世界中,當(dāng)人們購買或者選擇他們不熟悉的項(xiàng)目時,他們會選擇咨詢朋友的意見以及查看商品的評論[15]-[16],用以判斷商品的價值,信譽(yù)等問題,所以,基于對現(xiàn)實(shí)問題的觀測,在我們提出的模型中,我們考慮用戶朋友對項(xiàng)目的評價以及項(xiàng)目的信譽(yù)。我們首先計算用戶之間的信任度,并且將這種關(guān)系定義為隱式鄰居關(guān)系,結(jié)合用戶信譽(yù),綜合因素提出推薦建議。
首先我們介紹基于隱式鄰居關(guān)系的推薦正式的定義。在本文模型中,我們根據(jù)用戶歷史行為的相似性,尋找隱式的社交關(guān)系,因?yàn)檫@些行為可以展現(xiàn)用戶偏好的相似性,我們把相似評論的用戶看作隱式鄰居并進(jìn)行連接。在過去的基于評論數(shù)據(jù)的推薦系統(tǒng)中,項(xiàng)目之間保持著相對獨(dú)立的假設(shè),但是項(xiàng)目之間也有相應(yīng)的聯(lián)系。因此,在本文中,我們將使用評論數(shù)據(jù)同時對用戶和項(xiàng)目建立隱式的社交關(guān)系。我們使用的符號如表1所示。
我們收集用戶和項(xiàng)目的評論數(shù)據(jù),并且將每一位用戶和每一個項(xiàng)目的相關(guān)評論集合到一起。例如,一位用戶做出過三十條評論,我們將這些評論集合到一個用戶文檔中,并用 表示,并對項(xiàng)目評論進(jìn)行和用戶相似的操作。用戶的文檔集合用? ?表示,用 表示項(xiàng)目的文檔。為了便于計算相似度,我們將數(shù)據(jù)集中的所有單詞表示成集合W。
2.1? 主題模型計算文檔相似度
在本節(jié),我們使用主題模型計算文檔相似度,我們以用戶為例,具有相似主題分布的用戶是隱式鄰居的可能性更大,并根據(jù)其最相似的N個近鄰來建立隱式鄰居集 。
概率主題模型是一系列旨在發(fā)現(xiàn)隱藏在大規(guī)模文檔中的主題結(jié)構(gòu)的算法,已經(jīng)被很多文本挖掘任務(wù)所應(yīng)用,目前應(yīng)用最廣的兩個概率主題模型是概率潛語義分析(PLSA)和潛在狄利克雷分布(LDA),例如,使用LDA生成主題模型的公式如下:
2.3? ReTOMF模型
我們將前兩節(jié)介紹的用戶信譽(yù)和主題模型集成到基于社交的矩陣分解模型SocialMF中,并將模型中的信任關(guān)系替換為隱式鄰居關(guān)系。模型如圖1所示。SocialMF是一種利用社交信任來提高推薦精度的基于社交的隱語義模型。它在計算用戶隱式特征向量的時候,考慮用戶間的信任關(guān)系,將該用戶的信任用戶對其的影響加入到特征向量的計算。具體地,在本文中,我們將社交推薦框架中的信任關(guān)系替換為前文建立的隱式鄰居關(guān)系。在隱式鄰居關(guān)系中,我們認(rèn)為用戶的偏好依賴于其鄰居的偏好。在文獻(xiàn)[17]中提出了SocialMF挖掘社交關(guān)系時用戶隱式因子依賴其鄰居,所以我們可以將模型中的信任關(guān)系替換為隱式鄰居關(guān)系。和概率矩陣分解模型類似,我們的目標(biāo)是最大化隱式因子的后驗(yàn)概率,用以學(xué)習(xí)模型的參數(shù),我們以用戶為例,用戶隱式因子的先驗(yàn)分布為:
3? 實(shí)驗(yàn)部分
3.1? 數(shù)據(jù)集介紹
在本節(jié)中,我們進(jìn)行一系列實(shí)驗(yàn),用來驗(yàn)證我們提出模型的性能,并和其他方法進(jìn)行比較。首先介紹我們使用的數(shù)據(jù)集,我們使用文獻(xiàn)[18]爬取的亞馬遜數(shù)據(jù)集,并從中選取了具有代表性的音樂數(shù)據(jù)集,電影數(shù)據(jù)集,游戲數(shù)據(jù)集。原始數(shù)據(jù)集包含用戶對項(xiàng)目的評分,評論文本,評論時間等數(shù)據(jù)。其中,音樂數(shù)據(jù)集包含64706條評論,836006條評分?jǐn)?shù);電影數(shù)據(jù)集包含1,697,533條評論,4,607,047條評分?jǐn)?shù)據(jù);游戲數(shù)據(jù)集包含231,780條評論,1,324,753條評分?jǐn)?shù)據(jù)。評分區(qū)間為1到5。我們對數(shù)據(jù)進(jìn)行去停用詞等的預(yù)處理,去除噪聲數(shù)據(jù)和評論數(shù)少于20的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行隨機(jī)采樣。采樣后音樂數(shù)據(jù)集中包含7932名用戶,45458個項(xiàng)目,80944條評分,評分區(qū)間為1到5,平均評分為4.33分;電影數(shù)據(jù)集包含5752名用戶,35449個項(xiàng)目,64750條評分,平均評分為4.09分;游戲數(shù)據(jù)集包含4055名用戶,7982個項(xiàng)目,25536條評分,平均評分為4.01分。
我們采用5-折疊交叉驗(yàn)證進(jìn)行學(xué)習(xí)和測試。 我們將亞馬遜數(shù)據(jù)隨機(jī)分成5份,并使用80%的數(shù)據(jù)作為訓(xùn)練集,其余的20%的數(shù)據(jù)作為測試集。為保證結(jié)果的可靠性,對數(shù)據(jù)進(jìn)行隨機(jī)劃分。實(shí)驗(yàn)中使用RMSE和MRR衡量模型性能。
3.2? 實(shí)驗(yàn)結(jié)果
為了評估ReTOFM的性能,我們選擇了具有代表性的方法進(jìn)行對比試驗(yàn)。MF[19]是一個基本的矩陣分解算法,SocialMF[20],RISMF[21]是基于信任的方法,ReTOMF-Re是ReTOMF去掉項(xiàng)目信譽(yù)的方法,用以驗(yàn)證項(xiàng)目信譽(yù)在模型中的作用。實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果如表2所示。在實(shí)驗(yàn)中,把 和 設(shè)置為0.1,主題數(shù)設(shè)置為10,鄰居數(shù)設(shè)置為15。從表中可以看出,ReTOMF明顯優(yōu)于其他方法,如RISMF和socialMF。 在三個數(shù)據(jù)集中,ReTOMF擁有最低的RMSE,和RISMF相比,平均降幅達(dá)到了2.5%,相比于socialMF,RMSE的平均降幅為4.9%。和ReTOMF-Re相比,ReTOMF有更低的RMSE,說明添加項(xiàng)目信譽(yù)可以獲得更好的推薦效果。
主題數(shù)量和鄰居數(shù)量是很難自動確定的變量,我們進(jìn)行了多次實(shí)驗(yàn)以嘗試獲得最佳的主題數(shù)量和鄰居數(shù)量。圖2顯示了不同主題數(shù)量的模型的性能,由圖可以看出,當(dāng)主題數(shù)為10時最適合我們建模,所以我們將主題數(shù)量設(shè)置為10。由圖3可以看出,隨著鄰居數(shù)量增加性能逐漸增加,并在鄰居數(shù)為15時達(dá)到最大值,所以我們將鄰居數(shù)設(shè)置為15。
4? 結(jié)束語
本文利用用戶和項(xiàng)目豐富的評論數(shù)據(jù),結(jié)合項(xiàng)目信譽(yù),提出了基于用戶評論數(shù)據(jù)的矩陣分解模型ReTOMF。我們利用評論數(shù)據(jù)挖掘出用戶之間和項(xiàng)目之間的隱式鄰居關(guān)系,并將這種關(guān)系集成到社交推薦框架中。本文還將項(xiàng)目信譽(yù)結(jié)合到模型中,主要依據(jù)是用戶在購買不熟悉的物品時會首先選擇查看評論等信息用來判斷物品的信譽(yù)。在接下來的工作中,我們會使用深度學(xué)習(xí)模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)一步挖掘文檔上下文信息,更好的緩解因?yàn)樵u分?jǐn)?shù)據(jù)的稀疏引起的冷啟動問題。
參考文獻(xiàn)
[1] 張小波, 付達(dá)杰. 網(wǎng)絡(luò)信息資源個性化推薦中隱私保護(hù)的研究[J]. 軟件, 2015, 36(4): 62-66.
[2] 王崇峻, 魏鵬. 基于RSS的個性化信息服務(wù)系統(tǒng)研究[J]. 軟件, 2018, 39(7): 110-115.
[3] 安政磊, 姚文斌. 一種基于用戶購買意向的個性化推薦模型[J]. 軟件, 2015, 36(12): 80-82.
[4] Koren Y, Bell R, Volinsky C. Matrix Factorization Techniques for Recommender Systems[J]. Computer, 2009, 42(8): 30-37.
[5] Ma Hao. An experimental study on implicit social recommendation[C]//Proc of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2013: 73-82.
[6] Ashton Anderson, Daniel Huttenlocher, Jon Kleinberg, Jure Leskovec. Engaging with massive online courses[J]. In Proceedings of the 23rd international conference on World wide web. ACM, 2014: 687–698.
[7] Guo P J, Reinecke K. Demographic differences in how students navigate through MOOCs[C]// Acm Conference on Learning. ACM, 2014: 21-30.
[8] 江周峰, 楊俊, 鄂海紅. 結(jié)合社會化標(biāo)簽的基于內(nèi)容的推薦算法[J]. 軟件, 2015, 36(1): 1-5.
[9] 符饒. 基于位置服務(wù)的潛在好友推薦方法[J]. 軟件, 2015, 36(1): 62-66.
[10] Jin Z, Li Q, Zeng D D, et al. Jointly Modeling Review Content and Aspect Ratings for Review Rating Prediction[C]// Press the 39th International ACM SIGIR conference. Pisa, Italy: ACM, 2016: 893-896.
[11] Moradi P, Ahmadian S. A reliability-based recommendation method to improve trust-aware recommender systems[J]. Expert Systems with Applications, 2015, 42(21): 7386-7398.
[12] Ma Hao, Zhou Dengyong, Liu Chao, et al. Recommender systems with social regularization[C]//Proc of the 4th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2011: 287-296.
[13] Ma Hao. An experimental study on implicit social recommendation[C]/ /Proc of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2013: 73-82.
[14] Beutel A, Murray K, Faloutsos C, et al.Cobafi: collaborative Bayesian filtering[C]//Proc of the 23rd International Conference on World Wide Web. New York: ACM Press, 2014: 97-108.
[15] Kim D, Park C, Oh J, et al. Convolutional Matrix Factorization for Document Context-Aware Recommendation[C]// Acm Conference on Recommender Systems. New York: ACM, 2016: 233-240.
[16] Li J, Chen C, Chen H, et al. Towards Context-aware Social Recommendation via Individual Trust[J]. Knowledge-Based Systems, 2017: 58-66.
[17] Jamali M, Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C]//Proc of the 4th ACM Conference on Recommender Systems. New York: ACM Press, 2010: 135-142.
[18] McAuley J, Leskovec J. Hidden factors and hidden topics: understanding rating dimensions with review text[C]//Proc of the 7th ACM Conference on Recommender Systems. New York: ACM Press, 2013: 165-172.
[19] Salakhutdinov R. Probabilistic matrix factorization[C]// International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2007: 1257-1264.
[20] Jamali M, Ester M. A matrix factorization technique with trust propagation for recommendation in social net-works[C]//Proc of the 4th ACM Conference on Recom-mender Systems. New York: ACM Press, 2010: 135-142.
[21] 趙亞輝, 劉瑞. 基于評論的隱式社交關(guān)系在推薦系統(tǒng)中的應(yīng)用[J]. 計算機(jī)應(yīng)用研究, 2016, 33(6).