邢小璐(復(fù)旦大學(xué) 公共績效與信息化中心實驗室, 上海 200126)
Top-K推薦中的多樣性研究
邢小璐
(復(fù)旦大學(xué) 公共績效與信息化中心實驗室, 上海 200126)
隨著電子商務(wù)產(chǎn)業(yè)的不斷發(fā)展,推薦系統(tǒng)越來越多走入人們的生活,其中Top-K推薦能夠推薦一個商品列表供用戶選擇,在商業(yè)推薦中越來越多地扮演重要角色。對于Top-K推薦而言,多樣性的提高可以使推薦列表不再重復(fù)、單調(diào),給用戶多樣化的選擇空間,更容易適應(yīng)用戶需求。傳統(tǒng)的Top-K推薦方法大多在預(yù)測評分方法的基礎(chǔ)上進行優(yōu)化改良,本文通過MovieLens數(shù)據(jù)集上的統(tǒng)計調(diào)查,說明基于用戶興趣分布會比基于預(yù)測評分擁有更優(yōu)的效果。本文還提出兩個獲取用戶興趣分布的思路,供后續(xù)研究參考。
推薦系統(tǒng); 多樣性; Top-k推薦
Abstract: With the continuous development of e-commerce industry, recommender systems go more and more into people's lives. Top-K recommendation could recommend a list of items for the user to choose, and more and more plays an important role in the commercial recommendation. For Top-K recommendation, the increase in diversity can make the recommendation lists no longer repeat and monotonous. It provides users a variety of choices, convinience to adapt to users' needs. The traditional Top-K recommendation methods are mostly optimized on the basis of the rate prediction methods. Through the statistical survey on the MovieLens dataset, this paper shows that the user interest distributions will have better effect than the predictive rate. This paper also proposes two ideas for obtaining user interest distributions which may be used in later research.
Keywords: Recommendation; Diversity; Top-k
推薦系統(tǒng)即通過對海量的用戶歷史購物信息進行學(xué)習(xí),了解用戶的興趣特點和購買傾向,向用戶推薦用戶感興趣的信息和商品。近年來,隨著電子商務(wù)產(chǎn)業(yè)的不斷發(fā)展,網(wǎng)絡(luò)上商品或者說消費品的種類和數(shù)量不斷增長,用戶往往要在篩選大量商品信息的過程中浪費許多精力和時間,為了解決這個問題,許多購物網(wǎng)站、信息提供網(wǎng)站以及社交網(wǎng)站,諸如淘寶網(wǎng)、豆瓣網(wǎng)、微博,都建立了完善的推薦系統(tǒng),用來為用戶提供完全個性化的決策支持和信息服務(wù)。推薦系統(tǒng)已經(jīng)在方方面面滲透入了人們的生活。
傳統(tǒng)的推薦系統(tǒng)通常通過應(yīng)用一些標(biāo)準(zhǔn)推薦算法,向用戶推薦具有最高預(yù)測評分的商品。常見的方法有基于內(nèi)容的方法,協(xié)同過濾(CF)[1],矩陣奇異值分解(SVD)[2]等。這些方法通過對用戶的歷史評分數(shù)據(jù)建模,得到用戶對其未評分商品的預(yù)測評分,從而對用戶進行推薦。在這些方法當(dāng)中,預(yù)測評分的精準(zhǔn)度決定了這些方法的優(yōu)劣。一般來說,用均方根誤差(RMSE)對預(yù)測評分的精準(zhǔn)度進行評估,RMSE較低的方法被認為具有更好的效果。
然而,傳統(tǒng)的推薦系統(tǒng)雖然在推薦單個商品上已經(jīng)達到很好的效果,但當(dāng)推薦的為一整個商品列表,即進行Top-K推薦時,傳統(tǒng)推薦方法得到的推薦商品列表具有單調(diào)性以及重復(fù)性,很難真正滿足用戶的需求。尤其當(dāng)用戶為興趣廣泛且模糊的用戶類型時,這種缺陷更加明顯。于是,最近的許多研究[3-5]更加注重在Top-K推薦中提高商品列表的多樣性,來覆蓋用戶多樣的興趣,從而達到更好的推薦效果。在評估這類Top-K推薦方法時,與單個商品不同,不僅需要評估推薦商品列表的精準(zhǔn)度(Precision)和召回率(Recall),同時也要對列表的多樣性(Diversity)進行評估。
近年來,已經(jīng)出現(xiàn)了許多使推薦列表或搜索結(jié)果多樣化以增加用戶滿意度的研究。這些研究提高多樣性的方式主要分為以下兩類:
最近的許多Top-K推薦方法主要基于傳統(tǒng)推薦方法得到的推薦列表對多樣性進行改進。一般來說,它們定義一個目標(biāo)函數(shù),在商品列表的精準(zhǔn)度和多樣性間進行平衡。1998年提出的MMR方法[6]是大多數(shù)這類方法的基礎(chǔ),其通過貪心算法每一步迭代選取當(dāng)前能夠最大化列表精準(zhǔn)度和多樣性的商品,最終得到一個同時兼顧精準(zhǔn)度以及多樣性的商品列表。然而,這些方法的基礎(chǔ)仍是傳統(tǒng)推薦方法的預(yù)測評分方法,其預(yù)測評分并不能精準(zhǔn)地代表用戶的興趣傾向,這使得在Top-K推薦當(dāng)中,這些推薦方法的效果仍有上升的空間。我們接下來通過一個在MovieLens數(shù)據(jù)集上的統(tǒng)計調(diào)研來說明這個問題。在公開數(shù)據(jù)集MovieLens上關(guān)于電影主題的一個統(tǒng)計結(jié)果。MovieLens數(shù)據(jù)集中包含了一組從20世紀(jì)90年末到21世紀(jì)初由MovieLens用戶提供的電影評分數(shù)據(jù),其中包括電影評分、電影元數(shù)據(jù)(風(fēng)格、主題和年代)以及用戶信息(年齡、郵編、性別和職業(yè)等)。如圖1所示。
圖1 MovieLens數(shù)據(jù)集主題數(shù)據(jù)統(tǒng)計
圖1中橫坐標(biāo)為MovieLens數(shù)據(jù)集中的顯性主題,我們對各主題所占比例以及主題所受到的各等級評分所占的比例進行統(tǒng)計。其中“Topic Popularity”表示數(shù)據(jù)集中每個主題所占比例,我們可以認為這是該主題的流行度,“Rated (x) Proportion”表示每個主題中評分為x的比例。我們很容易可以發(fā)現(xiàn),流行的電影主題不一定會獲得高的評分。例如,“Comedy”主題的電影具有最高的人氣,但是在對該主題電影的評分當(dāng)中,評分和的比例只有接近。此外,諸如“Film-Noir”和“Documentary”的高評分主題,它們也同時具有幾乎最低的流行度。這些觀察結(jié)果可以表明,用戶的興趣與其對商品的評分并不密切相關(guān),也就是說,用戶會傾向于選擇的商品不一定是能得到高評分的商品。
因此,我們認為相對于傳統(tǒng)Top-K推薦方法中基于預(yù)測評分對商品進行排序的做法,基于用戶興趣分布來進行Top-K推薦才是更好的選擇。
本文提出兩種獲得用戶興趣分布的思路。它們都能直接獲取用戶興趣分布,而不是預(yù)測用戶對商品的評分,更加適用于進行Top-K推薦的推薦方法。
1.1 LDA主題模型:
在自然語言處理當(dāng)中,LDA主題模型用來得到“文章-主題”和“主題-詞”這兩個概率分布,通過這兩個概率分布,可以實現(xiàn)如自動摘要、主題生成、文章分類等功能。其核心式如下式:
p(w|d)=p(w|t)*p(t|d)
其中d、w、t分別為文章、詞、主題。我們可以看到,在LDA中,文章d中的每一個詞w,都被看作是以p(t|d)的概率先選擇一個主題t,再以p(d|t)的概率從主題t相關(guān)的詞中選擇一個詞w。
而近年來一些推薦算法[11]將LDA主題模型應(yīng)用于推薦領(lǐng)域,他們往往通過對商品的文本信息如介紹、評論等進行類似于自然語言處理中的LDA建模,得到“用戶-主題”和“主題-商品”的分布。在這些研究當(dāng)中,用戶被看作先以一定概率選擇一個主題,然后再從主題相關(guān)的商品中以一定概率選擇一個商品。不同于常規(guī)推薦系統(tǒng)致力于預(yù)測用戶對商品的評分,通過LDA建模得到的這兩個概率分布,可以容易地計算出用戶選擇商品的概率,即用戶興趣分布。
1.2 隨機游走方法:
一些推薦方法[12]將用戶對商品的評分矩陣轉(zhuǎn)化成圖的形式,并在圖上進行隨機游走(Random Walk)的實驗。其核心思想來源于google的PageRank算法。如圖2所示。
圖2 評分關(guān)系圖
一般做法是將用戶和商品作為圖中節(jié)點,用戶對商品的評分關(guān)系作為圖中的邊,某些研究還將評分作為邊的權(quán)重。以此評分關(guān)系圖為基礎(chǔ),每次選取一個用戶u,虛擬其在圖上隨機游走N輪的過程,統(tǒng)計該用戶u到達各個商品節(jié)點的次數(shù)Ci,則用戶u選商品i的概率可以近似看作Ci/N。多次實驗取均值,就可以得到用戶u的興趣分布。
目前推薦系統(tǒng)研究中的一個重要方向是提高Top-K推薦的多樣性。本文對推薦系統(tǒng)及Top-k推薦的現(xiàn)狀進行介紹,然后通過一個在通用數(shù)據(jù)集MovieLens上的統(tǒng)計調(diào)研,說明了在Top-K推薦當(dāng)中基于用戶興趣分布會比基于預(yù)測評分更加適用,并提出兩個獲取用戶興趣分布的思路,分別為LDA主題模型和隨機游走方法,希望能給后續(xù)研究帶來啟發(fā)。
[1] Koren Y, Bell R. Advances in Collaborative Filtering. Recommender Systems Handbook[M].2011: 145-186.
[2] Koren Y. The Bellkor Solution to the Netflix Grand Prize[J]. Netflix prize documentation, 2009(81): 1-10.
[3] Mi Zhang, Neil Hurley. Avoiding Monotony: Improving the Diversity of Recommendation Lists[R]. Lausanne, Switzerland, October, 2008:23-25.
[4] Zhou T, Kuscsik Z, Liu J G, et al. Solving the Apparent Diversity-accuracy Dilemma of Recommender Systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2010, 107: 4511-4515.
[5] Qin Lijing,Zhu Xiaoyan. Promoting Diversity in Recommendation by Entropy Regularizer[J]. IJCAI, 2013, 2698-2704.
[6] Jaime G. Carbonell, Jade Goldstein. The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries[C]. SIGIR 1998, Melbourne, Australia,
[7] Tommaso Di Noia, Vito Claudio Ostuni, Jessica Rosati, et al. An Analysis of Users' Propensity Toward Diversity in Recommendations[C]. Eighth ACM Conference on Recommender Systems, Silicon Valley, 2014.
[8] Rodrygo L T. Santos, Craig Macdonald, IadhOunis. Exploiting Query Reformulations for Web Search Result Diversification[C]. Raleigh, 2010.
[9] A. Ashkan, B. Kveton, S. Berkovsky, et al. Optimal Greedy Diversity for Recommendation[C]. Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence, 2015,1742-1748.
[10] Van Dang, W. Bruce Croft. Diversity by Proportionality: An Election-based Approach to Search Result Diversification[C]. SIGIR12, Portland, 2012: 12-16.
[11] Deepak Agarwal, Bee Chung Chen. FLDA: Matrix Factorization through Latent Dirichlet Allocation[C]. WSDM 2010.
[12] Zhang Y, Wu J, Zhuang Y. Random Walk Models for Top-N Recommendation task[J]. Journal of Zhejiang University (SCIENCE A), 2009,10(7):927-936.
ResearchonDiversityinTop-krecommendation
Xing Xiaolu
(Pudong New Area, Shanghai 201203, China)
TG4
A
2017.04.15)
邢小璐(1991-),男,軟件工程師。研究方向:數(shù)據(jù)挖掘,推薦系統(tǒng)。
1007-757X(2017)09-0044-03