辛賢龍
結(jié)合情感信息的個(gè)性化推薦算法
辛賢龍
隨著互聯(lián)網(wǎng)的快速發(fā)展,在面臨“信息過載”情況下推薦系統(tǒng)扮演者越來越重要的角色。而在很多場(chǎng)景下人類決策的過程中,情感同樣發(fā)揮非常重要的作用,因此,情感信息在推薦系統(tǒng)中不容忽視。而實(shí)際用戶決策過程中,情感對(duì)于不同用戶的重要程度也是不一樣的。針對(duì)情感對(duì)于用戶的重要程度研究,提出用熵來度量不同情感對(duì)于用戶的重要性,并結(jié)合傳統(tǒng)的協(xié)同過濾算法,提出一種結(jié)合情感信息的個(gè)性化推薦算法,最后,通過實(shí)驗(yàn)跟傳統(tǒng)的協(xié)同過濾算法進(jìn)行對(duì)比發(fā)現(xiàn)準(zhǔn)確度有所提高。
個(gè)性化推薦協(xié)同過濾情感信息熵
隨著大數(shù)據(jù)時(shí)代的到來,“信息過載[1]”問題日益突出。面臨著大量的信息,用戶必須花費(fèi)大量的時(shí)間尋找所需的信息,傳統(tǒng)的信息查找方式越來越難以滿足用戶的需求。個(gè)性化推薦系統(tǒng)在20世紀(jì)90年代作為一個(gè)獨(dú)立的概念被提出來,在其中發(fā)揮了重大的作用。個(gè)性化推薦是根據(jù)用戶和項(xiàng)目的特征以及用戶的歷史行為來預(yù)測(cè)他對(duì)未知事物的喜好程度,然后向用戶推薦用戶可能感興趣的。推薦算法通常被分為以下幾類:協(xié)同過濾推薦算法[2]、基于內(nèi)容的推薦算法[3]、混合推薦算法[4]。
其中協(xié)同過濾推薦算法是目前應(yīng)用最廣的推薦算法,而其又可以分為兩類:基于用戶的協(xié)同過濾算法[5]和基于項(xiàng)目的協(xié)同過濾算法[6]。基于用戶的協(xié)同過濾算法通過研究用戶的歷史行為來計(jì)算用戶之間的相似性,最后利用用戶之間的相似性來做推薦,這個(gè)方法的思想是相似興趣的用戶購(gòu)買行為也比較相似?;谏唐返膮f(xié)同過濾算法則是通過商品的被購(gòu)買記錄來計(jì)算商品之間的相似性,以之來推推薦,其思想是用戶往往會(huì)購(gòu)買比較相關(guān)的商品。
近年來隨著自然語(yǔ)言技術(shù)的快速發(fā)展,從文本中提取情感信息作為一個(gè)熱點(diǎn)被越來越多的人所關(guān)注。推薦系統(tǒng)本質(zhì)上也只是輔助用戶決策的工具,如何在推薦系統(tǒng)中結(jié)合人類的情感分析逐漸受到關(guān)注。
2010年, ACM Recsys’10(ACM Recommender Systems 2010)主辦了一個(gè)面向“上下文感知的電影推薦”的專題研討會(huì),提出了3個(gè)方向的上下文感知推薦任務(wù),基于情緒的推薦就是其中之一。Yue Shi[7]等提出基于特別情感的電影相似性計(jì)算方法,提高了預(yù)測(cè)精度。YasharMoshfeghi[8]等提出了一種從電影用戶評(píng)論中抽取情感信息,然后結(jié)合電影的一些特征來計(jì)算各個(gè)特征影響用戶偏好的概率的基于模型的協(xié)同過濾算法。
王立才[9]等提出結(jié)合情緒信息的改進(jìn)的協(xié)同過濾算法,它運(yùn)用“用戶-情感”矩陣計(jì)算用戶情感相似性,結(jié)合傳統(tǒng)的相似性計(jì)算方法來做用戶相似度計(jì)算,并作出推薦。
情感作為人類特有的心理特征,在用戶決策中扮演著很重要的角色。在結(jié)合到推薦算法過程中,情感與隨著web2.0到來而興起的標(biāo)簽有著類似的一面,有學(xué)者通過標(biāo)簽將原來的用戶-項(xiàng)目二部圖轉(zhuǎn)換為用戶-項(xiàng)目-標(biāo)簽三部圖來生成推薦,提高了算法性能,并一定程度上緩解了冷啟動(dòng)問題。在結(jié)合情感信息進(jìn)行推薦時(shí)也可以利用轉(zhuǎn)化為三部圖的思想,但由于情感
與標(biāo)簽的差異性,計(jì)算的時(shí)候會(huì)有很大的區(qū)別。
本文通過“用戶-情感”矩陣和“情感-情感”關(guān)聯(lián)矩陣計(jì)算情感權(quán)重,通過“用戶-項(xiàng)目”打分矩陣計(jì)算用戶情感打分,通過信息熵[10]計(jì)算情感對(duì)于用戶的重要性,得到用戶對(duì)項(xiàng)目的情感評(píng)分預(yù)測(cè),再結(jié)合傳統(tǒng)的協(xié)同過濾算法得到最終的預(yù)測(cè)。
2.1 數(shù)據(jù)定義
2.2 算法描述
結(jié)合情感信息的個(gè)性化推薦算法核心算法如下:
(1) 基于“項(xiàng)目-情感”矩陣 M計(jì)算“情感-情感”關(guān)聯(lián)矩陣S
(2) 根據(jù)“項(xiàng)目-情感矩陣”M和“情感-情感”S關(guān)聯(lián)矩陣計(jì)算“情感權(quán)重-項(xiàng)目”矩陣W
(3) 根據(jù)“用戶-項(xiàng)目”打分矩陣以及情感權(quán)重矩陣計(jì)算“用戶-情感”打分矩陣
(4) 通過信息熵計(jì)算情感對(duì)于用戶的重要性
(5) 綜合以上的通過公式計(jì)算得到用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分
(6) 將預(yù)測(cè)分值最高的N個(gè)推薦給用戶
2.3 項(xiàng)目的情感權(quán)重計(jì)算
每一個(gè)項(xiàng)目都有相對(duì)應(yīng)的一組情感特征,但每個(gè)情感特征對(duì)于項(xiàng)目的貢獻(xiàn)確實(shí)不同的,為了體現(xiàn)不同情感對(duì)項(xiàng)目的權(quán)重差異,需要對(duì)項(xiàng)目情感進(jìn)行建模。
項(xiàng)目情感矩陣M(包含n個(gè)項(xiàng)目和k個(gè)情感特征),如果
用余弦相似度公式計(jì)算i情感和k情感的相似性如公式(1):
根據(jù)項(xiàng)目情感矩陣 M 以及情感-情感關(guān)聯(lián)矩陣 S 計(jì)算情感i在項(xiàng)目j中的權(quán)重為公式(2):
2.4 用戶情感評(píng)分
由于用戶個(gè)體背景、性格等各方面的差異,每個(gè)用戶對(duì)不同情感都有不同的偏好程度。由于每個(gè)項(xiàng)目包含各種情感,因此可以通過“用戶-項(xiàng)目”打分矩陣來計(jì)算用戶對(duì)應(yīng)各個(gè)不同情感的評(píng)分。有一種簡(jiǎn)單的方法,通過用戶對(duì)項(xiàng)目的打分間接得到對(duì)情感的打分,然后直接把用戶對(duì)項(xiàng)目的打分作為用戶對(duì)情感的打分,把用戶對(duì)包含某情感的商品的評(píng)分的平均分?jǐn)?shù)作為用戶對(duì)該情感的打分。但此方法在應(yīng)用的時(shí)候會(huì)發(fā)現(xiàn)一個(gè)問題。假設(shè),用戶U對(duì)一個(gè)包含情感i的項(xiàng)目j評(píng)分為90(該項(xiàng)目中情感權(quán)重為80%),用戶U對(duì)另一個(gè)包含情感i的項(xiàng)目k評(píng)分也為90(該項(xiàng)目中情感權(quán)重為10%,按以上方法計(jì)算,這用戶-項(xiàng)目打分對(duì)用戶-情感打分的影響是一樣的,直觀上,此方法用在這里顯然有點(diǎn)問題。需要加上一個(gè)權(quán)重因子度量用戶對(duì)項(xiàng)目的打分對(duì)用戶情感打分的影響度,公式(2)計(jì)算得到的W是一個(gè)很理想的因子,顯然權(quán)重Wij越大,用戶對(duì)項(xiàng)目j的打分對(duì)情感打分影響越大,反之越小,如公式(3):表示用戶U對(duì)項(xiàng)目j的打分,表示用戶U打分的項(xiàng)目中包含情感e的集合,表示用戶對(duì)情感i的打分。
2.5 基于情感信息的用戶評(píng)分預(yù)測(cè)
根據(jù)以上的情感對(duì)項(xiàng)目的權(quán)重以及用戶對(duì)情感的評(píng)分公式(4):是根據(jù)(3)計(jì)算得到的用戶u對(duì)情感i的評(píng)分,是根據(jù)(2)計(jì)算得到的情感i對(duì)于項(xiàng)目j的權(quán)重。
2.6 情感的信息熵由于每個(gè)項(xiàng)目都有一組情感特征,那么用戶對(duì)項(xiàng)目的打分就可以映射到情感上去。同一個(gè)情感特征可能會(huì)在很多項(xiàng)目中出現(xiàn),由上面的計(jì)算我們知道,不同的情感的項(xiàng)目的權(quán)重有差異,用戶對(duì)情感的偏好也有差異。我們可以直接利用這些預(yù)測(cè)用戶項(xiàng)目評(píng)分。但考慮到一個(gè)問題,以上用戶對(duì)于情感的偏好是利用”用戶-項(xiàng)目”計(jì)算而得的。如果用戶對(duì)某個(gè)情感毫無(wú)偏好,那么該情感在該用于對(duì)項(xiàng)目評(píng)分的時(shí)候完全不發(fā)揮作用,觀察公式(3),會(huì)發(fā)現(xiàn)趨向于用戶的平均評(píng)分值,導(dǎo)致(4)計(jì)算得到的預(yù)測(cè)值趨向于平均值,不能體現(xiàn)出用戶對(duì)此情感的不在意性。相反的,如果某個(gè)情感對(duì)用戶非常重要,對(duì)出現(xiàn)該情感的項(xiàng)目的評(píng)分都很高,而公式(4)也體現(xiàn)不出此重要性。由于個(gè)人的背景、性格、認(rèn)知等方面的不同,不同的情感對(duì)于不同的個(gè)人重要程度是不一致的,在計(jì)算的時(shí)候,需要刻畫出這種不一致性。
從信息論的角度看,熵代表系統(tǒng)的混亂程度,可以體現(xiàn)情感對(duì)于不同用戶的重要性差異?;谝陨系目紤]公式(5):
其中是用戶u對(duì)包含情感e的項(xiàng)目打分為x的比例,Pui反應(yīng)了打分的分布狀況,越大,表明打分越混亂,那么情感的重要性就比較低,越小就表明打分一致性越高,那么相應(yīng)情感的重要性就比較高。
2.7 改進(jìn)的基于情感信息的用戶評(píng)分預(yù)測(cè)
2.8 結(jié)合情感信息與傳統(tǒng)協(xié)同過濾算法的用戶評(píng)分預(yù)測(cè)
本文的實(shí)驗(yàn)平臺(tái)是PC(cpu 2.6GHz,內(nèi)存2GB),windows 7操作系統(tǒng)(X86)。
3.1 數(shù)據(jù)集
本文采用公開的 Moviepilot數(shù)據(jù)集,是 2010年CAMRa2010提供的,包含105137個(gè)用戶對(duì)25058部電影的4544409條評(píng)分,評(píng)分分?jǐn)?shù)為0到100之間的整數(shù)。數(shù)據(jù)集中的項(xiàng)目都對(duì)應(yīng)一組情感特征值,共有6712個(gè)情感標(biāo)記,分布在16個(gè)維度上。最終經(jīng)過數(shù)據(jù)清洗以及去噪后,篩選出共12562個(gè)用戶對(duì)2315部電影的338607個(gè)打分?jǐn)?shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集。為了檢驗(yàn)實(shí)驗(yàn)效果,本文跟傳統(tǒng)的基于項(xiàng)目的協(xié)同過濾算法進(jìn)行了對(duì)比。
3.2 評(píng)價(jià)指標(biāo)
本文采用MAE(Mean Absolute Error)[11]作為評(píng)價(jià)指標(biāo),MAE表示預(yù)測(cè)值與實(shí)際評(píng)價(jià)值的偏差,MAE越小,評(píng)價(jià)越準(zhǔn)確。設(shè)預(yù)測(cè)的評(píng)分集合表示為,對(duì)應(yīng)的實(shí)際評(píng)分集合表示為,則為公式(7):
3.3 實(shí)驗(yàn)結(jié)果分析
為了檢驗(yàn)本文提出的結(jié)合情感信息的個(gè)性化推薦算法,本實(shí)驗(yàn)和傳統(tǒng)基于項(xiàng)目的協(xié)同過濾算法進(jìn)行了對(duì)比,其中計(jì)算項(xiàng)目之間的相關(guān)性時(shí)用的是Pearson相關(guān)系數(shù),而鄰居數(shù)目也調(diào)整到了最佳值。實(shí)驗(yàn)分為兩部分,第一部分通過調(diào)節(jié)值,比較不同值得情況下本文提出的算法與傳統(tǒng)的協(xié)同過濾算法 MAE方面的表現(xiàn)。第二部門,調(diào)整到最優(yōu)值,通過調(diào)節(jié)訓(xùn)練集/測(cè)試集的比例,來測(cè)試兩者在不同稀疏度情況下MAE的情況,如圖1所示:
圖1 左右的比重。
圖2
可以發(fā)現(xiàn)隨著訓(xùn)練集/測(cè)試集的比例的降低,即訓(xùn)練數(shù)據(jù)越來越少,結(jié)合情感信息的個(gè)性化推薦算法的效果相對(duì)比較穩(wěn)定,而傳統(tǒng)的協(xié)同過濾算法隨著訓(xùn)練集的稀疏,到了一定 的臨界點(diǎn)后,效果急劇下降。這可能是因?yàn)椋S著訓(xùn)練集數(shù)據(jù)的稀疏,經(jīng)典的協(xié)同過濾算法在計(jì)算鄰居時(shí)產(chǎn)生的偏差越來越大,從而導(dǎo)致推薦效果的下降。而本文提出的方法中,由于結(jié)合了情感信息,數(shù)據(jù)稀疏性帶來的影響相對(duì)少很多。
本文提出的結(jié)合情感信息的個(gè)性化推薦算法,通過“項(xiàng)目-情感”矩陣以及“情感-情感”關(guān)聯(lián)矩陣計(jì)算項(xiàng)目中情感的權(quán)重,通過“用戶-項(xiàng)目”打分矩陣計(jì)算“用戶-情感”打分,然后再根據(jù)情感對(duì)于用戶的信息熵來衡量情感對(duì)于不同用戶的重要性,最后結(jié)合傳統(tǒng)的協(xié)同過濾算法得到最條件。在Moviepilot數(shù)據(jù)集熵的實(shí)驗(yàn)結(jié)果表明,利用本文算法預(yù)測(cè)的評(píng)分效果優(yōu)于傳統(tǒng)的協(xié)同過濾算法。
[1] 藺豐奇,劉益.網(wǎng)絡(luò)化信息環(huán)境信息過載問題研究綜述[J].情報(bào)科學(xué),2007:36-48.
[2] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J]. 小型微型計(jì)算機(jī)系統(tǒng)2009,30(7):1282-1288.
[3] 劉建國(guó),周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15
[4] GediminasAdomavicius, Alexander Tuzhilin. Toward the nextgeneration of recommender systems: A survey ofthestate-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering,2005,17(6): 734-749.
[5] Wang J,DeVries A P, Reinders M J T.Unifying user-based and item-based collaborative filtering approaches by similarity fusion[C].//Proceeding of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval .New York:ACM,2006:501-508:
[6] Sarwar B,KarypisG,KonstanJ,et al. Item based collaborative filtering recommendation algorithms[C].//Proceeding of the 10th International Conference on World Wide Web.New York:ACM,2001:285-295.
[7] Yue Shi, Martha Larson, Alan Hanjalic. Mining mood-specific movie similarity with matrix factorization forcontext-aware recommendation[C].//Proceedings of the Workshop on Context-Aware Movie Recommendation at the 4th ACM Conference on Recommender Systems, New York, USA, 2010: 34-40.
[8] YasharMoshfeghi, Benjamin Piwowarski, Joemon M.Jose. Handling data sparsity in collaborative filteringusing emotion and semantic based features[C].//In Proceedings of the 34thinternational ACM SIGIR conferenceon Research and development in Information,Beijing, China, 2011: 625-634.
[9] Wang LC, Meng XW, Zhang. YJ, Shi YC. New approaches to mood-based hybrid collaborative filtering[C].//In Proceeding of the RecSys2010 Workshop on CAMRa 2010. New York: ACM Press, 2010.
[10] 王衛(wèi)平,楊磊.結(jié)合最大熵模型和tag特征的混合推薦系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(7):65-68.
[11] 劉建國(guó), 周濤, 郭強(qiáng), 等. 個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2009, 6(3): 1-10.
A Personalized Recommendation Algorithm Based on Emotion Information
Xin Xianlong
(School of Computer Science, Fudan University, Shanghai 200120, China)
As the develop of the Internet, recommendation play a more and more important role in the face of “Information Overload”. In the course of human decision-making in many scenes, emotions play a very important role. So in recommender systems,emotion information can’t be ignored. Actually in the process of human decision-making, the importance of emotion for different users is very different. This paper focuses on the importance of emotion for different users, and presents a method that use tentrop to measure the importance of the emotion, then proposes a personalized recommendation Algorithm based on Mood Information. Experiments show the accuracy of this algorithm is higher than the traditional collaborative filter ingal gorithm.
Personalized Recommendation; Collaborative Filtering; Mood Information; Entropy
TP311
:A
1007-757X(2014)04-0038-03
2014.03.28)
辛賢龍,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,碩士,研究方向:數(shù)據(jù)挖掘、推薦系統(tǒng),上海,200120