国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)Pearson相關(guān)系數(shù)的個(gè)性化推薦算法

2016-02-10 10:09陳功平王紅
關(guān)鍵詞:皮爾森余弦個(gè)性化

陳功平,王紅

六安職業(yè)技術(shù)學(xué)院信息與電子工程學(xué)院,安徽六安237158

改進(jìn)Pearson相關(guān)系數(shù)的個(gè)性化推薦算法

陳功平,王紅

六安職業(yè)技術(shù)學(xué)院信息與電子工程學(xué)院,安徽六安237158

基于用戶的協(xié)同過濾推薦算法(User CF)從用戶的歷史操作記錄中分析用戶的興趣,找到每個(gè)用戶的k個(gè)相似近鄰,然后基于這k個(gè)近鄰集合實(shí)施推薦。皮爾森相關(guān)系數(shù)能夠根據(jù)用戶的歷史評(píng)分計(jì)算用戶間的相似度。本文加入流行項(xiàng)目懲罰系數(shù)、共同評(píng)分項(xiàng)目懲罰系數(shù)δ和評(píng)分差異懲罰系數(shù)λ,對(duì)皮爾森相關(guān)系數(shù)實(shí)施了改進(jìn)和修訂。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的皮爾森相似度的推薦效果好于原始皮爾森相似度。

個(gè)性化推薦;相似性計(jì)算;皮爾森相關(guān)系數(shù);評(píng)分預(yù)測

個(gè)性化推薦[1]比大眾化推薦更能滿足當(dāng)前用戶的需要,如同靜態(tài)網(wǎng)頁為用戶顯示相同內(nèi)容,動(dòng)態(tài)網(wǎng)頁為用戶顯示個(gè)性化的內(nèi)容。個(gè)性化推薦[2]算法從用戶的歷史行為中研究用戶興趣,根據(jù)每個(gè)用戶的喜好生成推薦列表。

協(xié)同過濾推薦(Collaborative Filtering,CF)算法[3]是推薦系統(tǒng)中應(yīng)用廣泛、研究深入又簡單的推薦算法,有基于用戶相似性的協(xié)同推薦算法(UserCF)[4]和基于項(xiàng)目相似性的協(xié)同推薦算法(ItemCF)[5],UserCF從用戶(User)對(duì)項(xiàng)目(Item)的評(píng)分矩陣中挖掘當(dāng)前用戶最相似的k個(gè)鄰居,然后以k個(gè)鄰居為基礎(chǔ)實(shí)施推薦。本文采用改進(jìn)的皮爾森相關(guān)系數(shù)計(jì)算用戶間的相似度,降低共同評(píng)分項(xiàng)目過少、流行項(xiàng)目及評(píng)分差異三種因素對(duì)用戶相似度的影響,改進(jìn)相似度計(jì)算方法,提高評(píng)分預(yù)測的精度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的相似度計(jì)算方法的推薦效果好于原始相似度計(jì)算的推薦效果。

1 用戶相似度評(píng)價(jià)指標(biāo)

用戶或項(xiàng)目的相似度計(jì)算是協(xié)同過濾推薦算法的核心[6]。計(jì)算用戶u1與u2的相似度時(shí),從評(píng)分矩陣中找出兩個(gè)用戶的共同評(píng)價(jià)項(xiàng)目集合,記作Vu1、Vu2,將向量集合Vu1與Vu2的相似度作為用戶u1與u2的相似度。常用的相似度度量方法有Jaccard相關(guān)系數(shù)、余弦相似度和皮爾森相關(guān)系數(shù)。

1.1 Jaccard相關(guān)系數(shù)

Jaccard[7]相關(guān)系數(shù)用兩個(gè)集合的并集和交集的比值來度量用戶相似度,即。

從計(jì)算公式可以看出,Jaccard相關(guān)系數(shù)適用于計(jì)算離散型集合的相似度,若評(píng)分矩陣中各元素的值只用1(喜歡)、-1(不喜歡)和0(無關(guān))表示,使用Jaccard相關(guān)系數(shù)計(jì)算用戶相似度的效果較好。而對(duì)于非離散型的評(píng)分矩陣,因Jaccard相關(guān)系數(shù)沒有考慮評(píng)分值對(duì)相似度的影響,因此對(duì)于5星或10級(jí)評(píng)分矩陣的相似度計(jì)算效果較差。

1.2 余弦相似度

余弦相似度[8]通過計(jì)算兩個(gè)向量間的夾角余弦度值來衡量兩個(gè)用戶間的相似性,即。

從公式可以看出,兩個(gè)向量間的夾角越小則相似度越大,若夾角為0,認(rèn)為u1和u2完全相似,即相似度值為1,這種計(jì)算方法忽視了向量間的距離。如圖1中的u1、u2、u3,根據(jù)余弦相似度計(jì)算u1和u2的相似度為1,大于u1和u3的相似度,但在空間上,u1和u3的距離更接近。余弦相似度同樣沒有考慮評(píng)分矩陣中的評(píng)分值對(duì)相似度的影響。

圖1 余弦相似度示意圖Fig.1 Sketch of cosine similarity

1.3 皮爾森相關(guān)系數(shù)

皮爾森相關(guān)系數(shù)[9]利用向量間的線性相關(guān)性表示用戶相似度,即。

其中,ru1,i表示用戶u1對(duì)項(xiàng)目i的評(píng)分,ˉru1表示用戶u1對(duì)所有項(xiàng)目評(píng)分的平均值,皮爾森相似度的取值范圍從[-1,1],比Jaccard相關(guān)系數(shù)和余弦相似度的計(jì)算結(jié)果更精確[10]。

皮爾森相似度形式上和余弦相似度相似,計(jì)算時(shí)減去了用戶的平均評(píng)價(jià)值,就是對(duì)余弦相似度做了一次歸一化處理,統(tǒng)一了用戶的評(píng)分標(biāo)準(zhǔn)。

2 皮爾森相關(guān)系數(shù)的改進(jìn)

假如u1和u2用戶共同評(píng)分項(xiàng)目較少且恰好滿足公式(3)相似度為1的條件,這種情況在實(shí)際評(píng)分矩陣中非常常見,導(dǎo)致每個(gè)用戶相似度為1的近鄰的相同評(píng)價(jià)項(xiàng)目數(shù)較少,近鄰計(jì)算結(jié)果與實(shí)際不符,因此需要改進(jìn)原始皮爾森相似度的計(jì)算方式,加入限制條件。

2.1 熱門項(xiàng)目懲罰

當(dāng)某首歌曲流行時(shí),幾乎所有用戶都會(huì)收聽,所以熱門項(xiàng)目對(duì)相似度計(jì)算的貢獻(xiàn)較小[11]。這里將評(píng)分矩陣中評(píng)價(jià)數(shù)量作為項(xiàng)目熱門的度量標(biāo)準(zhǔn),為了降低熱門項(xiàng)目對(duì)用戶相似度的影響,將公式(3)修訂為。

其中,N(i)表示項(xiàng)目i在評(píng)分矩陣中被評(píng)價(jià)的次數(shù)。

2.2 共項(xiàng)評(píng)分項(xiàng)目懲罰

為了降低偶爾相同評(píng)價(jià)對(duì)皮爾森相似度的影響,設(shè)置共同評(píng)價(jià)項(xiàng)目過少的懲罰閥值δ,將公式(4)改進(jìn)為。

δ的取值太小則懲罰不明顯,當(dāng)取值達(dá)到一定限度時(shí)推薦效果趨于收斂。圖2反應(yīng)了δ值對(duì)推薦結(jié)果的影響,數(shù)據(jù)取自近鄰數(shù)為100個(gè)、MovieLens 100 k數(shù)據(jù)集中測試集的評(píng)分預(yù)測的RMSE值變化,當(dāng)δ在25以后趨于收斂。從圖2可以看出,δ可以有效提高評(píng)分預(yù)測的準(zhǔn)確度。

圖2 δ對(duì)RMSE值的影響Fig.2 The influence of δ on RMSE value

2.3 共同評(píng)分差異性修正

皮爾森相似度已經(jīng)對(duì)評(píng)分做了一次歸一化處理,但如果u1和u2用戶的平均分相似,而對(duì)某項(xiàng)目打分差值超過一定界限,認(rèn)為這樣的共同評(píng)分項(xiàng)對(duì)相似度貢獻(xiàn)較小,加入共同評(píng)分差異性修正值λ。

r用來限制u1、u2對(duì)項(xiàng)目i評(píng)價(jià)差值的界限,∣ru1-ru2∣越小,即用戶u1和u2對(duì)項(xiàng)目i的評(píng)分越接近,ε用于判定u1、u2平均分相似性的界限,修正值λ小于1,用于降低用戶平均分相似而評(píng)分差值大對(duì)相似度的影響。

3 基于皮爾森相似度的個(gè)性化推薦算法

3.1 基于用戶相似度的評(píng)分預(yù)測

用戶會(huì)為喜愛的項(xiàng)目打高分,所以評(píng)分預(yù)測是推薦系統(tǒng)的實(shí)現(xiàn)原理之一。得到用戶u的k個(gè)近鄰后就可以預(yù)測u對(duì)項(xiàng)目i的評(píng)分,預(yù)測公式如(7)所示。

3.2 評(píng)價(jià)指標(biāo)

使用均方根誤差RMSE[12]作為算法的評(píng)價(jià)指標(biāo),RMSE反應(yīng)的是預(yù)測分值與用戶實(shí)際分值間的差異,值越小說明預(yù)測越準(zhǔn)確[13]。

其中,rui表示用戶u對(duì)項(xiàng)目i的實(shí)際評(píng)分,r?ui表示用戶u對(duì)項(xiàng)目i的預(yù)測評(píng)分,∣T∣表示預(yù)測數(shù)量。

3.3 用戶相似度訓(xùn)練

算法:改進(jìn)Pearson相關(guān)系數(shù)的用戶近鄰計(jì)算

輸入:訓(xùn)練集評(píng)分矩陣Train,k,δ,Max_δ,λ

輸出:每個(gè)用戶的k個(gè)最近鄰矩陣Sim

1:RMSE[u1,u2,…]中各元素初始值為1

2:根據(jù)公式(3)計(jì)算用戶間的皮爾森相似度并存入Sim

3:k個(gè)最近鄰訓(xùn)練

3.1 根據(jù)公式(6)重新計(jì)算Sim

3.2 根據(jù)公式(7)預(yù)測Train中ui的評(píng)分

3.3 根據(jù)公式(8)計(jì)算RMSE[ui]值

3.4 δ++

3.5 直到RMSE[ui]<0.6或δ>=Max_δ

4 實(shí)驗(yàn)結(jié)果及分析

使用GroupLens發(fā)布的MovieLens 100 k數(shù)據(jù)集驗(yàn)證實(shí)驗(yàn)效果,該數(shù)據(jù)集[14]存儲(chǔ)了10萬條用戶對(duì)電影的評(píng)分記錄,每條記錄由(用戶編號(hào),電影編號(hào),評(píng)分值)3項(xiàng)組成,按照每個(gè)用戶的評(píng)價(jià)數(shù)量,以8:2的比例隨機(jī)分成訓(xùn)練集Train(80 k條記錄)和測試集Test(20 k條記錄),Movie Lens數(shù)據(jù)集初始情況如表1所示。

4.1 實(shí)驗(yàn)參數(shù)設(shè)置

本文通過4組實(shí)驗(yàn)驗(yàn)證改進(jìn)皮爾森相似度對(duì)推薦結(jié)果準(zhǔn)確度的影響,每組實(shí)驗(yàn)任務(wù)名及參數(shù)設(shè)置如表2所示。

Task1的參數(shù)設(shè)置表示沒有改進(jìn),相當(dāng)于使用公式(3)為相似度計(jì)算方法,即原始皮爾森相似度系數(shù),其余3組實(shí)驗(yàn)均對(duì)計(jì)算方法有所改進(jìn)。

4.2 實(shí)驗(yàn)結(jié)果及分析

表3是Train集合的RMSE評(píng)價(jià)指標(biāo)值。

從數(shù)據(jù)可見,在k值小于200的情況下,Task2~Task4明顯比Task1效果好,在k為100時(shí),Task2~Task4的預(yù)測效果最好;Task1隨k值的增加效果越來越好,k值的增加會(huì)使得算法的時(shí)間復(fù)雜度升高;Task2~Task4在k值相同時(shí)RMSE值差值很小。

表4是Test集合的RMSE評(píng)價(jià)指標(biāo)值。

在Test集合中,Task2~Task4的預(yù)測效果好于Task1,當(dāng)k=100時(shí),Task2和Task3的RMSE指標(biāo)值比Task1的指標(biāo)值提高了0.1。當(dāng)k值升高,RMSE值降低,即k值越大,預(yù)測評(píng)分越接近實(shí)際評(píng)分。

圖3是Train集合的RMSE指標(biāo)值與k值的關(guān)系圖,對(duì)于傳統(tǒng)的皮爾森系數(shù)而言,k值越大預(yù)測越準(zhǔn)確,而改進(jìn)后的皮爾森相關(guān)系數(shù)的預(yù)測結(jié)果在k=100時(shí)出現(xiàn)拐點(diǎn)。

圖4是Test集合的RMSE指標(biāo)值與k值的關(guān)系圖,與Train集合不同,二者都隨著k值的升高而降低,改進(jìn)相似度計(jì)算方法的測試效果好于傳統(tǒng)計(jì)算方法。由圖可以認(rèn)為當(dāng)k值超過一定限度后,改進(jìn)相似度計(jì)算方法與傳統(tǒng)相似度計(jì)算方法的預(yù)測結(jié)果的指標(biāo)值越來越接近。

圖3 Train集合的RMSE值比較Fig.3 Comparison of RMSE values in Train

圖4 Test集合的RMSE值比較Fig.3 Comparison of RMSE values in Test

5 總結(jié)

相似度計(jì)算方法是推薦算法的核心,皮爾森相關(guān)系數(shù)將用戶評(píng)分?jǐn)?shù)據(jù)參與到相似度計(jì)算過程,能夠更準(zhǔn)確的挖掘用戶的興趣,提高推薦效果。在實(shí)際應(yīng)用時(shí),由于用戶數(shù)和項(xiàng)目數(shù)較大,相似度計(jì)算和推薦算法的時(shí)間復(fù)雜度過高,如果將相似度計(jì)算過程放在線下進(jìn)行則不能實(shí)施實(shí)時(shí)推薦。降低相似度計(jì)算和推薦的時(shí)間復(fù)雜度、提供實(shí)時(shí)推薦是本文的下一個(gè)研究方向。

[1]ZhuangHL,TangJ,TangWB,etal.Activelylearningtoinfersocialties[J].DataMiningandKnowledgeDiscovery,2012,25(2):270-297

[2]高明,金澈清,錢衛(wèi)寧,等.面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):363-375

[3]KaleliC.Anentropy-basedneighborselectionapproachforcollaborativefiltering[J].Knowledge-BasedSystems,2013,56(3):273-280

[4]吳湖,王永吉,王哲.兩階段聯(lián)合聚類協(xié)同過濾算法[J].軟件學(xué)報(bào),2010,21(5):1042-1054

[5]黃創(chuàng)光,印鑒,汪靜,等.不確定近鄰的協(xié)同過濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1369-1377

[6]劉樹棟,孟祥武.基于位置的社會(huì)化網(wǎng)絡(luò)推薦系統(tǒng)研究[J].計(jì)算機(jī)學(xué)報(bào),2015,38(2):322-336

[7]Lu ML,Qin Z,Cao Y,et al.Scalable news recommendation using multi-dimensional similarity and Jaccard–Kmeans clustering[J].The Journal of Systems and Software,2014,95(4):242-251

[8]Aral S,Walker D.Identifying Influential and SusceptibleMembersof SocialNetworks[J].Science,2012,337(6092):337-341

[9]張宇鐳,黨琰,賀平安.利用Pearson相關(guān)系數(shù)定量分析生物親緣關(guān)系[J].計(jì)算機(jī)工程與應(yīng)用,2005(33):79-82,99

[10]Zhuang H,Savage EM.Variation and Pearson correlation coefficients of Warner-Bratzler shear force measurements within broiler breast fillets[J].Poultry Science,2009,88(1):214-20

[11]Jannach D,Zanker M,Felfemig A,et al.Recommender systems:an introduction[D].Cambridge:CUP,2010

[12]陳克寒,韓盼盼,吳健.基于用戶聚類的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2013,36(2):349-359

[13]朱郁筱,呂琳媛.推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J].電子科技大學(xué)學(xué)報(bào),2012,41(2):163-175

[14]朱夏,宋愛波,東方,等.云計(jì)算環(huán)境下基于協(xié)同過濾的個(gè)性化推薦機(jī)制[J].計(jì)算機(jī)研究與發(fā)展,2014,51(10):2255-2269

APersonalized RecommendationAlgorithm on Improving Pearson Correlation Coefficient

CHEN Gong-ping,WANG Hong
College of Information and Electronic Engineering/Lu’an Vocation Technology College,Luan 237158,China

This paper found k similar neighbors of each user by analyzing the users’interests from their operating records based on the collaborative filtering recommendation and then made the implementation of recommendations based on the k similar neighbors.The Pearson Correlation Coefficient could calculate the similarity among users.This paper added popular items penalty coefficient,simultaneous rating items penalty coefficient δ and rating different penalty coefficient λ to the Pearson Correlation Coefficient and carried out the improvement and revised to the Pearson Correlation Coefficient.The experimental results indicated that the recommendation effect of improved Pearson Correlation Coefficient was better than the original one.

Personalized recommendation;similarity calculation;Pearson Correlation Coefficient;rating prediction

TP301

A

1000-2324(2016)06-0940-05

2015-03-31

2015-08-31

2015年度安徽高校自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2015A435);安徽省2016年高校優(yōu)秀青年人才支持計(jì)劃重點(diǎn)項(xiàng)目(gxyqZD2016570);安徽省2014年高校優(yōu)秀青年人才支持計(jì)劃

陳功平(1980-),男,講師,研究方向:個(gè)性化推薦,計(jì)算機(jī)網(wǎng)絡(luò).E-mail:wh0115140@126.com

*通訊作者:Author for correspondence.E-mail:wh0115140@126.com

猜你喜歡
皮爾森余弦個(gè)性化
堅(jiān)持個(gè)性化的寫作
新聞的個(gè)性化寫作
兩個(gè)含余弦函數(shù)的三角母不等式及其推論
上汽大通:C2B個(gè)性化定制未來
實(shí)施正、余弦函數(shù)代換破解一類代數(shù)問題
分?jǐn)?shù)階余弦變換的卷積定理
圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
數(shù)字翹楚皮爾森:忍過100多次整形的女軍人
滿足群眾的個(gè)性化需求
有夢的青春不易“殘”