国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合社區(qū)結(jié)構(gòu)和個(gè)人興趣的協(xié)同過濾推薦算法

2018-11-17 01:47:04楊長春
關(guān)鍵詞:個(gè)人興趣正則社交

顧 寰,楊長春,吳 云,徐 筱

(常州大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 常州 213164)

0 引 言

推薦系統(tǒng)[1-3]中的推薦算法部分是推薦過程中重要的一步,其中協(xié)同過濾(collaborative filtering,CF)算法是當(dāng)前效果較好的推薦技術(shù)[4]。其主要思想是利用已有用戶群的歷史數(shù)據(jù)推測(cè)當(dāng)前用戶的喜好。但是協(xié)同過濾算法的缺點(diǎn)在于對(duì)數(shù)據(jù)稀疏性問題很敏感[5]。目前,網(wǎng)上的用戶越來越多,商品種類也越來越豐富,用戶與用戶之間購買相同物品的機(jī)會(huì)越來越少,從而推薦結(jié)果出現(xiàn)了嚴(yán)重的過擬合現(xiàn)象。因此,最近的研究關(guān)注于將用戶的社交信息融入推薦算法中,減少過擬合現(xiàn)象。Li H等[6]提出的模型采用了重疊社區(qū)發(fā)現(xiàn)算法,通過調(diào)節(jié)目標(biāo)函數(shù)中的正則項(xiàng),降低所在社區(qū)中用戶間的偏好差異。Yang X等[7]提出了一種改進(jìn)SocialMF模型,增加了用戶對(duì)不同好友之間信任度的差異,但是算法將用戶的好友劃成不同的類別,因此反而加劇了數(shù)據(jù)稀疏性問題。郭磊等[8]也提出了一種改進(jìn)SocialMF模型,其考慮了信任具有不唯一性,基于用戶興趣和信任關(guān)系,挖掘出和目標(biāo)用戶具有相似興趣以及可信賴的新用戶,并建立模型,算法中可能出現(xiàn)的缺陷還是源于沒有密集的社交關(guān)系網(wǎng)絡(luò)。郭弘毅等[9]考慮了用戶社區(qū)結(jié)構(gòu)和用戶的興趣聚類,也提出了一種改進(jìn)的SocialMF,稱為CCMF,該算法雖然加入了用戶社區(qū)信息和用戶興趣,緩解了由于數(shù)據(jù)稀疏性帶來的推薦不準(zhǔn)確的問題,但算法將多個(gè)用戶的興趣融合成一個(gè)總的興趣,沒有充分考慮個(gè)人的興趣,導(dǎo)致推薦精度不高。因此,本文提出了一種基于社區(qū)結(jié)構(gòu)和用戶個(gè)人興趣的協(xié)同過濾推薦算法,以達(dá)到更高的準(zhǔn)確性。

1 個(gè)性化推薦系統(tǒng)模型

本文采用的基于社區(qū)發(fā)現(xiàn)和用戶個(gè)人興趣的協(xié)同過濾算法的過程如下:①通過BIGCLAM算法找到用戶中存在的隱含社區(qū)結(jié)構(gòu);②根據(jù)評(píng)分?jǐn)?shù)量挑選出有經(jīng)驗(yàn)的用戶,并建立這些用戶的個(gè)人興趣;③通過在目標(biāo)函數(shù)中引入新的正則項(xiàng)將社區(qū)結(jié)構(gòu)和個(gè)人興趣融合到矩陣分解模型的優(yōu)化分解過程中,獲得更好的推薦結(jié)果。

1.1 準(zhǔn)備工作

本文采用的符號(hào)有:U={u1,u2,…,um}為推薦系統(tǒng)中所有用戶的集合,V={v1,v2,…vn}為推薦系統(tǒng)中所有項(xiàng)目的集合,其中m為用戶總數(shù),n為項(xiàng)目總數(shù)。R=(Rij)m×n為用戶項(xiàng)目評(píng)分矩陣,其中Rij∈{1,2,3,4,5}為用戶ui對(duì)項(xiàng)目vi的評(píng)分。T=(Tij)m×m,Tij∈(0,1)為用戶的好友關(guān)系矩陣,Tij=0為用戶ui與用戶uj之間不存在好友關(guān)系。

1.2 基于社區(qū)結(jié)構(gòu)的聚類

推薦系統(tǒng)中的用戶通常和好友具有相似的偏好?;谠摷僭O(shè),一些研究通過加入用戶的社交關(guān)系提升了傳統(tǒng)的協(xié)同過濾算法的準(zhǔn)確度。然而在大型的社交網(wǎng)絡(luò)中,往往會(huì)出現(xiàn)一個(gè)現(xiàn)象[10],即大多數(shù)用戶的社交關(guān)系比較稀疏,所以依賴社交關(guān)系來發(fā)現(xiàn)社交網(wǎng)絡(luò)比較困難。因此必須通過其它方式來發(fā)現(xiàn)社交網(wǎng)絡(luò)。近年來,社區(qū)網(wǎng)絡(luò)發(fā)現(xiàn)領(lǐng)域的重點(diǎn)是重疊社區(qū)發(fā)現(xiàn),而其中的BIGCLAM算法是目前效果突出的重疊社區(qū)發(fā)現(xiàn)算法[11],文獻(xiàn)[6]的實(shí)驗(yàn)對(duì)比表明BIGCLAM算法相對(duì)于其它社區(qū)發(fā)現(xiàn)算法在推薦系統(tǒng)方面具有更好的效果,所以將BIGCLAM算法作為本文發(fā)現(xiàn)用戶社交網(wǎng)絡(luò)的算法。

BIGCLAM算法將社區(qū)內(nèi)的所有用戶的評(píng)分平均值作為社區(qū)的評(píng)分值,然后將單個(gè)用戶的評(píng)分與該社區(qū)評(píng)分值相比較,作為判斷該用戶是否對(duì)該社區(qū)感興趣的標(biāo)準(zhǔn)。然而本文發(fā)現(xiàn)社區(qū)中的每個(gè)用戶對(duì)社區(qū)的貢獻(xiàn)是不同的,在社區(qū)中,擁有更多好友的用戶往往更能代表一個(gè)社區(qū),基于該假設(shè),有以下公式。

(1)帶有權(quán)重的社區(qū)評(píng)分向量

(1)

(2)用戶與社區(qū)的相似度

(2)

式(1)和式(2)定義請(qǐng)參見文獻(xiàn)[9]。

從式(1)中可以看出社區(qū)中好友越多的用戶對(duì)社區(qū)的貢獻(xiàn)度越大。

由此,我們獲得了基于社交網(wǎng)絡(luò)結(jié)構(gòu)的用戶社區(qū)信息和每個(gè)用戶對(duì)每個(gè)社區(qū)感興趣的程度。

1.3 用戶興趣的定義

重疊社區(qū)發(fā)現(xiàn)算法能夠發(fā)現(xiàn)用戶中的網(wǎng)絡(luò)結(jié)構(gòu),屬于同一網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)的用戶存在相同的特性。然而研究發(fā)現(xiàn),有一些用戶,例如有很多打分記錄的用戶(稱為有經(jīng)驗(yàn)的用戶),他們?cè)谶x擇的時(shí)候,很少在意別人的意見,傳統(tǒng)的推薦算法雖然通過社區(qū)聚類緩解了數(shù)據(jù)稀疏的現(xiàn)象,但是它們將這些用戶與其它用戶一視同仁,忽略了這些用戶的個(gè)性,造成了對(duì)這些用戶推薦的不準(zhǔn)確,因此,本文提出了融入用戶興趣的算法,該算法在傳統(tǒng)的推薦算法的基礎(chǔ)上,加入了用戶個(gè)人興趣,提高了推薦的準(zhǔn)確率。

定義用戶興趣

因?yàn)橛脩襞d趣基于用戶已打過分的項(xiàng)目,因此本文定義用戶的興趣即為用戶特征向量Du與物品特征向量Di的相似度,記為Qu,i

Qu,i=sim(Du,Di)

(3)

因此用戶個(gè)人興趣可用一個(gè)條件概率分布來表示,公式如下

(4)

1.4 社區(qū)結(jié)構(gòu)和個(gè)人興趣的融合

目前協(xié)同過濾算法中應(yīng)用的最為廣泛的是矩陣分解模型,其核心思想認(rèn)為用戶的興趣只受少數(shù)幾個(gè)因素的影響,因此將稀疏且高維的用戶項(xiàng)目評(píng)分矩陣R分解為兩個(gè)低維矩陣

R≈UTV

(5)

其中,U∈Rk×m,V∈Rk×n,k?min(m,n)。為了得到更好的結(jié)果,需要對(duì)預(yù)測(cè)評(píng)分矩陣和原評(píng)分矩陣的誤差進(jìn)行優(yōu)化,一般采用以下式(6)

(6)

其中,Iij為指示函數(shù),表示用戶ui對(duì)項(xiàng)目vj是否產(chǎn)生過評(píng)分,取值為0或1。由于User-Item評(píng)分矩陣維度較高,應(yīng)當(dāng)小心謹(jǐn)慎預(yù)防過擬合現(xiàn)象,因此需要通過加入正則化項(xiàng)來避免過擬合,添加正則項(xiàng)后的公式如下

(7)

因此,本文提出了一個(gè)融合了雙重正則項(xiàng)的矩陣分解模型,記為PRM(personalized recommendation model)。其目標(biāo)函數(shù)如式所示

(8)

為了學(xué)習(xí)模型中的參數(shù),我們使用隨機(jī)梯度下降的方法來得到最優(yōu)解,相應(yīng)的公式如下

(9)

(10)

通過不斷地迭代,沿梯度下降方向更新U和V中的元素直到收斂。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)準(zhǔn)備

本節(jié)通過實(shí)驗(yàn)來檢驗(yàn)本文提出方法的有效性。本文在真實(shí)的數(shù)據(jù)集上開展實(shí)驗(yàn),所有的實(shí)驗(yàn)基于臺(tái)式機(jī)環(huán)境,機(jī)器配置如下:操作系統(tǒng)為Win7 64位,CPU為intel i7-4790@3.6 G,內(nèi)存為16 G。

本文的實(shí)驗(yàn)數(shù)據(jù)來自全球最大的餐廳點(diǎn)評(píng)網(wǎng)站YELP提供的公開數(shù)據(jù)集。該數(shù)據(jù)集內(nèi)容豐富,全部為該網(wǎng)站收集的真實(shí)用戶數(shù)據(jù),因此在推薦系統(tǒng)相關(guān)的論文中被多次使用[9]。數(shù)據(jù)集中包括的內(nèi)容有:用戶在YELP網(wǎng)站上對(duì)餐廳的評(píng)分和發(fā)表的評(píng)論,用戶之間的互動(dòng)關(guān)系以及好友關(guān)系,餐廳的風(fēng)味特色等。數(shù)據(jù)集含有8350位用戶,84 652個(gè)餐廳,524 117條用戶互相關(guān)注關(guān)系,263 773條評(píng)分信息。所有數(shù)據(jù)總共分成8個(gè)種類,每個(gè)數(shù)據(jù)種類分別按1-5的標(biāo)度進(jìn)行衡量。YELP數(shù)據(jù)集中的類別信息統(tǒng)計(jì)數(shù)據(jù)見表1。

表1 YELP數(shù)據(jù)集統(tǒng)計(jì)量

2.2 對(duì)比算法

為了驗(yàn)證本文提出的模型與其它模型在準(zhǔn)確率上的差異,本文選擇3種模型作為對(duì)比模型進(jìn)行詳細(xì)驗(yàn)證:

BaseMF:該矩陣分解模型是基本的協(xié)同過濾模型,僅考慮了用戶對(duì)物品的評(píng)分信息,忽略了用戶的社交關(guān)系信息和項(xiàng)目類別信息。

CircleCon:在BaseMF的基礎(chǔ)上,加入了用戶與其好友的信任關(guān)系和用戶信任網(wǎng)絡(luò)信息,提高了結(jié)果的準(zhǔn)確性。

ContextMF:該方法在傳統(tǒng)的矩陣分解的模型中,考慮了個(gè)人影響力和個(gè)人興趣,相對(duì)于傳統(tǒng)的協(xié)同過濾模型相比提升了準(zhǔn)確度。

2.3 評(píng)價(jià)指標(biāo)

本文使用五折交叉驗(yàn)證法。將原始數(shù)據(jù)集平均分為5組,每次先選擇數(shù)據(jù)集的4組當(dāng)作訓(xùn)練集,數(shù)據(jù)集余下的一組當(dāng)作測(cè)試集,最后取5次實(shí)驗(yàn)結(jié)果的平均值作為最終的結(jié)果。

準(zhǔn)確性是衡量推薦算法效果好壞的關(guān)鍵指標(biāo),因此本文采用平均絕對(duì)誤差(MAE)和均方根絕對(duì)誤差(RMSE)作為評(píng)價(jià)指標(biāo)

(11)

(12)

MAE和RMSE的定義請(qǐng)參見文獻(xiàn)[9]。MAE值和RMSE值越小表示推薦結(jié)果的準(zhǔn)確性越高。

2.4 確定正則項(xiàng)系數(shù)λZ的值

式(8)中正則項(xiàng)系數(shù)λZ表示用戶的社交網(wǎng)絡(luò)信息在矩陣分解模型中所占的比重,當(dāng)λZ=0時(shí)相當(dāng)于基本的矩陣分解模型。將λZ分別取值{0.0001,0.001,0.01,0.1,1}進(jìn)行實(shí)驗(yàn)。記錄當(dāng)λZ取不同值時(shí),MAE和RMSE的值的變化。

從圖1中可以發(fā)現(xiàn),當(dāng)λZ取較小的值時(shí),MAE值和RMSE值相對(duì)較高,隨著λZ不斷增大,MAE值和RMSE值會(huì)不斷降低,當(dāng)λZ=0.01時(shí)MAE和RSME同時(shí)達(dá)到最低。λZ的值繼續(xù)增加后,MAE值和RMSE值再次升高。分析其可能原因,當(dāng)λZ取較小的值時(shí),式(8)中的推薦結(jié)果并不受社交網(wǎng)絡(luò)信息的影響,因而不能反映出社交網(wǎng)絡(luò)信息在推薦過程中起到的重要作用;而λZ取值過大時(shí),則過度放大了社交網(wǎng)絡(luò)信息在推薦過程中所起的作用,結(jié)果適得其反。

圖1 系數(shù)λZ對(duì)準(zhǔn)確度MAE,RMSE的影響

2.5 結(jié)果對(duì)比與分析

(1)不同推薦算法的推薦效果對(duì)比

根據(jù)實(shí)驗(yàn)可以得到,當(dāng)正則項(xiàng)系數(shù)λZ=0.01時(shí),本文提出的PRM算法能夠獲得最高的準(zhǔn)確率。為了進(jìn)一步評(píng)估PRM算法的有效性,本文先采用五折交叉法對(duì)本文實(shí)驗(yàn)所需算法的參數(shù)進(jìn)行驗(yàn)證確定。結(jié)果顯示,λU=λZ=0.01時(shí)效果最好,λU,λZ為常規(guī)正則項(xiàng)系數(shù)。用戶隱式特征向量維數(shù)取值等于項(xiàng)目隱式特征向量維數(shù)取值,均為15。在CircleCon算法和ContextMF算法中,社交正則項(xiàng)系數(shù)λZ分別設(shè)為0.01,0.01。在PRM中,個(gè)人興趣系數(shù)取30。最后將PRM算法與上文中提到的其它推薦算法進(jìn)行對(duì)比。

根據(jù)圖2和圖3可知,本文提出的PRM推薦算法相對(duì)于其它推薦算法,MAE和RMSE的值更低,推薦結(jié)果更準(zhǔn)確。

圖2 PRM算法與其它算法的MAE值對(duì)比

圖3 PRM算法與其它算法的RMSE值對(duì)比

分析其可能的原因,BaseMF算法由于沒有考慮用戶之間的社交關(guān)系所以推薦效果最差。CircleCon算法以用戶打過分的項(xiàng)目為依據(jù),將用戶分成不同的組別,但是在每個(gè)組別中,用戶與用戶之間的互動(dòng)不多,造成了推薦不夠準(zhǔn)確。ContextMF算法沒有同時(shí)利用用戶社交信息和項(xiàng)目的類別信息,造成推薦結(jié)果準(zhǔn)確性不夠高。本文提出的PRM算法首先利用用戶的社區(qū)結(jié)構(gòu)信息,改善了因用戶的直接社交關(guān)系數(shù)據(jù)稀疏而造成的過擬合的問題;然后通過加入有經(jīng)驗(yàn)用戶的個(gè)人興趣,優(yōu)化了用戶的特征向量,獲得更加準(zhǔn)確地推薦結(jié)果。

3 結(jié)束語

現(xiàn)有的基于社交關(guān)系的推薦算法雖然在緩解數(shù)據(jù)稀疏方面有很好的效果,但是它們將屬于一個(gè)組的用戶視為一個(gè)用戶,學(xué)習(xí)他們共有的特征,沒有考慮一些有經(jīng)驗(yàn)用戶的個(gè)人特性,而這些用戶往往是電商網(wǎng)站重要的客戶,忽視這些用戶將導(dǎo)致推薦效果不理想。為了解決這一問題,本文提出了一種新的推薦算法,該算法先利用重疊社區(qū)發(fā)現(xiàn)算法挖掘用戶的社交關(guān)系群體,解決了數(shù)據(jù)稀疏性的問題,然后加入經(jīng)驗(yàn)用戶的個(gè)人興趣,從而獲得更好的推薦效果。實(shí)驗(yàn)結(jié)果表明該算法比現(xiàn)有算法能夠得到更準(zhǔn)確的推薦結(jié)果。

猜你喜歡
個(gè)人興趣正則社交
社交之城
英語世界(2023年6期)2023-06-30 06:28:28
社交牛人癥該怎么治
意林彩版(2022年2期)2022-05-03 10:25:08
社交距離
2018年12月大學(xué)英語六級(jí)作文試題評(píng)析(四)
英語世界(2019年7期)2019-09-10 07:22:44
剩余有限Minimax可解群的4階正則自同構(gòu)
你回避社交,真不是因?yàn)閮?nèi)向
文苑(2018年17期)2018-11-09 01:29:28
類似于VNL環(huán)的環(huán)
淺論英語學(xué)習(xí)動(dòng)機(jī)與自我認(rèn)同
體育學(xué)習(xí)興趣研究新進(jìn)展
有限秩的可解群的正則自同構(gòu)
巴林左旗| 灯塔市| 北安市| 化隆| 琼中| 资兴市| 大英县| 苍梧县| 南京市| 宁强县| 交城县| 威海市| 东明县| 土默特右旗| 连平县| 永福县| 汉寿县| 象州县| 武城县| 潞城市| 昭苏县| 迭部县| 微山县| 库尔勒市| 青海省| 射洪县| 叶城县| 高唐县| 安阳市| 丰都县| 昌江| 大同县| 定陶县| 自治县| 大埔区| 大洼县| 绍兴市| 邯郸县| 清涧县| 禹城市| 岳普湖县|