国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PMF進(jìn)行潛在特征因子分解的標(biāo)簽推薦

2015-11-30 18:49:32劉勝宗樊曉平廖志芳吳言鳳
關(guān)鍵詞:協(xié)同過濾推薦系統(tǒng)

劉勝宗 樊曉平 廖志芳 吳言鳳

摘要: 現(xiàn)有社會(huì)標(biāo)簽推薦技術(shù)存在數(shù)據(jù)稀疏、時(shí)間復(fù)雜度高以及可解釋性低等問題,鑒于此,提出基于概率矩陣分解(PMF)進(jìn)行潛在特征因子聯(lián)合分解的標(biāo)簽推薦算法(TagRecUPMF),它結(jié)合用戶、資源及標(biāo)簽3方面的潛在特征,聯(lián)合構(gòu)建對(duì)應(yīng)的概率形式的潛在特征向量,然后根據(jù)它們兩兩之間的特征向量?jī)?nèi)積進(jìn)行線性組合,從而產(chǎn)生TopN推薦。該算法解決了數(shù)據(jù)規(guī)模大且稀疏情況下的精度問題,算法的線性復(fù)雜度使得其可用于大規(guī)模數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,相比于TagRecCF,PITF, TTD,Tucker,NMF等算法,本文算法既提高了推薦的準(zhǔn)確率,又降低了時(shí)間損耗。與PITF算法相比較,準(zhǔn)確率得到了提高,而處理時(shí)間相差不明顯;與TTD算法相比較,在準(zhǔn)確率相差不明顯的情況下,大大降低了時(shí)間損耗。因此,本文的TagRecUPMF算法相比其他算法表現(xiàn)出了一定的優(yōu)勢(shì)。

關(guān)鍵詞:協(xié)同過濾;潛在特征因子;標(biāo)簽推薦;推薦系統(tǒng);概率矩陣分解

中圖分類號(hào):TN911。23 文獻(xiàn)標(biāo)識(shí)碼:A

作為Web2。0的重要特征,社會(huì)標(biāo)簽系統(tǒng)允許用戶對(duì)系統(tǒng)資源利用個(gè)性化標(biāo)簽進(jìn)行標(biāo)注,從而使具有相同興趣偏好的用戶相互推薦及共享資源\[1\]。國(guó)內(nèi)外知名社會(huì)標(biāo)簽系統(tǒng)有音樂類標(biāo)簽系統(tǒng)last。fm\[2\]、圖片類標(biāo)簽系統(tǒng)flickr\[3\]、電影類標(biāo)簽系統(tǒng)movielens\[4\]、書簽和出版物信息共享系統(tǒng)bibsonomy\[5\]等。這些網(wǎng)站采用社會(huì)標(biāo)簽整合各類資源,這有助于用戶組織、瀏覽和搜索自己感興趣的資源,也能夠更好地幫助用戶之間進(jìn)行溝通及共享,而標(biāo)簽推薦系統(tǒng)可將用戶感興趣的標(biāo)簽推薦給使用同一資源的用戶\[6\]。

標(biāo)簽推薦系統(tǒng)基于用戶以往的標(biāo)注行為進(jìn)行標(biāo)簽推薦,這種推薦同時(shí)依賴于用戶和資源\[7\]。目前廣泛應(yīng)用的協(xié)同過濾推薦\[8\](CF)為目標(biāo)用戶尋找有相似標(biāo)注行為的其他用戶(近鄰),并將近鄰在目標(biāo)資源上標(biāo)注過的其他標(biāo)簽推薦給目標(biāo)用戶,該技術(shù)簡(jiǎn)單和實(shí)用,但也面臨著冷啟動(dòng)和數(shù)據(jù)稀疏問題\[6\]。基于此,研究者嘗試從其他角度去研究新的推薦策略及方法,目前,大部分關(guān)于標(biāo)簽推薦的研究集中在因子分解方面,比較典型的有非負(fù)矩陣分解(NMF)\[9\],奇異值分解(SVD)\[10\],高階奇異值分解(HOSVD)\[6\],Tucker張量分解\[8\],PITF張量分解\[1\]以及TTD張量分解\[6\],這些方法在解決數(shù)據(jù)稀疏性和缺失值帶來的問題上取得了較好的效果。但這些分解技術(shù)僅考慮了標(biāo)注關(guān)系,并未考慮用戶的評(píng)分偏好關(guān)系,由于用戶選擇標(biāo)簽進(jìn)行標(biāo)注的過程中同時(shí)受自身對(duì)資源和標(biāo)簽的興趣偏好影響。另外,不同用戶對(duì)標(biāo)簽或資源的興趣偏好側(cè)重面不一樣[11],標(biāo)簽和資源是受某些基本的、潛在的特征支配,用戶的偏好則是由用戶對(duì)這些潛在特征喜好程度的加權(quán)綜合,用戶的標(biāo)注行為除受本身偏好的影響之外,同樣還受到標(biāo)簽和資源的潛在特征結(jié)構(gòu)的影響\[8\]。這體現(xiàn)出一種“資源標(biāo)簽”的雙重概率關(guān)系\[12\],這種關(guān)系同樣存在于“用戶資源”、“用戶標(biāo)簽”情形中。為了解決上述問題,本文提出一種新的標(biāo)簽推薦方法(TagRecUPMF),該方法采用概率矩陣分解技術(shù)進(jìn)行潛在特征因子聯(lián)合分解,然后通過潛在特征向量之間相互組合完成推薦。

湖南大學(xué)學(xué)報(bào)(自然科學(xué)版)2015年

第10期劉勝宗等:基于PMF進(jìn)行潛在特征因子分解的標(biāo)簽推薦

1問題定義

社會(huì)標(biāo)簽系統(tǒng)可形式化定義為F:=(US,TS,IS,RS),其中US為User集合,TS為Tag集合,IS為Item集合,RS為User,Item和Tag之間的關(guān)系集合,其中RS∈TS×US×IS\[6\]。標(biāo)簽推薦是在用戶訪問的資源上推薦與資源相關(guān)的標(biāo)簽。符號(hào)標(biāo)記如表1所示。

表1符號(hào)標(biāo)記表

Tab。1Definition table of symbol

符號(hào)標(biāo)記

解釋說明

US={u1,u2,…,um}

用戶集合,共m個(gè)用戶

IS={i1,i2,…,in}

資源集合,共n個(gè)資源

TS={t1,t2,…,to}

標(biāo)簽集合,共o個(gè)標(biāo)簽

U∈Rl×m

用戶潛在特征矩陣

V∈Rl×n

資源潛在特征矩陣

W∈Rl×o

標(biāo)簽潛在特征矩陣

l∈R

潛在特征空間維數(shù)

B={bui},B∈Rm×n

用戶資源關(guān)系矩陣

C={but},C∈Rm×o

用戶標(biāo)簽關(guān)系矩陣

A={ait},A∈Rn×o

資源標(biāo)簽關(guān)系矩陣

一般地,用戶對(duì)標(biāo)簽的認(rèn)可程度、用戶對(duì)資源的興趣程度和資源與標(biāo)簽的關(guān)聯(lián)程度分別表示成用戶標(biāo)簽認(rèn)可關(guān)系矩陣C、用戶資源興趣矩陣B和資源標(biāo)簽關(guān)聯(lián)度矩陣A。l表示潛在特征空間的維數(shù)。用戶對(duì)標(biāo)簽的認(rèn)可程度由用戶潛在特征向量和標(biāo)簽潛在特征向量的內(nèi)積得到,用戶對(duì)資源的興趣程度由用戶潛在特征向量和資源潛在特征向量的內(nèi)積得到,資源與標(biāo)簽的關(guān)聯(lián)度由資源潛在特征向量和標(biāo)簽潛在特征向量的內(nèi)積得到。

設(shè)用戶u訪問資源i時(shí),選擇標(biāo)簽t的概率表示為yu,i,t,那么

yu,i,t=f(UTuVi,UTuWt,VTiWt)。(1)

式中:Uu為用戶u的潛在特征向量;Vi為資源i的潛在特征向量;Wt為標(biāo)簽t的潛在特征向量;UTuVi,UTuWt,VTiWt分別用于計(jì)算用戶u對(duì)資源i的感興趣程度、用戶u對(duì)標(biāo)簽t的認(rèn)可程度以及標(biāo)簽t與資源i的關(guān)聯(lián)程度;f(·)參數(shù)為UTuVi,UTuWt,VTiWt的函數(shù);yu,i,t又稱為給定用戶u和資源i情況下的標(biāo)簽t的推薦概率。

當(dāng)用戶u在訪問資源i時(shí),標(biāo)簽的TopN推薦列表可以定義如下\[6\]:

Top(u,i,N):=argmaxNt∈T(yu,i,t)。(2)

式中:N為推薦列表的長(zhǎng)度。

2基于UPMF的標(biāo)簽推薦模型

本文提出基于聯(lián)合概率矩陣分解(UPMF)的標(biāo)簽推薦算法TagRecUPMF,算法包含3個(gè)部分:

1)求解潛在特征向量。首先根據(jù)訓(xùn)練數(shù)據(jù)集計(jì)算實(shí)體間的關(guān)系矩陣,然后根據(jù)分解算法通過梯度下降方法,以最大化聯(lián)合的后驗(yàn)概率為目標(biāo)函數(shù),學(xué)習(xí)得到用戶潛在特征向量、資源潛在特征向量以及標(biāo)簽潛在特征向量。

2)根據(jù)公式(3)對(duì)給定的用戶和資源計(jì)算標(biāo)簽集中各標(biāo)簽的推薦概率。

yu,i,t=βUTuVi+γUTuWt+δVTiWt,

s。t。β+γ+δ=1。(3)

3)根據(jù)TopN推薦規(guī)則,選取推薦概率排名前N的標(biāo)簽推薦給用戶。

2。1實(shí)體間關(guān)系矩陣的計(jì)算

1)用戶資源關(guān)系矩陣。用戶資源關(guān)系矩陣B表示m個(gè)用戶對(duì)n個(gè)資源的興趣對(duì)應(yīng)關(guān)系。B中元素bui表示用戶u對(duì)資源i感興趣的程度。

bui=αg(hui)+(1-α)g(rui)。 (4)

式中:hui為資源i被用戶u標(biāo)注的次數(shù);rui為用戶u對(duì)資源i的評(píng)分;g(·)為logistic函數(shù),用于歸一化;α為平衡因子,取值為\[0,1\]。

2)用戶標(biāo)簽關(guān)系矩陣。用戶標(biāo)簽關(guān)系矩陣C表示m個(gè)用戶對(duì)o個(gè)標(biāo)簽的偏好對(duì)應(yīng)關(guān)系。C中每個(gè)元素cut表示用戶u對(duì)標(biāo)簽t的偏好或者認(rèn)知程度。

cut=g(λut)。(5)

式中:λut為用戶u使用標(biāo)簽t的次數(shù)。

3)資源標(biāo)簽關(guān)系矩陣。資源標(biāo)簽關(guān)系矩陣A表示n個(gè)資源和o個(gè)標(biāo)簽的關(guān)聯(lián)度關(guān)系。A中元素ait表示資源i和標(biāo)簽t之間的關(guān)聯(lián)程度,通常認(rèn)為,在資源i上標(biāo)注標(biāo)簽t的次數(shù)越多,表示有越多的用戶認(rèn)為標(biāo)簽t和資源i的關(guān)聯(lián)度大。ait由公式(6)計(jì)算得到:

ait=g(τit)。(6)

式中:τit為資源i上標(biāo)注標(biāo)簽t的次數(shù)。

2。2概率矩陣聯(lián)合分解

TagRecUPMF標(biāo)簽推薦模型的概率圖如圖1所示。

圖1TagRecUPMF的概率圖模型

Fig。1Probabilistic graphical model of TagRecUPMF

其中,用戶潛在特征向量Uu由用戶標(biāo)簽關(guān)系信息和用戶資源關(guān)系信息共享;資源潛在特征向量Vi則由用戶資源關(guān)系信息和資源標(biāo)簽關(guān)系信息共享;標(biāo)簽潛在特征向量Wt由用戶標(biāo)簽關(guān)系信息和資源標(biāo)簽關(guān)系信息共享。

概率矩陣分解模型中,首先假設(shè)潛在特征向量Uu,Vi,Wt的先驗(yàn)服從均值為0的高斯分布,即

p(U|σ2U)=∏mu=1N(Uu|0,σ2UI);(7)

p(V|σ2V)=∏ni=1N(Vi|0,σ2VI);(8)

p(W|σ2W)=∏oi=1N(Wt|0,σ2WI)。(9)

在給定用戶u,資源i的潛在特征向量(維數(shù)為l)Uu,Vi后,用戶u對(duì)i的感興趣程度bui滿足均值為g(UTuVi),方差為σ2B的高斯分布并相互獨(dú)立,因此B的條件概率分布為:

p(B|U,V,σ2B)=∏mu=1∏ni=1[N(bui|g(UTuVi),σ2B)]IBui。(10)

式中:IBui為指示函數(shù),當(dāng)用戶u訪問或標(biāo)注過資源i時(shí),其值為1,否則為0;g( ·)為logistic函數(shù),用于將UTuV歸一化。

用戶u對(duì)標(biāo)簽t的興趣程度cut滿足均值為g(UTuWt)方差為σ2C的高斯分布且相互獨(dú)立,那么C的條件概率分布如下:

p(C|U,W,σ2C)=∏mu=1∏ot=1[N(cut|g(UTuWt),σ2C)]ICut。 (11)

其中,當(dāng)用戶u使用過標(biāo)簽t進(jìn)行標(biāo)注時(shí),ICut為1,否則為0。

若資源i和標(biāo)簽t的關(guān)聯(lián)度ait滿足均值為g(VTiWt),方差為σ2A的高斯分布且相互獨(dú)立時(shí),A的條件概率分布為:

p(A|V,W,σ2A)=∏ni=1∏ot=1[N(ait|g(VTiWt),σ2A)]IAit。 (12)

其中,當(dāng)資源i和標(biāo)簽t有關(guān)聯(lián)時(shí),IAit值為1,否則為0。

由圖1可以推導(dǎo)出U,V,W的后驗(yàn)分布函數(shù),該分布函數(shù)的自然對(duì)數(shù)形式如公式(13)所示。

公式(13)中,

瘙 綇 是不依賴于參數(shù)的常量。在概率矩陣分解模型中,需要最大化公式(13),這是一個(gè)無約束情況下的優(yōu)化問題,該問題的求解等價(jià)于最小化公式(14)。

lnp(U,V,W|B,C,A,σ2W,σ2V,σ2U,σ2A,σ2C,σ2B)=

-12σ2B∑mu=1∑ni=1IBui(bui-g(UTuVi))2-

12σ2C∑mu=1∑ot=1ICut(cut-g(UTuWt))2-

12σ2A∑ni=1∑ot=1IAit(ait-g(VTiWt))2-

12σ2U∑mu=1UTuUu-12σ2V∑ni=1VTiVi-12σ2W∑ot=1WTtWt-

∑mu=1∑ni=1IBuilnσB-∑mu=1∑ot=1ICutlnσC-

∑ni=1∑ot=1IAitlnσA-l∑mu=1lnσU-l∑ni=1lnσV-

l∑ot=1lnσW+

瘙 綇 ;(13)

Ω(U,V,W,B,C,A)=12∑mu=1∑ni=1IBui(bui-

g(UTuVi))2+λC2∑mu=1∑ot=1ICut(cut-g(UTuWt))2+

λA2∑ni=1∑ot=1IAit(ait-g(VTiWt))2+

λU2‖U‖2F+λV2‖V‖2F+λW2‖W‖2F;(14)

ΩUu=∑ni=1IBui(g(UTuVi)-bui)g'(UTuVi)Vi+

λC∑ot=1ICut(g(UTuWt)-cut)g'(UTuWt)Wt+λUUu; (15)

ΩVi=∑mu=1IBui(g(UTuVi)-bui)g'(UTuVi)Uu+

λA∑ot=1IAit(g(VTiWt)-ait)g'(VTiWt)Wt+λVVi;(16)

ΩWt=λC∑mu=1ICut(g(UTuWi)-cut)g'(UTuWi)Uu+

λA∑ni=1IAit(g(VTiWt)-ait)g'(VTiWt)Vi+λWWt。 (17)

公式(14)中:λC=σ2Bσ2C;λA=σ2Bσ2A;λU=σ2Bσ2U;λV=σ2Bσ2V;λW=σ2Bσ2W;‖·‖2F表示F范數(shù)。公式(14)的局部最小值采用梯度下降法進(jìn)行求解,參數(shù)Uu,Vi,Wt的梯度下降更新公式分別為公式(15)-式(17)。

2。3算法復(fù)雜度分析

在梯度下降法中,算法的時(shí)間開銷主要取決于目標(biāo)函數(shù)Ω及其相應(yīng)的梯度下降更新公式。在標(biāo)簽標(biāo)注數(shù)據(jù)和用戶評(píng)分?jǐn)?shù)據(jù)中,存在大量的缺失值,這導(dǎo)致A,B,C矩陣很稀疏,容易得出公式(14)目標(biāo)函數(shù)的計(jì)算時(shí)間復(fù)雜度為O(ρBl+ρCl+ρAl),其中ρA,ρB,ρC分別表示3個(gè)實(shí)體關(guān)系矩陣A,B,C的非零元素?cái)?shù)目。同理,梯度下降公式(15)-(17)的計(jì)算復(fù)雜度分別為O(ρBl+ρCl),O(ρBl+ρAl),O(ρCl+ρAl)。所以,算法的一步迭代過程中的計(jì)算復(fù)雜度為O(ρBl+ρCl+ρAl),這表示算法的時(shí)間復(fù)雜度隨3個(gè)關(guān)系矩陣中觀測(cè)數(shù)據(jù)數(shù)量呈正線性關(guān)系,意味著該算法可應(yīng)用于大規(guī)模的數(shù)據(jù)。

3實(shí)驗(yàn)結(jié)果及分析

3。1實(shí)驗(yàn)設(shè)計(jì)

3。1。1數(shù)據(jù)集

本文選取目前標(biāo)簽推薦研究常用的201110M版movielens數(shù)據(jù)集,該數(shù)據(jù)集包含了2 113個(gè)用戶,10 197部電影以及13 222個(gè)標(biāo)簽。

3。1。2算法性能評(píng)價(jià)指標(biāo)

目前衡量推薦算法優(yōu)劣需要同時(shí)考慮準(zhǔn)確率和召回率,而準(zhǔn)確率和召回率\[12\]指標(biāo)往往是負(fù)相關(guān)的,因此為了綜合考慮算法的性能,本文選用F1指標(biāo)\[12\]來衡量算法的性能,F(xiàn)1指標(biāo)定義見公式(18),其中Precision表示準(zhǔn)確率,Recall表示召回率,其計(jì)算方法可參考文獻(xiàn)\[12\]。F1越高,算法的性能越好。

F1=2·Precision×RecallPrecision+Recall。(18)

3。1。3實(shí)驗(yàn)設(shè)計(jì)

為了檢驗(yàn)TagRecUPMF算法的推薦效果,本文需要通過實(shí)驗(yàn)解決以下幾個(gè)方面的問題:1)潛在特征向量的維度l對(duì)推薦性能的影響;2)平衡因子α對(duì)推薦結(jié)果的影響;3)參數(shù)λA和λC對(duì)推薦結(jié)果的影響;4)TagRecUPMF算法與現(xiàn)有經(jīng)典標(biāo)簽推薦算法的準(zhǔn)確度及時(shí)間效率比較。

實(shí)驗(yàn)前,為了比較不同數(shù)據(jù)規(guī)模和稀疏情況下算法的效果,分別從實(shí)驗(yàn)數(shù)據(jù)中抽取90%,70%,50%,30%作為訓(xùn)練集,其余作為測(cè)試集進(jìn)行實(shí)驗(yàn)。

實(shí)驗(yàn)過程中,通過對(duì)訓(xùn)練集嘗試不同的參數(shù)值,進(jìn)而在測(cè)試集上得到F1指標(biāo)值。經(jīng)反復(fù)測(cè)試得出參數(shù)設(shè)為α=0。4,β=γ=δ=1/3,λC=1,λA=0。6, λU=λV=λW=0。05時(shí),算法的效果最優(yōu)。在后續(xù)的實(shí)驗(yàn)中,若無特別說明,這些參數(shù)均設(shè)為最優(yōu)值。同時(shí)實(shí)驗(yàn)中,TopN推薦中取N=10。

3。2實(shí)驗(yàn)分析

3。2。1參數(shù)l對(duì)推薦性能的影響

該實(shí)驗(yàn)用于檢測(cè)潛在特征向量的維數(shù)l對(duì)推薦算法性能的影響。圖2為l對(duì)算法準(zhǔn)確率的影響,圖3為l對(duì)算法時(shí)間效率的影響。從圖2可以看出,隨著特征向量維數(shù)的增加,推薦準(zhǔn)確率慢慢提高,這說明增加潛在特征向量的維數(shù)可以提高矩陣分解算法的準(zhǔn)確性,而當(dāng)l>15時(shí),精度增加的趨勢(shì)變緩。由圖3可以看出,隨著l的增大,算法耗費(fèi)的時(shí)間也成正比的增大。因此出于準(zhǔn)確率和時(shí)間損耗的平衡考慮,選擇l=15。

3。2。2α對(duì)推薦準(zhǔn)確率的影響

在式(4)中,利用參數(shù)α來調(diào)節(jié)資源被標(biāo)注次數(shù)和資源評(píng)分在用戶對(duì)資源興趣程度中的權(quán)重比例,從而影響推薦準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如圖4所示。由圖4可以看出,α值處于0。3到0。5之間時(shí),F(xiàn)1的值由上升轉(zhuǎn)變?yōu)橄陆第厔?shì),這就意味著在這2個(gè)值之間存在一個(gè)可以使得F1最優(yōu)的α值。本文將α值選取為0。4。這說明利用資源被標(biāo)注次數(shù)和資源評(píng)分的加權(quán)組合來表示用戶對(duì)資源興趣程度時(shí)的效果略好于這兩者單獨(dú)表示的情況。

l

圖2l對(duì)算法準(zhǔn)確率的影響

Fig。2Influence on accuracy of l

l

圖3l對(duì)算法時(shí)間消耗的影響

Fig。3Influence on complexity of l

α

圖4平衡因子α對(duì)算法準(zhǔn)確率的影響

Fig。4Influence on accuracy of α

3。2。3參數(shù)λA和λC對(duì)推薦結(jié)果的影響

概率矩陣聯(lián)合分解模型有5個(gè)參數(shù),分別為λA,λC,λU,λV,λW,在這部分實(shí)驗(yàn)中,主要討論λA和λC的影響,而其他3個(gè)參數(shù)為了簡(jiǎn)單起見設(shè)置為相同的值,并通過交叉驗(yàn)證(crossvalidation)的

方式獲取這3個(gè)參數(shù)的最優(yōu)值,即λU=λV=λW=0。05。TagRecUPMF算法中λA決定了資源標(biāo)簽關(guān)系矩陣對(duì)算法的影響權(quán)重,而λC決定了用戶標(biāo)簽關(guān)系矩陣對(duì)算法的影響權(quán)重。當(dāng)這兩者同時(shí)設(shè)為0時(shí),表示算法在進(jìn)行推薦時(shí),僅考慮用戶資源關(guān)系矩陣,而當(dāng)λA或λC設(shè)為+

SymboleB@ 時(shí),則意味著僅利用資源標(biāo)簽關(guān)系矩陣或者用戶標(biāo)簽關(guān)系矩陣。實(shí)驗(yàn)結(jié)果如圖5所示,圖中顯示了在λA和λC的不同取值時(shí)的算法準(zhǔn)確率。當(dāng)λA=1,λC=0。6時(shí),TagRecUPMF算法的準(zhǔn)確率最高。這表明這兩個(gè)參數(shù)相互約束,而用戶標(biāo)簽關(guān)系矩陣的影響更顯著。這是因?yàn)槊嫦蛴脩敉扑]標(biāo)簽時(shí),資源和標(biāo)簽之間的相似關(guān)系受語義影響較大(多義或同義),而用戶和標(biāo)簽之間的關(guān)系雖然受用戶的主觀影響,但依然反映了用戶對(duì)標(biāo)簽的特殊偏好,因此在推薦過程中需要考慮這兩種關(guān)系的權(quán)衡,也應(yīng)更多地考慮用戶對(duì)標(biāo)簽的個(gè)性化因素。

圖5參數(shù)λA和λC對(duì)算法準(zhǔn)確度的影響

Fig。5Influence on accuracy of λAandλC

3。2。4推薦算法的性能比較

該部分實(shí)驗(yàn)是將TagRecUPMF算法和目前常見的部分經(jīng)典算法從準(zhǔn)確率和時(shí)間消耗兩個(gè)方面進(jìn)行比較,選用的參照算法包括基于協(xié)同過濾的標(biāo)簽推薦(TagRecCF)、基于Tucker分解的標(biāo)簽推薦、非負(fù)矩陣分解標(biāo)簽推薦算法(NMF)、基于三部圖張量分解標(biāo)簽推薦算法(TTD)以及PITF算法。

表2是在不同訓(xùn)練數(shù)據(jù)集規(guī)模時(shí)各算法的F1值(10次實(shí)驗(yàn)結(jié)果取平均值)。由表1可以看出,在訓(xùn)練數(shù)據(jù)集比例較?。?lt;50%)時(shí),TagRecUPMF算法準(zhǔn)確度相對(duì)其他算法而言均有提升,當(dāng)比例較大時(shí),TagRecUPMF算法比TTD算法的準(zhǔn)確度略低,而相比其他算法依然高出7%~13%,其中TagRecCF算法的準(zhǔn)確度受數(shù)據(jù)稀疏影響最大,準(zhǔn)確率最低,實(shí)驗(yàn)結(jié)果呈現(xiàn)這種現(xiàn)象的原因是Tucker,NMF,PITF算法未考慮用戶對(duì)資源的評(píng)分,影響了準(zhǔn)確度,而TTD算法雖然沒考慮評(píng)分,但它不僅僅考慮實(shí)體間的直接關(guān)系,還考慮了兩兩實(shí)體因?yàn)榈谌綄?shí)體而產(chǎn)生的間接關(guān)系,雖然提高了準(zhǔn)確性,但其時(shí)間損耗高,在實(shí)際應(yīng)用中并不實(shí)用。

表3為時(shí)間消耗統(tǒng)計(jì)情況,其中時(shí)間消耗最大的是Tucker算法,其次是TTD算法,而PITF和本文的TagRecUPMF時(shí)間消耗最小,PITF算法的時(shí)間消耗略低于TagRecUPMF算法,這是由于PITF算法沒有考慮評(píng)分?jǐn)?shù)據(jù),因此在時(shí)間性能上略為占優(yōu),但在時(shí)間復(fù)雜度上,這兩者方法依然同為線性級(jí)別。因此,比較各算法在準(zhǔn)確率和時(shí)間消耗指標(biāo)上的綜合情況,本文的TagRecUPMF算法相比其他算法而言表現(xiàn)出了一定的優(yōu)勢(shì)。

表2TagRecUPMF算法與其他參照算法的準(zhǔn)確率比較

Tab。2Accuracy comparison between TagRecUPMF and other reference algorithms

訓(xùn)練數(shù)據(jù)集比例/%

F1

TagRecCF

Tucker

NMF

PITF

TTD

TagRecUPMF

90

0。456 3

0。476 9

0。516 9

0。505 9

0。596 7

0。589 6

70

0。359 6

0。456 1

0。491 2

0。472 7

0。571 3

0。565 9

50

0。156 6

0。432 3

0。468 5

0。456 9

0。498 8

0。544 4

30

0。086 9

0。410 1

0。453 6

0。443 2

0。482 3

0。521 1

表3TagRecUPMF算法與其他參照算法的時(shí)間消耗比較

Tab。3Time consuming between TagRecUPMF and other reference algorithms

訓(xùn)練數(shù)據(jù)集比例/%

運(yùn)行時(shí)間/min

TagRecCF

Tucker

NMF

PITF

TTD

TagRecUPMF

90

165

378

243

87

356

88

70

99

201

120

47

183

49

50

65

128

53

27

129

31

30

50

96

34

21

98

22

4總結(jié)

在社會(huì)標(biāo)簽推薦系統(tǒng)中,由于數(shù)據(jù)非常稀疏,加上現(xiàn)有的標(biāo)簽推薦算法并未充分利用標(biāo)簽標(biāo)注系統(tǒng)中的相關(guān)信息,因此精度不高,而矩陣、張量分解等技術(shù)用一種降維的方法表示稀疏數(shù)據(jù),緩解了數(shù)據(jù)稀疏帶來的精度問題。本文基于概率矩陣分解,將用戶、標(biāo)簽、資源三方面的潛在特征因子進(jìn)行聯(lián)合分解,并將求得的特征向量?jī)蓛芍g的內(nèi)積進(jìn)行線性加權(quán)并產(chǎn)生推薦。在實(shí)驗(yàn)過程中討論了TagRecUPMF算法中各參數(shù)對(duì)結(jié)果的影響,根據(jù)實(shí)驗(yàn)結(jié)果綜合精度和時(shí)間損耗指標(biāo)可以得出,TagRecUPMF算法相比當(dāng)前流行的算法具有一定的優(yōu)勢(shì)。

參考文獻(xiàn)

[1]RENDLE S, SCHMIDTTHIEME L。 Pairwise interaction tensor actorization for personalized tag recommendation \[C\]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining。 New York,USA:ACM,2010:81-90。

[2]JSCHKE R, MARINHO L, HOTHO A, et al。 TagRecommendations in folksonomies\[J\]。 Knowledge Discovery in Databases: PKDD,2007,47(2): 506-514。

[3]SIGURBJRNSSON B, VAN ZWOL R。 Flickr tag recommendation based on collective knowledge\[C\] //Proceedings of the 17th International Conference on World Wide Web。 Beijing:ACM, 2008: 327-336。

[4]SEN S, LAM S K, RASHID A M, et al。 Tagging, communities, vocabulary, evolution\[C\]//Proceedings of the 2006 20th Anniversary Conference on Computer Supported Cooperative Work。 New York, USA:ACM, 2006: 181-190。

[5]HOTHO A, JSCHKE R, SCHMITZ C, et al。 BibSonomy: A social bookmark and publication sharing system\[C\]//Proceedings of the Conceptual Structures Tool Interoperability Workshop at the 14th International Conference on Conceptual Structures。 Aalborg, Denmark, 2006:87-102。

[6]廖志芳,李玲,劉麗敏,等。三部圖張量分解標(biāo)簽推薦算法\[J\]。計(jì)算機(jī)學(xué)報(bào),2012,35(12):2625-2632。

LIAO Zhifang, LI Lin, LIU Limin,et al。 A tripartite decomposition of tensor for social tagging \[J\]。Chinese Journal of Computers, 2012,35(12):2625-2632。(In Chinese)

[7]MA H, YANG H, LYU M R, et al。 Sorec: Social recommend dation using probabilistic matrix factorization \[C\]//Proceedings of the 17th ACM Conference on Information and Knowledge Management。 New York, USA:ACM, 2008: 931-940。

[8]SYMEONIDIS P, NANOPOULOS A, MANOLOPOULOS Y。 TagRecommendations based on tensor dimensionality reduction\[C\]//Proceedings of the 2008 ACM Conference on Recommender Systems。 Lausanne, Switzerland:ACM, 2008: 43-50。

[9]LANGSETH H, NIELSEN T D。 A latent model for collaborative filtering\[J\]。 International Journal of Approximate Reasoning, 2012, 53(4): 447-466。

[10]POLAT H, DU W。 SVDbased collaborative filtering with privacy\[C\]//Proceedings of the 2005 ACM Symposium on Applied Computing。New York, USA:ACM,2005: 791-795。

[11]MA H, KING I, LYU M R。 Learning to recommend with social trust ensemble\[C\]//Proceedings of the 32nd Inter National ACM SIGIR Conference on Research and Development in Information Retrieval。 Boston,USA:ACM,2009: 203-210。

[12]朱郁筱,呂琳媛。推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述\[J\]。電子科技大學(xué)學(xué)報(bào),2012,41(2):163-175。

ZHU Yuxiao, LV Linyuan。 Evaluation metrics for recommender systems\[J\]。 Journal of University of Electronic Science and Technology of China, 2012, 41(2): 163-175。 (In Chinese)

猜你喜歡
協(xié)同過濾推薦系統(tǒng)
數(shù)據(jù)挖掘在選課推薦中的研究
軟件(2016年4期)2017-01-20 10:09:33
圖書推薦算法綜述
基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
改進(jìn)的協(xié)同過濾推薦算法
基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
混合推薦算法在電影推薦中的研究與評(píng)述
金沙县| 铁力市| 临洮县| 阿尔山市| 南陵县| 阜新市| 昂仁县| 绥中县| 平利县| 沂水县| 盐池县| 永安市| 香格里拉县| 琼海市| 芮城县| 东港市| 溧水县| 东莞市| 图木舒克市| 伊春市| 平度市| 萝北县| 房山区| 宝鸡市| 涪陵区| 冷水江市| 宝丰县| 云霄县| 汪清县| 东源县| 阳泉市| 福建省| 甘肃省| 苍山县| 大理市| 齐齐哈尔市| 剑阁县| 静宁县| 磐安县| 肇源县| 盐山县|