時(shí)光洋,于萬鈞,陳 穎
(上海應(yīng)用技術(shù)大學(xué) 計(jì)算科學(xué)與信息工程學(xué)院,上海 201418)
推薦算法的價(jià)值在于幫助用戶解決信息過載問題,做出更好選擇。現(xiàn)有的推薦算法一部分主要有,深度矩陣分解算法[1]、強(qiáng)化學(xué)習(xí)推薦算法[2]、用戶記憶網(wǎng)絡(luò)順序推薦[3]。它們的特點(diǎn)是加強(qiáng)了對(duì)隱含特征的學(xué)習(xí),通過神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練來提升推薦效果,但對(duì)于存在的顯式特征沒有充分挖掘出價(jià)值。例如,用戶使用的標(biāo)簽信息和用戶評(píng)分[4]。對(duì)此,有部分研究人員是關(guān)注標(biāo)簽信息的挖掘,Lin等[5]利用層次結(jié)構(gòu)分析標(biāo)簽之間的關(guān)聯(lián)特征,但沒有考慮到用戶自身對(duì)于不同標(biāo)簽的喜好程度大小。Zhu等[6]對(duì)標(biāo)簽推薦列表長(zhǎng)度進(jìn)行了優(yōu)化,考慮了列表中標(biāo)簽的相關(guān)性,卻忽略了不同標(biāo)簽所占的權(quán)重。Dai等[7]從評(píng)論中提取出特征及其情感程度,構(gòu)建用戶商品的特征權(quán)重,在計(jì)算方式中沒有考慮到用戶使用標(biāo)簽的顯式作用對(duì)于用戶商品特征權(quán)重的影響。
為解決上述問題,本文從用戶對(duì)標(biāo)簽興趣和用戶對(duì)標(biāo)簽的評(píng)分信息兩個(gè)方面展開研究,提升對(duì)用戶興趣挖掘的準(zhǔn)確性。主要工作在以下幾個(gè)方面:
(1)對(duì)用戶所使用的標(biāo)簽進(jìn)行操作,通過自定義函數(shù)確定用戶對(duì)標(biāo)簽偏好值:分別計(jì)算用戶對(duì)標(biāo)簽喜好值和用戶對(duì)標(biāo)簽依賴度,將兩者進(jìn)行乘積運(yùn)算得到用戶標(biāo)簽偏好值。
(2)將用戶對(duì)物品評(píng)分遷移為用戶對(duì)所使用的標(biāo)簽評(píng)分,以此來計(jì)算標(biāo)簽在同一用戶所使用的所有標(biāo)簽中所占權(quán)重。當(dāng)其它用戶使用相同標(biāo)簽時(shí),則用戶間相似度高。
(3)將標(biāo)簽偏好值與標(biāo)簽權(quán)重進(jìn)行線性組合,從而計(jì)算出用戶最終的標(biāo)簽興趣度。引入矩陣分解算法,對(duì)評(píng)分進(jìn)行預(yù)測(cè)。
實(shí)驗(yàn)結(jié)果表明,相比于其它評(píng)分預(yù)測(cè)算法,本文算法模型預(yù)測(cè)精準(zhǔn)度有所提高,取得較好效果。
Jaccard標(biāo)簽相似度、皮爾遜系數(shù)標(biāo)簽相似度和TF-IDF標(biāo)簽相似度是主要計(jì)算標(biāo)簽相似度的推薦方法?;贘accard標(biāo)簽相似度主要是利用集合操作來處理標(biāo)簽,不同標(biāo)簽所占權(quán)重缺乏考慮,導(dǎo)致推薦精度較低。皮爾遜相關(guān)系數(shù)計(jì)算標(biāo)簽相似度是將用戶所打標(biāo)簽看作變量,計(jì)算它們之間的皮爾遜相關(guān)系數(shù),但皮爾遜相關(guān)系數(shù)假設(shè)數(shù)據(jù)是正態(tài)分布的,如果數(shù)據(jù)未能滿足這個(gè)假設(shè),計(jì)算結(jié)果可能會(huì)失效。TF-IDF標(biāo)簽相似度計(jì)算根據(jù)標(biāo)簽使用次數(shù),忽略了評(píng)分信息因素。
1.1.1 Jaccard標(biāo)簽相似度
Jaccard相似系數(shù)定義請(qǐng)參見文獻(xiàn)[8],計(jì)算公式如下[8]
(1)
1.1.2 皮爾遜相關(guān)系數(shù)標(biāo)簽相似度計(jì)算方法
皮爾遜相關(guān)系數(shù)是用于度量?jī)蓚€(gè)變量X和Y之間的相關(guān)性,其值介于-1與1之間。相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng),反之相反。皮爾遜相關(guān)系數(shù)計(jì)算公式如下[9]
(2)
1.1.3 TF-IDF標(biāo)簽相似度計(jì)算方法
令標(biāo)簽集合T={t1,t2,…,td},d為標(biāo)簽數(shù)量。wi表示給物品i打上標(biāo)簽ti的用戶數(shù)量。每個(gè)標(biāo)簽ti對(duì)應(yīng)權(quán)重為wi,全部標(biāo)簽對(duì)應(yīng)的權(quán)重集合為W={w1,w2,…,wd}。對(duì)標(biāo)簽集T進(jìn)行統(tǒng)計(jì),得出所有標(biāo)簽被用戶使用次數(shù)的集合D,D={d1,d2,…,dd},其中dj表示標(biāo)簽ti被用戶使用次數(shù)。TF-IDF計(jì)算步驟分為以下幾步[10]:
步驟1 計(jì)算標(biāo)簽詞頻(TF),即每個(gè)標(biāo)簽i在每個(gè)物品使用次數(shù)。計(jì)算公式如下所示
(3)
步驟2 為計(jì)算標(biāo)簽的逆文檔頻率(IDF),用以表示標(biāo)簽的常見度,利用以下公式進(jìn)行計(jì)算
(4)
步驟3 合成IF-IDF公式,計(jì)算公式如下
TF-IDF=TFi*IDFi
(5)
1.2.1 隱語義模型
隱語義模型(latent factor model,LFM)是推薦系統(tǒng)領(lǐng)域一個(gè)熱門研究問題,核心思想是通過隱含特征關(guān)聯(lián)用戶興趣和物品,通過矩陣分解對(duì)用戶-物品評(píng)分矩陣R進(jìn)行分解,分解成用戶-特征矩陣P和物品-特征矩陣Q[11]。其結(jié)構(gòu)如圖1所示。
圖1 矩陣分解模型
其中,K表示特征個(gè)數(shù)。
令pj和qk分別代表用戶潛在特征向量和物品潛在特征向量,評(píng)分預(yù)測(cè)計(jì)算公式如下
(6)
(7)
式中:μ表示用戶評(píng)分均值,bj表示用戶偏置項(xiàng),bk表示物品偏置項(xiàng)。
1.2.2 隱式反饋SVD++模型
LFM和帶有偏置項(xiàng)隱語義模型(BiasSVD)都過度依賴用戶-物品評(píng)分矩陣,BiasSVD模型中雖然加入評(píng)分平均分μ、用戶偏置項(xiàng)bj和物品偏置項(xiàng)bk,卻沒有考慮顯示用戶歷史行為對(duì)用戶評(píng)分預(yù)測(cè)的影響。在SVD++模型中,考慮了用戶對(duì)其所有有過評(píng)分行為的物品的隱式反饋[12]。所以隱式反饋SVD++模型的預(yù)測(cè)表達(dá)式為
(8)
式中:Nk表示物品ik受到用戶的評(píng)分集合,xv表示用戶uv的特征向量。
根據(jù)上文描述,本文主要是在現(xiàn)有理論TF-IDF算法和SVD++模型基礎(chǔ)上,將用戶對(duì)標(biāo)簽的依賴度和用戶標(biāo)簽興趣相似度的概念結(jié)合起來,并將其引入到SVD++模型中。這樣做可以提升模型的推薦效果。具體而言,利用TF-IDF算法計(jì)算每一個(gè)用戶對(duì)標(biāo)簽的依賴度,即某個(gè)用戶對(duì)某個(gè)標(biāo)簽感興趣的程度。通過這種方式,可以更加準(zhǔn)確地描述用戶的興趣特點(diǎn),從而提高推薦系統(tǒng)的推薦質(zhì)量。另一方面,在傳統(tǒng)的SVD++模型中,主要考慮了用戶對(duì)物品的評(píng)分?jǐn)?shù)據(jù),并未考慮用戶興趣的細(xì)節(jié)。為了更準(zhǔn)確地描述用戶的興趣特點(diǎn),本文引入了用戶標(biāo)簽興趣相似度的概念,通過標(biāo)簽來反映用戶之間的相似度。通過這種方式,將用戶對(duì)于標(biāo)簽興趣引入到SVD++模型中,從而更好地體現(xiàn)用戶的個(gè)性化需求和偏好。綜上所述,本文通過引入TF-IDF算法計(jì)算用戶對(duì)標(biāo)簽的依賴度以及用戶標(biāo)簽興趣相似度的概念,對(duì)傳統(tǒng)的SVD++模型進(jìn)行了改進(jìn),以提高推薦系統(tǒng)的性能和準(zhǔn)確性。
令用戶集合為U={u1,u2,…,um},物品集合為V={v1,v2,…,vn},且|U|=m,|V|=n。建立用戶-物品評(píng)分矩陣為R,R=[rij]m×n是一個(gè)m×n的用戶-物品評(píng)分矩陣,rij表示用戶ui對(duì)物品vj的評(píng)分,其中i=1,2,…,m,j=1,2,…,n。對(duì)于物品的評(píng)分完全是根據(jù)用戶是否愿意給物品打分或用戶是否與物品發(fā)生過交互,用戶沒有與物品產(chǎn)生過交互或者用戶不愿給物品打分,那么用戶u對(duì)于物品v的評(píng)分不存在,則rij=0。在實(shí)際推薦中,用戶與物品發(fā)生交互的次數(shù)遠(yuǎn)少于物品本身數(shù)量,并且存在發(fā)生交互沒有打分情況。在兩種因素下,用戶-物品評(píng)分矩陣R通常是一個(gè)稀疏的矩陣。矩陣R如下
(9)
令標(biāo)簽集合為T={t1,t2,…,td},且|T|=d。將用戶對(duì)物品的評(píng)分看作為用戶對(duì)物品及其相關(guān)標(biāo)簽的評(píng)分,并構(gòu)建用戶-標(biāo)簽評(píng)分矩陣P,puitj代表用戶ui對(duì)于標(biāo)簽tj的評(píng)分,其中m=1,2,…,m,t=1,2,…,d。矩陣P如下
(10)
根據(jù)用戶-標(biāo)簽評(píng)分矩陣P,構(gòu)建用戶-標(biāo)簽交互矩陣Z=[zut]m×d,zuitj代表用戶ui是否與標(biāo)簽tj發(fā)生交互,當(dāng)put≠0時(shí),zut=1即用戶u與標(biāo)簽t發(fā)生交互,反之zut=0則未發(fā)生交互。zut計(jì)算公式為
(11)
標(biāo)簽是用戶描述、整理、分享網(wǎng)絡(luò)內(nèi)容的一種新的形式,也是反映用戶自身的興趣和態(tài)度。用戶對(duì)于標(biāo)簽的喜好可以使用二元關(guān)系表示,如“喜歡”或“不喜歡”;也可以使用“連續(xù)數(shù)值”表示喜好程度。二元方法表示雖然簡(jiǎn)單明了,但是描述精度不夠,對(duì)標(biāo)簽進(jìn)行喜好程度大小排序時(shí),無法區(qū)分標(biāo)簽之間的差異。所以,這里采用“連續(xù)數(shù)值”來表達(dá)用戶對(duì)于標(biāo)簽的偏好值。
計(jì)算用戶對(duì)標(biāo)簽喜好值,相同標(biāo)簽用戶可能會(huì)用來標(biāo)記不同物品,不同的標(biāo)簽也會(huì)標(biāo)記相同的物品。因此,用戶對(duì)標(biāo)簽的喜好值計(jì)算公式如下,其中u∈U,t∈T
(12)
假設(shè)用戶評(píng)分次數(shù)較少,通過上面計(jì)算方法可能使得計(jì)算結(jié)果存在較大誤差,利用TF-IDF算法計(jì)算用戶對(duì)標(biāo)簽的依賴程度。首先,計(jì)算TF-IDF算法中TF部分,即標(biāo)簽使用頻率,計(jì)算公式如下
(13)
目前,社交標(biāo)簽的使用已經(jīng)成為一種普遍現(xiàn)象,導(dǎo)致互聯(lián)網(wǎng)中存在“馬太效應(yīng)[13]”,即隨著熱門標(biāo)簽的展示次數(shù)增多,它們變得越來越受歡迎,冷門標(biāo)簽隨著使用次數(shù)較少變得越來越冷門。事實(shí)上,冷門標(biāo)簽的使用能夠更好體現(xiàn)出用戶的個(gè)性和特點(diǎn),為了消除馬太效應(yīng)的影響,更加準(zhǔn)確的挖掘用戶偏好,本文利用TF-IDF算法中IDF部分,對(duì)熱門標(biāo)簽進(jìn)行數(shù)值懲罰。公式如下
(14)
綜合上述,用戶對(duì)標(biāo)簽依賴度數(shù)值計(jì)算公式為
TF-IDF(u,t)=TF(u,t)×IDF(u,t)
(15)
綜合考慮,用戶對(duì)于標(biāo)簽的主觀喜好值和利用TF-IDF算法計(jì)算用戶對(duì)于標(biāo)簽的依賴度數(shù)值,可以得到用戶對(duì)于標(biāo)簽的偏好值為
Pre(u,t)=Deg(u,t)×TF-IDF(u,t)
(16)
在用戶對(duì)物品進(jìn)行評(píng)分時(shí),通常情況下會(huì)同時(shí)給物品打上自己喜歡的標(biāo)簽,這些標(biāo)簽代表了用戶對(duì)物品的主觀評(píng)價(jià)[14]。例如,當(dāng)用戶觀看了一部動(dòng)漫電影并且非常喜歡,為了表達(dá)他們的喜愛,用戶可能給這部電影評(píng)分為5分,并添加“cartoon”這個(gè)標(biāo)簽。這個(gè)標(biāo)簽在用戶打過的所有標(biāo)簽中的權(quán)重會(huì)更大,如果其它用戶也使用了這個(gè)標(biāo)簽來標(biāo)記自己看過的物品,那么可以認(rèn)為這些用戶之間的相似度較高。
通過利用物品評(píng)分來計(jì)算標(biāo)簽權(quán)重,計(jì)算公式如下
(17)
用戶對(duì)標(biāo)簽的興趣度表示了用戶對(duì)該標(biāo)簽的興趣程度的大小,若用戶對(duì)于某個(gè)標(biāo)簽的興趣度較大,則類似標(biāo)簽或該標(biāo)簽標(biāo)注的其它物品可以向用戶推薦。計(jì)算用戶對(duì)標(biāo)簽的興趣程度,定義函數(shù)Int(u,t),其中u∈U,t∈T。綜合考慮用戶對(duì)標(biāo)簽偏好值和標(biāo)簽權(quán)重對(duì)用戶標(biāo)簽興趣度的影響,將標(biāo)簽偏好值Pre(u,t) 和標(biāo)簽權(quán)重Wu,v(t) 進(jìn)行線性組合,函數(shù)Int(u,t) 計(jì)算公式為
Int(u,t)=α×Pre(u,t)+β×Wu,v(t)
(18)
式中:α和β分別表示用戶對(duì)標(biāo)簽偏好值和標(biāo)簽權(quán)重的權(quán)重,α和β的具體取值在實(shí)驗(yàn)結(jié)果中得出。
用戶標(biāo)簽興趣相似度被用來衡量用戶之間的興趣相似性的大小,如果兩個(gè)用戶之間的標(biāo)簽興趣相似度越大,那么表示他們的興趣更為相似,反之則相反。定義函數(shù)Sim(uj,uv),其中uj∈U,uv∈U。計(jì)算公式如下
(19)
式中:Int(uj,tl) 和Int(uv,tl) 分別代表用戶uj和用戶uv對(duì)標(biāo)簽tl的興趣度,Tj,v表示用戶uj和用戶uv共同使用過標(biāo)簽的集合。
SVD++模型是在BiasSVD模型基礎(chǔ)之上,根據(jù)實(shí)際推薦中用戶評(píng)分行為較少來進(jìn)行改進(jìn)的,進(jìn)一步引入隱式反饋信息。在隱式反饋中,假設(shè)存在一個(gè)與每個(gè)用戶進(jìn)行過隱式交互的物品集合相對(duì)應(yīng)的k維隱向量。通過將與用戶有過隱式交互的物品的隱向量相加,可以從一個(gè)新的維度來表示用戶的興趣愛好。這種改進(jìn)方法能夠提升一定的模型性能,但是還存在著不足。首先,沒有考慮社會(huì)化標(biāo)簽的使用網(wǎng)站中存在“馬太效應(yīng)”。其次,用戶對(duì)物品打分后,使用的標(biāo)簽在一定程度上反映出了用戶對(duì)于該標(biāo)簽的喜好程度,物品評(píng)分能夠類似于標(biāo)簽所占權(quán)重。對(duì)此,標(biāo)簽評(píng)分權(quán)重往往被忽視。
為解決以上問題,在SVD++算法模型的基礎(chǔ)上將用戶標(biāo)簽興趣相似度引入其中,對(duì)SVD++算法模型進(jìn)行改進(jìn)。通過利用用戶標(biāo)簽興趣相似度,可以計(jì)算用戶之間的相似度。這種改進(jìn)方法具有以下優(yōu)勢(shì):首先,在計(jì)算用戶對(duì)標(biāo)簽偏好時(shí),能夠更準(zhǔn)確地考慮到他們的興趣相似度,考慮社會(huì)化標(biāo)簽的“馬太效應(yīng)”,對(duì)熱門標(biāo)簽進(jìn)行了數(shù)值懲罰,在一定程度上能夠緩解“馬太效應(yīng)”。其次,通過物品評(píng)分來計(jì)算出標(biāo)簽權(quán)重,并引入最終的用戶對(duì)于標(biāo)簽的興趣度,使得最終結(jié)果更加具有泛化性。改進(jìn)后的計(jì)算公式為
(20)
損失函數(shù)用于衡量模型預(yù)測(cè)評(píng)分與實(shí)際評(píng)分之間的差異。模型的準(zhǔn)確度與損失函數(shù)值呈負(fù)相關(guān),即模型準(zhǔn)確度越高,損失函數(shù)值越小。然而,過小的損失函數(shù)值可能導(dǎo)致模型出現(xiàn)過擬合,從而降低了其泛化能力。為了提高模型的泛化能力,引入正則項(xiàng)用于限制損失函數(shù)的下降幅度,確保在具有較高預(yù)測(cè)精度下,模型仍具備良好的泛化能力。計(jì)算公式如下
(21)
使用隨機(jī)梯度下降(stochastic gradient descent,SGD)法進(jìn)行參數(shù)迭代,直到測(cè)試集誤差不在變化。公式如下
(22)
(23)
(24)
(25)
(26)
本文所提出的基于標(biāo)簽挖掘的個(gè)性化推薦算法記為PRMT模型,該算法大體分為輸入和輸出兩步,根據(jù)用戶、物品、標(biāo)簽和評(píng)分生成用戶-物品評(píng)分矩陣、用戶-標(biāo)簽評(píng)分矩陣和用戶-標(biāo)簽交互矩陣。算法流程如下:
算法:基于標(biāo)簽挖掘的個(gè)性化推薦算法
輸入:R:用戶-資源評(píng)分矩陣;P:用戶-標(biāo)簽評(píng)分矩陣;Y:用戶-標(biāo)簽交互矩陣;正則化系數(shù)λ、權(quán)重系數(shù)λ1,α,β和學(xué)習(xí)率η
步驟:S1:讀取數(shù)據(jù)并劃分訓(xùn)練集和測(cè)試集,根據(jù)式(9)~式(11)分別構(gòu)建用戶-物品評(píng)分矩陣R、用戶-標(biāo)簽評(píng)分矩陣P和用戶-標(biāo)簽交互矩陣Y;
S2:根據(jù)式(12)~式(16)計(jì)算用戶對(duì)于標(biāo)簽偏好值;
S3:根據(jù)式(17)計(jì)算用戶標(biāo)簽權(quán)重;
S4:利用S2和S3計(jì)算所得值,根據(jù)式(18)計(jì)算用戶標(biāo)簽興趣度;
S5:利用S4計(jì)算所得值,根據(jù)式(19)用戶間偏好相似度;
S6:將SVD++模型進(jìn)行改進(jìn),將S5所得的用戶偏好相似度帶入改進(jìn)后的SVD++模型,即本文所提算法模型PRMT;
S7:訓(xùn)練PRMT模型,根據(jù)式(20)~式(26)訓(xùn)練迭代參數(shù),來尋找各參數(shù)的最優(yōu)值,若模型迭代達(dá)到損失函數(shù)閥值,則進(jìn)行S8,否則繼續(xù)本步驟;
為了衡量本文提出算法模型效果,使用均方根誤差(root mean square error,RMSE)和平均絕對(duì)誤差(mean absolute error,MAE)進(jìn)行檢驗(yàn),作為實(shí)驗(yàn)結(jié)果衡量標(biāo)準(zhǔn)。反映測(cè)試值與真實(shí)值之間的誤差,RMSE和MAE值的大小與推薦精度呈負(fù)相關(guān),即RMSE和MAE值越小,推薦精度越高。RMSE和MAE計(jì)算公式如下
(27)
(28)
本實(shí)驗(yàn)采用MovieLens數(shù)據(jù)集中的ml-25M,ml-25M數(shù)據(jù)集是MovieLens數(shù)據(jù)集中最大版本,包含了25 000 096條評(píng)分?jǐn)?shù)據(jù)和1 109 927條標(biāo)簽數(shù)據(jù),以及58 000部電影和280 000名用戶,包括多個(gè)用戶對(duì)電影的評(píng)分和標(biāo)簽,電影評(píng)分范圍在0.5~5之間。同一用戶可以給多個(gè)電影標(biāo)注不同標(biāo)簽,且同一電影可以被不同用戶標(biāo)注不同標(biāo)簽。
對(duì)于數(shù)據(jù)集的處理,首先,我們利用用戶編號(hào)和電影編號(hào)作為合并字段,將標(biāo)簽編號(hào)合并到含有用戶編號(hào)、電影編號(hào)和評(píng)分的文件中;其次,對(duì)標(biāo)簽使用次數(shù)進(jìn)行統(tǒng)計(jì),將使用次數(shù)低于5次的標(biāo)簽以及所在行的全部數(shù)據(jù)刪除,對(duì)處理后標(biāo)簽數(shù)據(jù)重新進(jìn)行編號(hào);最后,檢查處理后的數(shù)據(jù),查看是否有異常值或空值,然后保存到新文件中,用于后面模型訓(xùn)練。部分具體數(shù)據(jù)示例見表1。
表1 部分處理后數(shù)據(jù)集展示
圖2 各參數(shù)實(shí)驗(yàn)結(jié)果
根據(jù)圖2中的實(shí)驗(yàn)結(jié)果曲線變化,可以得出:
(1)不同參數(shù)值的情況下,RMSE的值有增有減,其變化規(guī)律趨勢(shì)無法確定。從圖中變化曲線我們可以看出,對(duì)于參數(shù)值的選擇不能一味的增大或減小,只有通過大量實(shí)驗(yàn),選擇最為合適的參數(shù)值,才能保證模型預(yù)測(cè)精度達(dá)到最佳。
(2)當(dāng)α=0.4,β=0.3,λ=0.09,λ1=0.001時(shí),RMSE的值最小,算法模型的精準(zhǔn)度最大。
本文選擇對(duì)比模型有,LFM、SVD++、概率矩陣分解[15](PMF)、電影相似性協(xié)同過濾推薦模型[16](UB-HUS)、信任感知和領(lǐng)域?qū)<业膮f(xié)同過濾模型[17](TrustMF)、個(gè)性化馬爾可夫鏈和社交網(wǎng)絡(luò)聯(lián)合模型[18](JSR)、基于概率矩陣分解的協(xié)同過濾模型[19](IC-US-PMF)、用戶標(biāo)簽相似度的矩陣分解模型[20](UTagJMF),進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 不同模型之間對(duì)比
根據(jù)圖3曲線變化,可以得知,PMF模型的RMSE和UB-HUS模型的MAE預(yù)測(cè)精度均為最低。模型TrustMF、JSR、IC-US-PMF、UTagJMF的MAE和RMSE值都有所下降,但都沒有低于模型LFM和SVD++,而本文所提模型PRMT的RMSE和MAE值是最低的。
對(duì)此,將與本文所提模型PRMT性能最為相近的兩個(gè)模型LFM和SVD++作為基準(zhǔn)對(duì)比模型,將其單獨(dú)拿出與PRMT模型對(duì)比RMSE和MAE。結(jié)果如圖4所示。
圖4 3種模型之間比較
根據(jù)圖4實(shí)驗(yàn)結(jié)果,能夠得出以下結(jié)論:
(1)3種模型中,LFM模型RMSE和MAE值依舊最大,分別為0.9242和0.6855,模型預(yù)測(cè)精度依然最低。
(2)SVD++模型RMSE和MAE分別為0.8883和0.6448,相對(duì)于LFM模型預(yù)測(cè)精度提升4.04%和4.07%;PRMT模型RMSE和MAE分別為0.8742和0.6348,相對(duì)于LFM模型和SVD++模型預(yù)測(cè)精度在RMSE分別提升了5%和1.41%,MAE分別提升了5.07%和1%。
(3)3種模型在ml-25數(shù)據(jù)集上,PRMT模型RMSE和MAE值最小,表明預(yù)測(cè)精度最高。由此可見,本文算法模型明顯優(yōu)于其它幾個(gè)模型,具有良好的預(yù)測(cè)精度。
推薦系統(tǒng)目前在各個(gè)領(lǐng)域都有所應(yīng)用,矩陣分解算法是推薦系統(tǒng)中一個(gè)重要算法。本文所提算法,主要從用戶對(duì)于標(biāo)簽的偏好值和標(biāo)簽權(quán)重來進(jìn)行融合實(shí)驗(yàn),在一定程度上挖掘出了用戶更深層次的興趣,算法綜合考慮標(biāo)簽對(duì)于推薦精度的影響,同時(shí)對(duì)傳統(tǒng)算法模型進(jìn)行了改進(jìn),在一定程度上提高了推薦精度和改善推薦效果。
對(duì)于后續(xù)研究可以利用神經(jīng)網(wǎng)絡(luò)來深入挖掘用戶興趣的潛在特征,進(jìn)一步提高推薦精度和效果。