国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種面向稀疏數(shù)據(jù)的比率相似度計算方法

2019-06-12 07:30:54馮軍美馮曉毅夏召強彭進業(yè)
關(guān)鍵詞:集上計算方法協(xié)同

馮軍美,馮曉毅,夏召強,彭進業(yè),姚 娟

(1.西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西 西安 710072;2.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127)

近年來,推薦系統(tǒng)[1]越來越多地應(yīng)用在人們的日常生活中,根據(jù)用戶的興趣愛好、購買記錄等信息為用戶提供推薦。在推薦系統(tǒng)中,推薦算法在整個系統(tǒng)中是必不可少的。一般來講,推薦算法分為4類:基于人口統(tǒng)計學(xué)的推薦[2]、基于內(nèi)容的推薦[3]、協(xié)同過濾推薦[4]和混合推薦[5],其中,最常用的推薦算法是協(xié)同過濾推薦算法,且基于內(nèi)存的推薦算法[6]和基于模型的推薦算法[7]是協(xié)同過濾推薦算法中的兩個子類別?;趦?nèi)存的推薦方法主要包括相似度計算和評分預(yù)測兩個步驟。由于數(shù)據(jù)稀疏[8]和冷啟動問題[9-10]在推薦系統(tǒng)中普遍存在,基于內(nèi)存的協(xié)同過濾推薦方法中的數(shù)據(jù)稀疏問題是本文的研究重點。

目前,皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient, PCC)和杰卡德系數(shù)(Jaccard)[6]是傳統(tǒng)的基于內(nèi)存的協(xié)同過濾推薦方法中比較常用的相似度計算方法。上述兩種方法的相似度均通過用戶之間共同評分項的評分數(shù)據(jù)來計算,但在稀疏的數(shù)據(jù)集上,共同評分項很少或者不存在,因此無法進行精準(zhǔn)的推薦。針對這個問題,程偉杰等人[11]提出了一種利用用戶的全部評分數(shù)據(jù)來提高推薦系統(tǒng)精度的方法,該方法借助動態(tài)權(quán)重將基于用戶全部評分的相似度與皮爾遜相關(guān)系數(shù)進行混合,并根據(jù)混合后的相似度和最近鄰的評分數(shù)據(jù)來預(yù)測用戶對項目的評分大小。Guo等人[12]利用多種隱式反饋信息來解決推薦系統(tǒng)中的數(shù)據(jù)稀疏問題。Suryakant等人[13]考慮到傳統(tǒng)的相似度計算方法存在數(shù)據(jù)稀疏問題,將3種相似度方法包括余弦相似度、杰卡德系數(shù)和平均散度進行線性組合來提高預(yù)測精度。

一種面向稀疏數(shù)據(jù)的基于用戶的比率相似度計算方法在本文中提出。與現(xiàn)有的解決稀疏問題的推薦方法不同的是,該方法直接根據(jù)用戶全部的評分數(shù)據(jù)來計算用戶之間的相似度,根據(jù)相似度進行評分預(yù)測。解決了在稀疏數(shù)據(jù)的情況下傳統(tǒng)的基于內(nèi)存的協(xié)同過濾推薦算法無法計算相似度的問題,同時也提高了推薦算法的推薦精度。

1 傳統(tǒng)的協(xié)同過濾推薦算法

基于用戶的協(xié)同過濾推薦算法和基于項目的協(xié)同過濾推薦算法是基于內(nèi)存的協(xié)同過濾推薦算法根據(jù)相似度計算對象的不同而劃分的兩種方法。本文把基于用戶的協(xié)同過濾推薦算法作為主要的研究對象。

常用的相似度計算方法包括:PCC和Jaccard,上述兩種方法均根據(jù)用戶(項目)之間的共同評分項的評分數(shù)據(jù)進行相似度計算。兩用戶u和v之間的PCC的計算公式為

sim(u,v)PCC=

(1)

2 面向稀疏數(shù)據(jù)的協(xié)同過濾推薦算法

在實際的推薦系統(tǒng)中,用戶之間的共同評分項通常很少或者不存在,評分數(shù)據(jù)集比較稀疏,采用傳統(tǒng)的協(xié)同過濾推薦算法無法實現(xiàn)高精度的推薦。表1是用戶User對電影Item的評分數(shù)據(jù),從表可以看出,用戶User 2和User 3之間只有一個共同評分項Item 5,User 1和User 2,User 1和User 3之間沒有共同評分項的存在,在這種情況下,傳統(tǒng)的相似度方法可以利用的數(shù)據(jù)很少或者沒有,很難得到準(zhǔn)確的相似度計算結(jié)果。因此,一種面向稀疏數(shù)據(jù)的比率相似度計算方法在本文中提出,該方法直接使用全部的評分數(shù)據(jù)進行相似度計算。

表1 用戶對電影的評分Tab.1 Users′ ratings for the movies

2.1 面向稀疏數(shù)據(jù)的比率相似度計算方法

本文提出了一種面向稀疏數(shù)據(jù)的基于全部評分的比率相似度計算方法來解決傳統(tǒng)的協(xié)同過濾推薦算法中相似度計算不足的問題。該方法定義用戶u和用戶v在所有項目上評分的集合Iu和Iv,用戶u和v之間的相似度計算公式定義為

(2)

其中,|Iu|和|Iv|分別被用來表示用戶u和用戶v總的評分個數(shù),用戶u在所有評過分的項目上的第k個評分值用ru,k表示,用戶v在所有評過分的項目上的第w個評分值用rv,w表示,min(ru,k,rv,w)函數(shù)返回ru,k和ru,w兩者中的最小值,最大值通過max函數(shù)返回。從式(2)可以看出,本文提出的算法不依賴于共同評分項。

考慮到數(shù)據(jù)集中共同評分項的影響,對面向稀疏數(shù)據(jù)的比率相似度計算公式進行了修正,修正后的公式為

(3)

從式(3)可以看出,本文提出的相似度計算方法充分利用了用戶評分數(shù)據(jù)集中的全部評分信息,相似度計算不會受到數(shù)據(jù)稀疏度的影響。

2.2 評分預(yù)測方法

用戶u對未評分項目i的預(yù)測評分pu,i采用式(4)[14]進行評分預(yù)測,

(4)

3 實驗結(jié)果和分析

為了驗證本文所提出的面向稀疏數(shù)據(jù)的比率相似度計算方法的有效性,實驗在兩個電影數(shù)據(jù)集MOVIELENS 100K和MOVIELENS 1M上進行,將文中所提方法與傳統(tǒng)的基于用戶的協(xié)同過濾方法進行了比較。

3.1 數(shù)據(jù)集

MOVIELENS 100K數(shù)據(jù)集包含100 000次評分, 這些評分是在1 682部電影上來自943個用戶的匿名評價。 MOVIELENS 1M數(shù)據(jù)集包含1 000 209次評分,這些評分是在3 706部電影上來自6 040個用戶的匿名評分,分值均為1~5。用戶對電影的喜歡程度用分值的大小來表示,分值1表示用戶非常不喜歡該電影,5表示非常喜歡。數(shù)據(jù)集的稀疏度不僅影響相似度計算的準(zhǔn)確性,同時影響推薦系統(tǒng)的性能。本文所采用的兩個數(shù)據(jù)集的稀疏度分別為93.7%和95.53%。

3.2 評價指標(biāo)

由于本文所提方法以及用于對比實驗的方法都是針對個性化推薦中的評分預(yù)測問題,因此,采用兩個典型的預(yù)測精準(zhǔn)度的度量指標(biāo):平均絕對誤差(mean absolute error, MAE)[15]和均方根誤差(rooted mean squared error, RMSE)[16],來度量算法的預(yù)測精度。MAE和RMSE越小,表示算法的預(yù)測誤差越小,預(yù)測精度就會越高。MAE被用來估計預(yù)測值與實際值之間的平均偏差,計算公式為

(5)

其中,測試集中評分的集合用IT表示,pu,i被用來表示用戶u在項目i上的預(yù)測評分值,ru,i被用來表示用戶u對項目i的實際評分值。

RMSE反映了實際值與預(yù)測值之間的偏離程度,當(dāng)預(yù)測值的誤差較大時,RMSE比MAE更加敏感。RMSE用式(6)進行評估,

(6)

3.3 實驗設(shè)置

為了驗證本文提出的協(xié)同過濾算法在數(shù)據(jù)稀疏情況下的有效性,我們隨機地移除了兩個數(shù)據(jù)集中的一部分數(shù)據(jù)來構(gòu)成稀疏數(shù)據(jù)集。在實驗中,每個數(shù)據(jù)集上分別重構(gòu)了7個稀疏度在97%~99.9%范圍內(nèi),且步長為0.5%的稀疏數(shù)據(jù)集(稀疏度為99.9%的數(shù)據(jù)集除外),來驗證稀疏度對本文所提出推薦算法的影響。對所有重構(gòu)的稀疏數(shù)據(jù)集進行隨機劃分,取出其中的80%作為訓(xùn)練集,測試集采用剩余的20%。在接下來的實驗中,本文提出的算法與PCC, Jaccard, CjacMD[13]和TMJ[17]這4種算法在性能上進行了比較。由于上述幾種方法的性能同時受到稀疏度和最近鄰的影響,所以,為了保證實驗的準(zhǔn)確性,本文需要確定上述4種方法的最佳最近鄰數(shù)目,以排除最近鄰的影響。

3.4 最近鄰對精度的影響

本文選取在Movielens 100K數(shù)據(jù)集上重構(gòu)的稀疏度為99.5%的稀疏數(shù)據(jù)集來驗證最近鄰對幾種不同方法性能的影響。最近鄰K設(shè)置為K∈[10,100],步長為10。圖1和圖2分別展示了4種方法中MAE和RMSE隨最近鄰變化的實驗結(jié)果。

圖1 最近鄰對幾種方法中MAE的影響Fig.1 Effect of nearest neighbors on MAE by several methods

圖2 最近鄰對幾種方法中RMSE的影響Fig.2 Effect of nearest neighbors on RMSE by several methods

從圖1和圖2中可以看出,最近鄰對MAE和RMSE影響的變化趨勢是一樣的,本文提出的方法在整個最近鄰范圍內(nèi)性能均最好,MAE和RMSE都比較低,當(dāng)最近鄰為20時,MAE和RMSE同時達到最低點。最近鄰對本文提出的方法影響不是很大,在最近鄰大于30以后,MAE和RMSE保持不變。PCC方法和Jaccard方法的性能相對較差,并且最近鄰對Jaccard的影響比較大,隨著最近鄰的增加,性能逐漸變差。TMJ方法在最近鄰為20時,兩個指標(biāo)均取到最小值,在最近鄰大于40之后性能趨于穩(wěn)定。CjacMD方法在最近鄰大于60之后趨于穩(wěn)定。實驗結(jié)果說明,在整個最近鄰范圍內(nèi),本文提出的方法,PCC,Jaccard, CjacMD和TMJ方法在最近鄰分別為20, 20, 10, 50和20時性能最好,兩個指標(biāo)均到達最低點。因此,在接下來的稀疏度實驗中,本文提出的方法,PCC,Jaccard,CjacMD和TMJ上述5種方法的最近鄰取值分別為20, 20, 10, 50, 20。

3.5 實驗結(jié)果與討論

在兩個重構(gòu)的不同稀疏度的稀疏數(shù)據(jù)集上來驗證本文提出的面向稀疏數(shù)據(jù)的比率相似度計算方法的有效性。

圖3和圖4是在Movielens 100K上重構(gòu)的7個不同稀疏度的數(shù)據(jù)集上得到的實驗結(jié)果。圖3和圖4顯示了本文提出的方法與PCC, Jaccard,CjacMD, TMJ方法在不同稀疏度條件下MAE和RMSE隨著稀疏度變化的實驗結(jié)果。可以看出,幾種推薦方法的MAE和RMSE隨著稀疏度的增加在不斷變大。本文提出的方法在整個稀疏度實驗范圍內(nèi)均取得了最小的MAE和RMSE,特別是在數(shù)據(jù)集稀疏度較高的情況下優(yōu)勢更大。PCC和Jaccard方法在整個稀疏度范圍內(nèi)MAE和RMSE值均比較高,性能較差。CjacMD和TMJ方法在稀疏度較低時和本文提出的方法性能比較接近,隨著稀疏度的升高,性能逐漸變差。

圖3 Movielens 100K重構(gòu)的數(shù)據(jù)集上稀疏度對幾種MAE的影響Fig.3 Effects of sparsity on MAE of several methods on Movielens 100K reconstructed dataset

圖4 Movielens 100K重構(gòu)的數(shù)據(jù)集上稀疏度對幾種方法RMSE的影響Fig.4 Effects of sparsity on RMSE of several methods on Movielens 100K reconstructed dataset

圖5和圖6是在Movielens 1M上重構(gòu)的7個不同稀疏度的數(shù)據(jù)集上得到的實驗結(jié)果。圖5和圖6顯示了本文提出的方法與PCC, Jaccard,CjacMD,TMJ方法在不同稀疏度條件下的MAE和RMSE隨著稀疏度變化的實驗結(jié)果??梢钥闯?幾種推薦方法的MAE和RMSE隨著稀疏度的升高在不斷地增加,性能也隨之變差。本文提出的方法在整個稀疏度實驗范圍內(nèi)的MAE和RMSE均較小,特別是在數(shù)據(jù)集稀疏度大于99%時優(yōu)勢更明顯。PCC方法在整個稀疏度范圍內(nèi)MAE和RMSE值均比較高,性能也較差。Jaccard方法在稀疏度較低時MAE和RMSE值比較低,在稀疏度較高時性能一般。CjacMD方法的MAE和RMSE在整個稀疏度范圍內(nèi)均較低,性能僅次于本文所提出的方法。TMJ方法在整個稀疏度范圍內(nèi)優(yōu)于傳統(tǒng)的協(xié)同過濾算法。

圖5 Movielens 1M重構(gòu)的數(shù)據(jù)集上稀疏度對幾種方法MAE的影響Fig.5 Effects of sparsity on MAE of several methods on Movielens 1M reconstructed dataset

圖6 Movielens 1M重構(gòu)的數(shù)據(jù)集上稀疏度對幾種方法RMSE的影響Fig.6 Effects of sparsity on RMSE of several methods on Movielens 1M reconstructed dataset

實驗結(jié)果表明,PCC方法不適合對稀疏數(shù)據(jù)進行推薦,Jaccard, CjacMD和TMJ方法可應(yīng)用在稀疏度較低的推薦系統(tǒng),而本文提出的面向稀疏數(shù)據(jù)的比率相似度計算方法充分利用了全部的評分信息,且不依賴于共同評分項,在數(shù)據(jù)稀疏度較高的情況下也能保證系統(tǒng)的精度和性能。

4 結(jié) 論

本文提出了一種面向稀疏數(shù)據(jù)的比率相似度計算方法來提高推薦算法的預(yù)測精度和推薦系統(tǒng)的性能,主要貢獻為:

1)本文提出的比率相似度計算方法是基于全部評分數(shù)據(jù)的,不同于傳統(tǒng)的推薦方法的是,本文提出的算法不依賴于共同評分項。

2)充分利用全部評分數(shù)據(jù),挖掘其中的有價值的信息,提高了推薦系統(tǒng)的推薦精度。

3)解決了傳統(tǒng)的推薦算法對稀疏數(shù)據(jù)推薦精度不高甚至無法推薦的問題。

4)本文提出的相似度計算方法主要面向稀疏數(shù)據(jù),尤其是稀疏度較高的數(shù)據(jù),為進一步徹底解決稀疏問題和提高推薦精度提供了思路。

在接下來的工作中,我們將繼續(xù)研究稀疏問題,并從隱式反饋信息入手,將其轉(zhuǎn)化為顯示信息來提高推薦精度。

猜你喜歡
集上計算方法協(xié)同
浮力計算方法匯集
蜀道難:車與路的協(xié)同進化
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
復(fù)扇形指標(biāo)集上的分布混沌
三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
隨機振動試驗包絡(luò)計算方法
不同應(yīng)變率比值計算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
一種伺服機構(gòu)剛度計算方法
锡林郭勒盟| 阿图什市| 自治县| 谷城县| 宁海县| 沁水县| 巴塘县| 益阳市| 虹口区| 东安县| 科尔| 卢湾区| 新蔡县| 新源县| 阿巴嘎旗| 含山县| 磐安县| 沁水县| 措美县| 鹤壁市| 洪泽县| 农安县| 武夷山市| 锡林郭勒盟| 柳河县| 达日县| 罗江县| 昌邑市| 沿河| 灌云县| 如东县| 独山县| 丰县| 双峰县| 延川县| 报价| 平原县| 江孜县| 盐池县| 彭水| 涪陵区|