国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相似度質(zhì)量的混合協(xié)同過濾算法?

2017-12-18 06:22陳洪雁
關(guān)鍵詞:物品協(xié)同因子

郭 雷 張 琨 陳洪雁 嚴(yán) 霞

(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

基于相似度質(zhì)量的混合協(xié)同過濾算法?

郭 雷 張 琨 陳洪雁 嚴(yán) 霞

(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

在傳統(tǒng)協(xié)同過濾算法中一直面臨著冷啟動(dòng)和數(shù)據(jù)稀疏等問題,導(dǎo)致推薦信息不夠準(zhǔn)確。通過分析基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法的各自特點(diǎn)提出一種新的混合協(xié)同過濾算法。改進(jìn)相似度的計(jì)算方式來(lái)提高相似度的精準(zhǔn)度,從近鄰相似度的均值和標(biāo)準(zhǔn)差出發(fā)對(duì)兩種協(xié)同過濾算法進(jìn)行加權(quán)結(jié)合,同時(shí)引入控制因子提高預(yù)測(cè)的精度。以Movie Lens數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,以平均絕對(duì)誤差作為實(shí)驗(yàn)的測(cè)試標(biāo)準(zhǔn)。實(shí)驗(yàn)結(jié)果表明,在評(píng)分矩陣極度稀疏的條件下該算法提高了推薦的準(zhǔn)確度。

推薦算法;協(xié)同過濾;相似度

1 引言

隨著當(dāng)今社會(huì)互聯(lián)網(wǎng)的普及和信息技術(shù)的飛速發(fā)展,信息過載問題也隨之而來(lái),如何從海量的信息中準(zhǔn)確快速地獲取自己想要的信息顯得尤為重要。過往的搜索引擎在一定程度上可以滿足用戶對(duì)信息檢索的需求,但對(duì)于檢索的結(jié)果往往千篇一律,無(wú)法根據(jù)用戶的興趣和偏好主動(dòng)提供個(gè)性化信息。在這種背景下推薦系統(tǒng)應(yīng)運(yùn)而生,與搜索引擎不同,個(gè)性化推薦系統(tǒng)可以基于個(gè)人的行為數(shù)據(jù)為用戶提供定制的信息[1]。

目前主流的推薦系統(tǒng)主要有基于內(nèi)容的推薦系統(tǒng)和協(xié)同過濾推薦系統(tǒng)[2]?;趦?nèi)容的推薦算法是建立在物品的內(nèi)容信息上做出推薦的,不需要依賴用戶對(duì)物品的評(píng)價(jià)意見,更多的需要用機(jī)器學(xué)習(xí)的方法從關(guān)于內(nèi)容的特征描述和事例中得到用戶的興趣資料,因此該算法要求信息內(nèi)容要容易抽取成有意義的特征,并且特征內(nèi)容要具有良好的結(jié)構(gòu)性。協(xié)同過濾推薦算法通過對(duì)用戶的行為進(jìn)行分析來(lái)挖掘用戶的興趣,從用戶群中找出與目標(biāo)用戶興趣相近的用戶并通過這些近鄰用戶對(duì)物品的評(píng)價(jià)值來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)該物品的喜好程度[3~4]。因?yàn)闊o(wú)需對(duì)物品內(nèi)容進(jìn)行分析,協(xié)同過濾在推薦圖片、音樂、電影等方面具有更好的優(yōu)勢(shì),在推薦系統(tǒng)中被廣泛使用。

根據(jù)協(xié)同過濾的相關(guān)特性,將協(xié)同過濾分為兩類:基于用戶(User-Based)協(xié)同過濾算法和基于物品(Item-Based)協(xié)同過濾算法?;谟脩舻膮f(xié)同過濾,通過用戶對(duì)不同物品的評(píng)分來(lái)計(jì)算物品之間的相似性,再通過物品之間的相似性預(yù)測(cè)評(píng)分做出推薦,但隨著用戶的增加會(huì)不斷地影響預(yù)測(cè)的結(jié)果導(dǎo)致預(yù)測(cè)偏差增大[5]?;谖锲返膮f(xié)同過濾,通過不同用戶對(duì)物品的評(píng)分來(lái)計(jì)算物品之間的相似性,再通過用戶之間的相似性預(yù)測(cè)評(píng)分做出推薦,可能造成推薦的單一化導(dǎo)致預(yù)測(cè)結(jié)果不準(zhǔn)確。目前,兩種協(xié)同過濾算法均存在數(shù)據(jù)稀疏、冷啟動(dòng)和可擴(kuò)展性差等問題[6~7]。通過對(duì)這些缺點(diǎn)的分析,提出一種基于用戶和物品的加權(quán)混合型協(xié)同過濾算法來(lái)提高預(yù)測(cè)的準(zhǔn)確性。

2 傳統(tǒng)協(xié)同過濾算法

首先我們對(duì)基于用戶協(xié)同過濾算法和基于物品協(xié)同過濾算法進(jìn)行詳細(xì)介紹。兩種基本的協(xié)同過濾算法均可分為四個(gè)步驟:創(chuàng)建用戶-物品評(píng)分矩陣,相似性計(jì)算,近鄰選擇,評(píng)分預(yù)測(cè)。

2.1 基于用戶協(xié)同過濾算法

基于用戶協(xié)同過濾推薦的主要思想可以簡(jiǎn)述為:首先,給定一個(gè)用戶-物品的評(píng)分?jǐn)?shù)據(jù)集,找出與當(dāng)前用戶過去有相似偏好的其他用戶,這些用戶被稱為近鄰用戶;然后,對(duì)當(dāng)前用戶沒有見過的物品,利用其近鄰對(duì)該物品的評(píng)分來(lái)計(jì)算預(yù)測(cè)值。這種算法的潛在假設(shè)有兩點(diǎn):如果用戶過去有相似的偏好,那么他們未來(lái)也會(huì)有相似的偏好;用戶偏好不會(huì)隨時(shí)間而變化。

1)創(chuàng)建用戶-物品評(píng)分矩陣

推薦系統(tǒng)中包含m個(gè)用戶記為{u1,u2,…,um}和 n個(gè)物品記為{i1,i2,…,in},則創(chuàng)建一個(gè) m×n的用戶-物品評(píng)分矩陣 Rm×n。矩陣中的元素 Ri,j(1≤i≤m,1≤j≤n)表示用戶i對(duì)物品 j的評(píng)分,評(píng)分一般為1~5的整數(shù),評(píng)分越高表示用戶對(duì)物品的興趣程度越高,如果Ri,j=0則表示用戶i未對(duì) j進(jìn)行評(píng)分。

2)相似性計(jì)算

目前計(jì)算相似度的方法主要有:皮爾森相關(guān)系數(shù)、余弦相似度、歐幾里得距離相似度、曼哈頓距離相似度。在基于用戶協(xié)同過濾中采用最常用的皮爾森相關(guān)系數(shù)進(jìn)行計(jì)算,該方法可以反應(yīng)出兩個(gè)變量之間的線性相關(guān)程度,取值范圍從-1(強(qiáng)負(fù)相關(guān))到+1(強(qiáng)正相關(guān)),若取值為0則表明不存在線性相關(guān)關(guān)系。

將用戶u和用戶v共同評(píng)論過的物品集合記為 I(u)∩I(v),用戶 u和用戶 v的相似度記為sim(u,v),則皮爾森相關(guān)系數(shù)公式可以表示為

3)近鄰選擇

在得到用戶之間的相似度之后,對(duì)目標(biāo)用戶與其他用戶之間的相似度進(jìn)行篩選,挑選相似度最大的K個(gè)用戶組成近鄰集合記為N(u)。K值的大小會(huì)對(duì)預(yù)測(cè)的結(jié)果產(chǎn)生影響:當(dāng)近鄰個(gè)數(shù)K太高時(shí),會(huì)給預(yù)測(cè)帶來(lái)額外的“噪聲”;當(dāng)K太小時(shí),預(yù)測(cè)的結(jié)果可能出現(xiàn)負(fù)面影響。因此近鄰個(gè)數(shù)的選擇應(yīng)控制在合理的范圍內(nèi)。

4)評(píng)分預(yù)測(cè)

目標(biāo)用戶u對(duì)物品i的預(yù)測(cè)評(píng)分記為pred(u,i)可以通過如下公式計(jì)算得出:

其中,ux為近鄰集合中的某一用戶;Rux,i為用戶u對(duì)物品i的評(píng)分;為用戶u對(duì)物品評(píng)分xx的均值;sim(u ,ux)為用戶u與用戶ux的相似度。

2.2 基于物品協(xié)同過濾算法

基于物品協(xié)同過濾的主要思想是利用物品之間的相似度來(lái)預(yù)測(cè)用戶對(duì)物品的興趣程度。

1)創(chuàng)建用戶-物品評(píng)分矩陣

和基于用戶協(xié)同過濾算法一樣,需要對(duì)數(shù)據(jù)進(jìn)行相同的處理生成用戶-物品評(píng)分矩陣。

2)相似性計(jì)算

在基于物品協(xié)同過濾中,余弦相似度是比較常見的相似性計(jì)算方法。由于基本的余弦相似度算法沒有考慮用戶評(píng)分均值之間的差異,因此使用修正余弦相似度方法計(jì)算物品之間的相似度。將同時(shí)評(píng)論過物品i和物品 j的所有用戶集合記為U(i)∩U(j),物品i和物品 j的相似度記為sim(i,j),則有:

其中,u表示同時(shí)評(píng)分過物品i和物品 j的用戶;-Ru表示用戶u對(duì)物品評(píng)分的均值。

3)近鄰選擇

與基于用戶協(xié)同過濾的近鄰選擇類似,篩選出與目標(biāo)物品相似度最大的K個(gè)物品組成近鄰集合記為N(i)。同樣近鄰的個(gè)數(shù)應(yīng)控制在合理的范圍內(nèi)。

4)評(píng)分預(yù)測(cè)

預(yù)測(cè)目標(biāo)用戶u對(duì)物品i的評(píng)分公式如下:

其中,iy為近鄰集合中的某一物品;Ru,iy為用戶u對(duì)物品iy的評(píng)分;sim(i , iy)為物品i與物品iy的相似度。

3 改進(jìn)的協(xié)同過濾算法

在協(xié)同過濾算法中,基于用戶協(xié)同過濾通過橫向?qū)Ρ雀饔脩糁g的興趣相似度可以找出目標(biāo)用戶的興趣群組,從而使推薦的結(jié)果準(zhǔn)確性高一些,更注重社會(huì)化而缺少一定的個(gè)性化;基于物品協(xié)同過濾是通過物品間的對(duì)比,根據(jù)用戶歷史行為推薦相似物品,更注重個(gè)性化,但是推薦的結(jié)果準(zhǔn)確性較低一些[8]。為了使推薦的結(jié)果兼具個(gè)性化和更高的準(zhǔn)確率,本文將兩種協(xié)同過濾算法結(jié)合起來(lái)[9]。

3.1 相似度計(jì)算的改進(jìn)

在利用皮爾森相關(guān)系數(shù)或者修正余弦相似度計(jì)算相似度時(shí)雖然很直觀,但是沒有考慮到兩兩用戶(或物品)之間共同評(píng)分項(xiàng)目數(shù)目對(duì)預(yù)測(cè)結(jié)果的影響。由于數(shù)據(jù)稀疏性往往比較大,有時(shí)會(huì)出現(xiàn)兩個(gè)原本相似較小的用戶(或物品)恰好在較少的共同評(píng)分項(xiàng)上擁有較大的相似度,從而導(dǎo)致預(yù)測(cè)不準(zhǔn)確[10]。如下表1中用戶u1與用戶u2的共同評(píng)分項(xiàng)只有1項(xiàng),而用戶u1與用戶u3的共同評(píng)分項(xiàng)有3項(xiàng),u1與u2的相似度為0.47,u1與u3的相似度為0.45,若直接判定用戶u1與用戶u2的相似度高于用戶u1與u3的相似度顯然是不合理的。

表1 皮爾森相關(guān)系數(shù)計(jì)算用戶間相似度

為了使用戶(或物品)之間的相似度計(jì)算更加合理,結(jié)合共同評(píng)分項(xiàng)數(shù)量對(duì)相似度的影響,本文使用加權(quán)型的相似度計(jì)算方式。用戶之間的相似度為用戶之間共同評(píng)分項(xiàng)數(shù)量與該用戶和其他用戶最大共同評(píng)分項(xiàng)數(shù)量的比值,再對(duì)皮爾森相關(guān)系數(shù)進(jìn)行加權(quán);物品之間的相似度為物品之間共同評(píng)分項(xiàng)數(shù)量與該物品和其它物品最大共同評(píng)分項(xiàng)數(shù)量的比值,再對(duì)修正余弦相似度進(jìn)行加權(quán)。公式分別為

式中,| Iu∩Iv|代表用戶u與用戶v共同評(píng)分過物品的數(shù)量,max | Iu∩Ix|代表用戶u與其他用戶共同評(píng)分過物品的數(shù)量最大值;|Ui∩Uj|代表共同評(píng)分過物品i與物品 j的用戶的數(shù)量,max| Ui∩Uy|代表共同評(píng)分過物品i與其它物品的用戶的數(shù)量最 大 值 。 由 上 述 公 式 可 知 |sim'(u,v)|≤1 ,|sim'(i,j)|≤1成立。另外,在改進(jìn)的相似度算法中,由于max | Iu∩Ix|不一定與max| Iv∩Ix|相等,因此會(huì)出現(xiàn) sim'(u,v)≠sim'(v,u)的情況,所以用戶 u 與用戶v的相似度sim'(u,v)和用戶v與用戶u的相似度sim'(v,u)是兩種獨(dú)立的相似度,記為獨(dú)立的兩個(gè)值;同理,物品i與物品 j的相似度sim'(i,j)和物品 j與物品i的相似度sim'(j,i)也記為兩個(gè)獨(dú)立的值。

使用改進(jìn)后相似度算法計(jì)算表1中用戶u1與其他用戶之間的相似度,并與改進(jìn)前相似度進(jìn)行對(duì)比,結(jié)果如表2所示。

表2 兩種方式計(jì)算相似度的對(duì)比

可以看出相似度算法改進(jìn)后,u1與u2的相似度 sim'(u1,u2)=0.12 ,u1與 u3的 相 似 度sim'(u1,u3)=0.34 , 通 過 比 較 可 以 得 出sim'(u1,u2)< sim'(u1,u3),從而使近鄰的選擇更加符合實(shí)際要求,減小了共同評(píng)分項(xiàng)數(shù)量的差距對(duì)用戶(或物品)之間相似度的影響,有效降低了數(shù)據(jù)稀疏度對(duì)相似度計(jì)算的影響。

3.2 近鄰集合的選擇

在得出用戶(或物品)的相似度之后,通常有兩種方法來(lái)確定近鄰集合:一種是通過相似度閾值來(lái)選擇,凡是大于該閾值的用戶(或物品)都視為近鄰;另一種則是選取K個(gè)相似度最大的用戶(或物品)作為近鄰[11]。這兩種方法都有各自的局限性,本文使用兩種方法的混合,在相似度大于閾值γ的情況下選取最大的K個(gè)用戶(或物品)作為近鄰。

基于用戶的近鄰集合可以表示為

基于物品的近鄰集合可以表示為

3.3 評(píng)分預(yù)測(cè)

在混合協(xié)同過濾算法中,引入權(quán)重因子α(α∈[0,1])來(lái)平衡基于用戶協(xié)同過濾和基于物品協(xié)同過濾的權(quán)重,使推薦結(jié)果具有更高的準(zhǔn)確度,整體思路可以表示為

為了進(jìn)一步提高預(yù)測(cè)結(jié)果的合理性和準(zhǔn)確度,本文對(duì)權(quán)重因子α進(jìn)行改進(jìn)。在每個(gè)目標(biāo)用戶或目標(biāo)物品的近鄰集合中,K個(gè)近鄰的相似度大小會(huì)對(duì)預(yù)測(cè)的結(jié)果有著不同程度的影響,相似度的值越大一般會(huì)對(duì)預(yù)測(cè)結(jié)果有著更多積極性的影響,反之則反。因此文中再引入一個(gè)權(quán)衡因子β,β表示為

其中,E表示目標(biāo)用戶或目標(biāo)物品近鄰集合中各個(gè)近鄰相似度的平均值;σ則表示近鄰集合中各個(gè)近鄰相似度的標(biāo)準(zhǔn)差。E的值越大表明近鄰集合整體的相似度越大,但是在近鄰中也會(huì)出現(xiàn)個(gè)別相似度較低的用戶(或物品),雖然對(duì)整體的相似度影響不大,但是對(duì)評(píng)分的預(yù)測(cè)會(huì)有影響。因此,綜合標(biāo)準(zhǔn)差σ來(lái)評(píng)判近鄰集合整體相似度的大小和密集程度,進(jìn)而衡量近鄰集合的整體質(zhì)量。

對(duì)于基于用戶協(xié)同過濾的權(quán)衡因子記為βu,表示為

對(duì)于基于物品協(xié)同過濾的權(quán)衡因子記為βi,表示為

為了將兩種協(xié)同過濾的權(quán)衡因子結(jié)合起來(lái),還需要引入一個(gè)控制因子 μ(μ∈[0,1])使權(quán)重因子α控制在0到1之間,最終得到α的表達(dá)式為

權(quán)重因子α決定了混合算法對(duì)基于用戶協(xié)同過濾和基于物品協(xié)同過濾算法的依賴程度,當(dāng)α=1時(shí)即為單純的基于用戶協(xié)同過濾算法,當(dāng)α=0時(shí)即為單純的基于物品協(xié)同過濾算法??紤]到用戶評(píng)分?jǐn)?shù)據(jù)的稀疏性,實(shí)際中一些用戶可能沒有足夠的相似用戶,即相似度數(shù)值大于閾值γ的近鄰個(gè)數(shù)不足K個(gè),以往的算法會(huì)忽略這一問題依舊選擇最大的K個(gè)相似用戶來(lái)預(yù)測(cè)評(píng)分,導(dǎo)致預(yù)測(cè)的準(zhǔn)確度大大降低。本文提出的新算法通過以下思路來(lái)解決這個(gè)問題:

當(dāng) ||N(u)=K且 ||N(i)=K時(shí),預(yù)測(cè)評(píng)分由文中提出的混合協(xié)同過濾算法計(jì)算得出,此時(shí)0<α<1;

當(dāng) ||N(u)=K且 ||N(i)≠K時(shí),預(yù)測(cè)評(píng)分相當(dāng)于由基于用戶協(xié)同過濾算法計(jì)算得出,此時(shí)α=1;

當(dāng) ||N(u)≠K且 ||N(i)=K時(shí),預(yù)測(cè)評(píng)分相當(dāng)于由基于物品協(xié)同過濾算法計(jì)算得出,此時(shí)α=0;

當(dāng) ||N(u)≠K且 ||N(i)≠K時(shí),意味著相似用戶和相似物品均不滿足要求,因此不予置評(píng),pred( )u,i=0。

4 實(shí)驗(yàn)及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)集介紹

本文使用Movie Lens數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)來(lái)進(jìn)行測(cè)試,數(shù)據(jù)集包含943個(gè)用戶對(duì)1682部電影的評(píng)分,評(píng)分的分?jǐn)?shù)為1到5整數(shù),評(píng)分記錄總共為100000條。由下式對(duì)數(shù)據(jù)集稀疏度的計(jì)算結(jié)果可以看出該數(shù)據(jù)集是非常稀疏的:

4.2 實(shí)驗(yàn)評(píng)定標(biāo)準(zhǔn)

本文采用平均絕對(duì)誤差MAE來(lái)評(píng)價(jià)預(yù)測(cè)的質(zhì)量,MAE可以衡量預(yù)測(cè)值和真實(shí)評(píng)分之間的平均偏離程度。MAE的值越低,表明預(yù)測(cè)的精度就越高,計(jì)算公式為

式中,Ru,i表示用戶u對(duì)物品i的預(yù)測(cè)評(píng)分;Ru,i表示用戶u對(duì)物品i的真實(shí)評(píng)分;N表示待預(yù)測(cè)評(píng)分的總數(shù)量。

4.3 實(shí)驗(yàn)過程

為了減少評(píng)分的偶然性帶來(lái)的數(shù)據(jù)偏差,本文使用交叉驗(yàn)證對(duì)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),從100000條評(píng)分中隨機(jī)抽取20000條評(píng)分作為測(cè)試集,剩下的80000條評(píng)分作為訓(xùn)練集,每次預(yù)測(cè)重復(fù)五次,選取適中的值作為預(yù)測(cè)結(jié)果。

在提出的混合協(xié)同過濾中控制因子μ對(duì)權(quán)重因子α有著直接影響的,因此確定控制因子μ的最佳取值是本實(shí)驗(yàn)的重點(diǎn),同時(shí)包括近鄰集合個(gè)數(shù)K的取值對(duì)實(shí)驗(yàn)結(jié)果的影響。因?yàn)橄嗨贫乳撝郸脤?duì)權(quán)重因子α沒有直接影響,為了簡(jiǎn)化實(shí)驗(yàn)我們將γ置為0。

實(shí)驗(yàn)中,控制因子μ∈[0,1]的取值間隔設(shè)置為0.1,將近鄰集合個(gè)數(shù)K分別設(shè)置為10、20、30、40、50。得到的實(shí)驗(yàn)結(jié)果如圖1所示。

圖1 控制因子μ的取值對(duì)MAE的影響

從上圖中可以看出:通過縱向?qū)Ρ?,隨著近鄰集合個(gè)數(shù)K的增加,MAE的變化會(huì)越來(lái)越小趨于穩(wěn)定;通過橫向?qū)Ρ?,隨著控制因子μ的增加,MAE會(huì)先減小后增大??傮w上,μ在0.1~0.3之間時(shí)MAE的變化趨于平緩,當(dāng)μ=0.2時(shí)取得最優(yōu)值,近鄰集合個(gè)數(shù)K=50時(shí)MAE取得最小值。

在得出控制因子μ的最優(yōu)值后,進(jìn)一步驗(yàn)證文中提出的混合協(xié)同過濾算法的推薦精準(zhǔn)度,將本文提出的混合協(xié)同過濾與兩種傳統(tǒng)的協(xié)同過濾進(jìn)行對(duì)比,控制因子μ置為最優(yōu)值0.2,近鄰集合個(gè)數(shù)K同樣從10增加到50,得到的實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 三種不同協(xié)同過濾算法的MAE比較

可以看出文中提出的混合協(xié)同過濾的實(shí)驗(yàn)結(jié)果MAE更低一些,因此有著更高的推薦準(zhǔn)確度。

5 結(jié)語(yǔ)

本文在前人的基礎(chǔ)上,針對(duì)基于用戶協(xié)同過濾和基于物品協(xié)同過濾的不同優(yōu)勢(shì)和缺點(diǎn),從混合模型的角度切入,對(duì)兩種基礎(chǔ)的協(xié)同過濾進(jìn)行了改進(jìn)。創(chuàng)新性的將近鄰集合中相似度的均值和標(biāo)準(zhǔn)差引入到混合算法中來(lái)平衡兩種基礎(chǔ)協(xié)同過濾算法的權(quán)重。最后通過實(shí)驗(yàn)與兩種傳統(tǒng)的協(xié)同過濾算法進(jìn)行對(duì)比,驗(yàn)證了本文算法的確實(shí)提高了預(yù)測(cè)精度,使推薦更加準(zhǔn)確。

[1]劉建國(guó),周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,01:1-15.LIU Jianguo,ZHOU Tao,WANG Bingcheng.Research progress of personalized recommendation system[J].Progress in Natural Science,2009,01:1-15.

[2]王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,07:66-76.WANG Guoxia,LIU Heping.Summary of personalized recommendation system[J].Computer engineering and Applications,2012,07:66-67.

[3]李桃迎,李墨,李鵬輝.基于加權(quán)Slope one的協(xié)同過濾個(gè)性化推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2016,08:1-6.LI Taoying,LI Mo,LI Penghui.Personalized collaborative filtering recommendation algorithm based on weighted Slope one[J].Computer application research,2016,08:1-6.

[4]SCHAFER J B,KONSTAN J A,RIEDL J.E-commerce recommendation application[J].Data Mining and Knowledge Discovery,2001,5(1/2):115-153.

[5]范波,程久軍.用戶間多相似度協(xié)同過濾推薦算法[J].計(jì)算機(jī)科學(xué),2012,01:23-26.FAN Bo,CHENG Jiujun.collaborative filtering recommendation algorithm based on User's Multi-similarity[J].Computer science,2012,01:23-26.

[6]LIU Qingwen,XIONG Yan,HUANG WenChao.Combining User-Based and Item-Based Models for Collaborative Filtering Using Stacked Regression[J].Chinese Journal of Electronics,2014,04:712-717.

[7]劉慶鵬,陳明銳.優(yōu)化稀疏數(shù)據(jù)集提高協(xié)同過濾推薦系統(tǒng)質(zhì)量的方法[J].計(jì)算機(jī)應(yīng)用,2012,04:1082-1085.LIU Qingpeng,CHEN Mingrui.Optimization of sparse data sets to improve quality of collaborative filtering systems[J].Computer application,2012,04:1082-1085.

[8]BA Qilong,LI Xiaoyong,BAI Zhongying.Clustering Collaborative Filtering Recommendation System Based on SVD Algorithm[A].Proceedings of 2013 IEEE 4th International Conference on Software Engineering and Service Science[C],2013:5.

[9]黃瓊,馮軍煥.混合協(xié)同過濾個(gè)性化推薦算法研究[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014,04:111-113.HUANG Qiong,F(xiàn)ENG Junhuan.Research on Personalized Recommendation Algorithm Based on hybrid collaborative filtering[J].Computer CD software and application,2014,04:111-113.

[10]ZHANG Ye,SONG Wei.A Collaborative Filtering Recommendation Algorithm Based on Item Genre and Rating Similarity[C]//Proceedings of the 2009 International Conference on Computational Intelligence and Natural Computing(Volume 2),2009:4.

[11]查九,李振博,徐桂瓊.基于組合相似度的優(yōu)化協(xié)同過濾算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,12:323-328.ZHA Jiu,LI Zhenbo,XU Guiqiong.An optimized collaborative filtering algorithm based on combined similarity[J].Computer applications and software,2014,12:323-328.

Hybrid Collaborative Filtering Algorithm Based on Quality of Similarity

GUO LeiZHANG KunCHENG HongyanYAN Xia
(School of Computer Science&Engineering,Nanjing University of Science and Technology,Nanjing 210094)

In the traditional collaborative filtering algorithm has been facing a cold start and data sparseness and other issues,resulting in the recommendation information is not accurate enough.A new hybrid collaborative filtering algorithm is proposed by analyzing the characteristics of user-based collaborative filtering algorithm and item-based collaborative filtering algorithm.This paper combines the weighted mean of two similar filtering algorithms with the mean and standard deviation of the similarity,and introduces the control factor to improve the precision of the prediction.Experiments are carried out with the Movie Lens dataset,and the average absolute error is used to measure the results.The experimental results show that the proposed algorithm improves the accuracy of the proposed algorithm when the scoring matrix is extremely sparse.

recommendation algorithm,collaborative filtering,similarity

TP301

10.3969/j.issn.1672-9722.2017.11.005

Class Number TP301

2017年5月9日,

2017年6月29日

郭雷,男,碩士研究生,研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。張琨,女,博士,教授,研究方向:復(fù)雜網(wǎng)絡(luò)理論與應(yīng)用、可信計(jì)算、網(wǎng)絡(luò)與信息安全。陳洪雁,女,碩士,助理研究員,研究方向:信息化建設(shè)、網(wǎng)絡(luò)安全。嚴(yán)霞,女,碩士研究生,研究方向:復(fù)雜網(wǎng)絡(luò),數(shù)據(jù)挖掘。

猜你喜歡
物品協(xié)同因子
我刊2021年影響因子年報(bào)
輸入受限下多無(wú)人機(jī)三維協(xié)同路徑跟蹤控制
稱物品
家校社協(xié)同育人 共贏美好未來(lái)
“雙十一”,你搶到了想要的物品嗎?
一些關(guān)于無(wú)窮多個(gè)素因子的問題
誰(shuí)動(dòng)了凡·高的物品
“四化”協(xié)同才有出路
山藥被稱“長(zhǎng)壽因子”
京津冀協(xié)同發(fā)展
房产| 镇原县| 宝清县| 石城县| 呼玛县| 中西区| 宁明县| 双城市| 湟源县| 东海县| 岚皋县| 扶余县| 鹰潭市| 江安县| 台东市| 高碑店市| 北海市| 永仁县| 三原县| 文山县| 南部县| 海丰县| 桐柏县| 二连浩特市| 石台县| 开原市| 滦平县| 博罗县| 遂昌县| 蛟河市| 彭山县| 隆尧县| 云梦县| 库尔勒市| 海丰县| 通州区| 宜黄县| 清丰县| 汤原县| 左云县| 昌平区|