国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合用戶興趣度與項目相關(guān)度的電影推薦算法研究

2017-06-01 09:50:24俞美華
電腦知識與技術(shù) 2017年8期
關(guān)鍵詞:協(xié)同過濾

俞美華

摘要:在目前的電影推薦系統(tǒng)中,傳統(tǒng)的推薦算法具有用戶評分?jǐn)?shù)據(jù)稀疏的不足,因此無法根據(jù)用戶喜好進行準(zhǔn)確推薦。針對上述問題,本文提出一種融合用戶興趣度與項目相關(guān)度的電影推薦算法,此算法基于項目類別屬性的用戶興趣度計算用戶間相似性,并結(jié)合基于關(guān)聯(lián)規(guī)則思想計算項目間相似性從而產(chǎn)生推薦?;贛ovielens數(shù)據(jù)集的實驗結(jié)果表明,本文所提出的算法比傳統(tǒng)的推薦算法在推薦準(zhǔn)確度上有明顯提高。

關(guān)鍵詞:電影推薦;用戶興趣度;項目相關(guān)度;協(xié)同過濾

中圖分類號:TP301.6 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)08-0022-05

隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)中的電影數(shù)據(jù)海量增加,用戶對于更準(zhǔn)確高效的電影推薦需求越來越迫切,因而能夠提供個性化推薦結(jié)果的推薦系統(tǒng)(recommerwler systems)越來越多地被運用到電影網(wǎng)站中?,F(xiàn)有的推薦技術(shù)主要包括基于內(nèi)容的推薦(Content-Based Recommendation)、協(xié)同過濾(collaborative filtering)推薦以及混合推薦(HybridApproach)等,其中協(xié)同過濾算法在電影推薦系統(tǒng)中應(yīng)用最廣泛。協(xié)同過濾算法的原理是基于對用戶一項目評分矩陣的分析,利用歷史評分?jǐn)?shù)據(jù)獲取目標(biāo)用戶的最近鄰用戶,根據(jù)最近鄰用戶的評分?jǐn)?shù)據(jù)進行目標(biāo)用戶的推薦。然而,隨著網(wǎng)絡(luò)和用戶規(guī)模的日益擴大、項目和用戶數(shù)量的爆炸式增長,傳統(tǒng)的協(xié)同過濾推薦算法存在的弊端就會體現(xiàn):由于用戶一項目評分矩陣存在極大的數(shù)據(jù)稀疏性,推薦結(jié)果往往存在偏差,推薦精度較低。

對于數(shù)據(jù)稀疏性問題,許多學(xué)者對傳統(tǒng)的協(xié)同過濾算法進行修改和完善。Luo等提出用戶局部相似性和用戶全局相似性的概念來計算用戶間的局部相似性和全局相似性,從而產(chǎn)生局部最近鄰和全局最近鄰,然后計算兩種最近鄰的預(yù)測評分,并通過一個權(quán)重控制參數(shù)平衡兩種預(yù)測評分的貢獻度。Anan等對Luo的工作進行拓展,考慮評分?jǐn)?shù)據(jù)的整體稀疏度和局部稀疏度,由此可以產(chǎn)生可變的估算權(quán)重控制參數(shù)。Choi等計算用戶相似性時考慮目標(biāo)項目與所有項目的相似性,與目標(biāo)項目越相似,它在計算最近鄰的過程中影響就越大。Lee等嘴時間信息融入到協(xié)同過濾算法中,將時間分為若干階段并給每一階段賦予相應(yīng)的權(quán)重值,最后基于這些時間權(quán)重獲取推薦結(jié)果。Chen等提出一種基于影響集的協(xié)同過濾算法,計算目標(biāo)項目的最近鄰和逆最近鄰并分別產(chǎn)生預(yù)測結(jié)果,最后通過4種方法融合預(yù)測結(jié)果。Leem等通過基于用戶和基于項目的協(xié)同過濾產(chǎn)生兩種預(yù)測結(jié)果,再以共同評分?jǐn)?shù)作為權(quán)重參數(shù)混合預(yù)測結(jié)果。Wang等提出的基于相似性融合的協(xié)同過濾算法是結(jié)合目標(biāo)用戶對鄰居項目的評分、鄰居用戶對目標(biāo)項目的評分、相似用戶對相似項目的評分3種數(shù)據(jù),并通過評分標(biāo)準(zhǔn)化及概率方法實現(xiàn)預(yù)測推薦。Sandyig等結(jié)合了數(shù)據(jù)挖掘的思想,提出了一種基于關(guān)聯(lián)規(guī)則挖掘的協(xié)同過濾推薦算法。

基于以上研究,本文進一步提出了一種融合用戶興趣度與項目相關(guān)度的電影推薦算法,該算法從用戶和項目兩個方面來解決相似性度量的問題,通過用戶間相似性計算得到候選鄰居集合,并在此基礎(chǔ)上結(jié)合項目間的關(guān)聯(lián)關(guān)系得到雙重鄰居選取后的最近鄰用戶集合,由此產(chǎn)生最終的推薦結(jié)果。其中在改進的用戶相似性度量過程中引人用戶共同評分和用戶對項目類別屬性的偏好,同時通過挖掘項目間的關(guān)聯(lián)關(guān)系計算項目關(guān)聯(lián)度。通過結(jié)合以上二者,本文所提出的方法能夠?qū)鹘y(tǒng)基于協(xié)同過濾的電影推薦算法進行改進,有效解決數(shù)據(jù)稀疏性的問題,保證電影推薦的質(zhì)量和精確度。

1相關(guān)研究

1.1基于協(xié)同過濾的傳統(tǒng)電影推薦算法

在傳統(tǒng)的電影推薦算法中,應(yīng)用最廣泛的是協(xié)同過濾算法。根據(jù)Breese等人的分類方法,協(xié)同過濾算法可以分成兩類:基于記憶的協(xié)同過濾和基于模型的協(xié)同過濾。其中基于記憶的協(xié)同過濾算法通過用戶一項目評分矩陣獲得用戶間或項目間的相似關(guān)系,然后以這種相似關(guān)系產(chǎn)生進行推薦,主要又可分為基于用戶的協(xié)同過濾算法(User-based Collaborative Filtering,UBCF)和基于項目的協(xié)同過濾算法(ITem-based CollaborativeFiherinG,IBCF)兩種。

傳統(tǒng)的協(xié)同過濾推薦算法基于用戶-項目評分矩陣R(M,n)尋找目標(biāo)用戶的最近鄰(nearest neighbor)集合,集合U表示所有用戶,集合I表示所有項目,其中m行表示m個用戶,n列表示n個項目,Ri,j表示用戶i對項目j的評分值,這個評分值體現(xiàn)了aseri對itemj的興趣和偏好。用戶-項目評分矩陣如表1所示:

以用戶-項目評分矩陣為基礎(chǔ),采用基于用戶或基于項目的相似性度量方法來計算用戶間或者項目間的相似度,根據(jù)相似度的值尋找最近鄰用戶或最近鄰項目,并通過評分算法計算出預(yù)測評分,最后根據(jù)預(yù)測評分的排序結(jié)果進行推薦。目標(biāo)用戶的最近鄰居查詢的準(zhǔn)確性直接影響整個推薦系統(tǒng)的推薦質(zhì)量,因此相似性的度量成為提高推薦準(zhǔn)確率的關(guān)鍵。相似性度量方法主要有余弦相似性、修正的余弦相似性、Pearson相關(guān)系數(shù)等方法,具體計算法如表2所示。計算可以基于用戶間或基于項目間的計算,表2中以基于用戶的相似性計算為例,即基于用戶的協(xié)同過濾算法:

1.2傳統(tǒng)相似性算法的不足

余弦相似性的計算方法較為簡易,但是該方法將用戶未評分項目的評分默認為0且沒有考慮不同用戶可能有不同的評分尺度,有些用戶傾向打高分而有些用戶傾向打低分。

修正的余弦相似性計算方法中,如果用戶只對一個項目評分,則平均評分次數(shù)為1,即分母為0,從而無法計算用戶之間的相似性。由于數(shù)據(jù)稀疏性,可能導(dǎo)致較多用戶無法計算相似性,使得推薦結(jié)果存在偏差。

Pearson相似性計算方法中,當(dāng)共同評分項目數(shù)為2時,Pearson相關(guān)系數(shù)只有1或者-1兩個值,因此該方法會導(dǎo)致公共評分項目數(shù)比較少的用戶占優(yōu)勢。

2融合用戶興趣度與項目相關(guān)度的電影推薦算法

2.1用戶興趣度的相似性度量

傳統(tǒng)的用戶間相似性計算只針對用戶評分的相似性,但是現(xiàn)實中用戶間的相似性不僅與用戶對項目的評分有關(guān),還與用戶對某類項目的喜好程度有關(guān),即用戶對項目類別屬性的興趣度。當(dāng)兩個用戶評分的項目屬性相似時,則可認為這兩個用戶之間也具有較高的相似性。目標(biāo)用戶與其鄰居對項目類別屬性的興趣度應(yīng)該是具有一定的相似性,因此本文結(jié)合基于用戶興趣度的相似性對傳統(tǒng)的基于用戶相似性度量方法進行改進,并選取候選用戶集合。

定義1.項目類別屬性。假設(shè)項目類別屬性用集合A={Attr1,Attr2…,,Attrk}來表示,每個項目的特征都可以用集合中的一個多個類別屬性來描述。注意的是,現(xiàn)實生活中多數(shù)情況是—個項目只屬于一個類別屬性,因此后文的研究只考慮這種情況。

如表3所示,項目類別屬性矩陣A(n,k)是一個二值型矩陣,其中Ai,j的值為1代表項目i具有類別屬性j,為0則代表項目i不具有此類別屬性。

定義2.用戶興趣度。將用戶對于項目類別屬性的偏好看作用戶興趣度,用戶評價某類項目的次數(shù)越多,表明用戶對這類項目越感興趣。用戶u對某種項目類別屬性Attrj的用戶興趣度Interestu,j可用公式(1)表示為:

(1)

其中,N1u,j表示用戶u對j類項目的評價總數(shù),N1u表示用戶u已評價項目的總數(shù)。Interestu,j反映了用戶對某一項目類別屬性的偏好是基于整體的用戶偏好進行的相對計算,由此獲得更加準(zhǔn)確的用戶興趣度。

如表4所示,可以建立用戶一項類偏好比例矩陣P(m,k),其中Pi,j根據(jù)公式(1)進行計算可得。

實驗2.為了驗證本文所提出的融合用戶興趣度與項目相關(guān)度的電影推薦算法(ours)的有效性,在同樣環(huán)境下用同樣的實驗數(shù)據(jù)將該算法與傳統(tǒng)的基于余弦相似性協(xié)同過濾(UCB-CF)、基于Pearson相關(guān)系數(shù)的協(xié)同過濾(UPBCF)以及目前被廣泛用于對比實驗的文獻14所提出的IRPCF算法進行對比實驗,比較各自的推薦質(zhì)量MAE。本實驗中最近鄰用戶個數(shù)K設(shè)置為從5遞增到60,間隔為5,平衡因子ω設(shè)置為0.5。實驗結(jié)果如圖2所示:

由上圖可知,在任意K值下,本文所提出的新算法ours都獲得了最小的MAE值;同時隨著最近鄰個數(shù)K的增加,MAE的值減小,推薦系統(tǒng)的準(zhǔn)確度得到提高且趨于穩(wěn)定。此外,新算法ours的平均MAE值為0.766,較UCBCF的0.822、UPBCF的0.811和IRPCF的0.796都有顯著降低。這是因為UCBCF和UPBCF是基于整個用戶集合選取最近鄰而忽略了項目類別屬性的影響,導(dǎo)致MAE值較大;IRPCF則需要以兩個用戶之間的評分項目對集合為基礎(chǔ),但由于存在評分項目對集合為空的現(xiàn)象,導(dǎo)致此算法的推薦質(zhì)量有所減低。而本文所提出的算法能夠有效得融合用戶興趣度和項目關(guān)聯(lián)度兩個方面的影響,通過雙重選取最近鄰,有效提高了整體推薦的準(zhǔn)確性和質(zhì)量。

4結(jié)論

結(jié)合電影推薦系統(tǒng)的實際需求,通過分析傳統(tǒng)電影推薦算法的不足,本文綜合考慮用戶的項目類別屬性偏好和項目的關(guān)聯(lián)關(guān)系對相似性計算的影響,提出了一種融合用戶興趣度與項目相關(guān)度的電影推薦算法。通過對比實驗分析比較算法的準(zhǔn)確性,表明本文所提出的算法能夠有效提高推薦系統(tǒng)的精度與質(zhì)量。

猜你喜歡
協(xié)同過濾
基于用戶評分和項目類偏好的協(xié)同過濾推薦算法
基于用戶相似度加權(quán)的Slope One算法
軟件(2016年4期)2017-01-20 09:44:28
圖書推薦算法綜述
改進的協(xié)同過濾推薦算法
基于鏈?zhǔn)酱鎯Y(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計與實現(xiàn)
基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
混合推薦算法在電影推薦中的研究與評述
關(guān)于協(xié)同過濾推薦算法的研究文獻綜述
商(2016年29期)2016-10-29 15:22:08
基于混合信任模型的協(xié)同過濾推薦算法
诏安县| 长宁区| 抚州市| 东宁县| 新绛县| 澄城县| 文山县| 富裕县| 延边| 潍坊市| 印江| 利川市| 中宁县| 张家港市| 会东县| 新巴尔虎右旗| 新丰县| 阳曲县| 吴江市| 伊金霍洛旗| 威海市| 兖州市| 惠安县| 铜鼓县| 莱州市| 宁海县| 襄汾县| 伊吾县| 定安县| 上犹县| 图木舒克市| 饶阳县| 双桥区| 林甸县| 田阳县| 二连浩特市| 平罗县| 新田县| 子洲县| 修水县| 黎川县|