国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用戶特征協(xié)同過濾方法在個性化商品推薦中的應(yīng)用研究

2017-02-27 15:28:25曹建新呂鵬輝
電腦知識與技術(shù) 2016年31期
關(guān)鍵詞:協(xié)同過濾推薦系統(tǒng)

曹建新+呂鵬輝

摘要:協(xié)同過濾推薦是目前個性化推薦中應(yīng)用最廣泛的推薦技術(shù),根據(jù)電子商務(wù)網(wǎng)站中用戶的特征,重點分析了協(xié)同過濾推薦方法,發(fā)現(xiàn)目前協(xié)同過濾算法主要利用用戶評分數(shù)據(jù)進行推薦,數(shù)據(jù)單一且稀疏,因此在用戶評分數(shù)據(jù)的基礎(chǔ)上,對用戶屬性特征和用戶喜好特征數(shù)據(jù)加以利用,提出了一種基于用戶特征數(shù)據(jù)的協(xié)同過濾推薦方法,能夠緩解目前算法中存在的數(shù)據(jù)稀疏問題,通過實驗數(shù)據(jù)對比分析,證明了算法的合理與有效性。

關(guān)鍵詞:推薦系統(tǒng);用戶特征;協(xié)同過濾;數(shù)據(jù)稀疏

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)31-0157-03

隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)也得到了飛速發(fā)展。電子商務(wù)規(guī)模的不斷擴大,使得用戶一方面可以方便地獲得豐富的信息,另一方面則要面臨過量信息伴隨著的信息過載問題[1]。在此背景下,電子商務(wù)推薦系統(tǒng)應(yīng)運而生,國內(nèi)外越來越多的電子商務(wù)網(wǎng)站應(yīng)用推薦技術(shù)用戶進行個性化推薦。例如淘寶、京東、亞馬遜等大型網(wǎng)站[2]都有自己的推薦模塊,用于提升其銷售量。亞馬遜(Amazon)是美國最大的在線電子商務(wù)網(wǎng)站,就實現(xiàn)了基于協(xié)同過濾的混合類型推薦。

協(xié)同過濾推薦算法是研究和應(yīng)用最為廣泛的一種算法[3],常用的協(xié)同過濾推薦算法是基于用戶的協(xié)同過濾算法,其基本原理是利用已知用戶的歷史評分數(shù)據(jù)找到目標用戶的相似用戶,根據(jù)相似用戶的評分數(shù)據(jù)對目標用戶產(chǎn)生推薦。但是由于商品信息成千上萬,每個用戶真正購買的商品卻很少,所以評分信息往往更少,數(shù)據(jù)稀疏[4]問題明顯。常用的協(xié)同過濾算法只是對用戶——項目評分信息進行分解,沒有充分利用數(shù)據(jù)信息[5],沒有考慮到用戶的性別特征、年齡特征和購買特征等用戶特征,而利用這些特征數(shù)據(jù)能有效地提高協(xié)同過濾的推薦精度,并且這些數(shù)據(jù)簡單易得,數(shù)據(jù)量也明顯比評分數(shù)據(jù)量大,為此本文提出對用戶特征數(shù)據(jù)進行建模,利用用戶購買、收藏和瀏覽特征對用戶-項目評分矩陣中的值進行預(yù)測和填充,能夠緩解數(shù)據(jù)集的稀疏問題,并綜合用戶自身屬性相似度和評分相似度進行相似度計算,實驗表明,該算法緩解了評分矩陣的稀疏問題,提高了推薦質(zhì)量。

1 常用協(xié)同過濾推薦方法

1.1 常用協(xié)同過濾推薦方法的一般步驟

1) 收集用戶評分數(shù)據(jù),進行清理、轉(zhuǎn)換等,得到一個用戶-項目評分矩陣,m代表用戶數(shù)量,n代表項目數(shù)量,代表用戶u對項目的評分,取值范圍為0到5之間的整數(shù), 0表示未評分,分值越大,喜好程度越大。

2) 利用相似度計算方法計算用戶-項目評分矩陣中目標用戶與其他用戶的相似度,找到用戶的相似鄰居。通常采用K近鄰方法[6],獲得目標用戶相似度最高的K個用戶作為目標用戶的相似鄰居。

3) 按照給定計算方法,通過用戶相似鄰居對目標用戶未評分項目的評分數(shù)據(jù),對目標用戶未評分項目進行評分預(yù)測,最終選擇Top-N作為目標用戶的推薦集合,推薦給目標用戶。

1.2 相似度計算

用表示用戶和用戶的相似性,設(shè)表示用戶、的共同評分項目集合,向量分別表示用戶、在上的評分,用戶、在n維項目空間上的評分分別用,表示,、分別表示用戶和用戶對已評分項目的平均評分。

1.3 常用協(xié)同過濾算法存在的問題

隨著用戶和項目規(guī)模不斷擴大,常用的協(xié)同過濾算法面臨著數(shù)據(jù)稀疏性、可拓展性和冷啟動的問題。用戶和商品在不斷增加的過程中,用戶評過分的商品只占非常小的一部分,這就造成了評分數(shù)據(jù)的稀疏性,影響推薦效果。針對這個問題,本文發(fā)現(xiàn)通過結(jié)合用戶的特征數(shù)據(jù)和協(xié)同過濾算法,可以構(gòu)建出填充過的用戶-項目評分矩陣,從而緩解稀疏性,提高協(xié)同過濾推薦的質(zhì)量。同時,由于用戶的屬性特征較為穩(wěn)定,購買、收藏和瀏覽特征也存在一定規(guī)律,上述的計算過程可以離線進行,對推薦效率影響較小。

2 基于用戶特征的協(xié)同過濾推薦方法

2.1 用戶特征定義

通常將電子商務(wù)網(wǎng)站的用戶特征分為屬性特征和喜好特征,屬性特征一般通過用戶的基本屬性即用戶登錄和注冊時主動提供的信息得到,一般用戶比較愿意提供性別、生日等不敏感的信息,而喜好特征即通過對用戶購買行為、收藏行為和瀏覽行為等分析出的用戶喜好,即用戶對商品的購買、收藏和瀏覽以及它們的次數(shù)能不同程度的反應(yīng)用戶的喜好,因此本文定義用戶的屬性特征包括用戶的性別特征和年齡特征,用戶的喜好特征包括用戶的購買、收藏和瀏覽特征。

2.2 方案設(shè)計

基于用戶特征的協(xié)同過濾推薦方案采用離線計算推薦結(jié)果的方式,將計算結(jié)果保存在數(shù)據(jù)庫中,用戶登錄后直接在線讀取數(shù)據(jù)庫中已經(jīng)計算好的數(shù)據(jù)即可,這樣的方式雖然對存儲空間有一定犧牲,但是保證了在線推薦的效率,當用戶和商品增加時,推薦的可拓展性也可以得到保證,對推薦效率影響較小。推薦的整體流程見圖1。

從圖1可以看出離線計算的部分,首先,通過計算用戶的年齡相似度和性別相似的加權(quán)綜合,得到用戶的屬性相似度;其次,利用用戶的喜好特征對用戶-項目評分矩陣進行有效的填充后得到用戶的評分相似度;最后,加權(quán)綜合得到更為準確的用戶綜合相似度。其中,加權(quán)系數(shù)均可通過實驗分析得到最優(yōu)值,將在實驗結(jié)果與分析中加以闡述。

根據(jù)以上流程,下面對離線的基于用戶特征的協(xié)同過濾推薦方法進行詳細闡述,分為用戶屬性相似度建模,用戶評分相似度建模,綜合相似度計算,最后推薦產(chǎn)生。

1) 用戶屬性特征相似度建模

a) 性別相似度

用戶性別不同選擇商品的喜好會有很大差別,例如女性用戶比較注重商品細節(jié)和外觀,而男性用戶則側(cè)重商品的實用性,因此本文將用戶性別作為區(qū)分用戶特征的一個方面,對于用戶u和用戶v,若同性別則相似系數(shù)的值為1,反之,相似系數(shù)為0。設(shè)用戶u的性別為,設(shè)用戶v的性別為,則用戶u和用戶v的性別相似度可以表示為:

2) 用戶評分相似度建模

由于用戶的評分十分稀疏,僅通過評分信息對用戶進行分析其結(jié)果不太準確,因此利用用戶的購買特征、瀏覽特征和收藏特征對用戶喜好的表示程度不同,對用戶未評分的商品進行評分預(yù)測,對用戶-項目評分矩陣進行填充,將預(yù)測的用戶產(chǎn)品評分和原始的顯性產(chǎn)品評分相互結(jié)合,可以最大程度的表示用戶喜好。方案如下:

4) 推薦產(chǎn)生

通過式(4)的計算公式對目標用戶未評分商品進行評分預(yù)測,最終選擇與測評分最后高的top-n個視為最終推薦結(jié)果推薦給用戶。

3 結(jié)果與分析

3.1 數(shù)據(jù)來源

本文實驗基于實驗室與某手機運營商聯(lián)合開發(fā)的禮品商城項目,所有用戶和商品數(shù)據(jù)均來源于該禮品商城。實驗用數(shù)據(jù)包含500個用戶的注冊記錄,以及他們對1000件商品的評分記錄、購買記錄、收藏記錄和瀏覽記錄。其中,每個用戶至少對15個商品進行了評分,購買至少10件商品,收藏20件商品,瀏覽30件商品。選取該數(shù)據(jù)庫中100000條評分數(shù)據(jù)和這些數(shù)據(jù)中的所有用戶的購買、收藏和瀏覽記錄。

采用的數(shù)據(jù)集按照 80% 和 20% 的比例分成訓(xùn)練集和測試集[7]。分別使用常用協(xié)同過濾算法和本文提出的基于用戶特征的協(xié)同過濾算法對訓(xùn)練集中的評分數(shù)據(jù)進行預(yù)測。

3.2 算法評價標準

3.3 實驗結(jié)果分析

實驗一 :對權(quán)值系數(shù)和λ進行取值確定。其中,是用戶性別權(quán)重系數(shù),(1-)是用戶年齡權(quán)重系數(shù),由于用戶性別和年齡肯定會對用戶相似度產(chǎn)生影響,并且兩者對用戶相似度的區(qū)分相差不大,所以的取值范圍為{0.3,0.4,0.5,0.6,0.7}。λ是用戶屬性特征權(quán)重系數(shù),相應(yīng)的(1-λ)即為用戶評分相似系數(shù)。因此實驗當取值不同時,λ取值從0到1之間時,觀察MAE的值,得到實驗結(jié)果如圖2所示。

由實驗結(jié)果可以看出,當=0.6時MAE的值較其他取值時都小,即推薦精度最高,與此同時,當λ=0.3時MAE取得最小值,因此,通過實驗可以得出,本算法中用戶性別權(quán)重系數(shù)=0.6,用戶屬性特征權(quán)重系數(shù)λ=0.3時推薦精度最高,效果最好,因此確定了推薦算法相似度計算公式。

實驗二 :當用戶最近鄰居個數(shù)分別取10,20,30,40,50時,將常用的協(xié)同過濾算法和本文提出的基于用戶特征的協(xié)同過濾算法的推薦結(jié)果進行比較,(=0.6、λ=0.3)的實驗結(jié)果比較如圖3所示:

從圖3可以看出,當(=0.6、λ=0.3)時本文提出的基于用戶特征的協(xié)同過濾算法較之常用的協(xié)同過濾有所改進,推薦效果好于常用協(xié)同過濾算法,本文的算法不僅綜合了用戶屬性特征,發(fā)現(xiàn)用戶更多相似性,而且用戶喜好特征對用戶-項目評分矩陣進行了有效填充,從而緩解了數(shù)據(jù)稀疏,提高了推薦精度。

4 結(jié)語

本文針對常用的協(xié)同過濾算法目前存在的數(shù)據(jù)稀疏性問題提出了基于用戶特征的協(xié)同過濾推薦方法,充分利用用戶屬性特征和喜好特征,建立用戶屬性相似度模型和評分相似度模型,對用戶-項目評分矩陣進行了填充,并對用戶相似度計算進行了綜合。實驗表明,該方法能夠提高推薦精確度,同時,雖然目前的實驗數(shù)據(jù)還不充足,但是由于采用離線計算,當數(shù)據(jù)量增大時會雖然會犧牲一小部分存儲空間,但對在線推薦性能和效率影響較小,用戶體驗良好。最后,由于本文用到的用戶特征較用戶實際擁有的特征還只是一小部分,接下來的工作將探究如何結(jié)合用戶其他有效信息,更加有效地挖掘用戶特征和潛在喜好,這將涉及多數(shù)據(jù)挖掘的相關(guān)技術(shù),這些問題都是我們接下來要研究的內(nèi)容。

參考文獻:

[1] 柯良文,王靖.基于用戶特征遷移的協(xié)同過濾推薦[J].計算機工程,2015,41(1):37-43

[2] 孟慶慶,張勝男,盧楚雍. 基于用戶特征和商品特征的組合協(xié)同過濾算法[J]. 軟件導(dǎo)刊,2015,14(3):41-43

[3] 劉枚蓮,劉同存,李小龍.基于用戶興趣特征提取的推薦算法研究[J]. 計算機應(yīng)用研究,2011,28(5):1664-1667

[4] 張怡文,岳麗.基于共同用戶和相似標簽的好友推薦方法[J].計算機應(yīng)用,2013,33(8):2273-2275.

[5] 劉慧婷,陳艷,肖慧慧. 基于用戶偏好的矩陣分解推薦算法[J].計算機應(yīng)用,2015,35(S2) : 118-121.

[6] 羅辛,歐陽元新,熊璋,等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J].計算機學(xué)報,2010,33(8):1473-1445.

[7] 張玉芳,代金龍,熊忠陽. 分步填充緩解數(shù)據(jù)稀疏性的協(xié)同過濾算法[J]. 計算機應(yīng)用研究,2013,30(9):2602-2605.

猜你喜歡
協(xié)同過濾推薦系統(tǒng)
數(shù)據(jù)挖掘在選課推薦中的研究
軟件(2016年4期)2017-01-20 10:09:33
圖書推薦算法綜述
基于用戶偏好的信任網(wǎng)絡(luò)隨機游走推薦模型
改進的協(xié)同過濾推薦算法
基于鏈式存儲結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計與實現(xiàn)
基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
基于個性化的協(xié)同過濾圖書推薦算法研究
個性化推薦系統(tǒng)關(guān)鍵算法探討
基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
混合推薦算法在電影推薦中的研究與評述
丹东市| 玛沁县| 莆田市| 武山县| 青海省| 大荔县| 六安市| 榆中县| 建阳市| 汽车| 澄江县| 朝阳市| 泰安市| 门源| 健康| 襄垣县| 津南区| 阿拉尔市| 无极县| 聂荣县| 和硕县| 陆河县| 武陟县| 安泽县| 永昌县| 登封市| 江源县| 精河县| 利津县| 宽城| 寿宁县| 宁安市| 乐山市| 出国| 诸城市| 临高县| 古浪县| 宜川县| 县级市| 彝良县| 临澧县|