国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合物品屬性權(quán)重的混合推薦算法

2021-11-12 02:31:12馬夢馨王國中
關(guān)鍵詞:冷啟動相似性文檔

馬夢馨, 王國中

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院, 上海 201620)

0 引 言

隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)提供的平臺和數(shù)據(jù)越來越多,而不同的人興趣愛好截然不同,越來越難以從大量的信息中找到自身感興趣的信息,信息也越來越難展示給可能對其感興趣的用戶,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)本質(zhì)上是在用戶需求不明確的情況下,從海量信息中為用戶尋找有用信息的技術(shù)手段。經(jīng)過二十多年的發(fā)展,推薦系統(tǒng)被廣泛應(yīng)用于電子商務(wù)平臺、新聞媒體領(lǐng)域以及廣告的個(gè)性化推薦等。

目前市面上比較常用的推薦算法有協(xié)同過濾推薦算法(Collaborative Filtering Recommendation,CF),其中包括基于用戶的協(xié)同過濾(User Based CF)和基于物品的協(xié)同過濾(Item Based CF),基于內(nèi)容的推薦算法(Content-Based Recommendation,CB)和混合推薦算法(Hybrid Recommendation,HR)等。

協(xié)同過濾推薦算法在一般情況下表現(xiàn)良好,但是在有新用戶或新物品加入時(shí),由于沒有歷史數(shù)據(jù),所以無法進(jìn)行推薦,存在冷啟動和數(shù)據(jù)稀疏性問題。Liu等人提出在傳統(tǒng)矩陣分解模型的基礎(chǔ)上,通過整合多關(guān)系社交網(wǎng)絡(luò)的用戶偏好,獲得信任和信任功能矩陣,有效緩解了數(shù)據(jù)稀疏性問題[1];Yan等人提出了將Jaccard相似性計(jì)算方法用于基于多層感知機(jī)的電影推薦模型,解決數(shù)據(jù)稀疏性問題[2];苑等人根據(jù)社交活動提出一種新的用戶相似度計(jì)算方法來提高推薦精度[3];過等人改進(jìn)了奇異值分解(SVD)算法和二分K-均值聚類算法,解決協(xié)同過濾算法稀疏性較大和擴(kuò)展性較差的問題[4]。

基于內(nèi)容的推薦算法不存在冷啟動問題,但是存在提取特征困難、無法挖掘用戶的潛在興趣等缺點(diǎn)。王等人將項(xiàng)目粒度化,用戶信息生成用戶粒度序列來提取特征,提高推薦精度[5]。

混合推薦算法能根據(jù)不同的方式將多種算法相結(jié)合,揚(yáng)長避短,提高推薦精度,解決冷啟動和數(shù)據(jù)稀疏等問題。劉等人將不同用戶對于不同物品的個(gè)性化行為特征指數(shù)引入到相似度的計(jì)算中,動態(tài)計(jì)算權(quán)重,提高混合推薦算法的推薦效果[6];Fan等人采用分類和聚類算法來挖掘項(xiàng)目和用戶的歷史數(shù)據(jù),改進(jìn)混合推薦算法,解決電子商務(wù)推薦系統(tǒng)的問題[7];李等人考慮了用戶評分尺度及用戶活躍度對物品相似性的影響,動態(tài)生成權(quán)重因子,提高推薦精度[8];隨著深度學(xué)習(xí)的發(fā)展,田等人提出了一種基于隱狄利克雷分布(LDA)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)的概率矩陣分解推薦模型(LCPMF),獲取深層項(xiàng)目特征,提高推薦精度[9]。

本文在傳統(tǒng)的混合推薦模型的基礎(chǔ)上,引入物品屬性的權(quán)重,改進(jìn)了相似性計(jì)算方法,將協(xié)同過濾推薦算法與基于內(nèi)容的推薦算法動態(tài)結(jié)合,解決冷啟動和數(shù)據(jù)稀疏性問題,提高推薦精度。

1 相關(guān)算法理論

1.1 評分矩陣

定義推薦系統(tǒng)中U={u1,u2,…,um}為所有m個(gè)用戶的集合,I={i1,i2,…,in}為所有n個(gè)物品的集合,兩個(gè)集合組成了一個(gè)M×N的矩陣,此矩陣為用戶-物品評分矩陣。見表1,矩陣中rui為用戶u對物品i的評分,若rui為0,則說明用戶對該物品沒有評分,評分值越高說明用戶對該物品越感興趣。

表1 用戶-物品評分矩陣

1.2 相似性計(jì)算

推薦算法中,常用的計(jì)算方法有歐氏距離、余弦相似度和修正的余弦相似度等,使用場景各不相同。

歐氏距離是衡量同一空間下兩個(gè)點(diǎn),度量的是兩個(gè)點(diǎn)的絕對差異,適用于分析用戶的能力模型,定義如式(1):

(1)

余弦相似度度量的是兩個(gè)向量之間的夾角,其在度量文本相似度、用戶相似度、物品相似度時(shí)較為常用。定義如式(2):

(2)

修正的余弦相似度是將數(shù)據(jù)中心化后再求余弦相似度,定義如式(3):

(3)

2 結(jié)合物品屬性權(quán)重的混合推薦算法

2.1 物品流行度對相似性的影響

一般來說,熱門物品會被用戶喜歡的可能性大,但并不能說明用戶的興趣相同,熱門物品對計(jì)算用戶的相似性貢獻(xiàn)不大,兩個(gè)用戶對冷門物品采取過同樣的行為更能說明其興趣度相同,二者更為相似,因此引入懲罰因子θi懲罰用戶u1、u2共同興趣列表中熱門物品對其相似度的影響,θi的公式定義如式(4):

(4)

其中,N(i)表示對物品i有過評分的用戶集合。

引入懲罰因子后的相似度為計(jì)算公式(5):

(5)

2.2 物品屬性相似性

基于內(nèi)容的推薦算法是通過抽取物品本身的特征信息,形成關(guān)鍵詞向量,然后與用戶喜好特征向量進(jìn)行相似度計(jì)算,將物品推薦給用戶,通常用于文本推薦。

把一個(gè)物品看作一個(gè)文檔,定義所有的文檔集合為D={d1,d2,…,dt},文檔中的關(guān)鍵詞集合定義為T={t1,t2,…,ts},最終需要用一個(gè)向量表示一個(gè)文檔,定義di=(ω1,i,ω2,i,…,ωs,i)為物品i的關(guān)鍵詞向量,其中ωni表示第n個(gè)詞在文檔i中的權(quán)重,數(shù)值越大表示越重要。定義好之后通常用詞頻-逆文檔頻率(TF-IDF)來表示文檔,其定義如式(6):

(6)

其中,TF(tk,di)表示第k個(gè)詞在文檔i中出現(xiàn)的次數(shù),nk是所有文檔中包含第k個(gè)詞的文檔數(shù)量,最終第k個(gè)詞在文檔i中的權(quán)重如式(7)所示:

(7)

得到文檔的特征向量權(quán)重之后,使用余弦相似度,得到文檔之間的相似度,相似度定義如式(8):

(8)

其中,Ti,j表示兩文檔之間共有的關(guān)鍵詞。

2.3 混合模型相似性度量方法

通常協(xié)同過濾推薦算法效果優(yōu)于基于內(nèi)容的推薦算法,但是當(dāng)新的用戶或者物品加入時(shí),系統(tǒng)就無法很好的進(jìn)行推薦,且當(dāng)用戶物品矩陣極度稀疏時(shí),計(jì)算出來的物品相似度可信度也不高,而基于內(nèi)容的推薦算法能在一定程度上緩解物品冷啟動問題,并且基于內(nèi)容的推薦算法只考慮物品的屬性,與用戶的評價(jià)行為無關(guān),能緩解數(shù)據(jù)稀疏性問題,所以將協(xié)同過濾算法中的相似性計(jì)算與物品屬性相結(jié)合能緩解冷啟動和數(shù)據(jù)稀疏性問題。

本文引入λ將兩種相似性進(jìn)行線性組合,由上文分析可知,當(dāng)用戶-物品矩陣極度稀疏時(shí),使用基于內(nèi)容的推薦算法要優(yōu)于協(xié)同過濾推薦算法,所以定義λ的公式如式(9):

(9)

其中,Ui、Uj表示對物品i和物品j評分的用戶數(shù);Ui∩Uj表示對物品i和物品j共同評分的用戶數(shù);Ui∪Uj表示物品i和物品j一共被多少用戶評分。引入λ之后,將相似度計(jì)算公式進(jìn)行線性組合,如式(10)所示:

simitem(i,j)=λsimitemcf(i,j)+(1-λ)simitemcb(i,j)

(10)

由公式(10)可知,當(dāng)存在冷啟動問題或者用戶-物品矩陣稀疏時(shí),根據(jù)物品屬性特征進(jìn)行相似度計(jì)算的比重大;當(dāng)數(shù)據(jù)稠密時(shí),基于物品的協(xié)同過濾要優(yōu)于基于內(nèi)容的推薦,所以相似度計(jì)算時(shí)所占比重較大。這種線性結(jié)合的方式改善了推薦系統(tǒng)中的冷啟動和數(shù)據(jù)稀疏性問題。

將混合的相似性計(jì)算方法引入到預(yù)測公式,得到用戶u對物品i的評分預(yù)測公式(11):

(11)

其中,Mi為物品i的最近鄰。

2.4 用戶相似性

以上方法有效緩解了物品冷啟動和數(shù)據(jù)稀疏性問題,但當(dāng)新用戶加入時(shí),因?yàn)闆]有其歷史行為記錄,依然存在用戶冷啟動問題,只能根據(jù)用戶自身的特征,為用戶進(jìn)行推薦。

影響用戶喜好的特征主要有性別、年齡、職業(yè)、所在區(qū)域等信息,本文據(jù)此組成用戶的內(nèi)容向量,則用戶u的特征集合為Cu={sex,age,occ,zip},因?yàn)闅W氏距離度量的是空間中兩個(gè)點(diǎn)的絕對差異,所以本文使用歐氏距離,即公式(1)來計(jì)算用戶之間的相似性。

冷啟動用戶的預(yù)測公式(12)為:

(12)

其中,Nu表示用戶u的最近鄰。

2.5 推薦過程

為了解決數(shù)據(jù)稀疏性和冷啟動問題,本文結(jié)合物品屬性,將基于物品的協(xié)同過濾和基于內(nèi)容推薦的相似性度量方法進(jìn)行動態(tài)結(jié)合,形成一種新的相似性度量方法,解決物品冷啟動和數(shù)據(jù)稀疏性問題,并且通過計(jì)算用戶屬性來解決用戶冷啟動問題。具體推薦過程如下:

Step1判斷目標(biāo)用戶是否是冷啟動用戶,是則跳到Step2,不是則跳到Step3;

Step2冷啟動用戶的相似性計(jì)算,之后預(yù)測評分;

Step3非冷啟動用戶的相似性計(jì)算,評分預(yù)測;

Step4完成Top-N推薦。

3 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析

3.1 數(shù)據(jù)集

為了驗(yàn)證本文算法的有效性,使用MovieLens 1M數(shù)據(jù)集,該數(shù)據(jù)集包含6 040個(gè)用戶對3 900部電影的1 000 209條評分記錄,數(shù)據(jù)稀疏度達(dá)95.75%。將數(shù)據(jù)集按照8:2劃分為訓(xùn)練集和測試集,數(shù)據(jù)集中用戶的屬性包括了用戶的ID、性別、年齡、職業(yè)ID和郵編等字段,電影的屬性有電影ID、電影名、電影年份和電影風(fēng)格等。

3.2 評價(jià)指標(biāo)

推薦系統(tǒng)中常用的評價(jià)標(biāo)準(zhǔn)有平均絕對誤差(MAE)、均方根誤差(RMSE)、準(zhǔn)確率(Precision)和F值等,本實(shí)驗(yàn)采用MAE作為度量標(biāo)準(zhǔn),其定義為式(13):

(13)

其中,pi,j表示用戶u對物品i的預(yù)測評分;ru,i表示用戶u對物品i的實(shí)際評分;n為數(shù)據(jù)集中記錄評分的個(gè)數(shù)。

MAE計(jì)算的是真實(shí)值與預(yù)測值之間的差異,數(shù)值越小說明準(zhǔn)確性越高。

3.3 實(shí)驗(yàn)結(jié)果

通過實(shí)驗(yàn)測得本文算法在不同N的取值下的絕對誤差,見表2。由表2可知,N取值在[10,60]范圍內(nèi),精確性逐漸升高。

表2 算法在不同N的取值下的平均絕對誤差

3.3.1 算法推薦精準(zhǔn)度比較

為了驗(yàn)證本文算法的優(yōu)化效果,本文選取改進(jìn)的基于物品的協(xié)同過濾、基于內(nèi)容的推薦算法與本算法進(jìn)行對比實(shí)驗(yàn),分別設(shè)置不同最近鄰值測試MAE值的大小,實(shí)驗(yàn)結(jié)果如圖1所示。可以看出本文提出的推薦算法無論N取何值,效果都遠(yuǎn)大于基于物品的協(xié)同過濾和基于內(nèi)容的推薦。

圖1 推薦準(zhǔn)確度對比

3.3.2 算法緩解數(shù)據(jù)稀疏性能力的比較

為了測試本文算法解決數(shù)據(jù)稀疏性問題的能力,本實(shí)驗(yàn)的最近鄰數(shù)確定為60,并且在數(shù)據(jù)集中隨機(jī)刪除部分?jǐn)?shù)據(jù),改變評分矩陣的稀疏性再次進(jìn)行對比實(shí)驗(yàn),測試算法效果,實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 數(shù)據(jù)稀疏性對比

由圖2可知基于內(nèi)容的推薦算法在數(shù)據(jù)極度稀疏情況下算法效果要優(yōu)于協(xié)同過濾推薦算法,而本文提出的算法在數(shù)據(jù)稀疏的情況下,效果要明顯優(yōu)于其它兩種算法,有效緩解了數(shù)據(jù)稀疏性的問題。

3.3.3 算法緩解冷啟動能力的比較

本實(shí)驗(yàn)用來驗(yàn)證算法解決冷啟動問題的能力,在測試集中抽取100個(gè)物品作為新物品,100個(gè)用戶作為新用戶,將訓(xùn)練集中對應(yīng)的100個(gè)物品和用戶的評分記錄置為0,使用新的訓(xùn)練集和測試集進(jìn)行實(shí)驗(yàn)。本實(shí)驗(yàn)將基于內(nèi)容的推薦算法作為對比,結(jié)果如圖3所示。

圖3 冷啟動問題對比

由圖3可知,不管是用戶冷啟動還是物品冷啟動,本文算法的精確性都遠(yuǎn)高于基于物品的協(xié)同過濾算法,實(shí)驗(yàn)表明,本算法能有效緩解冷啟動問題。

4 結(jié)束語

本文對傳統(tǒng)的混合推薦算法進(jìn)行了優(yōu)化,結(jié)合物品屬性特征權(quán)重改進(jìn)了相似度度量方法,并根據(jù)用戶-物品矩陣稀疏性的差異,自適應(yīng)的調(diào)整不同算法的相似性計(jì)算方法所占的比重,極大地提高了推薦精度。實(shí)驗(yàn)結(jié)果表明該方法顯著提高了推薦準(zhǔn)確度的同時(shí),也有效緩解了數(shù)據(jù)稀疏性和冷啟動問題。不足之處在于本混合推薦算法計(jì)算量大,復(fù)雜度高。

猜你喜歡
冷啟動相似性文檔
一類上三角算子矩陣的相似性與酉相似性
輕型汽油車實(shí)際行駛排放試驗(yàn)中冷啟動排放的評估
基于學(xué)習(xí)興趣的冷啟動推薦模型
客聯(lián)(2021年2期)2021-09-10 07:22:44
有人一聲不吭向你扔了個(gè)文檔
淺析當(dāng)代中西方繪畫的相似性
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
低滲透黏土中氯離子彌散作用離心模擬相似性
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
軍事技能“冷啟動”式訓(xùn)練理念初探
V4國家經(jīng)濟(jì)的相似性與差異性
平江县| 青川县| 天柱县| 天镇县| 洞口县| 叶城县| 凤冈县| 英山县| 赤城县| 当雄县| 南陵县| 科技| 泉州市| 甘谷县| 佛教| 阳城县| 海阳市| 当阳市| 临湘市| 临邑县| 株洲市| 台州市| 赣州市| 星子县| 绵竹市| 晴隆县| 锦州市| 西乌| 永城市| 虎林市| 大埔区| 炎陵县| 天祝| 虞城县| 青神县| 古浪县| 邵阳市| 贞丰县| 毕节市| 海南省| 大英县|