国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TSVD的協(xié)同過濾推薦算法研究

2022-04-29 03:51周艷李凱付高宇向銘杰曹建波葉栩見
電腦知識與技術(shù) 2022年4期
關(guān)鍵詞:推薦算法協(xié)同過濾

周艷 李凱 付高宇 向銘杰 曹建波 葉栩見

摘要:針對經(jīng)典的協(xié)同過濾推薦算法的一系列不足,如用戶冷啟動(dòng)、商品評分稀疏性以及推薦精度不高,文章提出基于截?cái)嗥娈愔捣纸猓═SVD)的協(xié)同過濾推薦算法。使用TSVD技術(shù)對稀疏矩陣進(jìn)行降維處理,利用Jaccard相似度算法計(jì)算用戶間相似度,提高推薦精度。實(shí)驗(yàn)結(jié)果顯示,基于截?cái)嗥娈愔捣纸猓═SVD)的協(xié)同過濾算法體現(xiàn)良好的推薦質(zhì)量及預(yù)測精度。

關(guān)鍵詞:推薦算法;協(xié)同過濾;稀疏矩陣;截?cái)嗥娈愔捣纸?/p>

中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2022)04-0075-02

1 引言

隨著互聯(lián)網(wǎng)、信息技術(shù)的飛速發(fā)展,用戶獲取信息的來源越來越豐富,但繁雜的信息在網(wǎng)絡(luò)過濾中容易造成流失。對于“大數(shù)據(jù)時(shí)代”背景下的電子商務(wù),為用戶推出個(gè)性化的推薦系統(tǒng)愈加重要,它能通過集中分析用戶行為和偏好,為用戶提供個(gè)性化的推薦服務(wù),并根據(jù)新收集到的用戶行為數(shù)據(jù),自動(dòng)更新并調(diào)整推薦內(nèi)容[1]。用戶個(gè)性化的推薦系統(tǒng)是一種更智能、更現(xiàn)代化的信息過濾方式,它的出現(xiàn)對電子商務(wù)平臺和社交信息平臺產(chǎn)生了質(zhì)的影響。

協(xié)同過濾算法是推薦算法中最經(jīng)典、使用范圍最廣泛的一種類型,有廣大的應(yīng)用遠(yuǎn)景和潛在商業(yè)價(jià)值,在電子商務(wù)中其主要價(jià)值體現(xiàn)在:能發(fā)掘潛在用戶;提高了電子商務(wù)平臺的差異化銷售能力;提升了廣告渠道轉(zhuǎn)化效率和用戶的個(gè)性化體驗(yàn)[2]。

其中基于用戶的協(xié)同過濾算法是通過分析用戶在平臺上的歷史瀏覽記錄及搜索記錄,得出用戶對商品或內(nèi)容的基本偏好(如購物車內(nèi)容,瀏覽內(nèi)容,商品評論等),并對這些偏好進(jìn)行記錄,得出大量用戶對同類商品的偏好方向和程度,為偏好相似的用戶推薦同類商品或依據(jù)有相似偏好的用戶近期的搜索內(nèi)容和關(guān)注熱點(diǎn)為其他用戶進(jìn)行參考性推薦[3]。

但隨著使用者規(guī)模的指數(shù)級擴(kuò)大時(shí),基于用戶的推薦算法也有些難以避免的難題,比如“冷啟動(dòng)”問題,其表現(xiàn)為當(dāng)在面對新用戶的時(shí)候,因其無歷史瀏覽痕跡以及搜索記錄而不能對其完成良好的推薦。針對這個(gè)情況,本文提供了一種基于TSVD的協(xié)同過濾推薦算法,對該類項(xiàng)目的用戶平均水平進(jìn)行推薦,使推薦結(jié)果更加精確。

2 算法介紹

本文提出的算法根據(jù)用戶的評分信息預(yù)測用戶可能感興趣的項(xiàng)目進(jìn)行推薦,并考慮參考評分信息的可信度等指標(biāo),對推薦結(jié)果進(jìn)行優(yōu)化。該算法依賴用戶-評分二維矩陣,它記錄了每個(gè)用戶對不同項(xiàng)目的評分記錄,評分區(qū)間為[1,5],對沒有評分的項(xiàng)目則取0分。采取TSVD技術(shù)對評分矩陣進(jìn)行降維,最后得出用戶對項(xiàng)目的預(yù)測評分,在這過程中穿插KNN(K-Nearest Neighbor)算法獲得最近鄰居集合,并將預(yù)測評分較高的項(xiàng)目推送給用戶。流程圖如圖1所示。

輸入:用戶對項(xiàng)目的評分信息。

輸出:預(yù)測評分矩陣。

Step 1:將原始的用戶評分信息變換為評分矩陣。

Step 2:利用TSVD方法,使稀疏的評分矩陣實(shí)現(xiàn)良好的降低維度的效果。

Step 3:根據(jù)公式(1)計(jì)算用戶間的相似度。

Step 4:利用KNN算法求得用戶最近鄰居集合。

Step 5:通過公式(2)生成預(yù)測評分矩陣,將由Top-N算法生成的預(yù)測評分較高的N個(gè)項(xiàng)目進(jìn)行推送[4]。

2.1 TSVD矩陣分解技術(shù)

截?cái)嗥娈愔捣纸猓═SVD)是SVD奇異值分解的變形,都為矩陣分解技術(shù),用于對高秩的稀疏矩陣進(jìn)行降維處理,得到低秩的矩陣接近原始矩陣[5]。TSVD和SVD的不同在于其只計(jì)算用戶指定的最大奇異值,并可指定生成指定維度的矩陣。

TSVD矩陣分解過程具體可以解釋為一個(gè)非方陣矩陣[An×d],經(jīng)過降維處理后可將原矩陣表示成三個(gè)矩陣相乘,即[An×d=Un×rr×dV*d×d],其中,[Un×r]為原矩陣的左奇異矩陣,[V*d×d]為原矩陣的右奇異矩陣,[∑r×d]是對角矩陣。

通過TSVD矩陣分解后,可以成功將原本的高秩稀疏矩陣轉(zhuǎn)化為一個(gè)近似等價(jià)的低秩矩陣,解決了原始數(shù)據(jù)中項(xiàng)目評分相較于項(xiàng)目數(shù)較少的問題。

2.2 Jaccard相似度計(jì)算

Jaccard相似度是推薦算法中較為廣泛地用于相似度度量的算法。因此本文中的用戶間相似度由兩個(gè)n維空間向量利用Jaccard相似度算法計(jì)算得到的相似度進(jìn)行表示。

Jaccard相似度是將評分矩陣看作n維向量組,并利用不同數(shù)據(jù)集合間的交集和并集的比值來推算用戶之間的相似度值大小,計(jì)算用戶j和用戶k間相似度[J(j,k)]的公式為:

其中[J(j,k)]表示用戶j,k的相似度;其中,j和k分別表示兩個(gè)用戶對所有項(xiàng)目的評分情況。

因此本文利用Jaccard相似度計(jì)算得到每兩個(gè)用戶間的相似度,再通過KNN算法得到同特定用戶相似度較高的用戶集合。

2.3 預(yù)測評分矩陣

通過KNN算法獲得最近鄰居集合后,通過式子(2)得到推薦用戶對沒有評價(jià)項(xiàng)目的預(yù)測評分,生成預(yù)測評分矩陣[6]。預(yù)測評分公式如下:

其中[rrui]表示在TSVD降維后用戶u對項(xiàng)目i的評分值;[ru]表示用戶u的評分均值。

最終利用Top-N推薦推送評分較高的N個(gè)結(jié)果,完成推介。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)環(huán)境

本文采用的實(shí)驗(yàn)平臺是PC(Intel(R),CPU i7-8750H,2.20GHz,RAM 16GB)和Windows 10操作系統(tǒng),使用JAVA來實(shí)現(xiàn)代碼塊。

文章選用的數(shù)據(jù)集來自美國GroupLens項(xiàng)目中收集的MovieLens 100K的用戶電影評分?jǐn)?shù)據(jù)集合,其中涵蓋900多位用戶對1680部左右電影的100,000項(xiàng)電影評分?jǐn)?shù)據(jù)(1-5)。

3.2 評價(jià)標(biāo)準(zhǔn)

預(yù)測精度是一種衡量由算法得到的預(yù)測評分同用戶對項(xiàng)目的真實(shí)評分之間差異程度的重要標(biāo)準(zhǔn),由于不同機(jī)器學(xué)習(xí)算法學(xué)習(xí)得到的模型存在區(qū)別,因此所使用的評估標(biāo)準(zhǔn)也不盡相同,在推薦算法領(lǐng)域,被廣泛使用的評估標(biāo)準(zhǔn)有均方根誤差(RMSE)、均方誤差(MSE),當(dāng)這兩個(gè)誤差結(jié)果值越小,代表推薦模型表現(xiàn)更加優(yōu)秀,能夠?qū)崿F(xiàn)較好的推薦質(zhì)量[7-8]。MSE、RMSE的計(jì)算公式如(3)和(4)所示。

其中,[ri]為用戶對項(xiàng)目的真實(shí)評分,[ri]為項(xiàng)目推薦算法生成的預(yù)測評分,N為實(shí)驗(yàn)中所使用的相關(guān)數(shù)據(jù)集的數(shù)據(jù)量。

3.3 實(shí)驗(yàn)結(jié)果與分析

圖2顯示的是隨鄰居數(shù)改變,不同算法的MAE取值的變化。圖2可見,伴隨著鄰居個(gè)數(shù)取值的變大,基于用戶的協(xié)同過濾UCF的取值最初是逐漸減小,當(dāng)鄰居個(gè)數(shù)增加至12,得到最小的MAE值,然而后續(xù)鄰居數(shù)的變化中,取值不降反增?;赟VD-CF的協(xié)同過濾算法同TSVD-TF算法的MAE值都是隨鄰居個(gè)數(shù)增加而呈下降趨勢,和UCF算法相似,當(dāng)鄰居數(shù)量增加至12時(shí),取到最小值,隨后趨于穩(wěn)定。從圖2中可見,即便鄰居數(shù)量取值不同,改進(jìn)的兩種算法計(jì)算出的MAE值皆比傳統(tǒng)推薦算法獲得的MAE值低。但TSVD-CF算法MAE值同SVD-CF算法得到的取值進(jìn)行對比后顯示TSVD-CF算法取值更低,并在所有鄰居數(shù)取值中保持最低,在鄰居個(gè)數(shù)為12時(shí),取到最小值并在接下來保持在0.76左右。

本文所提出的TSVD-CF算法與UCF和SVD-CF算法相比在項(xiàng)目相似度計(jì)算上更為精準(zhǔn)。

圖3中展現(xiàn)的是隨鄰居數(shù)改變,不同算法RMSE取值的變化。從圖3中可見,鄰居數(shù)量逐漸增加,三種推薦算法的RMSE值隨之減小,除了UCF算法在鄰居數(shù)增加12后有明顯的上升趨勢,TSVD-CF算法和SVD-CF算法在鄰居數(shù)為10后RMSE值趨于穩(wěn)定,在鄰居數(shù)不同的情況下,本文所提出的TSVD-CF算法始終保持最低的RMSE值,說明此推薦算法在計(jì)算方面考慮到了更加全面的因素,能更加精確地預(yù)測評分。從圖3中可以看出本文所提出的算法的RMSE值在鄰居數(shù)取到12時(shí)達(dá)到了最小值,在隨后增加的過程中穩(wěn)定在0.97左右。

結(jié)果說明,從MAE值和RMSE值兩種評估標(biāo)準(zhǔn)上進(jìn)行比較,本文提出的算法相較SVD-CF和UCF其他兩種協(xié)同過濾推薦算法,在對稀疏矩陣降維方面有更好的表現(xiàn),其提高預(yù)測精度的效果更加優(yōu)越,是有效可行的。

4 結(jié)束語

文章對于現(xiàn)有的推薦系統(tǒng)因數(shù)據(jù)較少而導(dǎo)致推薦精確度不高的缺陷,采用基于TSVD的協(xié)同過濾推薦,使推薦結(jié)果更加

準(zhǔn)確。算法首先采用TSVD矩陣分解,將原本的稀疏矩陣進(jìn)行數(shù)據(jù)特征的挖掘,降維成近似等價(jià)的低秩矩陣,緩解了原始數(shù)據(jù)稀疏性的問題。采用KNN算法得到鄰居集合并利用預(yù)測算法得到預(yù)測評分,并選取評分較高的N個(gè)項(xiàng)目進(jìn)行推送。實(shí)驗(yàn)結(jié)果顯示,TSVD-CF推薦算法不僅有效解決了用戶評分?jǐn)?shù)據(jù)較少的難題,而且優(yōu)化了算法的推薦精度。

參考文獻(xiàn):

[1] 鐘豪.基于異構(gòu)用戶反饋數(shù)據(jù)的協(xié)同過濾算法研究[D].杭州:浙江大學(xué),2015.

[2] 趙尉翔.基于協(xié)同過濾技術(shù)的推薦算法研究[D].西安:長安大學(xué),2018.

[3] 劉娟.Mahout平臺下協(xié)同過濾推薦算法的研究[D].西安:西安理工大學(xué),2016.

[4] 張盼盼.基于信任機(jī)制的并行推薦算法研究[D].長沙:湖南大學(xué),2017.

[5] 徐吉.基于協(xié)同過濾和矩陣分解的推薦系統(tǒng)研究與應(yīng)用[D].寧波:寧波大學(xué),2019.

[6] 張潔,李港.一種基于評分信息熵的融合協(xié)同過濾算法[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2021(2):76-81.

[7] 武文碩,左安.基于迭代SVD的電影推薦算法的研究[J].電腦知識與技術(shù),2021,17(15):1-3.

[8] 王建芳,李驍,武文琪,等.一種SVD和信任因子相結(jié)合的協(xié)同過濾算法[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(6):1290-1293.

收稿日期:2021-08-25

基金項(xiàng)目:嘉興學(xué)院2020年度校級SRT計(jì)劃項(xiàng)目(項(xiàng)目編號:8517203331)

作者簡介:周艷(1999—),女,浙江麗水人,學(xué)士,研究方向?yàn)橄到y(tǒng)設(shè)計(jì)與分析;李凱(1988—),男,浙江嘉興人,講師,碩士,研究方向?yàn)橹悄苡?jì)算與圖像處理;付高宇(2000—),女,安徽滁州人,學(xué)士,研究方向?yàn)閿?shù)據(jù)庫設(shè)計(jì)與分析;向銘杰(1999—),男,四川樂山人,學(xué)士,研究方向?yàn)閿?shù)據(jù)庫設(shè)計(jì)與分析;曹建波(1999—),男,浙江溫州人,學(xué)士,研究方向?yàn)橄到y(tǒng)設(shè)計(jì)與分析;葉栩見(1999—),男,浙江臺州人,學(xué)士,研究方向?yàn)橄到y(tǒng)設(shè)計(jì)與分析。

猜你喜歡
推薦算法協(xié)同過濾
改進(jìn)的協(xié)同過濾推薦算法
校園社交平臺中標(biāo)簽系統(tǒng)的研究
基于鏈?zhǔn)酱鎯Y(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
社交網(wǎng)絡(luò)推薦系統(tǒng)
基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
混合推薦算法在電影推薦中的研究與評述
基于情景感知的高校移動(dòng)社交網(wǎng)絡(luò)平臺設(shè)計(jì)與開發(fā)
邢台县| 集安市| 临清市| 来安县| 高阳县| 柳河县| 米林县| 五莲县| 佳木斯市| 景宁| 长白| 佛山市| 吉木乃县| 肥东县| 信阳市| 龙门县| 历史| 宁城县| 镶黄旗| 临城县| 庆城县| 揭东县| 常熟市| 深水埗区| 天津市| 仁寿县| 汤原县| 乌兰浩特市| 宜兴市| 梁河县| 启东市| 金昌市| 阿拉善右旗| 聂拉木县| 蕲春县| 凤凰县| 永善县| 合阳县| 夹江县| 昭觉县| 天门市|