国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本相似度算法的融合推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2019-12-10 09:02何宏廖巍唐林豐劉勛寒
科技資訊 2019年28期
關(guān)鍵詞:推薦系統(tǒng)協(xié)同過濾

何宏 廖巍 唐林豐 劉勛寒

摘? 要:針對目前各類推薦系統(tǒng)存在推薦商品的用戶滿意度不理想和用戶依賴程度比較低的問題,該文從用戶的評分和行為兩個(gè)角度,構(gòu)建了將傳統(tǒng)基于用戶的協(xié)同過濾算法和文本相似度算法進(jìn)行融合的改進(jìn)算法模型,使推薦系統(tǒng)從用戶角度進(jìn)行推薦,并且實(shí)時(shí)更新,從而有效提高用戶滿意度和用戶的依賴程度。

關(guān)鍵詞:推薦系統(tǒng)? 協(xié)同過濾? 文本相似度? 用戶依賴程度

中圖分類號:TP391.3 ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2019)10(a)-0006-04

在這個(gè)信息過載的時(shí)代,推薦系統(tǒng)[1]在我們生活中已經(jīng)隨處可見了,比如電影推薦系統(tǒng)、圖書推薦系統(tǒng)、廣告推薦系統(tǒng)等。它已經(jīng)成為大數(shù)據(jù)時(shí)代下不可或缺的一項(xiàng)重要技術(shù),并且在未來扮演著重要角色。然而目前用戶對推薦系統(tǒng)的依賴程度和推薦商品的滿意度仍然比較低。其原因主要有以下兩方個(gè)面:一方面是推薦系統(tǒng)對用戶數(shù)據(jù)挖掘不夠透徹,沒有真正挖掘出用戶潛在的價(jià)值需求;另一方面是推薦系統(tǒng)推薦給用戶的物品沒有質(zhì)量保證,從而導(dǎo)致用戶對推薦系統(tǒng)的信任降低。

協(xié)同過濾算法具有高效、準(zhǔn)確等優(yōu)勢,但同時(shí)也存在數(shù)據(jù)稀疏、冷啟動(dòng)和擴(kuò)展性差等問題[2],并且對用戶的行為挖掘得不夠透徹。數(shù)據(jù)稀疏是指用戶計(jì)算的用戶評分?jǐn)?shù)據(jù)量不夠,這樣就很容易使計(jì)算結(jié)果不夠準(zhǔn)確,影響推薦系統(tǒng)的效果以及用戶體驗(yàn),并且沒有被評價(jià)的商品很難得到推薦。該文提出的基于文本相似度算法的融合推薦系統(tǒng)是在使用基于用戶的協(xié)同過濾算法預(yù)測用戶對商品評分的基礎(chǔ)上結(jié)合用戶瀏覽記錄和文本相似度算法給出推薦商品。首先預(yù)測評分高的商品才能進(jìn)入候選商品集,這樣一定程度保證了商品的質(zhì)量以及用戶的滿意度,然后根據(jù)用戶最近的瀏覽記錄得知用戶近期的購物需求。將兩者結(jié)合起來提高用戶對推薦商品的滿意度,從而提高用戶對推薦系統(tǒng)的依賴程度,提供個(gè)性化服務(wù),并且能夠一定程度上緩解數(shù)據(jù)稀疏、冷啟動(dòng)和擴(kuò)展性差的問題,達(dá)到實(shí)時(shí)更新的推薦效果。

1? 推薦算法描述

1.1 協(xié)同過濾算法

協(xié)同過濾算法是推薦系統(tǒng)領(lǐng)域的經(jīng)典算法,簡單高效是它最大的優(yōu)勢[3]。它是通過測量用戶之間的距離作為相似性指標(biāo)來計(jì)算用戶的相似度。傳統(tǒng)的基于物品的協(xié)同過濾算法在計(jì)算物品相似度時(shí),熱門商品與冷門商品相似度比較低,因此冷門商品的推廣就比較困難[4],但并不能說明冷門商品就不好。該文首先采用的是基于用戶的協(xié)同過濾算法,將用戶評分以向量的形式作為輸入,通過相似度算法就可以計(jì)算出各個(gè)用戶之間的相似度,通過這種方法就算是冷門商品只要它的評價(jià)足夠好也有可能出現(xiàn)在推薦隊(duì)列當(dāng)中。用戶相似度度量方式采用皮爾森相關(guān)系數(shù)(Pearson Correlation Coefficient)。由于該文所涉及的數(shù)據(jù)維度不高,因此相似度計(jì)算方法的選擇對實(shí)驗(yàn)結(jié)果的影響微乎其微,但考慮到歐式距離以及cosine相似度對變量取值范圍比較敏感的原因,選擇皮爾森相關(guān)系數(shù)來計(jì)算用戶相似度。

如公式(1)所示,其中sim(a,b)為用戶a與用戶b的相似度;I為用戶a與用戶b共同評價(jià)的商品集合,i屬于這個(gè)集合,Rai為用戶a對商品i的評分;Ra為用戶a對評價(jià)過的商品的平均評分。

如公式(2)所示,PAC為用戶A對商品C的預(yù)測評分;RA為用戶A對所有商品的平均評分;sim(A,B)為用戶A與用戶B之間的相似度,用戶B屬于用戶A的鄰近集合;RBC為用戶B對商品C的評分;RB為用戶B對所有評價(jià)過的商品的平均評分,下面給出算法描述。

1.2 文本相似度算法

TF-IDF是一種使用最為廣泛的文本特征權(quán)重計(jì)算方法[5],TF-IDF就是詞頻(TF) 與逆文檔頻率(IDF)的乘積,它是文章關(guān)鍵詞提取的常用方法。TF-IDF越大則這個(gè)詞稱為關(guān)鍵詞的概率就越大[6]。

如公式(3)所示分子表示特征詞g在文本中出現(xiàn)的次數(shù),分母表示文本中所有特征詞的總數(shù)。h為文本類別,g{1…k}。

如公式(4)所示,N為語料庫中文本的總數(shù);N(g)為包含特征詞x的文本數(shù),分母加1是為了防止分母為0。

比如將某一個(gè)商品信息文本做一個(gè)分詞處理并且向量化(文本中各個(gè)詞的出現(xiàn)頻率統(tǒng)計(jì))就可以得到每一個(gè)詞在文本中TF值。將所有商品信息文本作為語料庫,就可以得到這個(gè)商品中的每個(gè)詞在所有文本中出現(xiàn)的頻率,通過這個(gè)頻率就可以計(jì)算得到逆文檔頻率IDF。假設(shè)一個(gè)詞在所有文本出現(xiàn)的頻率比較高,根據(jù)公式(4)那么它的IDF值就比較低。那么當(dāng)一個(gè)詞在某一個(gè)文檔中出現(xiàn)的頻率比較高,在所有文檔中出現(xiàn)的頻率比較低,那么這個(gè)詞就很有可能是這個(gè)文檔的關(guān)鍵詞。因此根據(jù)公式(5),一個(gè)詞的TF與IDF的乘積越大則越有可能是文檔的關(guān)鍵字。該文則通過TF-IDF算法來生成文本TF-IDF矩陣,兩個(gè)信息文本的TF-IDF矩陣相似度就是兩個(gè)文本的相似度[7]。

1.3 融合推薦算法

該文提出的融合推薦算法是將基于用戶的協(xié)同過濾算法與文本相似度算法做一個(gè)融合。如圖1所示首先利用基于用戶的協(xié)同過濾算法得到一個(gè)初步的推薦結(jié)果,再從網(wǎng)頁前端獲取用戶瀏覽記錄,再利用文本相似度算法計(jì)算初步推薦列表中商品文本與用戶瀏覽商品文本的相似度,將初步推薦列表中相似度高的商品作為最終推薦結(jié)果?;诒疚南嗨贫鹊娜诤贤扑]系統(tǒng)結(jié)構(gòu)圖如圖1所示。

算法流程如下:

輸入:用戶-商品評分矩陣;

輸出:推薦商品集合。

第一步,利用用戶商品評分矩陣根據(jù)本文2.1協(xié)同過濾算法公式(1)和公式(2)得到初步推薦商品列表。

第二步,提取初步推薦列表中某一個(gè)商品的特征信息整合成一個(gè)信息文本。

第三步,將用戶瀏覽商品特征信息整合成一個(gè)信息文本。

第四步,利用本文2.2提到的文本相似度算法計(jì)算兩個(gè)文本的相似度。

第五步,將初步推薦商品ID以及其對應(yīng)的文本相似度以鍵值對的形式保存到字典中,分別對應(yīng)字典中的鍵和值。

第六步,重復(fù)第二到第五步直到初步推薦列表中的商品都已經(jīng)計(jì)算完成,得到一個(gè)有關(guān)商品-文本相似度的字典集合L。

第七步,將集合L中的字典按值從大到小排序。

第八步,選排名前N個(gè)作為最終推薦結(jié)果。

2? 實(shí)驗(yàn)數(shù)據(jù)以及實(shí)驗(yàn)結(jié)果

2.1 實(shí)驗(yàn)數(shù)據(jù)來源

該文所涉及的所有商品數(shù)據(jù)是用Scrapy爬蟲框架從某電商網(wǎng)站爬取出來的7000多條數(shù)據(jù)。該文所使用的用戶數(shù)據(jù)是通過小范圍的測試所獲取的真實(shí)數(shù)據(jù),包括用戶商品評分?jǐn)?shù)據(jù)、用戶本身的信息數(shù)據(jù)等。為了反映用戶對已購買商品的滿意程度,該項(xiàng)目采用5分制的評價(jià)制度。評分越高表明對于對商品的滿意程度就越高。

2.2 數(shù)據(jù)處理

通常原始數(shù)據(jù)并不能直接用算法進(jìn)行計(jì)算,需要通過對原始數(shù)據(jù)進(jìn)行特征提取得到我們想要的數(shù)據(jù)格式然后輸入到算法模型中。比如本文1.1提到的協(xié)同過濾算法所使用的用戶-商品評分矩陣需要我們把幾項(xiàng)數(shù)據(jù)整理到一起形成二維用戶評分矩陣。P是一個(gè)j×n的用戶-商品評分矩陣,u表示用戶,i表示商品,j表示用戶數(shù)量,n表示商品數(shù)量。Pj,n表示用戶j對商品n的評分(見表1)。

除了協(xié)同過濾算法所用到的數(shù)據(jù)處理外,該文1.2提到的文本相似度算法也需要做特征提取,所提取的數(shù)據(jù)特征是對商品本身而言是比較重要和具有代表性的屬性值。該文以手機(jī)為例,所提取的特征包括手機(jī)品牌、手機(jī)型號、手機(jī)內(nèi)存、手機(jī)運(yùn)行內(nèi)存、手機(jī)攝像頭參數(shù)、手機(jī)價(jià)格。

如表2、表3所示,將商品重要特征整合成信息文本過后就可以直接利用該文1.2提到的文本相似度算法直接計(jì)算兩個(gè)商品信息文本的相似度,也就是這兩個(gè)商品的相似度。

2.3 實(shí)驗(yàn)結(jié)果分析

選定一個(gè)合適的評價(jià)標(biāo)準(zhǔn)對系統(tǒng)性能的評估有積極的影響,由于該文的特殊性,定制了兩個(gè)評估標(biāo)準(zhǔn),一個(gè)是通過均方根誤差(RMSE)和平均絕對誤差(MAE)兩種指標(biāo)體現(xiàn)推薦系統(tǒng)預(yù)測評分的準(zhǔn)確度。

如公式(6)(7)所示,n為參與用戶個(gè)數(shù),Pui為預(yù)測評分;tui為實(shí)際評分。

如圖2所示,橫縱坐標(biāo)表示k折交叉驗(yàn)證中k的值,縱坐標(biāo)則是RMSE和MAE的值。根據(jù)實(shí)驗(yàn)結(jié)果可知,當(dāng)k=3時(shí),推薦系統(tǒng)預(yù)測評分最準(zhǔn)確。

另一個(gè)是召回率,它也是反映推薦系統(tǒng)性能的重要指標(biāo),R=TP/(TP+FN),反映了被正確判定的正例占總的正例的比重。

如圖3所示,橫坐標(biāo)表示交叉驗(yàn)證k值,縱坐標(biāo)表示召回率大小。通過實(shí)驗(yàn)測試結(jié)果對比可以發(fā)現(xiàn),基于文本相似度的融合推薦系統(tǒng)的召回率與基于用戶評分的推薦系統(tǒng)相比,最大提高了了0.05左右,并且在不同的k值下測試效果都保持穩(wěn)定。這說明改進(jìn)型推薦系統(tǒng)的準(zhǔn)確率在基于用戶評分的推薦系統(tǒng)上有了一定提升。

3? 結(jié)語

該文將用戶對商品的預(yù)測評分作為推薦系統(tǒng)的第一篩選指標(biāo),再將商品相似度作為第二指標(biāo),有效地提高用戶對推薦商品的滿意程度和依賴程度。搭建了基于Python3.7和Django的購物平臺,使用Scrapy爬蟲框架爬取國內(nèi)某知名電商平臺的真實(shí)商品數(shù)據(jù),合理使用推薦算法達(dá)到了項(xiàng)目預(yù)期效果。

推薦系統(tǒng)仍有很大的進(jìn)步空間,機(jī)器學(xué)習(xí)在推薦系統(tǒng)領(lǐng)域還有很大的潛力未被挖掘。比如推薦算法的改進(jìn),數(shù)據(jù)的多元化,推薦系統(tǒng)中的主動(dòng)學(xué)習(xí)等都是推薦系統(tǒng)改進(jìn)的方向。下一步在基于用戶評分的商品推薦系統(tǒng)的基礎(chǔ)上加入商品評價(jià)內(nèi)容的情感分析并且將推薦系統(tǒng)與基于Seq2Seq的聊天機(jī)器人結(jié)合起來,研究基于自然語言處理的智能導(dǎo)購客服。

參考文獻(xiàn)

[1] Ricci F,Rokach L,Shapira B,et al.Recommender Sys-tems Handbook[M].Boston:Springer,2011:1-35 .

[2] 劉向舉,袁煦聰,劉鵬程.基于長尾理論的物品協(xié)同過濾Top-N推薦算法[J].齊齊哈爾大學(xué)學(xué)報(bào):自然科學(xué)版,2019,35(2):1-4,9.

[3] 李梅珍.大數(shù)據(jù)環(huán)境下高校圖書館建立科研數(shù)據(jù)知識庫智能推薦系統(tǒng)的思考[J].圖書館學(xué)刊,2019(3):102-105.

[4] 張子杰.基于數(shù)據(jù)挖掘技術(shù)的圖書館個(gè)性化快速推薦算法研究[J].計(jì)算機(jī)產(chǎn)品與流通,2019(6):119.

[5] 張俊飛.改進(jìn)TF-IDF結(jié)合余弦定理計(jì)算中文語句相似度[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2017(32):20-23,27.

[6] 王潔,王麗清.多特征關(guān)鍵詞提取算法研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(7):162-166.

[7] 王春柳,楊永輝,鄧霏,等.文本相似度計(jì)算方法研究綜述[J].情報(bào)科學(xué),2019,37(3):158-168.

[8] 付建清.網(wǎng)絡(luò)信息推薦系統(tǒng)存在的問題及發(fā)展方向[J].科技創(chuàng)新導(dǎo)報(bào),2016,13(2):1-2.

猜你喜歡
推薦系統(tǒng)協(xié)同過濾
數(shù)據(jù)挖掘在選課推薦中的研究
圖書推薦算法綜述
基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
改進(jìn)的協(xié)同過濾推薦算法
基于鏈?zhǔn)酱鎯Y(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
混合推薦算法在電影推薦中的研究與評述