国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析協(xié)同過濾推薦算法

2019-07-08 02:23:41秦燦李旭東
電腦知識與技術 2019年13期
關鍵詞:協(xié)同過濾機器學習電子商務

秦燦 李旭東

摘要:近年來,商品的種類和數量迅速增長,使消費者難以找到感興趣的產品。各大電商平臺開始利用推薦技術為用戶提供更好的服務,其中使用最多的是協(xié)同過濾推薦算法。主要概括了協(xié)同過濾推薦算法的核心思想,歸納了它的相似度公式和相應的評價法則,并總結了該算法目前存在的一些問題,以及研究人員針對這些問題給出的解決方案,最后提出了推薦算法的未來的改進方向。

關鍵詞:電子商務;推薦技術;協(xié)同過濾;精準推薦;機器學習

中圖分類號: TP301? ? ? 文獻標識碼: A

文章編號:1009-3044(2019)13-0288-04

Abstract: In recent years, the variety and quantity of commodities have increased rapidly, which makes it difficult for consumers to find products of interest. Major e-commerce platforms begin to use recommendation technology to provide better services for users, among which collaborative filtering recommendation algorithm is the most widely used. This paper mainly summarizes the core idea of collaborative filtering recommendation algorithm, summarizes its similarity formula and corresponding evaluation rules, and summarizes the existing problems of the algorithm, as well as the solutions given by researchers to these problems. Finally, the future improvement direction of the recommendation algorithm is proposed.

Key words: E-commerce; recommendation technology; collaborative filtering; precise recommendation; Machine learning

1 背景

近年來,隨著互聯(lián)網技術的高速發(fā)展,互聯(lián)網成為信息共享和處理的平臺,不同行業(yè)的用戶們開始利用互聯(lián)網處理信息,然而面對互聯(lián)網上日見增多的資源,用戶很難在各種資源中獲得對他們有價值的內容。網絡資源可以包含電影、新聞,也可以是購物網站中的商品信息等。面對日益增多的網絡資源,學者們提出了搜索引擎技術[1],它能搜索和篩選所需要的信息,用戶必須手動輸入關鍵字才能出現自己需要的信息,當用戶不明確當前需求時,該技術也就不能幫助用戶獲取有用的信息了。后來出現了推薦系統(tǒng),它依靠用戶的行為記錄,并結合個人注冊信息為其提供較精準的信息推薦服務。一般而言,推薦算法可分為:基于內容的推薦、基于關聯(lián)規(guī)則的推薦、協(xié)同過濾推薦和混合推薦等。而當前使用最為廣泛的便是協(xié)同過濾推薦算法。

2 協(xié)同過濾推薦算法理論

1992年施樂帕克研究中心的高柏等人提出了一種叫Tapestry的框架用來新聞推薦和信息篩選的協(xié)同過濾推薦模型[2]。協(xié)同過濾算法的本質上屬于機器學習方法,它能很好地解決搜索引擎的檢索內容過于單一的問題,該算法的主要思想:用戶A和B存在共同的偏好,當用戶A喜歡購買或者瀏覽物品a時,推測出用戶B也可能喜歡物品a。協(xié)同過濾算法運用用戶的歷史行為數據進行比對并計算相似度,然后生成推薦矩陣。協(xié)同過濾推薦算法原理如圖1所示。

協(xié)同過濾算法主要分為三種類型:基于用戶的協(xié)同過濾算法[3-4]、基于項目的協(xié)同過濾算法[5]和基于模型的協(xié)同過濾算法[6]。

2.1 協(xié)同過濾推薦算法的基本原理

協(xié)同過濾推薦算法實現過程主要包含收集用戶信息、相似度計算、生成推薦列表這三個步驟。

⑴ 收集用戶評分信息

首先通過數據挖掘,獲取用戶評分數據集,生成相應評分矩陣,評分矩陣如表1所示。

⑵ 相似度計算

相似度是衡量兩個對象的類似的程度,最常使用的計算方法:余弦相似度[7]、Pearson相關系數[8]和修正余弦相似度 [9]。

余弦相似度[7]就是將兩個用戶的評分數據分別設一個向量,然后利用余弦定理公式計算兩個向量的余弦值。若它們之間的余弦值越小,則說明它們的相似程度越高。計算公式如下:

⑶ ?預測評分并生成推薦列表

選取最近鄰居,根據上一步過程計算可以得到用戶間的相似度,然后將相似度按照從大到小的順序排列,最后針對目標用戶生成個性化的推薦列表。

2.2 基于用戶的協(xié)同過濾推薦算法

基于用戶的協(xié)同過濾推薦算法通過比較不同用戶的瀏覽或購買等行為數據的相似度,然后計算出與目標用戶距離最近的集合,最后將這個集合中可能是用戶最感興趣的且沒有瀏覽過的內容或項目推薦給目標用戶。

2.3 基于項目的協(xié)同過濾推薦算法

近年來,隨著京東、淘寶、拼多多等大多數電商平臺面臨著用戶數量不斷增長的情況,評分矩陣變得越來越復雜,從而導致相似度計算變得越來越困難,因此便出現了基于項目的協(xié)同過濾推薦算法。電商平臺的商品數量相對穩(wěn)定,但用戶數是不斷增加的,因此計算項目之間的相似度更容易?;陧椖康膮f(xié)同過濾算法的原理:首先對用戶的歷史評分數據集進行分析,然后根據用戶的偏愛程度對所有項目進行分類并排序生成集合,再使用最短路徑算法在集合中找到距離該用戶最近的新項目,最后為該用戶生成推薦列表。例如小王剛在教材網站購買了《數據系統(tǒng)簡介》,而《數據系統(tǒng)簡介》和《Oracle數據庫開發(fā)》非常相似,它們都屬于數據庫技術類的教材,因此,給小王推薦《Oracle數據庫開發(fā)》。

2.4 基于模型的協(xié)同過濾推薦算法

基于用戶的協(xié)同過濾和基于項目的協(xié)同過濾都歸類于基于記憶的推薦算法,它通過分析比對用戶已評分項目,以推算用戶未評分項目,然后獲得相應的推薦矩陣。但是伴隨著用戶和項目數量的不斷增加,需要占用大量的網絡和硬件資源,進行實時推薦時較困難。而基于模型的協(xié)議過濾算法是通過對用戶的評分大數據進行挖掘,然后再利用機器學習的算法對之進行處理,將用戶評分數據集分成測試集和訓練集,然后使用訓練集生成合理的推薦預測模型,最后利用該模型預測出其他尚未評分的項目。

3 協(xié)同過濾推薦算法的評價指標

⑴ 用戶滿意度

滿意度是評估推薦系統(tǒng)合理性的重要指標。滿意度是衡量用戶對推薦結果認同度的指標,通常在電商平臺中,可以通過分析用戶瀏覽和購買等行為數據計算出滿意度,例如某用戶購買了系統(tǒng)給他推薦的某商品或長時間瀏覽了該商品,可以表示用戶對該推薦結果是滿意的。因此,可以通過購買或長時間瀏覽的商品總數與已推薦商品總數的比值來衡量用戶的滿意度,即推薦購買率。

⑵ 預測準確度

預測準確度是評價一個推薦算法預測用戶評分結果的準確性,一般情況下,在我們評估預測準確度時,首先將數據庫中的用戶評分記錄整理為訓練集和測試集,然后應用機器學習算法生成包括用戶行為和興趣的推薦預測模型,推薦模型用于預測用戶對測試集的行為和興趣偏好。最后比較預測結果和實際測試集兩者之間的重復度。預測準確度通常用均方根誤差(RMSE)和平均絕對誤差(MAE)來計算。

⑶ 覆蓋率

覆蓋率是評測一個推薦系統(tǒng)對需求量較低或者銷售冷淡的商品的推薦能力,衡量方法是該推薦算法推測出的項目數與測試集中總項目數的比值,推薦的冷門商品的數量越多,間接的表示該推薦算法的質量越高。

⑷ ?多樣性

多樣性主要是照顧到用戶的購物需求是具有多樣性的,為了提高用戶的體驗,滿足用戶對不同類別商品的需求,同時還能提高電商平臺的運營效益,推薦系統(tǒng)需要面向用戶推薦多種不同類別的商品,例如用戶購物時可能同時需要蔬菜類、肉類和水果類,這時推薦列表的界面中需要同時出現這三類商品才能滿足用戶的購物需求。推薦系統(tǒng)多樣性評測指標主要有兩種:推薦列表多樣性和平均多樣性。

⑸ ?新穎性

新穎性指標是說明為了給用戶眼前一亮的感覺,即需要將用戶以前沒有看過和聽過的項目進行推薦。新穎性的指標是用來評估項目的平均流行度,物品的新穎度隨著物品的流行度提高而降低。

⑹ 實時性

推薦系統(tǒng)的實時性是指推薦給用戶的項目必須具有時效性,否則不能取得較好的平臺效益,例如當天用戶購買某品牌手機時,應該同時推薦手機耳機等配件,而不是等到幾天以后根據用戶的購買行為數據再進行離線推薦手機配件。

4 協(xié)同過濾推薦算法面臨的問題

(1) ?數據稀疏問題

數據稀疏問題是推薦系統(tǒng)普遍存在的現象,協(xié)同過濾算法是使用用戶的評分數據計算相似度的,但電商平臺的項目數量相當大,而參與交互評價的項目數量較少,用戶不可能針對每個項目都做出詳細的評分,導致評分矩陣出現了不少的空白項,也就是評分矩陣出現了異常的稀疏問題,從而導致推薦結果出現偏差。

針對評分矩陣的數據稀疏問題,學者們提出了不少解決方法,最常用的有矩陣填充[10]、降維[11]、聚類[12]等。矩陣填充[10]是最簡單的方法,它的方法是針對評分矩陣中用戶沒有給予評分的項目填入一個缺省的固定數值,這個固定數值通常是一個常數。其次,矩陣降維[11]也是一種降低稀疏性比較好的方法,它是通過先分析評分矩陣的主成分(PCA),然后再降低矩陣的維度從而降低了數據的稀疏性,這種方式雖然降低了數據的稀疏性,但是計算過程較為耗時,同時可能出現精確度下降問題。另外的一個方法就是聚類法[12],首先通過獲取聚類中心,分析比對出目標用戶與中心的距離,然后為目標用戶選擇距離最近的類,最后對用戶未評分的項目給出評分。

(2) ?冷啟動問題

冷啟動問題分為用戶的冷啟動、項目的冷啟動。冷啟動問題是由于推薦系統(tǒng)中新注冊的用戶缺少個人注冊信息和購物行為信息,或者新添加的項目短期內缺少評分數據。推薦算法在計算相似度時因評分矩陣中缺少部分數據,從而不能為用戶推薦新項目。針對這個問題,可以通過獲取用戶的個人注冊信息,然后在其注冊信息中提取其興趣愛好并分類,最后根據所屬分類給他推薦喜歡的項目。

(3) ?可擴展性問題

協(xié)同過濾推薦算法是對系統(tǒng)中最新的用戶-項目的評分數據進行全局分析,然后給用戶較準確的推薦。但是,隨著數據庫中新增用戶和項目的數量日益增長,從而直接導致相似度的計算機量變大,進而嚴重影響它的工作效率。針對這一問題,學者們提出了EM算法、模糊聚類算法和K-means聚類算法[12]等。

(4) ?用戶隱私問題

在網絡中,用戶的隱私保護是尤為關鍵的,電商平臺的推薦算法的原理是使用用戶的個人信息、用戶行為的歷史記錄等屬性進行相似度計算,以獲得推薦結果。如果一個電商平臺不重視用戶的個人隱私保護,這會使得用戶缺少安全感從而降低對平臺的信任度,用戶就不愿意提供更多個人信息用于推薦計算,這將降低推薦系統(tǒng)的準確性。主流的數據保護方法有數字摘要算法、對稱加密算法、非對稱加密算法[13]。

(5) ?移動平臺的推薦問題

當前,廣大的網民普遍使用移動設備進行瀏覽新聞或者購物,但是由于手機等移動設備的屏幕大小和設備硬件性能限制,傳統(tǒng)的協(xié)同過濾推薦算法不能直接應用在移動端,研究人員需要結合移動設備獨有的參數如當前時間、地理位置、實時天氣等參數,例如小張目前正在某城市旅游,他打開手機地圖軟件時,系統(tǒng)會自動給他推薦附近的旅游景點、酒店、公交車路線信息等。

(6) ?用戶的興趣變化問題

在現實生活中,人的興趣愛好可能隨時變化的,用戶興趣既有長期也有短期類型。用戶的興趣會隨著環(huán)境、年齡、性格改變等因素改變,但一般的推薦算法很難通過用戶的歷史行為數據去推測出用戶興趣的改變,可能某些時候的預測結果與用戶當前的喜好不一致,例如一個用戶平時喜歡看動漫作品,而在世界杯期間,他也可能會關注一些足球賽事直播視頻。針對這個問題,算法的改進需綜合考慮用戶的位置信息、當前時間等多種因素。

5 結束語

協(xié)同過濾推薦算法廣泛應用在電商平臺、新聞推送軟件、音視頻軟件,對提升企業(yè)效益有著不可或缺的作用。本文首先解讀了協(xié)同過濾推薦算法的特點,其中詳細介紹了算法的核心思想、算法的分類和算法的評價指標。然后分析了傳統(tǒng)的協(xié)同過濾推薦算法普遍存在的問題,并依次列舉出學者們提出的解決方法。對于未來的研究,協(xié)同過濾推薦算法需要考慮提高推薦的友好性、數據的安全性、移動平臺的自適應性等。

參考文獻:

[1]胡玲,李鵬,趙德平.基于WEB的鋼鐵行業(yè)信息搜索引擎技術[J].電腦知識與技術,2018,14(28):224-226,229.

[2] Goldberg D, Nichols D, Oki B M, et al.Using collaborative filtering to weave an information tapestry[J].Communications of the ACM.December,1992.35(12):61-70.

[3] Laizhong Cui,Peng Ou,Xianghua,Fu,Zhenkun Wen,Nan Lu.A novel multi-objective evolutionary algorithm for recommendation systems [J].Journal of Parallel and Distributed Computing.2016(10):69-73.

[4] 王成,朱志剛,張玉俠,蘇芳芳. 基于用戶的協(xié)同過濾算法的推薦效率和個性化改進[J].小型微型計算機系統(tǒng),2016,37(03):428-432.

[5] 黃傳飛. 基于項目的協(xié)同過濾算法的改進[D].江西師范大學,2015.

[6] 于波,楊紅立,冷淼.基于用戶興趣模型的推薦算法[J].計算機系統(tǒng)應用,2018, 27(9): 182-187.

[7] 朱坤,劉林峰,吳家皋.一種基于節(jié)點位置余弦相似度的機會網絡轉發(fā)算法[J].計算機科學,2018, 45(12):61-65,85.

[8] 陳功平,王紅.改進Pearson相關系數的個性化推薦算法[J].山東農業(yè)大學學報(自然科學版),2016, 47(6):940-944.

[9] Can Cui, Teresa Wu,Mengqi Hu,Jeffery D. Weir; Xiwang Li. Short-Term Building Energy Model Recommendation System: A Meta-Learning Approach,[J].Applied Energy. 2016(3):690-698.

[10] 鐘宜梅.淺析矩陣填充方法[J].電腦知識與技術,2018, 14(23):270-271,276.

[11] 董駿.面向數據集的ST-SNE算法高維數據降維研究[J].計算機技術與自動化,2018,37(4):116-122.

[12] 王筱遠.數據挖掘中的聚類算法分析[J].中國新通信,2018,20(23):110-111.

[13] 任華新.數據加密算法的綜述[J].探索與觀察,2016(18):95, 97.

【通聯(lián)編輯:梁書】

猜你喜歡
協(xié)同過濾機器學習電子商務
《電子商務法》如何助力直銷
電子商務
基于鏈式存儲結構的協(xié)同過濾推薦算法設計與實現
軟件導刊(2016年11期)2016-12-22 21:40:40
基于相似傳播和情景聚類的網絡協(xié)同過濾推薦算法研究
現代情報(2016年11期)2016-12-21 23:35:01
基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
基于機器學習的圖像特征提取技術在圖像版權保護中的應用
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
混合推薦算法在電影推薦中的研究與評述
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
沙河市| 桂东县| 平阴县| 麻栗坡县| 贵州省| 孝感市| 唐山市| 浦城县| 广宁县| 阿瓦提县| 黄梅县| 崇州市| 盈江县| 富宁县| 澄城县| 金溪县| 通辽市| 敦煌市| 江孜县| 华蓥市| 吴堡县| 九江市| 玛纳斯县| 金堂县| 玉山县| 乃东县| 淮北市| 扎囊县| 昆山市| 濮阳市| 泸定县| 新疆| 福鼎市| 图木舒克市| 申扎县| 南投市| 阳原县| 垣曲县| 通道| 富民县| 永丰县|