吳經(jīng)緯
摘要:互聯(lián)網(wǎng)的快速發(fā)展,每天都產(chǎn)生了大量的信息,信息過載[1-2]十分嚴(yán)重,解決該問題的常用方法有兩個,通過搜索引擎查詢自己所需要的信息,這種方式有一個很大的缺點(diǎn)是,很多可能會使得引發(fā)人們興趣的信息被埋沒了,而推薦系統(tǒng)是能很好解決該問題的有效方法,推薦系統(tǒng)常用的方法是協(xié)同過濾算法,本文對協(xié)同過濾算法常見問題做了一些研究。
關(guān)鍵詞:推薦系統(tǒng);協(xié)同過濾 ;個性化
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? 文章編號:1009-3044(2019)03-0020-02
1前言
我們所處時代的顯著特征是信息大爆炸,每天所產(chǎn)生新的信息量非常驚人,毋庸置疑,身處其中人們跟以前相比更能夠找到自己需要的信息,比如想購買的商品,想觀看的電影等,然而跟不上信息增長的速度。有些用戶喜歡看一些評分高的,還有就是熱門的電影,遺憾的是這些電影是非常有限的,而有很多類似的精彩電影未能呈現(xiàn)在用戶的眼前,既是資源的一種嚴(yán)重浪費(fèi),又沒能給用戶更好的享受。推薦系統(tǒng)是解決信息過載的很有用的方法,它最大的特點(diǎn)莫過于個性化,根據(jù)用戶產(chǎn)生的歷史數(shù)據(jù),進(jìn)而分析這些數(shù)據(jù),挖掘出有用的東西,從而給用戶帶來更好的體驗。時常當(dāng)我們在亞馬遜購物的時候,可能我們買了一本專業(yè)書,過一段時間你會發(fā)現(xiàn),跟這本書相似的書籍,該作者的其他作品也可能會出現(xiàn),還有就是買過這本書的人還買過什么,這方方面面無疑更有可能出現(xiàn)用戶想買的商品,極大地提高了用戶體驗。當(dāng)我們觀看YouTube視頻的時候也會發(fā)生類似的情況,推薦系統(tǒng)具備發(fā)現(xiàn)用戶隱藏興趣的能力,既能給相關(guān)公司帶來巨大的收入,更能豐富人們的生活。本文主要對協(xié)同過濾算法的關(guān)鍵技術(shù)做了介紹以及其中的一些問題做了相應(yīng)的分析。
2 基于用戶與物品的協(xié)同過濾算法
基于用戶的協(xié)同過濾算法利用用戶的相關(guān)信息,給用戶推薦相關(guān)內(nèi)容或物品,比如當(dāng)你在YouTube上觀看一些視頻的時候,它會給你推薦與你有相同興趣愛好的用戶他們喜歡的而你未曾看過的內(nèi)容。而基于物品的協(xié)同過濾是利用物品之間的相似性進(jìn)而推薦。
基于用戶的協(xié)同過濾算法,實現(xiàn)步驟:
1)找到與目標(biāo)用戶有著相同興趣的用戶集合;
2)找到與目標(biāo)用戶有相同興趣愛好的用戶他們喜歡的,而目標(biāo)用戶未曾聽說過的物品和評分預(yù)測[3];
3)生成TOP-N推薦列表;
相似度的度量是該算法的最重要的部分,常見的度量相似度的方法如下:
3改進(jìn)相似度的思路
3.1熱門電影的影響
以數(shù)據(jù)集MovieLence數(shù)據(jù)集為例,該數(shù)據(jù)集包含943名用戶對1682部電影的10000條評分,而有的用戶看的電影很少,有的用戶看的電影很多,可能他們都看了一些熱門電影,這不能說明兩者的相似度很大,大部分人都會看熱門電影,反而當(dāng)他們看了一部冷門電影更能說明他們的興趣相似度,所以給用戶u和用戶v共同觀看電影中的熱門電影一個懲罰項,以降低熱門電影[5]對相似度的影響。
3.2共同評分項目數(shù)
由共同評分[6]項目定義的相似度公式
其中[N(j)]是指用戶i評分的數(shù)目,用戶之間共同觀看的電影數(shù)目占自己觀看電影數(shù)目的比例越高,越能夠說明彼此的興趣愛好很相似。
3.3歐幾里德距離
余弦相似度計算相似度有一個很大的問題是能很好地描述用戶們評分的習(xí)慣是否一樣,比如a用戶給五部電影評分都為5分,b用戶給這五部電影評分都為1分,如果利用余弦相似度的話,則該相似度為一,而他們的興趣愛好差別很大,如果在此基礎(chǔ)上加入歐幾里得距離,會有更好的效果,歐幾里德距離能夠刻畫出兩個向量的距離,能在某種程度上彌補(bǔ)余弦相似度的缺陷。歐幾里德距離[7]公式(4)
4結(jié)束語
本文主要介紹了協(xié)同過濾算法實現(xiàn)的基本過程,以及相似度改進(jìn)的相關(guān)思路,使得推薦的效果更好。協(xié)同過濾算法應(yīng)用廣泛,已經(jīng)應(yīng)用到我們生活中的方方面面,當(dāng)然協(xié)同過濾算法還存在數(shù)據(jù)稀疏[8]性,冷啟動[9],如何更好地實現(xiàn)實時推薦等等諸多問題。協(xié)同過濾算法中的優(yōu)缺點(diǎn)綜合起來值得好好研究。
參考文獻(xiàn):
[1]? 劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1).
[2] 李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機(jī)研究與發(fā)展,2013(6)
[3] 李改,陳強(qiáng),李磊. 基于評分預(yù)測與排序預(yù)測的協(xié)同過濾推薦算法[J].電子學(xué)報,2017(12).
[4] 彭石,周志彬,王國軍.基于評分矩陣預(yù)填充的協(xié)同過濾算法[J].計算機(jī)工程,2013(1).
[5] BreeseJ S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C]//Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence.1998:43-52
[6] 張曉琳,付英姿,褚培肖.杰卡德相似系數(shù)在推薦系統(tǒng)中的應(yīng)用[J].計算機(jī)技術(shù)與發(fā)展,2015(4).
[7] 李榮,李明奇,郭文強(qiáng).基于改進(jìn)相似度的協(xié)同過濾算法研究[J].計算機(jī)科學(xué),2016(12).
[8] 張學(xué)勝. 面向數(shù)據(jù)稀疏的協(xié)同過濾推薦算法研究[D].中國科學(xué)技術(shù)大學(xué),2011.
[9] 孫冬婷,何濤,張福海.推薦系統(tǒng)中的冷啟動問題研究綜述[J].計算機(jī)與現(xiàn)代化,2012(5).
【通聯(lián)編輯:唐一東】