代麗 樊粵湘
摘? 要: 隨著網(wǎng)絡(luò)的發(fā)展,信息過載成為人們不得不面對的問題,個性化推薦系統(tǒng)便是解決該問題的有力工具,并受到了廣泛的關(guān)注和研究。文章對推薦系統(tǒng)的定義進行了簡單描述,分析比較了推薦系統(tǒng)目前較為流行的諸如關(guān)聯(lián)規(guī)則、協(xié)同過濾類等推薦算法的含義和優(yōu)缺點,提出了目前推薦系統(tǒng)尚未解決的問題。
關(guān)鍵詞: 推薦系統(tǒng); 推薦算法; 關(guān)聯(lián)規(guī)則; 協(xié)同過濾
中圖分類號:TP399? ? ? ? ? 文獻標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)06-09-04
Abstract: With the development of the network, information overload has become a problem that people have to face. The personalized recommendation system is a powerful tool to solve the problem, and has received extensive attention and research. This paper briefly describes the definition of the recommendation system, analyzes and compares the meaning, advantages and disadvantages of the recommendation algorithms which are currently popular in the recommendation system, such as Association rules and Collaborative filtering etc., and puts forward some problems that are still unresolved in recommendation system.
Key words: recommendation system; recommendation algorithm; Association rules; Collaborative filtering
0 引言
大數(shù)據(jù)時代,人們一方面對信息的需求得到了很大的滿足,另一方面在面對如此龐大的信息量時,常常感到束手無策。人們無法從中準(zhǔn)確找到自己真正需要和感興趣的信息,對信息的利用率不但沒有增長反而有所降低,這就是信息時代經(jīng)常出現(xiàn)的問題——信息過載。以信息檢索和搜索引擎技術(shù)為核心的信息搜索系統(tǒng)就是為了解決這一問題而生的,如Google,Baidu等。用戶通過使用這些檢索系統(tǒng),可以大大縮小搜尋對自己有價值信息的范圍,在一定程度上緩解信息過載問題。
目前,這些系統(tǒng)都是面向大眾的,并沒有考慮每個用戶所具有的不同特性。當(dāng)不同的用戶輸入相同的關(guān)鍵字時,信息檢索系統(tǒng)向其提供的信息資源都是相同的,仍然存在著大量的冗余信息,無法滿足不同用戶的不同需求。因此,這些系統(tǒng)應(yīng)根據(jù)所掌握的用戶的興趣,行為特征以及其他個人信息來制定具有針對性的推薦策略,盡可能地提供滿足不同用戶需求的個性化服務(wù),使他們能夠在海量的信息中快速而準(zhǔn)確的獲得所需要的信息,即所謂的個性化推薦系統(tǒng)。該系統(tǒng)是電子商務(wù)和互聯(lián)網(wǎng)技術(shù)發(fā)展的必然產(chǎn)物,而且現(xiàn)今被廣泛運用到新聞網(wǎng)站,決策支持,學(xué)習(xí)推薦,數(shù)字圖書館,電子商務(wù)等各個方面,有越來越多的用戶依賴于從網(wǎng)絡(luò)上獲取需要的信息,人們的生活方式正悄然變化。
可見,對個性化推薦系統(tǒng)的研究具有十分重要的現(xiàn)實意義。此外,其在理論上也受到了學(xué)術(shù)界越來越多的關(guān)注,并逐漸形成了一門獨立的學(xué)科。本文接下來將從推薦系統(tǒng)的概念、定義和主要推薦算法對個性化推薦系統(tǒng)的研究情況進行綜述。
1 推薦系統(tǒng)的概念及定義
最早提出推薦系統(tǒng)這一概念的是在Resnick 1997年發(fā)表的文獻中,他認(rèn)為在我們的生活中,常常需要對不了解的事務(wù)做出決策,在此種情況下,我們只能依據(jù)他人的口頭意見、書評、影評、推薦信或者中立機構(gòu)的調(diào)查結(jié)果來進行判斷[1]。而推薦系統(tǒng)就是對人類這種行為的模擬,其通過使用相關(guān)算法對他人提供的信息進行分析處理,然后再將分析得到的結(jié)果提供給尋求推薦的用戶。Burke認(rèn)為任何可以輸出個性化推薦信息或者是能夠以個性化的方式引導(dǎo)用戶在大量信息中尋求到合乎自己興趣的或有價值的信息的系統(tǒng)都可以稱為推薦系統(tǒng)[2]。Schafer則認(rèn)為推薦系統(tǒng)是構(gòu)成電子商務(wù)網(wǎng)站的一部分,通過對網(wǎng)站上客戶消費行為的分析與學(xué)習(xí),來對客戶未來可能的消費行為進行預(yù)測,從而使電子商務(wù)網(wǎng)站能夠根據(jù)不同客戶的偏好來提供不同的服務(wù)[3]。
不同的學(xué)者從不同的角度出發(fā),對推薦系統(tǒng)便會賦予不同的內(nèi)涵。但無論其內(nèi)涵如何不同,都涉及到了如下三個方面的內(nèi)容:①用戶、推薦算法以及推薦對象。而且各種推薦系統(tǒng)的大致流程也基本相同,即:收集用戶的興趣偏好和行為特征建立用戶模型;②根據(jù)系統(tǒng)特定的推薦算法,將推薦對象模型的信息與用戶模型匹配;③將與用戶興趣匹配的信息推薦給用戶。用圖1表示如下。
2 推薦算法
整個推薦系統(tǒng)中最關(guān)鍵的部分便是推薦算法了,因為系統(tǒng)的性能優(yōu)劣很大程度上都是由推薦算法來決定的。目前,有許多學(xué)者都對推薦算法進行了研究,僅從中國知網(wǎng)上搜索推薦算法時便有6000多條文獻記錄。推薦算法種類的劃分因缺少統(tǒng)一的標(biāo)準(zhǔn)而被分成了不同的類型?,F(xiàn)今最為大家接受和流行的推薦算法分類如圖2所示。
2.1 基于關(guān)聯(lián)規(guī)則的推薦
基于關(guān)聯(lián)規(guī)則推薦算法的核心思想就是從大量的數(shù)據(jù)中尋找滿足一定支持度的頻繁項集,然后再依據(jù)置信度從其中找到強關(guān)聯(lián)規(guī)則,最后便可以根據(jù)該規(guī)則向用戶推薦其可能感興趣的事物。關(guān)聯(lián)規(guī)則廣泛應(yīng)用于電子商務(wù)推薦系統(tǒng)當(dāng)中,它通過利用用戶交易數(shù)據(jù)庫中的數(shù)據(jù),分析用戶每次購買產(chǎn)品之間的關(guān)系,生成用戶的購買模式,當(dāng)用戶再次購買時,便可以進行相關(guān)推薦,實現(xiàn)交叉銷售。目前較為經(jīng)典的關(guān)聯(lián)規(guī)則算法是Apriori算法、FP-Growth算法。該算法的缺點在于:在尋找頻繁項時需要對數(shù)據(jù)集進行多次掃描,計算量較大,耗費時間長[4]。雖然可以離線計算,對推薦系統(tǒng)性能影響不大,但仍然會帶來一定的不便;由于采用用戶數(shù)據(jù),不可避免地存在冷啟動和稀疏性問題;存在熱門項目容易被過度推薦的問題。
2.2 基于內(nèi)容的推薦
基于內(nèi)容的推薦算法的理論依據(jù)主要來自于信息檢索和信息過濾。該方法的基本原理就是根據(jù)用戶已經(jīng)選擇的對象來獲得用戶的興趣描述,然后再將推薦對象的特征與用戶的興趣進行比較,最后將比較結(jié)果相似的推薦對象推送給用戶。使用該算法進行推薦的步驟我們可以從閆東東等人寫的文獻中了解到[5],其具體內(nèi)容如下。①建立推薦對象模型:根據(jù)各項目的特征制定關(guān)鍵字集合,用集合對項目進行評估,生成相應(yīng)的描述文件。②建立用戶興趣模型:通過系統(tǒng)顯式或者隱式的方式來跟蹤用戶的信息和行為,獲取用戶的特征,生成用戶描述文件。③獲取匹配程度進行推薦:通過計算推薦對象模型和用戶興趣模型的相似性,相似性越高的則匹配程度越高,最后按照匹配程度的高低進行推薦。例如,在進行圖書購買推薦時,系統(tǒng)可以分析用戶先前購買書籍的共性,然后再將這些共性與其他書籍特征進行比較,最后將相似度排名在前的書籍推薦給用戶。
其中,建立用戶興趣模型的方法一般為機器學(xué)習(xí)領(lǐng)域的方法,如決策樹分類算法,神經(jīng)網(wǎng)絡(luò)等。而物品特征提取目前主要研究集中在文檔特征提取,一般采用的算法為詞頻-倒排文檔頻率法(TF-IDF)。用戶模型與推薦對象相似度比較最簡單的方法就是向量夾角余弦法。
基于內(nèi)容的推薦系統(tǒng)在進行推薦時只需要獲取用戶和推薦對象的描述文件,無需用戶對該對象的評分。因此,它可以很好的解決新對象出現(xiàn)的冷啟動問題,也不會出現(xiàn)評分信息稀疏性問題。但是該方法對圖片視頻等多媒體資源不太適合,因為目前對于這些資源特征的提取還沒有有效的方法。而且用戶比較難以獲得新的推薦結(jié)果,因為推薦對象的特征都是與用戶興趣模型相匹配的,得到的推薦結(jié)果都是與以前相似的。該方法還存在新用戶冷啟動問題。對于新用戶,系統(tǒng)無法獲取用戶的興趣模型。
2.3 協(xié)同過濾推薦
協(xié)同過濾推薦算法是眾多推薦算法中較為熱門,應(yīng)用較為廣泛的一種[6],自出現(xiàn)以來大大地促進了推薦系統(tǒng)的發(fā)展。其核心思想就是利用與目標(biāo)用戶興趣偏好相同的用戶群體的喜好情況來推薦。該種推薦算法主要又可以分為兩種形式:基于用戶的推薦和基于物品的推薦。
基于用戶的推薦的基本原理就是通過所有用戶的歷史數(shù)據(jù)發(fā)現(xiàn)他們對項目的偏好程度,通過計算找到與目標(biāo)用戶興趣偏好相似的鄰居用戶組,最后根據(jù)鄰居用戶組的歷史偏好信息向目標(biāo)用戶進行推薦。如圖3所示。
根據(jù)計算可知,用戶A和用戶B相似,用戶A偏好與物品A、B、C,用戶B 偏好與物品A、C,因此可以將物品B推薦給用戶B。
基于項目的推薦的基本原理同基于用戶的推薦很相似,只需要將計算用戶之間相似性變?yōu)橛嬎沩椖恐g的相似性,然后找到未評分項目的最近鄰居,根據(jù)用戶對最近鄰居的評分來預(yù)測相應(yīng)未評分項目的分?jǐn)?shù),最后將排名靠前的預(yù)測項目反饋給用戶。如圖4所示。
在圖中,根據(jù)所有用戶對物品的偏好可知,喜歡物品A的用戶都喜歡物品C,可認(rèn)為物品A與物品C相似,用戶C也喜歡A,所以可將物品C推薦給用戶C。
不同于基于內(nèi)容的推薦算法對信息對象內(nèi)容的過分依賴,協(xié)同過濾算法可以完全不依賴內(nèi)容實現(xiàn)推薦。另外,協(xié)同過濾算法還可以進行聯(lián)想性推薦,為用戶提供新穎的信息。因此,其應(yīng)用領(lǐng)域更為廣泛。但協(xié)同過濾算法也存在著難以克服的問題。如:冷啟動問題,當(dāng)推薦系統(tǒng)中出現(xiàn)新的用戶個體時,該用戶沒有對任何信息對象給出評分,所以推薦系統(tǒng)無法獲得其信息需求從而為其提供推薦。如稀疏性問題,推薦系統(tǒng)中的信息項目數(shù)量規(guī)模往往非常巨大,而用戶對信息項目的評分往往只能涉及到很少一部分,這將導(dǎo)致用戶項目評分矩陣的稀疏度非常高,從而影響推薦系統(tǒng)的整體準(zhǔn)確性[7]。
2.4 混合推薦
基于混合推薦算法的系統(tǒng)是推薦系統(tǒng)研究的另一大熱點。它是指將多種推薦算法結(jié)合,彌補彼此的缺點,從而達到更好的推薦效果。所以,在實際應(yīng)用中,我們可以針對具體問題采用合適的組合策略。目前基于內(nèi)容的推薦和協(xié)同過濾推薦的組合是研究和應(yīng)用較多的組合。
3 結(jié)論與展望
本文圍繞著個性化推薦系統(tǒng)這一主題,對推薦系統(tǒng)的概念和當(dāng)前較為流行的幾種推薦算法進行介紹,并列舉出了各推薦算法的優(yōu)點和缺點。因此在實際應(yīng)用中,我們應(yīng)該根據(jù)實際需求選擇合適的推薦算法。就目前而言,個性化推薦技術(shù)遠(yuǎn)還沒有達到成熟的地步,除了傳統(tǒng)的冷啟動和稀疏性問題,還有其他很多問題有待解決。①用戶興趣偏好改變問題。在現(xiàn)實生活中,用戶的興趣愛好隨著時間的推移而變化的情況比比皆是,如果在建立用戶興趣模型時,未考慮這個問題,則無法掌握用戶的當(dāng)前愛好,推薦結(jié)果也就不會令用戶滿意。②推薦系統(tǒng)的安全問題。隨著個性化推薦技術(shù)在電子商務(wù)中的廣泛應(yīng)用,一些商家或者黑客受到眼前利益的趨勢,便會采取非法手段來攻擊推薦系統(tǒng),進行危害用戶利益的非法營銷。③推薦系統(tǒng)的隱私問題。在建立用戶興趣模型時,系統(tǒng)會通過顯式或者隱式的方式來收集用戶各種信息,這種行為涉及到了用戶的隱私。因此如何在提高推薦系統(tǒng)個性化服務(wù)的同時又能很好地保護用戶的隱私問題還有待研究。
參考文獻(References):
[1] Resinick P, Varian H R. Recommender systems[J].Communications of the ACM,1997.40(3):56-58
[2] Robin Burke. Hybrid Recommender Systems: Survey andExperiments[J].User Modeling and User-Adapted Interaction,2002.4.
[3] J.Ben Schafer, Joseph A. Konstan, John Riedl.E-Commerce Recommendation Applications[J]. Data Mining and Knowledge Discovery,2001.1.
[4] 郝海濤,馬元元.基于加權(quán)關(guān)聯(lián)規(guī)則挖掘算法的電子商務(wù)商品推薦系統(tǒng)研究[J].現(xiàn)代電子技術(shù),2016.39(15):133-136
[5] 罔東東,李紅強.一種改進的基于內(nèi)容的個性化推薦模型機.軟件導(dǎo)刊,2016.15(4):11-13
[6] 毛勇.基于協(xié)同過濾的推薦算法研究[J].計算機時代,2018.7:28-31
[7] 包志強,宋靜霞.結(jié)合關(guān)聯(lián)規(guī)則填充的協(xié)同過濾改進算法[J].現(xiàn)代電子技術(shù),2019.42(3):78-81,86