付文博,尹立杰
(河北地質大學信息工程學院,河北 石家莊 050031)
隨著物聯(lián)網(wǎng)和人工智能等技術的快速發(fā)展,人類的信息產(chǎn)業(yè)迅猛增長,網(wǎng)絡信息超載(Information Over-load)問題也日益嚴重。信息產(chǎn)業(yè)產(chǎn)生的大量的信息已經(jīng)無法被用戶全部接受瀏覽,在這樣的信息空間中客戶尋找到有符合自己要求的信息是困難的。為了解決信息超載問題,推薦系統(tǒng)(Recommendation System,RS)可以將海量的信息篩快速地選成用戶可接受的數(shù)量,以便用戶迅速準確地找到自己想要的信息。
推薦系統(tǒng)[1]的概念被Resnick等人提出,推薦系統(tǒng)分析用戶和項目的特征或者利用用戶和項目間的交互數(shù)據(jù)等信息,在用戶未提供檢索內容時自動篩選出用戶可能感興趣的項目,這里的項目是被推薦的信息,例如音樂,商品,新聞等。個性化推薦系統(tǒng)時在產(chǎn)生推薦結果的過程中對用戶的個性化需求加以考慮,產(chǎn)生出推薦結果更符合用戶興趣偏好[2]進而提升推薦系統(tǒng)的性能。Adomavicius等人提出了推薦算法的形式化定義[3],如式(1):
其中 U表示推薦系統(tǒng)中用戶集合,I表示項目集合,向用戶u推薦項目i的推薦程度評估函數(shù)r:U×I→R其中R是全序集合。推薦算法所做的即是對任一給定用戶u?U,找到項目i?I使得推薦度r最大。
推薦系統(tǒng)解決了信息過載問題,為用戶提供便利,給企業(yè)帶來利益,受到了工業(yè)界和研究人員們的重視,因此在眾多領域得到了廣泛應用。經(jīng)典的推薦算法主要有:基于內容的推薦、協(xié)同過濾推薦以及混合推薦方法。在經(jīng)典推薦算法的基礎上研究人員進行研究創(chuàng)新,研究成果層出不窮。協(xié)同過濾推薦算法[4]作為工業(yè)界使用最廣泛的算法,是科研人員研究工作的重心。
深度學習[5](Deep Learning)在圖像處理,自然語言處理等領域的表現(xiàn)良好,性能遠遠超過傳統(tǒng)的機器學習模型,在短時間內收獲了研究人員的關注與研究,并且能取得了革命性的成果,這些深度學習的成果在工業(yè)界得到廣泛的應用。同樣地,將深度學習引入推薦系統(tǒng)領域[6]的研究與應用逐步得到了廣泛的關注。深度學習在克服傳統(tǒng)推薦方法對特征數(shù)據(jù)的依賴、推薦系統(tǒng)冷啟動等問題方面具有巨大作用,其研究具有深遠的研究意義。
推薦系統(tǒng)在實際應用中,用戶和項目交互信息數(shù)量往往不足得出優(yōu)良的推薦結果。因為一個用戶交互、評分的項目是有限的,每個項目也只能被少數(shù)用戶交互、評分,在用戶和項目數(shù)量都十分龐大的情況下,構成的用戶-項目評分矩陣會非常稀疏;新項目剛剛加入系統(tǒng)時,沒有被用戶瀏覽評分,無法使用協(xié)同過濾[7-8]通過交互過該項目的用戶找到其近鄰項目,進而新項目無法被推廣;再者,當新用戶進入系統(tǒng)時,沒有過瀏覽等行為記錄,或者行為數(shù)據(jù)稀少,根據(jù)這些數(shù)據(jù)推薦算法不能得到用戶感興趣的項目的相似項目,產(chǎn)生個性化推薦[9]結果。以上是協(xié)同過濾推薦系統(tǒng)中的冷啟動問題。
推薦系統(tǒng)無論采用基于內容的推薦算法,或是其他現(xiàn)有的方法,都對用戶特征和項目特征的有較高的要求。除了人工標注外,這些特征從行為數(shù)據(jù)中學習得到。但是如果一個用戶或產(chǎn)品行為數(shù)據(jù)稀少或者根本沒有,將無法提取的有效的特征,推薦模型就無法做出有效的推薦??梢?,無論采用什么推薦算法,都存在冷啟動問題。
用戶需求具有不確定性,短視頻、新聞等應用的崛起使這一特點更為明顯。推薦系統(tǒng)作為一種解決用戶不確定性需求的有效手段受到重視。很多產(chǎn)品將推薦業(yè)務放到最核心的位置(如首頁),比如今日頭條等各類信息流產(chǎn)品及很多電商類產(chǎn)品。冷啟動問題將會導致推薦系統(tǒng)的效果大大降低,使新信息、項目無法被有效推送,新用戶接受非目標項目推薦直接影響新用戶的留存率和推薦系統(tǒng)的可用性[10]。根據(jù)導致原因的不同冷啟動問題一般有以下三種形式[11]:新用戶進入推薦系統(tǒng)中時造成的用戶冷啟動;新項目加入到推薦系統(tǒng)中時造成的項目冷啟動;擁有一定數(shù)量的項目和較少的用戶而且交互信息稀少的剛開始使用系統(tǒng)中發(fā)生的系統(tǒng)冷啟動。新用戶、新項目是持續(xù)產(chǎn)生的,對推薦系統(tǒng)來說是無法避免的,所以冷啟動問題會伴隨整個產(chǎn)品的生命周期。因此對冷啟動問題的研究能夠進一步推動推薦系統(tǒng)的發(fā)展。
研究人員們提出了很多方法來緩解冷啟動,減少冷啟動對推薦系統(tǒng)產(chǎn)生的弊端。早期解決方法是犧牲個性化的冷啟動解決方法,這類方法的思想是將用戶對項目的評分值進行統(tǒng)計,計算平均值眾數(shù)等產(chǎn)生對新用戶的推薦項目,優(yōu)點是思想簡單,容易實現(xiàn),弊端為對不同新用戶推薦相同的內容,喪失了推薦的個性化[12]。
隨后越來越多的保持個性化的冷啟動解決方法被提出,個性化推薦系統(tǒng)充分利用除交互信息以外的用戶和項目的描述性信息,從中挖掘用戶的選擇偏好,以及項目間的相似特征。再對這些信息加以利用從而有效地減輕對交互信息依賴造成的相似度計算困難問題[13-14]。根據(jù)輔助信息獲取方式的不同,可以將分為以下六類推薦方法。
這類方法讓新用戶填寫調查問卷,根據(jù)填寫的興趣計算新用戶與原有用戶的相似性,再使用協(xié)同過濾方法進行推薦。Zhang[15]等在調查問卷的設計時使用判別選擇模型對問題組合進行篩選,在盡可能少地調查問卷項目集的同時盡量捕獲用戶偏好。CFAFN[16]詢問新用戶感興趣的項目屬性信息以補充新用戶的信息(圖1)。新用戶加入時,系統(tǒng)將采用詢問的方式引導用戶提供他對項目屬性偏好信息。用戶可選擇的內容包含所有項目屬性,利用用戶的選擇構造用戶-項目偏好屬性矩陣完成個性化推薦。
基于問卷調查的解決方法可以讓系統(tǒng)獲得較好的推薦結果,但是這種方法的效果受調查問卷質量的影響非常大,只有具有代表性的、全面的調查問題會對推薦結果會起到積極作用。而且還要避免用戶填寫問卷的時間過長等問題降低用戶的體驗。
這一類的思想是通過將輔助信息添加進用戶—項目交互矩陣中,緩解矩陣的稀疏性,輔助信息可以是用戶的人口統(tǒng)計信息和項目的屬性信息等。在改進后的矩陣上使用協(xié)同過濾算法做出推薦。Hdioud[17]等人采用項目的內容信息作為輔助信息,通過計算項目的內容信息的相似性后對項目做聚類,將結果用于推薦,從而改善系統(tǒng)性能并解決項目冷啟動問題。CFAFN是通過用屬性信息擴充原始矩陣以緩解矩陣稀疏性。申在協(xié)同過濾的基礎上結合了項目語義與用戶特征,該方法同時考慮到用戶評分相似性與項目特征相似性,將其結合起來用于預測用戶的鄰居評分和項目的鄰居評分,最后結合得到推薦結果。
圖1 CFAFN 冷啟動解決方案Fig.1 Clod start solution framework of CFAFN
在用戶和項目數(shù)量數(shù)量較少時,擴充矩陣可以一定程度上緩解稀疏性的問題,但是在用戶和項目的數(shù)量巨大的情況下,擴充數(shù)據(jù)的方式對緩解矩陣稀疏性的效果微乎其微。
社交關系在人們的生活中有著舉足輕重的地位,社交關系可以體現(xiàn)一個人的社會屬性的信息,根據(jù)社交關系對用戶的興趣偏好進行挖掘,并據(jù)此進行推薦。sedhain[18]提出社會化協(xié)同過濾進行用戶冷啟動推薦。利用用戶的社交內容數(shù)據(jù)計算出內容和產(chǎn)品的相似性,然后計算出目標用戶對所有產(chǎn)品的喜好程度,再排序產(chǎn)生推薦列表。可以在用戶完全沒有行為記錄的情況下做出推薦。琚[19]等人提出在考慮社交關系的基礎上,融入對好友信任度的計算,突出信任關系在推薦系統(tǒng)中的重要作用。
深度學習在圖像、文本等信息處理方面表現(xiàn)突出,基于深度學習推薦算法主要利用了這個優(yōu)勢。緩解冷啟動的思路是通過利用深度學習在特征工程中的能力捕獲用戶和項目的特征用于推薦。
韓等人[20]首先對訓練集用戶進行聚類,將訓練集用戶劃分為若干類。然后計算新用戶與所屬類別中 其他用戶之間的距離,選擇其近鄰用戶集,在評分計算時綜合考慮項目流行度對推薦效果的影響,進而為目標用戶推送感興趣的想項目。實驗結果表明,在一定程度上解決了冷啟動問題。相似的,邵[21]等人采用層次聚類的基于項目的協(xié)同過濾算法緩解新項目冷啟動問題。推薦系統(tǒng)中的項目都有一定的描述性信息,例如視頻的主題、分類、創(chuàng)作者、內容簡介、標題、投稿日期等。算法根據(jù)這些描述性信息,分析項目描述性信息之間的相關度進而獲取新項目和原有項目之間的相似度,據(jù)此提出了凝聚式層次聚類的新項目相似度算法。
除社交網(wǎng)絡、用戶或項目屬性信息等作為輔助信息外,因為提供了從“關系”角度分析問題的思路,知識圖譜[22-23]受到學者廣泛關注。知識圖譜中所蘊含的豐富信息可以有效地解決推薦系統(tǒng)中存在的一系列關鍵問題,例如數(shù)據(jù)稀疏、冷啟動、推薦多樣性等。利用知識圖譜進行推薦的思想就是利用用戶、項目之間語義信息連接獲取用戶和項目的特征,減少對用戶—項目交互矩陣的依賴,進而提高推薦準確度[24]。雷[25]提出了通過知識圖譜獲取項目的屬性信息,根據(jù)屬性信息計算項目間相似度,再將得到的項目相似關系利用隨機游走模型來進行傳遞。
近些年來,基于異質網(wǎng)的推薦算法被學者廣泛研究,異質信息網(wǎng)絡[26]由于包含多種類型的結點和邊,能表征豐富的輔助信息,Sun等[27]提出PathSim 基于元路徑的相似性做推薦。 蔣等人[28]該算法首先由二部圖嵌入用戶和商品的歷史互動,并通過多層神經(jīng)網(wǎng)絡傳播獲取用戶和商品的高階特征,然后基于元路徑的隨機游走來獲取異質信息網(wǎng)絡中的潛在語義信息,最后將用戶和商品的高階特征和潛在特征融合并做評分預測。Shi等人[29]提出 HERec模型將異質網(wǎng)絡表示學習與推薦算法融合,采用基于多條元路徑的隨機游走方法獲取節(jié)點序列,使用skip-gram模型對用戶和項目進行表示學習,最后結合節(jié)點的表示使用矩陣分解模型進行推薦預測(圖 2)。該算法通過元路徑捕捉用戶和電影間的隱性關系緩解了冷啟動問題。
圖2 HERec方法的示意圖Fig.2 The schematic illustration of the HERec approach
近年來,隨著物聯(lián)網(wǎng)和人工智能等技術的快速發(fā)展,大數(shù)據(jù)具有豐富價值與巨大潛力,推薦系統(tǒng)是利用好這些數(shù)據(jù)的有利工具,個性化推薦系統(tǒng)也將與生活中的方方面面相關聯(lián)。而隨著互聯(lián)網(wǎng)時代的發(fā)展,推薦系統(tǒng)中用戶規(guī)模及項目規(guī)模的迅速增長,這導致用戶—項目評分矩陣稀疏,新用戶和新項目會不斷的加入加入到系統(tǒng)中,冷啟動是推薦系統(tǒng)無法避免的問題。冷啟動問題能否被克服將嚴重影響用戶使用體驗,尤其在對時效性要求高的情況中如新聞推薦系統(tǒng),冷啟動問題能否被有效緩解對系統(tǒng)的可用性起著至關重要的作用。本文分析冷啟動問題產(chǎn)生的原因,以及個性化推薦系統(tǒng)中的冷啟動問題解決方法。隨著深度學習的發(fā)展,越來越多的方法被提出用于緩解冷啟動問題,知識圖譜等新的領域與推薦算法的結合也都帶來了新的思路。