趙海燕,成若瑤,陳慶奎,曹 健
1(上海理工大學 光電信息與計算機工程學院,上海市現代光學系統重點實驗室,光學儀器與系統教育部工程研究中心,上海 200093)2(上海交通大學 計算機科學與技術系,上海 200030)
E-mail:13223683653@163.com
在大數據時代中,能夠精準地找到有價值的信息是件困難的事情,而推薦系統(Recommender System,RS)正是人們解決信息過載的有力工具,它根據用戶的信息需求、興趣愛好等,幫助用戶進行信息過濾,將用戶感興趣的信息、產品等推薦給用戶[1].
隨著推薦技術的快速發(fā)展,個性化推薦系統正在不斷完善,并成功應用于各個領域,與我們的生活已經息息相關,比如電子商務、影音視頻、新聞資訊等等領域都存在著推薦系統的身影.個性化推薦系統是給個體用戶進行推薦.但是,在現實生活中人們可以根據不同的標準劃分成群組,例如,根據不同的興趣劃分出不同的學生團體,與此同時,人們也常常聚集在一起進行各種活動,比如家人一起看電視、朋友聚會等.在這些應用中,我們需要為群組進行推薦.
由于對群組進行推薦的需求日益增長,群組推薦系統(Group Recommender System,GRS)應運而生,它幫助群組快速篩選大量的信息,通過聚合群組成員的不同偏好,向群組推薦滿意的項目.群組推薦系統節(jié)約了群組決策的時間,減少了群組成員之間不必要的矛盾與沖突.
群組推薦系統與個性化推薦系統相比較,兩者之間存在共同點,例如均使用個性化推薦算法進行推薦,也存在很多區(qū)別.最基本的不同是推薦對象的不同,個性化推薦系統為個體用戶推薦,而群組推薦系統為群組推薦.在推薦步驟上也有不同,群組推薦系統加入融合群組成員偏好的步驟.個性化推薦系統只考慮用戶與項目之間的交互,而群組推薦系統不僅僅考慮用戶與項目之間的交互,還涉及用戶與用戶之間交互的建模.
群組推薦強調群組成員偏好的聚合.由于群組中每個成員之間的差異性較大,偏好各有不同,同時也有著不同的期望和愿望,因而,在偏好聚合的過程中,群組成員之間經常會發(fā)生沖突.在群組決策過程中,為了達成一致,每個成員都會不同程度地接受或拒絕其他成員的偏好需求[2].最后的推薦方案需要能夠盡量減少群組成員之間的沖突,提高成員共同的接受度.此外,群組是動態(tài)的、復雜的,群組成員會由于各種因素產生變動,用戶的偏好也會受到其他群組成員的影響,需要動態(tài)捕捉群組實時變化.這使得為群組進行推薦更加困難.
近年來,圍繞群組推薦的研究取得了不少研究成果.本文分析了群組推薦過程的特點和步驟,總結了目前群組推薦的模型和面臨的挑戰(zhàn),并對未來的發(fā)展方向進行了展望.
目前,大部分群組推薦系統的研究工作可以分為群組識別、信息獲取、融合策略、推薦算法和評價指標5個步驟.為了對群組進行推薦,首先需要識別出對應的群組,然后獲取群組成員的個人信息,再根據目標群組的特征,使用融合策略和推薦方法,生成對群組的推薦結果,最后,利用評價指標檢驗推薦系統的性能.總體而言,群組推薦的實現分為兩種技術路線[3],如圖1所示.
圖1 群組推薦的總體方法Fig.1 Overall process of group recommendation
一種是模型融合方法[3],即先融合偏好再推薦.通過融合策略將群組成員的偏好信息融合,生成群組的偏好模型,再采用推薦方法對群組進行推薦.模型融合容易受到評分稀疏性問題的影響.另一種則是推薦融合方法,即先推薦再融合.根據評分預測和Top-k推薦兩類問題,將推薦融合又分為列表融合和評分融合[3],都是先對群組中每個成員進行推薦,再利用融合策略將所有成員的推薦列表或者預測項目評分進行融合,生成群組的推薦結果.推薦融合有更高的靈活性,并且有利于推薦結果的解釋,但是缺乏新穎性,并且對大規(guī)模群組推薦效率低下.此外,融合方法的選擇直接影響了群組推薦的效果,有時模型融合方法的準確度優(yōu)于推薦融合,而有時推薦融合方法的準確度優(yōu)于模型融合方法.因此,需要針對不同的問題,合理選擇融合方法,使推薦效果更佳.
群組識別是群組推薦的第一個步驟,同時也是關鍵的一步.推薦的群組主要分為兩種,即實際群組和虛擬群組.對于實際群組進行推薦需要先判斷群組類別,匹配最適合的推薦方式.然而,當用戶需要加入群組并以群組的形式獲得推薦[3],或者當個體信息匱乏、為個體推薦工作量較大的情況下,也需要構建虛擬群組進行推薦.
群組之間存在顯著差別,如文獻[4]發(fā)現隨著群組規(guī)模增大,隨機群組會出現眾口難調的局面,導致推薦質量下降.相反,群組成員相似度高的群組隨著群組規(guī)模的增大推薦效果會變好.文獻[5]進一步證明了推薦系統性能與群組的凝聚性(群組偏好接近程度)有關.因此,對所有的群組均使用統一的推薦方法,必定會使推薦的效果大打折扣,所以判斷群組的類別很有必要,我們總結了群組的不同類別,如表1所示.
表1 群組分類表Table 1 Group classification
目前,群組發(fā)現一般通過人口統計學特征和社會關系構建虛擬群組[3],而對于相似的虛擬群組,經常使用相似度計算方法和聚類算法來構建.用于群組發(fā)現的聚類算法有基于劃分的方法[6],基于層次的方法[7],基于密度的方法[8]和基于圖論的方法[9]等.文獻[6]使用K-means聚類方法,根據用戶的個人評分,將相同項目評分相似的用戶分為同質群組,評分不同的用戶分為異質群組,實驗結果證明對同質群組的推薦效果比異質群組好.文獻[7]則采用自頂向下的子空間聚類,將目標用戶群分為五類,同時規(guī)定了生成群組的數量.文獻[8]針對基于密度聚類算法效率低下的問題進行了改進,通過改進的算法聚集相似用戶,構建相似群組,實驗結果證明組內相似度越高,推薦效果越好.文獻[9]則利用馬爾可夫聚類算法完成廣播電視用戶群組的發(fā)現工作,分別對收視時間和收視節(jié)目聚類,并將時間和節(jié)目屬性均相似的記錄歸為一類,并對同一類記錄有偏好的用戶歸為同一群組.
信息獲取是任何推薦中不可或缺的一部分,通過獲取用戶的屬性、搜索記錄、瀏覽記錄和評分等,我們可以進一步構建起群組的信息模型和偏好模型.信息獲取的方式可以分為:
1)顯式獲?。河脩糁鲃犹峁┬畔?,諸如用戶的年齡、性別等人口統計學特征信息和用戶對項目的評分、評價等偏好信息,這些信息能夠明確顯示用戶的個人情況和對物品的偏好程度.但是,用戶主動提供的信息數量可能較少.
2)隱式獲取:隱式獲取與顯式獲取相對,它不需要用戶主動提供信息,而是通過用戶的歷史行為數據挖掘用戶偏好.只要用戶的行為數據足夠多,就能夠準確地抽取用戶的偏好特征,并且有利于保護用戶隱私[3].
融合策略又稱為偏好融合策略,屬于群組推薦中獨具特色的部分,不同于個性化推薦,群組推薦需要協調群組中每個成員的意愿.融合策略分為普通融合策略和加權融合策略,如表2所示.
2.3.1 普通融合策略
普通融合策略是按照某一預定義的策略將用戶偏好或推薦結果聚合起來,其中平均策略(Averaging strategy)、最小痛苦策略(Least misery strategy)和最受尊敬者策略(One user choice strategy)的使用最為廣泛.然而,沒有最佳的、普遍適用的普通融合策略,群組推薦系統需要結合融合方法和推薦方法來選擇融合策略,并且上下文和應用領域也影響融合方法和策略的選擇[10].因此,文獻[11]將普通融合策略進行組合使用,利用該方法推薦的準確度會提高,但是相應地增長了運行時間.所以在不同的情形下,針對不同類型的群組,應該選擇合適的普通融合策略.
表2 融合策略表Table 2 Fusion strategy
2.3.2 加權融合策略
在同一群組中,不同成員的影響力是有差別的,加權融合策略為群組成員定義不同的權重,它又可以分為靜態(tài)加權融合策略和動態(tài)加權融合策略.
圖2 用戶在同一群組不同場景的權重圖Fig.2 Weights of users in different scenarios from the same group
靜態(tài)加權融合策略在群組推薦中廣泛使用,它根據用戶的人口統計學特征或者用戶對歷史項目的評分,計算用戶的權重.但是,靜態(tài)加權融合策略忽略了群組成員之間的交互和群組的動態(tài)性.此外,用戶的喜好也受其他因素影響而發(fā)生改變,同一個群組為不同的項目做決策時,用戶的權重可能發(fā)生改變,如圖2所示,用戶在不同群組中的權重也不一樣,如圖3所示.
圖3 用戶在不同群組的權重圖Fig.3 Weights of users in different groups
因此,動態(tài)加權融合策略考慮到群組成員之間的交互和用戶權重需要更新的要求,動態(tài)學習群組成員的權重變化,使群組推薦效果更好,但是也付出計算開銷方面的代價.目前,動態(tài)加權融合策略有納什均衡策略、遺傳算法、注意力機制和貝葉斯排序等.
1)納什均衡(Nash Equilibrium)策略:將博弈論的思想運用到偏好融合中,把群組決策看作群組成員之間的非合作博弈:每個成員不需要衡量其他成員的偏好而調整自己的偏好,將提高群組滿意度的問題看作是求納什均衡解的問題.研究實驗效果表明[6,12,13],納什均衡策略推薦的準確度、命中率、魯棒性和公平性都優(yōu)于普通融合策略,并且推薦結果的多樣性好.同時,納什均衡策略的結果也具有較好的穩(wěn)定性,即組內用戶偏好相似度降低時推薦效果不變.相比而言,普通融合策略在運行時間上更有優(yōu)勢,尤其是對大規(guī)模群組,納什均衡策略的運行時間會更長.文獻[12]將納什均衡策略搭配不同的融合方法使用,發(fā)現不論是使用模型融合方法還是推薦融合方法,納什均衡策略的推薦結果都比普通融合策略好.文獻[13]通過群組的納什均衡解了解群組成員的個人偏好,利用奇異值分解整合成員的個人偏好為群組偏好.并且針對運行時間較長的問題,提出了兩種剪枝方法(NashSkyline,Nash Skyband),通過去除群組成員意見不一致的決策,縮短了運行時間、提高了推薦效率,但是也付出了多樣性和公平性方面的代價.
2)遺傳算法(Genetic Algorithm,GA):通過模擬“物競天擇,適者生存”的自然進化過程,求解優(yōu)化問題.具體來說,遺傳算法將問題編碼為由染色體構成種群,一代代選擇、交叉、變異,進化出新的種群,最終得到最適應的種群,即問題的最優(yōu)解[14].遺傳算法也被用于學習群組成員之間的交互作用.群組推薦領域涉及遺傳算法的研究較少[14],文獻[14]根據群組的已知評分和成員的個人評分,通過遺傳算法學習群組成員之間的交互作用,預測群組對項目的評分.該方法將基因視為群組成員的權重,初始化群組,通過最小化適應度函數評估遺傳后代的優(yōu)劣程度.并對適應度函數值進行迭代求解,得到最優(yōu)解.采用輪盤賭方案選擇,單點交叉和0.01比特的突變率作為遺傳算子.由于遺傳算法不受已知群組評分數量的影響,可以解決群組評分稀疏的問題.
3)注意力機制(Attention Mechanism,AM):是深度神經網絡研究中的最新進展,主要思想是人們觀察物體時,傾向于關注物體的重要部分,忽略其他部分.在群組推薦中,將每個用戶表示為一個嵌入向量,應用注意力機制學習用戶在群組中的權重.注意力機制也可以使推薦結果具有可解釋性.目前,群組推薦存在不少涉及注意力機制方面的研究[15-18],文獻[15]提出了基于Mavens進行特征挖掘和BERT嵌入構成的群組模型,再運用注意力機制聚合生成群向量.通過注意力機制,每個成員都參與了群組決策,還能清晰地反映群組成員的影響.文獻[16]則利用由群組和用戶組成的雙層注意網絡,共同學習群組成員的重要性.當群組與不同項目互動時,群組成員的注意力權重會動態(tài)地調整.文獻[17]利用注意力機制,動態(tài)調整用戶在不同群組中的影響力,較好地解釋了群組決策的過程.文獻[18]采用自注意力機制獲取群組成員之間的相似關系,從群組成員和項目之間的交互中,自動學習每個群組成員的動態(tài)權重,同時聚合群組成員的偏好生成群組偏好.
4)排序學習算法:群組推薦問題可以描述為排序學習問題,它是利用機器學習技術解決排序問題的方法.從訓練的數據中自動為每個群組構建單獨的排序模型,并利用排序模型預測項目評分,但是此過程中訓練效率低下.為了解決這一問題,文獻[19]提出了一種基于學習排序算法的群體活動推薦框架,將上下文影響和成員偏好融入到群組中.提出貝葉斯群組排序算法,用于學習每個群組聚合模型的權重.該方法的結果優(yōu)于普通融合策略,可擴展性強,提高了推薦準確度.
推薦方法是群組推薦系統的核心,通常將傳統個性化推薦方法應用到群組推薦系統中,推薦算法既可以在模型融合方法中使用,也可以應用于推薦融合方法,但是搭配不同的融合方法使用,推薦效果會有差異.并且,不存在“總體最優(yōu)”的推薦算法和融合方法,兩者應該一起選擇以優(yōu)化群組推薦的質量[4].目前,經常使用的推薦方法有基于協同過濾的推薦、基于內容的推薦和組合推薦[1],下面詳細介紹這3種推薦方法.
2.4.1 基于協同過濾的推薦方法
協同過濾(Collaboration Filter,CF)推薦是推薦方法中的主流,它的主要思想是“物以類聚、人以群分”.協同過濾具有良好的可擴展性,但在存在數據稀疏問題和冷啟動問題時效果下降[1].協同過濾推薦又分為兩大類,即基于內存的協同過濾和基于模型的協同過濾.
2.4.1.1 基于內存的協同過濾
基于內存的協同過濾根據相似用戶或者項目的評分去預測未來的評分,又分為基于用戶的協同過濾(User-Based Collaboration Filter,UBCF)和基于項目的協同過濾(Item-Based Collaboration Filter,IBCF).由于傳統協同過濾計算相似度時,會受到用戶評分數據稀疏的影響,文獻[20]改進了基于用戶和項目的協同過濾中相似度的計算方法,利用用戶對項目共同評分的數目與用戶對項目評分總數目的關系(相似性影響因子)和用戶評分的關聯性(關聯性因子)來調整用戶之間的相似性,有效緩解了數據稀疏性造成的相似度計算不準確的問題,從而提高單個用戶預測評分的準確性.最后,使用推薦融合方法,將群組成員的推薦結果結合,生成群組推薦列表.
2.4.1.2 基于模型的協同過濾
基于模型的協同過濾推薦效果要優(yōu)于基于內存的協同過濾,表3總結了群組推薦中常用的基于模型的協同過濾方法.
基于主題模型(Topical Model,TM)的推薦方法在群組推薦中采用的是基于主題的概率模型,它通過群組主題,判斷用戶影響力,做出群組決策.文獻[21]提出個人影響主題概率模型(Personal Impact Topic,PIT),將用戶對項目的偏好抽象成許多潛在的主題.該模型學習群組成員的個人影響,區(qū)分群組成員對群組決策的不同影響,選擇最具影響力的用戶(最符合群組主題),將其決策代表群組決策.但是,該模型只有當最有影響力的用戶是相關領域的專家時,才有助于群組推薦.并且,PIT模型忽略了在不同主題中用戶影響力的不同.文獻[22]則考慮了群組中用戶對群組主題的依賴性和用戶從個人到群組成員的行為變化,提出一種基于隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)的共識模型(Consensus Model ,COM),模擬群組活動的的過程,加入用戶選擇行為和內容因素,實行群組推薦,但是該模型沒有考慮到用戶可能跨組做出決策.
表3 推薦模型Table 3 Recommendation model
矩陣分解(Matrix Factorization,MF)是典型的基于模型的協同過濾方法,利用降維的方法處理高維的數據.相比傳統的協同過濾方法,矩陣分解能夠緩解數據稀疏問題.隨著用戶項評分矩陣維數的不斷增加,群組推薦面臨著用戶評分數據稀疏的問題,因此,文獻[23]則提出一種按項目加權的矩陣分解模型,并與時間效應函數相結合.該算法容易獲得群組偏好,能夠很好地適應不同群體規(guī)模,并且對中小型群組有更好的推薦效果.文獻[24]提出一種基于Hellinger距離的社會信任關系提取方法,通過描述二分網絡中一側節(jié)點的f散度來進行用戶相似度計算.將提取的隱式社會關系加入改進的概率矩陣分解(Probabilistic Matrix Factorization,PMF)中,提出一種新的基于用戶組群和隱性社會關系的概率矩陣分解算法,提高了推薦的精確度,并且在無法提取明確用戶信任關系數據時,相對推薦效果更好.文獻[25]則采用聯合概率矩陣分解方法(Unified Probabilistic Matrix Factorization,UPMF),首先,利用用戶加入群組的信息,構建群組-用戶二部圖來計算用戶之間的相關性,再將用戶相關性矩陣融入到概率矩陣分解過程中,得到個人預測評分,最后對個人預測評分進行融合,得到群組對項目的預測評分.該模型提高了群組推薦的精度,較奇異值分解SVD和PMF有更好的準確度、召回率和穩(wěn)定性.
基于神經網絡的協同過濾(Neural Network-Based Collaborative Filtering,NCF)是深度學習在推薦系統中的應用,將用戶和項目嵌入到神經網絡中,從數據中學習用戶、群組和項目之間的交互.首先,給定用戶項目對和組項目對,通過表示層返回每個給定實體的嵌入向量.然后將嵌入的數據輸入到池化層和隱藏層中,得到預測的評分.由于神經網絡具有很強的數據擬合能力,所以NCF方法比MF更具通用性.文獻[16]在NCF框架中嵌入群組項目和用戶項目的復雜交互,并將群組嵌入與用戶嵌入共享同一個隱藏層進行預測.此外,利用用戶項交互數據來增強組項交互功能的訓練,反之亦然,使得群組推薦和用戶推薦的性能相互提高.文獻[18]提出了一種結合神經網絡和協同度量學習的推薦模型(Self-Attention and Collaborative Metric Learning,SACML),利用自我注意機制學習群組成員與項目之間的交互作用,自動了解群組成員的重要性.此外,通過協同度量學習獲得群組與項目之間的相似度量空間實現群組推薦.SACML模型學習了群組成員之間的相似關系,能夠更好地收集整個群組的興趣,將權重可視化,使推薦結果更具解釋性.
隱語義模型(Latent Factor Model,LFM)即潛在因素模型,它通過隱含特征聯系用戶興趣和項目,例如基于用戶的行為對項目自動聚類,劃分為不同的類別,即用戶的興趣.文獻[27]研究了群組信息對事件推薦的影響.基于群組的雙重視圖(用戶和事件),提出了一種潛在因素模型,并且模型靈活,可以將上下文信息,如事件地點、流行程度、時間影響和地理距離合并到模型中.
基于圖的推薦方法也很常見,使用圖模型的結點和邊表示用戶的信息和用戶之間的關系,使得推薦結果更具有解釋性.基于圖模型的推薦通常用于大規(guī)模群組的推薦.文獻[28]提出一種層次可視化群組推薦方法 (Hierarchy Visualization Group Recommender,HVGR),通過多層次的節(jié)點和邊組織和呈現信息,為推薦提供解釋.同時通過每個節(jié)點的餅圖將成員映射到切片中,了解個人影響力和社會關系.隨機游走(Random Walk)方法是基于圖模型中廣泛應用的方法.文獻[29]利用社會標簽,建立圖模型來反映用戶之間、項目之間以及用戶項目之間的各種關系,并提出一種將隨機游走與重啟相結合的隨機排序技術,可以有效地以概率的方式同時計算項目的群組排名評分.該方法適合為大規(guī)模群組推薦,當群組規(guī)模較小用戶偏好不足時,推薦效果會很差.文獻[30]提出一種描述學術網絡中大規(guī)模群組決策問題的圖模型,以專家為中心將大規(guī)模群組劃分為多個子網絡,根據用戶的相關性,采用基于重啟的隨機游走決策加權(RWR)技術計算用戶的加權決策,為研究人員提供更可靠的推薦.
2.4.2 基于內容的推薦方法
基于內容的推薦(Contentbased,CB) 是根據用戶偏好的項目,通過計算項目內容之間的相似性,推薦給用戶可能感興趣的項目.基于內容的推薦具有很強的可解釋性,不存在數據稀疏性問題.但是,推薦的內容過于一致,并且也存在冷啟動問題.文獻[31]引入GroupReM群組推薦系統,通過電影內容和群組簡介之間的相似性,以及電影的受歡迎程度,來提高群組推薦的準確性.
2.4.3 混合推薦模型方法
由于每一個單獨的推薦方法都有自身的局限性,為了使推薦效果更佳,將推薦方法混合,形成了混合推薦方法.混合推薦可以揚長避短,比如將基于內容的推薦與協同過濾結合,可以緩解協同過濾數據稀疏性問題.文獻[12]通過神經網絡中的多層感知器(Multilayer Perceptron,MLP)獲得用戶與項目之間的非線性交互,再結合潛在因素模型LFM,構成LFM-MLP混合推薦模型,它既能捕捉用戶與項目之間的線性關系,又能獲取用戶與項目之間的非線性關系.在相同的潛在因素數下,混合推薦模型LFM-MLP的推薦精度最高,并且隨著潛在因素的增多推薦效果越好.文獻[32]設計了一個考慮群組凝聚力的主題模型GGC.首先,將群組中積極參加活動的成員定義為積極者,其他成員為旁觀者.旁觀者較多的群組為弱內聚群組,否則為強內聚群組.其次,凝聚力強的群組傾向于選擇反映群組主題和多數群組成員意愿的項目.同時,使用一個包含關于實體和關系信息的異構信息網絡(Heterogeneous Information Network,HIN),提取額外的內容信息.并與GGC結合起來的構成混合群組推薦模型HGGC.實驗表明該模型適用于大規(guī)模群組推薦,緩解了群組推薦的數據稀疏性問題.
為了衡量群組推薦策略的性能,需要對其效果進行評價.下面介紹幾種衡量群組推薦系統性能時常用的評價指標.
2.5.1 推薦質量
一般采用平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)測量預測評級和真實評級之間的偏差,衡量推薦質量.MAE和RMSE指標數值越小,推薦項目和實際偏好項目之間的差異越小,即系統推薦質量越高.根據文獻[10],對于CB和UBCF推薦方法,使用模型融合方法的推薦質量更好,而SVD和IBCF更適合使用推薦融合方法.
評估群組推薦系統的多樣性使用漢明距離 (Hamming Distance,HD)[13],高HD意味著高多樣性.并且,推薦融合方法的多樣性比模型融合方法好,CF推薦方法產生了最多樣化的推薦,CB的多樣性最小,對于SVD、UBCF和CB,采用模型融合方法生成最多樣化的推薦,而IBCF更適合使用推薦融合方法生成多樣化的推薦[10].
2.5.2 覆蓋率
覆蓋率描述一個推薦系統對物品長尾的發(fā)掘能力.除了UBCF外的推薦方法,使用偏好融合方法的推薦覆蓋率略高于推薦融合方法,CB方法的覆蓋率最低,CF的覆蓋率最高,并且隨著組內相似度增加,覆蓋率通常不變[10].
2.5.3 公平性
公平性衡量群組推薦列表對群組成員的公平程度.Hongke Zhao等人[13]首先通過滿足增益計算用戶滿意度(Satisfaction Gain,SG).SG衡量一個群組G對推薦列表L的滿意度,見公式(1):
(1)
其中,Uj表示群組G中的成員,Ik是推薦列表L中的項目.R(j,k)則是Uj對Ik的評分.
在高滿意度情況下,采用諧波(Harmonic)衡量推薦列表L對群組G的公平性,見公式(2),如果諧波很高,則推薦對所有成員都公平.
(2)
文獻[33]將群組推薦的公平性問題描述為一個多目標優(yōu)化問題,并利用帕累托效率來同時提高群組推薦的準確度和公平性.文獻[34]研究了package-to-group推薦中的公平性問題,引入了兩個公平性定義:比例公平性和無嫉妒公平性.比例公平性指群組成員對于推薦列表中的項目比列表之外的項目更感興趣;無嫉妒公平性是判斷群組成員在推薦列表中感興趣的項目是否比其他成員多.但是目前并沒有一個統一的評價指標去判斷群組推薦的公平性,文獻[36]則提出一個能夠評價一般群組推薦公平性的評價指標,評價推薦列表S對于群組g的公平性,見公式(3):
(3)
其中,Tu表示用戶u參加的活動集合.更高Fairness指標表示更高的公平性.
目前,多數關于群組推薦系統的研究,采用的數據集分為以下3類:
1.爬取數據集
研究者從相關的網站上自行爬取與群組相關的數據集,并將數據進行處理,得到適用于實驗的群組數據集.文獻[35]從旅游社交網站TripAdvisor.com上,爬取餐飲領域真實的數據集,包括6269個評級,涉及到紐約60家餐館和1945名顧客.
2.群組公開數據集
目前適用于群組推薦系統的公開數據集并不多,主要有兩種:
1)CAMRa2011數據集(1)http://camrachallenge.com/2011.:上下文感知電影推薦競賽中發(fā)布的可公開訪問的數據集,包括用戶、群組、電影和用戶群組對電影的評分,其中群組以家庭為標準.文獻[16]對數據集中的用戶進行篩選,將沒有加入群組的用戶去除.最終的數據集包含602個用戶、290個群組、7710個項目、116344個用戶項交互和145068個組項交互,平均群組規(guī)模為2.08.
2)Meetup數據集(2)https://www.kaggle.com/sirpunch/meetups-data-from-meetupcom/data,2017.:是從社交網站Meetup.com上爬取的公開數據集,其中包含群組、活動、場地和群組用戶之間的交互等.文獻[18]使用的數據集包含5893887個用戶、16330個群組、2510個項目、3195246個用戶項交互和31214個組項交互,平均群組規(guī)模為685.
3.個體公開數據集
部分研究者使用個體公開數據集,生成虛擬群組,構成群組數據集.經常使用的個體推薦數據集很多,比如典型的Movielens數據集等.
群組推薦系統的發(fā)展雖然有一定的進展,但是在實際應用中依然面臨一系列挑戰(zhàn):
1.冷啟動問題
傳統個性化推薦系統中普遍存在的冷啟動問題,在群組推薦系統中也不可避免,而對于臨時群組和隨機群組冷啟動問題更加嚴重.文獻[27]從用戶和事件雙重角度考慮,建立群組信息的雙重視圖,對解決冷啟動問題有一定的幫助.
2.自然噪聲問題
用戶的評分由于上下文等因素引入噪聲,自然噪聲不是出于惡意引入的噪聲,它會使推薦結果產生偏差.群組推薦系統中的自然噪聲問題目前還很少被關注.文獻[37]提出了基于模糊工具的群組自然噪音管理方法.該方法使用模糊工具在噪聲檢測中將噪聲進行分類,在噪聲校正中對噪聲等級進行調整修改,一定程度上消除了自然噪聲產生的影響.但是,自然噪聲問題仍然需要繼續(xù)研究.
3.群組決策不一致問題
由于群組成員的偏好不同,容易出現群組決策不一致(Group decision making,GDM)的問題,這是群組推薦中的難題.研究人員對群組決策不一致的問題進行了一定的探索,通過定義群組共識度和和諧度指標來判斷群組成員滿意度,并建立群組信任機制,解決群組決策不一致問題.文獻[38]在此基礎上進行了改進,定義區(qū)間值信任函數,將群組成員的態(tài)度分為信任、不信任、猶豫不決和反復無常,并且建立視覺圖形模擬共識情形,使專家們重新審視自身影響力,隨時調整決策.然而,該方法中忽略了影響信任關系的其他因素,如歷史互動和專家聲譽.文獻[39]提出不同的群組成員態(tài)度的劃分方法,分為可信的專家和不一致的專家,根據可信專家的建議,群組成員可以重新審視自己的評價,并且調整不一致專家的態(tài)度參數,同時提出態(tài)度信任誘導反饋機制,該方法比傳統的不考慮信任度分級的反饋機制更為合理,實現了共識與和諧之間的平衡.然而,該方法中沒有考慮社會網絡中的信任關系.群組決策不一致問題仍需繼續(xù)探索與研究.
4.隱私問題
隱私保護一直是推薦系統研究的熱點,群組推薦過程中也存在泄露用戶個人信息的問題,因此,對于群組成員的隱私保護也很關鍵.文獻[40]提出一種基于影響因素IF的MSNs隱私保護群組推薦(IFRG),運用模糊矩陣算法在保護群組用戶的隱私方面進行了探索,并且即使不是每個人均在線的情況下,也能實現具有隱私保護的群組推薦.文獻[41]提出一種基于可信客戶端的個性化隱私保護框架和基于此框架的群組敏感偏好保護方法,它利用用戶敏感主題的相似性發(fā)現組內相似用戶,使用群組內相似用戶的評分對目標用戶評分進行協同擾動的方式來保護用戶隱私,然而,該方法中忽略了在數據傳輸過程中可能存在隱私泄露的風險.群組推薦中如何進行隱私保護仍然是未來的研究方向.
5.多樣性問題
群組成員的偏好聚合會導致用戶信息的部分丟失,對推薦的多樣性產生負面影響.為了優(yōu)化群組推薦系統,文獻[26]對比了3種融合方法,即偏好融合、推薦融合和不融合直接推薦,發(fā)現不進行聚合直接生成群組推薦最適合生成多樣化的推薦列表,因此,提出了模糊集群組推薦模型(Hesitant Fuzzy Set Group Recommender Model,HFSGRM),根據最近鄰域的相似性直接進行預測,使用模糊集合生成群組推薦,解決了由于聚集導致的關鍵信息丟失的問題,保證了群組推薦的多樣性,隨著群組規(guī)模增大多樣性可以得到進一步增強.但是,該模型只適用于協同過濾推薦方法.如何兼顧多樣性和群組一致性依舊是一個挑戰(zhàn)性問題.
6.大規(guī)模群組推薦問題
針對大規(guī)模群組的推薦一直以來都很棘手,由于群組用戶數量較多,導致大規(guī)模群組推薦的效率偏低,推薦準確性較差.由于推薦列表的規(guī)模隨著群組成員的增多而增大,文獻[42]提出一種縮小群組推薦列表的方法,它基于群組成員的共同偏好,將群組劃分為多個子組縮小群組規(guī)模,減少了群組偏好屬性的數量,從而達到縮小群組推薦列表的目的,當群組規(guī)模越大時,該方法的推薦效果越好,然而,該算法的復雜度較高,計算效率低下.如何針對大規(guī)模群組進行高效的推薦是一個需要研究的問題.
1.研究能夠普遍適用的群組推薦方法
目前,由于沒有普遍適用的群組推薦系統,需要依據不同群組的特點和上下文信息,動態(tài)選擇推薦方案.雖然這樣的群組推薦系統針對性降低,但是能夠為不同的群組匹配最佳的推薦模式.對于一個新的問題,需要較長時間的去探索最合適的模型,也可以將多個模型同時運行,對其結果進行融合,但是這種方法將帶來顯著的開銷.為此,需要針對不同的群組類型、不同的應用場景,建立起群組推薦算法的適用范圍,以指導群組推薦的方法選擇.
2.實現群組的實時推薦
由于群組的動態(tài)性,群組的偏好也會隨時間、地點和情緒等發(fā)生改變,未來可以運用大數據技術掌握群組的實時信息和偏好的變化,將大數據與推薦算法結合[43],滿足群組用戶實時在線推薦的需求[16].
3.更優(yōu)的群組偏好融合模型
目前群組偏好的融合考慮的因素還比較少,未來可以在研究中加入用戶的個人情感因素和群組成員之間的信任關系[39]等信息,從而能夠融合生成更加具有代表性的群組偏好模型.
4.推薦方案的生成過程優(yōu)化
針對群組意見不一致的問題,可以先聚集群組中相似度高的部分成員構成子組,使用偏好融合方法構成子組的偏好模型,再對不同的子組使用推薦融合方法,將不同子組的推薦列表融合成群組的推薦列表.或者對群組進行更細致的劃分,將興趣愛好相似的成員分成一個子組,提供給各個子組不同的推薦方案,為不同子組提供不同的選擇.
5.增強群組推薦的可解釋性
群組推薦的可解釋性開始引起研究者的關注[44],在實際應用中也有很大價值,然而,群組推薦的可解釋性具有更大的挑戰(zhàn),它需要解釋如何得到群組的偏好信息,或者如何融合了每個成員的推薦結果.未來可以研究運用可視化技術對群組推薦進行解釋.
6.群組推薦與個性化推薦的融合發(fā)展
由于群組推薦是在傳統個性化推薦系統發(fā)展的基礎上提出的,探究傳統個性化推薦與群組推薦之間的聯系,將更多傳統個性化推薦的研究成果應用于群組推薦中,同時群組推薦的研究成果也有助于解決傳統個性化推薦系統中的問題.此外,從群組與個人的關系入手,關注隱式群組的發(fā)現.例如,由于用戶的社會角色,個體用戶會代表整個群組的需求,此時會出現對個體用戶進行群組推薦的模式.
群組推薦是推薦系統中的一種重要形式,吸引了研究者的廣泛興趣,被應用于餐飲、音樂、影視、旅行、商品、興趣點、教育推薦等領域.關于群組推薦系統的研究已經有了一定的發(fā)展.本文對群組推薦系統的推薦過程和方法進行了系統總結與歸納.由于群組的異構性、動態(tài)性、群組成員興趣的差別以及不同成員對群組的交互影響,使得群組推薦系統依舊面臨許多技術挑戰(zhàn),需要進一步的研究.