廖國瓊 ,藍(lán)天明 ,黃曉梅 ,陳 輝 ,萬常選 ,劉德喜 ,劉喜平
1(江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,江西 南昌 330013)
2(江西省高校數(shù)據(jù)與知識(shí)工程重點(diǎn)實(shí)驗(yàn)室(江西財(cái)經(jīng)大學(xué)),江西 南昌 330013)
3(武夷學(xué)院,福建 南平 354300)
4(江西財(cái)經(jīng)大學(xué) 軟件與物聯(lián)網(wǎng)工程學(xué)院,江西 南昌 330013)
近年來,隨著信息技術(shù)的發(fā)展,基于事件社會(huì)網(wǎng)絡(luò)(event-based social network,簡稱EBSN)[1],如 Douban Events、Meetup、Plancast 等,為人們在線上與線下同時(shí)交互提供了便捷方式.通過這些平臺(tái),用戶既可以根據(jù)個(gè)人愛好加入不同線上興趣組,也可以發(fā)布并主持和參加感興趣的各種事件(如音樂會(huì)、體育活動(dòng)、聚會(huì)、學(xué)術(shù)會(huì)議等).不同于其他社會(huì)網(wǎng)絡(luò),ESBN 包含兩種互動(dòng)方式:線上互動(dòng)和線下互動(dòng).線上互動(dòng)是指用戶可以通過線上網(wǎng)絡(luò)進(jìn)行溝通;線下互動(dòng)是用戶在特定時(shí)間和地點(diǎn)參加線下事件,進(jìn)行面對面交流.因此,EBSN 充當(dāng)了虛擬世界和現(xiàn)實(shí)世界之間的橋梁,有效地增強(qiáng)了用戶的互動(dòng)交流.
EBSN 每天都會(huì)產(chǎn)生大量新事件和新興趣組,目前已擁有大量用戶且在快速增長.例如,截至2019 年11 月,Meetup 已有超過4 000 萬用戶和32 萬興趣組,每月舉辦的事件超過300 萬.對于事件組織者而言,其希望參與事件的人數(shù)越多越好,而對于用戶而言,他們希望認(rèn)識(shí)更多的朋友、增強(qiáng)事件體驗(yàn).然而,面對EBSN 中的海量信息,用戶越來越難以發(fā)現(xiàn)他們喜好的事件和興趣組,因此,研究EBSN 推薦系統(tǒng)具有重要研究意義和應(yīng)用前景.
國內(nèi)外許多重要研究機(jī)構(gòu)與高校的研究者們對EBSN 進(jìn)行了研究,獲得了許多研究成果,發(fā)表在多個(gè)重要領(lǐng)域的國際學(xué)術(shù)會(huì)議和期刊.本文根據(jù)最近研究對EBSN 推薦系統(tǒng)進(jìn)行了綜述:第1 節(jié)概述EBSN 的定義、結(jié)構(gòu)、屬性和特征.第2 節(jié)介紹EBSN 推薦系統(tǒng)的基本框架,以及與其他推薦系統(tǒng)的區(qū)別.第3 節(jié)對EBSN 推薦系統(tǒng)的推薦方法和內(nèi)容進(jìn)行總結(jié)和對比分析.第4 節(jié)分析EBSN 推薦系統(tǒng)的研究難點(diǎn)及發(fā)展趨勢.第5 節(jié)總結(jié)全文工作.
Liu 等人[1]最早提出EBSN 的概念,其形式化描述為:EBSN 是一個(gè)異構(gòu)網(wǎng)絡(luò)G=〈U,Aon,Aoff〉,其中,U表示具有n個(gè)用戶的集合,Aon表示線上社交關(guān)系的集合,Aoff表示線下社交關(guān)系的集合.EBSN 可分為線上社交網(wǎng)絡(luò)Gon=〈U,Aon〉和線下社交網(wǎng)絡(luò)Goff=〈U,Aoff〉兩部分.
圖1 為常見的EBSN 網(wǎng)絡(luò)結(jié)構(gòu).EBSN 中存在多種社會(huì)關(guān)系,包括用戶參與興趣組關(guān)系、用戶參與事件關(guān)系、事件與舉辦地點(diǎn)關(guān)系等.用戶加入線上興趣組形成了線上網(wǎng)絡(luò)(online network),用戶參加事件則形成了線下網(wǎng)絡(luò)(offline network).
Fig.1 EBSN network structure圖1 EBSN 網(wǎng)絡(luò)結(jié)構(gòu)
EBSN 中的實(shí)體主要有用戶、標(biāo)簽、興趣組、事件、位置、事件組織者等.與其他社會(huì)網(wǎng)絡(luò)(social network)如Facebook、Twitter 等相比,EBSN 具有以下獨(dú)特特征.
(1) 顯式偏好缺失.在EBSN 中,通常未提供顯式用戶偏好信息,但會(huì)提供用戶表達(dá)參與意愿的選項(xiàng).如Meetup 中,用戶通過回復(fù)RSVP(一種選擇機(jī)制)表明是否將會(huì)參與一個(gè)事件.由于選擇“正”的用戶比選擇“負(fù)”或未回答的用戶更有可能參加事件,故已有研究大多用RSVP 回復(fù)“正”的用戶代表其參與了事件.Macedo 等人[2]分析了Meetup 中事件的RSVP 分布情況,統(tǒng)計(jì)數(shù)據(jù)顯示:超過45%的事件最多有1 個(gè)RSVP,大約90%的事件最多有10 個(gè)RSVP.因此,回復(fù)了“RSVP”的用戶數(shù)量不多,這使大多數(shù)傳統(tǒng)推薦算法不適用于EBSN 推薦.
(2) 事件和興趣組參與呈重尾分布.Liu 等人[1]通過對2011 年10 月~2012 年1 月Meetup 中的數(shù)據(jù)分析,發(fā)現(xiàn)用戶參與事件和興趣組都呈現(xiàn)重尾分布.這說明大多數(shù)事件只有少數(shù)參與者,但也存在具有大量參與者的事件.同樣,盡管大多數(shù)興趣組規(guī)模較小,但在Meetup 數(shù)據(jù)集中也存在大型興趣組.
(3) 事件發(fā)生呈現(xiàn)時(shí)空規(guī)律性.Liu 等人[1]通過數(shù)據(jù)分析發(fā)現(xiàn),社會(huì)事件發(fā)生表現(xiàn)出規(guī)律的時(shí)空模式.例如:通常在工作日的下午14 點(diǎn)左右會(huì)舉辦相對較多數(shù)量的事件,到晚上8 點(diǎn)發(fā)生的事件數(shù)達(dá)到一天的最大值;周末的事件在全天分布相對均勻;事件主要發(fā)生在城市地區(qū)等等.
(4) 事件參與地理依賴性.Macedo 等人[2]描繪了Meetup 中用戶家庭位置與事件發(fā)生位置之間的距離分布,發(fā)現(xiàn)大約50%的用戶為距離其家庭位置10km 范圍內(nèi)的事件提供了正RSVP,但未向距離其家庭位置100km 以外的事件提供RSVP.Liu 等人[1]觀察到,用戶參與的事件中有81.93%發(fā)生在其家庭位置10 英里范圍內(nèi),表明用戶傾向于參加其家庭位置附近的事件而不是更遠(yuǎn)的事件.
(5) 事件生命周期短.事件的生命周期為事件創(chuàng)建到其結(jié)束之間的時(shí)間段.事件推薦僅在事件創(chuàng)建之后到事件開始之前有效.Macedo 等人[2]發(fā)現(xiàn),大多數(shù)事件的生命周期為5~100 天.這意味著雖然一小部分事件的生命周期非常短(1 天),但大多數(shù)事件的發(fā)生時(shí)間足以讓用戶發(fā)現(xiàn)或引起他們的注意.
(6) 用戶表達(dá)參與意愿呈現(xiàn)時(shí)間規(guī)律性.在事件的生命周期中,用戶表達(dá)參與意愿呈現(xiàn)時(shí)間規(guī)律性.越接近事件的發(fā)生時(shí)間,則該事件接收的用戶參與意愿越多.Macedo 等人[2]發(fā)現(xiàn):在生命時(shí)間超過100 天的事件中,在事件最后的20%生命階段中,所有正RSVP 的提供超過80%,即大多數(shù)RSVP 的提供時(shí)間接近事件的發(fā)生時(shí)間.
(7) 線上網(wǎng)絡(luò)結(jié)構(gòu)密集.Liu 等人[1]發(fā)現(xiàn):EBSN 的線上網(wǎng)絡(luò)比線下網(wǎng)絡(luò)更為密集,具體表現(xiàn)為線上網(wǎng)絡(luò)具有較大的強(qiáng)連通分量、較高的聚類系數(shù)和較低的平均分離度.其原因是,用戶參與線上網(wǎng)絡(luò)的人數(shù)多于實(shí)際參與社會(huì)事件的人數(shù).
這些特征給EBSN 推薦系統(tǒng)帶來了一些挑戰(zhàn),主要有:
(1) 冷啟動(dòng)問題.冷啟動(dòng)問題是推薦系統(tǒng)面臨的一個(gè)挑戰(zhàn).推薦系統(tǒng)需要根據(jù)用戶的歷史信息預(yù)測用戶未來的行為,因此需要用戶的大量歷史數(shù)據(jù).而對新用戶和新項(xiàng)目來說,沒有相應(yīng)的歷史評(píng)分?jǐn)?shù)據(jù),這導(dǎo)致用戶與用戶、項(xiàng)目與項(xiàng)目之間無法計(jì)算相似性,從而無法預(yù)測評(píng)分,無法獲取新用戶、新項(xiàng)目的推薦結(jié)果.由于EBSN 中顯式偏好缺失,用戶幾乎不對參與過的事件評(píng)分;而且ESBN 推薦的事件是在未來時(shí)間發(fā)生,在事件發(fā)生前沒有任何用戶參與及評(píng)價(jià)信息.同時(shí),EBSN 中用戶表達(dá)參與意愿的發(fā)生呈現(xiàn)時(shí)間規(guī)律性,即大多數(shù)用戶的參與意愿提供時(shí)間接近事件的發(fā)生時(shí)間,這使得EBSN 推薦系統(tǒng)難以使用這部分信息.因此,EBSN 推薦系統(tǒng)面臨的冷啟動(dòng)問題尤為嚴(yán)重.
(2) 數(shù)據(jù)稀疏問題.數(shù)據(jù)稀疏是推薦系統(tǒng)面臨的另一個(gè)重大挑戰(zhàn),指用戶的評(píng)分?jǐn)?shù)量在評(píng)分矩陣中所占的比例過小,這會(huì)導(dǎo)致非常差的推薦質(zhì)量.EBSN 中,事件和興趣組參與呈重尾分布,即大多數(shù)事件和興趣組只有少數(shù)參與者;同時(shí),EBSN 中表達(dá)了參與意愿的用戶數(shù)量非常少.因此,EBSN 推薦系統(tǒng)面臨的數(shù)據(jù)稀疏問題更突出.
(3) 準(zhǔn)確獲取用戶偏好問題.EBSN 中包含豐富的上下文信息,這些信息從不同側(cè)面、不同角度直接或間接反映及影響用戶偏好,因此它們是獲取用戶偏好和推薦生成的基礎(chǔ).同時(shí),這些信息表現(xiàn)形式復(fù)雜多元,如事件描述信息、EBSN 網(wǎng)絡(luò)結(jié)構(gòu)、用戶評(píng)論、數(shù)值、地理坐標(biāo)、圖片等.利用向量表示這些信息時(shí),通常具有較高維數(shù).如何融合這些信息以準(zhǔn)確獲取用戶偏好,是EBSN 推薦系統(tǒng)面臨的又一重大挑戰(zhàn).
因此,有必要為EBSN 推薦系統(tǒng)研究新的方法和策略,以滿足不同需要.
EBSN 推薦系統(tǒng)的框架主要包括3 層:數(shù)據(jù)采集層、數(shù)據(jù)處理層和推薦生成層.如圖2 所示.
1)數(shù)據(jù)采集層.數(shù)據(jù)采集層獲取被推薦對象的各種相關(guān)信息,為EBSN 推薦系統(tǒng)提供數(shù)據(jù)來源.采集的信息主要包括用戶信息、事件信息、興趣組信息、用戶參與事件信息和用戶參與興趣組信息等.
2)數(shù)據(jù)處理層.數(shù)據(jù)處理層負(fù)責(zé)對采集到的數(shù)據(jù)進(jìn)行預(yù)處理,主要包括上下文信息提取與融合、顯式與隱式反饋數(shù)據(jù)獲取、用戶偏好獲取、群組識(shí)別和群組偏好獲取等,為推薦生成層提供依據(jù)和支撐.
3)推薦生成層.推薦生成層利用不同的推薦生成算法得到推薦結(jié)果.EBSN 推薦系統(tǒng)中常用的推薦生成方法有基于內(nèi)容的推薦生成方法、上下文感知推薦生成方法、基于因子分解的推薦生成方法、基于圖模型的推薦生成方法、基于概率模型的推薦生成方法、基于深度學(xué)習(xí)的推薦生成方法、基于啟發(fā)式算法推薦生成方法和混合推薦生成方法.
Fig.2 Framework of the EBSN recommendation system圖2 EBSN 推薦系統(tǒng)的框架
推薦系統(tǒng)目前已經(jīng)在各個(gè)領(lǐng)域中被用于解決信息過載問題,通常需要結(jié)合用戶的歷史偏好信息向用戶推薦其可能喜歡的項(xiàng)目.推薦方法是推薦系統(tǒng)中最核心、最關(guān)鍵的部分,在很大程度上決定了推薦系統(tǒng)的性能.
(1) 傳統(tǒng)推薦系統(tǒng)
Jannach 等人[3]將傳統(tǒng)推薦系統(tǒng)分為基于協(xié)同過濾的推薦系統(tǒng)、基于內(nèi)容的推薦系統(tǒng)、基于知識(shí)的推薦系統(tǒng)和混合推薦系統(tǒng).
· 基于協(xié)同過濾的推薦系統(tǒng)找出與被推薦用戶具有相似偏好的其他用戶喜好的項(xiàng)目,或找出與被推薦用戶喜好的項(xiàng)目相似的項(xiàng)目并推薦.
· 基于內(nèi)容的推薦系統(tǒng)在推薦過程中首先需要定義項(xiàng)目的相關(guān)內(nèi)容特征,然后基于被推薦用戶喜好的項(xiàng)目特征提取用戶的偏好特征,并推薦與用戶偏好特征相似的項(xiàng)目.
· 基于知識(shí)的推薦系統(tǒng)需要和用戶進(jìn)行多輪會(huì)話,從每一輪會(huì)話中直接獲取用戶需求,在互動(dòng)過程中,結(jié)合用戶需求篩選出候選項(xiàng)中用戶感興趣的項(xiàng)目.
· 混合推薦系統(tǒng)在推薦過程中采用了多種算法,通過結(jié)合不同算法的長處,避免或克服其短處,獲得更高效的推薦結(jié)果.
(2) 社會(huì)化推薦系統(tǒng)
近年來,結(jié)合社會(huì)化信息的推薦系統(tǒng)引起了更多研究者的注意.社會(huì)化推薦系統(tǒng)通過挖掘社交關(guān)系獲取社會(huì)化信息[4],結(jié)合社會(huì)化信息與用戶基本信息,將社會(huì)化信息作為一種輔助信息提高推薦效果[5].由于添加了多種社會(huì)化信息的特性,能獲取到更準(zhǔn)確的用戶偏好,因此,社會(huì)化推薦能更高效的解決推薦系統(tǒng)中的常見難題,如冷啟動(dòng)、數(shù)據(jù)稀疏等.
(3) 基于位置的社會(huì)網(wǎng)絡(luò)推薦系統(tǒng)
基于位置的社會(huì)網(wǎng)絡(luò)(location-based social network,簡稱LBSN)是一個(gè)具有3 層結(jié)構(gòu)的異構(gòu)網(wǎng)絡(luò),包括地理位置層、社會(huì)關(guān)系層和媒體內(nèi)容層[6].LBSN 中有豐富的信息,如用戶、位置、時(shí)間、用戶簽到和社會(huì)關(guān)系、評(píng)價(jià)等信息.推薦系統(tǒng)利用LBSN 中豐富的信息,有針對性地向用戶推薦其感興趣的地點(diǎn)、朋友、路徑和社會(huì)活動(dòng)等,以提高用戶的使用體驗(yàn)和活躍性.LBSN 推薦系統(tǒng)通常包括位置推薦、路徑推薦、朋友推薦、社會(huì)活動(dòng)推薦、鏈接預(yù)測等功能[7].
(4) 與其他推薦系統(tǒng)的區(qū)別
EBSN 推薦系統(tǒng)是目前主動(dòng)為用戶提供各種服務(wù)信息的技術(shù)之一,它需要滿足用戶的事件推薦、群組推薦和朋友推薦等服務(wù)的基本需求,具有社會(huì)化推薦系統(tǒng)的基本特點(diǎn),與LBSN 推薦系統(tǒng)有相似的異構(gòu)社會(huì)網(wǎng)絡(luò)關(guān)系等.表1 列出了基于事件社會(huì)網(wǎng)絡(luò)推薦系統(tǒng)與其他推薦系統(tǒng)在原始數(shù)據(jù)收集、用戶偏好獲取、推薦生成、推薦目標(biāo)和被推薦對象等方面的異同點(diǎn).
Table 1 Comparison of the EBSN recommendation system with other recommendation systems表1 EBSN 推薦系統(tǒng)與其他推薦系統(tǒng)的對比
EBSN 推薦系統(tǒng)中,推薦目標(biāo)與被推薦對象之間存在復(fù)雜的關(guān)系.借助于事件的描述內(nèi)容、用戶的社會(huì)關(guān)系等上下文信息,EBSN 推薦系統(tǒng)可以獲取更準(zhǔn)確的用戶偏好,從而獲得更準(zhǔn)確的推薦結(jié)果.本文總結(jié)現(xiàn)有EBSN推薦系統(tǒng)的推薦方法主要包括8 種:基于內(nèi)容的推薦方法、上下文感知推薦方法、基于因子分解的推薦方法、基于圖模型的推薦方法、基于概率模型的推薦方法、基于深度學(xué)習(xí)的推薦方法、基于啟發(fā)式算法的推薦方法和混合推薦方法.與傳統(tǒng)推薦系統(tǒng)相比,EBSN 推薦系統(tǒng)具有更多推薦內(nèi)容.本文依據(jù)推薦內(nèi)容將EBSN 推薦系統(tǒng)分為事件推薦、群組推薦、事件安排、參與者預(yù)測、聯(lián)合推薦、朋友推薦、場地推薦這7 種.
在EBSN 推薦系統(tǒng)中,基于內(nèi)容的推薦方法通過事件描述建立事件特征,通過分析用戶參與事件的描述信息獲得用戶偏好特征,通過計(jì)算事件描述特征和用戶偏好特征的相似度獲得用戶感興趣的事件進(jìn)行推薦.
Yin 等人[8]將用戶、事件、位置、時(shí)間和文本內(nèi)容之間的關(guān)系嵌入到共享的低維向量中,獲得用戶和事件在相同的低維空間中的特征向量.根據(jù)特征向量計(jì)算目標(biāo)用戶對推薦事件的偏好、合作伙伴對事件的偏好,同時(shí)結(jié)合目標(biāo)用戶與推薦合作伙伴之間的社交關(guān)系親密度,向用戶推薦事件-合作伙伴對.目標(biāo)用戶對合作伙伴事件對的偏好計(jì)算公式如下:
其中,u,u′,e分別是目標(biāo)用戶、被推薦合作伙伴和被推薦事件,其特征向量分別是是偏差.
Zhang 等人[9]使用Latent Dirichlet Allocation(LDA)[10]提取每個(gè)事件的主題分布,根據(jù)用戶的歷史參與信息提取用戶的主題分布,然后計(jì)算事件和用戶的主題分布的相似性,從中選擇具有高相似度的事件進(jìn)行推薦.
Wang 等人[11]采用前饋神經(jīng)網(wǎng)絡(luò)將事件的內(nèi)容描述、發(fā)生地點(diǎn)和發(fā)生時(shí)間嵌入到低維向量中,以表示事件的潛在特征,然后根據(jù)用戶的歷史行為學(xué)習(xí)用戶的偏好特征向量,最后計(jì)算用戶的偏好特征向量和事件特征向量的相似度,推薦相似度最高的前n個(gè)事件.
基于內(nèi)容的推薦方法結(jié)合事件的內(nèi)容描述、地點(diǎn)位置、時(shí)間等提取事件的特征,通過用戶的歷史參與信息獲取用戶的偏好特征,能獲取更準(zhǔn)確的用戶偏好.推薦結(jié)果根據(jù)被推薦用戶的興趣偏好產(chǎn)生,因此,不會(huì)因?yàn)閿?shù)據(jù)稀疏無法產(chǎn)生推薦結(jié)果,能解決新事件的冷啟動(dòng)問題.但是推薦結(jié)果只根據(jù)用戶的歷史喜好產(chǎn)生,推薦結(jié)果基本與用戶歷史偏好相似.因?yàn)樾掠脩魶]有歷史喜好,所以該方法無法為新用戶產(chǎn)生推薦結(jié)果.
EBSN 推薦系統(tǒng)中,要推薦的事件都是即將發(fā)生的,不含任何用戶的參與信息,故存在事件冷啟動(dòng)問題.通過引入上下文信息,可有效解決該問題.EBSN 中雖然缺乏用戶的顯式反饋信息,但包含多種上下文信息,如事件主題、內(nèi)容描述、舉辦時(shí)間、舉辦場地、用戶社會(huì)關(guān)系等.上下文感知推薦方法首先結(jié)合這些上下文信息從用戶參加的歷史事件集合中提取用戶對事件的偏好,如用戶的事件主題偏好、用戶的事件描述內(nèi)容偏好、用戶的事件舉辦時(shí)間偏好和用戶的事件舉辦場地偏好等,獲得這些偏好后,直接融合或使用矩陣分解等方法融合,得到用戶偏好,然后依據(jù)用戶偏好獲取被推薦對象,最后對被推薦對象排序或使用BPR[12]等方法優(yōu)化排序獲取推薦列表.由于結(jié)合上下文信息能從多個(gè)角度獲得用戶更全面準(zhǔn)確的偏好,因此可以幫助用戶從海量資源中獲取滿足其自身需要的信息.上下文感知推薦方法是應(yīng)用于EBSN 推薦系統(tǒng)中的一種高效的推薦方法.
在傳統(tǒng)推薦系統(tǒng)中,用戶對項(xiàng)目的評(píng)分模型可以表示如下:
上下文感知推薦方法將其擴(kuò)展為包含多種上下文信息的多維評(píng)分模型,如:
或者,
其中,D1,D2,…,Dn代表維度,用戶對項(xiàng)目的評(píng)分函數(shù)被定義為空間D1×…×Dn上的函數(shù).
在EBSN 推薦系統(tǒng)中,結(jié)合上下文進(jìn)行推薦已有大量的研究,如文獻(xiàn)[13-24]等.
Macedo 等人[13]利用了上下文信息T,S,C,V:T為時(shí)間信息,計(jì)算用戶的時(shí)間偏好和事件發(fā)生時(shí)間的余弦相似度作為在上下文T中用戶對事件的評(píng)分;S為用戶的社會(huì)關(guān)系信息,計(jì)算用戶所在群組成員共同參與事件的頻率作為在上下文S中用戶對事件的評(píng)分;C為事件描述內(nèi)容的信息,計(jì)算事件描述內(nèi)容和用戶的內(nèi)容偏好之間的相似度作為用戶在上下文C中用戶對事件的評(píng)分;V為地理位置信息,計(jì)算事件發(fā)生地點(diǎn)和用戶的地點(diǎn)偏好之間的距離作為在上下文V中用戶對事件的評(píng)分.將這些評(píng)分結(jié)合起來學(xué)習(xí)進(jìn)行事件推薦,評(píng)分公式如下:
給定目標(biāo)用戶u∈U和上下文信息t∈T,s∈S,c∈C,v∈V,使用列表學(xué)習(xí)方法Coordinate Ascent 學(xué)習(xí)獲取前n個(gè)事件推薦,獲取公式如下:
其中,n表示要推薦的事件數(shù),Eu表示用戶過去參加過的事件集.
Wang 等人[18]在推薦中結(jié)合了其他社交網(wǎng)絡(luò)的信息,該信息表示事件組織者的社會(huì)影響,同時(shí)考慮了群組成員之間的互動(dòng).作者結(jié)合時(shí)間、位置、內(nèi)容、事件組織者影響和群組成員影響等5 種上下文信息獲取用戶對事件的評(píng)分,并使用如下融合模型來計(jì)算用戶-事件對(u,e)的總體推薦得分:
其中,S′=[St(u,e),Sv(u,e),Sc(u,e),Sh(u,e),Sm(u,e)].公式(7)中,5 個(gè)評(píng)分分別對應(yīng)用戶考慮時(shí)間、位置、內(nèi)容、事件組織者影響和群組成員影響時(shí)對事件的評(píng)分,W=[wt,wv,wc,wh,wm]是5 個(gè)評(píng)分的權(quán)重向量.
文獻(xiàn)[14-17,19-24]分別結(jié)合了不同的上下文信息(如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、事件組織者、事件描述內(nèi)容)、時(shí)空信息、用戶的社會(huì)關(guān)系和社交媒體中用戶的帖子內(nèi)容等,獲取用戶對事件的偏好.Trinh 等人[25]結(jié)合了事件內(nèi)容、時(shí)空信息和用戶偏好,向關(guān)鍵用戶的活躍朋友推薦事件.Ding 等人[26]結(jié)合了用戶社會(huì)關(guān)系、時(shí)間偏好、位置偏好、用戶活躍程度預(yù)測新事件中的參與用戶.
上下文感知推薦方法結(jié)合豐富的上下文信息獲得更準(zhǔn)確的用戶偏好,因此能提高推薦準(zhǔn)確率.引入上下文信息能從多方面補(bǔ)充用戶與事件信息,在一定程度上彌補(bǔ)了數(shù)據(jù)稀疏的不足;同時(shí),由于新用戶和新事件都有基本的信息,這些信息能作為上下文信息,因此可以避免冷啟動(dòng)問題.但是上下文獲取的難度大,對其建模與計(jì)算的復(fù)雜度高.
基于因子分解的推薦方法利用EBSN 中的顯式和隱式反饋信息提取部分用戶的偏好,結(jié)合因子分解生成所有用戶的偏好,然后采用BPR、排序?qū)W習(xí)等方法學(xué)習(xí)得到推薦列表.常見的因子分解模型有矩陣分解(MF)[27]、概率矩陣分解(PMF)[28]、集體矩陣分解(CMF)[29]、SVD[30]、SVD++[30]、張量分解[31]等.
EBSN 中存在豐富的隱式反饋信息和上下文信息.各種上下文、用戶、事件、群組之間形成了多種多樣的關(guān)系,因子分解模型可以發(fā)現(xiàn)構(gòu)成這些關(guān)系各實(shí)體的潛在因子.EBSN 推薦系統(tǒng)中,基于因子分解的推薦方法首先獲得與推薦目標(biāo)和被推薦對象相關(guān)的關(guān)系,如用戶與朋友的關(guān)系、事件與事件發(fā)生地點(diǎn)的關(guān)系等.然后結(jié)合這些關(guān)系,使用因子分解方法確定推薦目標(biāo)和被推薦對象的潛在因子,獲得推薦目標(biāo)和被推薦對象之間的評(píng)分矩陣,最后采用隨機(jī)梯度下降、BPR、坐標(biāo)上升法等優(yōu)化算法學(xué)習(xí)被推薦對象的排名.
已有研究利用因子分解方法產(chǎn)生推薦,不同的參考文獻(xiàn)采用了不同的因子分解模型.
Zhang 等人[32]提出了一個(gè)集體貝葉斯泊松分解(CBPF)模型來解決EBSN 中冷啟動(dòng)本地事件推薦問題.CBPF 模型的評(píng)分矩陣為為用戶潛在因子,θe為事件潛在因子.作者認(rèn)為:用戶u和他的朋友f存在潛在因子相似矩陣Suf,事件潛在因子包含事件組織者潛在因子θo、事件位置潛在因子θl、事件描述內(nèi)容潛在因子θc和單詞潛在因子βv.模型通過標(biāo)準(zhǔn)集體矩陣分解模型的思想,聯(lián)合這些因子預(yù)測用戶對事件的評(píng)分,并采用有效的坐標(biāo)上升算法學(xué)習(xí)事件排名.
Qiao 等人[33]結(jié)合用戶的線上和線下社會(huì)關(guān)系、事件的地理位置特征和潛在的用戶事件評(píng)分,對用戶進(jìn)行事件推薦.其擴(kuò)展評(píng)分矩陣如下:
其中,α為融合參數(shù).使用潛在因子分解方法得到近似用戶評(píng)分矩陣,公式如下:
用戶對事件發(fā)生的區(qū)域偏好評(píng)分矩陣定義如下:
其中,是關(guān)于用戶ui的潛在因子,是一個(gè)低維行向量;Mt是關(guān)于區(qū)域mt的潛在因子,是一個(gè)低維列向量;Pjt表示事件ej在區(qū)域mt發(fā)生的概率.
Du 等人[34]結(jié)合發(fā)現(xiàn)的k個(gè)用戶最相似事件的影響因子預(yù)測事件參與率.作者提出了事件描述內(nèi)容因子、事件發(fā)生時(shí)間因子、事件發(fā)生地點(diǎn)因子和用戶的社交關(guān)系因子,通過鄰域集將這些因子融合,模型組合如下:
其中,表示用戶u的平均評(píng)分;N(u,e;k)表示和用戶u參加的事件e最相似的k個(gè)事件集合,是由相似性度量Simu(e;ei)確定的,其整合了所有提取的因子;wei是和矩陣分解模型參數(shù)一起學(xué)習(xí)的自由參數(shù);Uu和Ee分別代表用戶u的特征向量和事件e的特征向量.在計(jì)算過程中,只需要存儲(chǔ)和更新每個(gè)事件的k-最近鄰居的參數(shù),而不是所有事件對.
Li 等人[35]提出一種稱為集體矩陣分解與事件-用戶鄰居(CMF-EUN)模型來推薦事件.CMF-EUN 由3 部分組成:集體矩陣分解、事件鄰域發(fā)現(xiàn)和用戶鄰域發(fā)現(xiàn).模型考慮了相似用戶的影響因子和相似事件的影響因子.整體模型如下所示:
第1 部分中,Uu和Ee分別代表用戶u的特征向量和事件e的特征向量;第2 部分表示相似用戶的影響,其中,表示用戶u的平均得分,Nk1(u,e)表示與事件e相似的事件;第3 部分表示相似事件的影響,其中,表示事件e的平均得分,Nk2(e,u)表示與用戶u相似的用戶集合.k1 和k2 分別表示事件鄰域和用戶鄰域的數(shù)量.最后,使用隨機(jī)梯度下降算法進(jìn)行優(yōu)化.
文獻(xiàn)[36-47]提出了多種因子分解模型,以計(jì)算用戶之間的影響、進(jìn)行事件推薦、朋友推薦、跟隨者推薦、參與者預(yù)測、獲取參與者影響力等.
因子分解編程容易實(shí)現(xiàn),實(shí)現(xiàn)復(fù)雜度低,預(yù)測效果好,具有良好的可擴(kuò)展性.通過獲取EBSN 中多種多樣的關(guān)系,因子分解方法能有效獲取用戶偏好,從不同角度對相同數(shù)據(jù)解釋,相當(dāng)于增加了數(shù)據(jù)量,因此彌補(bǔ)了數(shù)據(jù)稀疏的不足;同時(shí),由于獲取了用戶與事件的多種關(guān)系,也在一定程度上解決了冷啟動(dòng)問題.但存在的缺點(diǎn)有:需要花費(fèi)大量時(shí)間訓(xùn)練模型,獲得的推薦結(jié)果不具有很好的可解釋性等.
基于圖模型的推薦方法將EBSN 中的用戶、群組和事件等實(shí)體構(gòu)建成圖,并度量圖中節(jié)點(diǎn)的相似度,獲取推薦列表.Meng 等人[48]將基于圖模型的社會(huì)化推薦方法分為兩種:一是基于圖結(jié)構(gòu)的推薦方法,二是鏈接預(yù)測方法.EBSN 推薦系統(tǒng)主要采用了鏈接預(yù)測方法.鏈接預(yù)測方法能把原始的輸入數(shù)據(jù)表示成特征向量,通過獲取隱式和顯式反饋信息,計(jì)算用戶和事件的相似度產(chǎn)生推薦.
基于圖模型的推薦主要有兩個(gè)方面:一是構(gòu)圖,二是對被推薦對象排序.EBSN 中通常包括用戶、群組、事件、社會(huì)關(guān)系、標(biāo)簽、位置、時(shí)間、事件組織者等實(shí)體信息,使用這些信息可以構(gòu)建多部圖.然后使用隨機(jī)游走[49]、重啟隨機(jī)游走[50]、馬爾可夫模型等方法度量圖中節(jié)點(diǎn)的相似度,來對圖的節(jié)點(diǎn)排序.
隨機(jī)游走類似于PageRank[51],是在一維或多維空間上的隨機(jī)過程,它能用來表示不規(guī)則的變動(dòng)形式.重啟隨機(jī)游走是一種特殊的隨機(jī)游走,在每一步游走時(shí),隨機(jī)游走者以一定概率跳到鄰居節(jié)點(diǎn)或回到起點(diǎn).通過以下公式計(jì)算一次迭代向量→.
其中,為隨機(jī)游走向量,表示轉(zhuǎn)移概率矩陣,1-c為重啟概率,是隨機(jī)游走重啟向量.
EBSN 中有許多研究基于圖模型推薦,文獻(xiàn)[52,53]采用隨機(jī)游走方法,文獻(xiàn)[54-58]采用重啟隨機(jī)游走方法.
Pham 等人[53]提出一個(gè)基于圖的通用模型稱為HeteRS,其所提出的圖有6 種節(jié)點(diǎn)類型,包括用戶U、事件E、群組G、標(biāo)簽L、位置V和會(huì)話D,這些節(jié)點(diǎn)之間存在用戶參與事件關(guān)系〈U,E〉、群組組織事件關(guān)系〈E,G〉、事件擁有發(fā)生地點(diǎn)關(guān)系〈E,V〉、用戶參與群組關(guān)系〈U,G〉、用戶擁有標(biāo)簽關(guān)系〈U,L〉、群組擁有標(biāo)簽關(guān)系〈G,L〉、事件擁有發(fā)生時(shí)間關(guān)系〈E,D〉.這些關(guān)系構(gòu)成了圖的邊.在圖上采用隨機(jī)游走解決向用戶推薦群組、向群組推薦標(biāo)簽以及向用戶推薦事件這3 個(gè)推薦問題.隨機(jī)游走過程如下:
其中,u(t),e(t),g(t),l(t),d(t),v(t)是分布概率向量,分別表示在時(shí)間t訪問用戶、事件、群組、標(biāo)簽、會(huì)話和位置的概率;αMN({〈M,N〉,〈N,M〉})∩R′≠?,αMN>0 且表示從節(jié)點(diǎn)類型M到節(jié)點(diǎn)類型N的轉(zhuǎn)移權(quán)重;PMN為轉(zhuǎn)移矩陣;qu為查詢向量,如果i=u時(shí),qu等于1,其他情況等于0.最后,在構(gòu)造的圖上,針對候選用戶運(yùn)行該算法,以獲得用戶的推薦事件.
Liao 等人[58]將群組參加無經(jīng)驗(yàn)事件的決策過程分為征詢組外朋友意見階段和組內(nèi)成員協(xié)商階段,在兩個(gè)階段分別采用隨機(jī)游走和重啟隨機(jī)游走獲取用戶和群組偏好.Li 等人[54]提出了反向重啟隨機(jī)游走算法,在構(gòu)造的圖上,針對每個(gè)候選事件運(yùn)行,以獲得每個(gè)用戶的推薦事件.Liu 等人[52]構(gòu)造了由不同類型的節(jié)點(diǎn),包括用戶U、事件E、群組G、事件主辦者H和主題Z組成的混合圖.在圖上執(zhí)行隨機(jī)游走,獲得具有高收斂概率的候選事件.并在文獻(xiàn)[55]中,應(yīng)用重啟隨機(jī)游走(RWR)算法來計(jì)算用戶事件相似性得分.在文獻(xiàn)[56]中提出了一種基于演化圖的連續(xù)推薦(EGSR)算法.在演化圖上執(zhí)行重啟隨機(jī)游走,為用戶推薦事件.
Zhang 等人[57]提出了一個(gè)基于群組的事件參與預(yù)測框架,該框架在混合EGU(事件E-群組G-用戶U)網(wǎng)絡(luò)上使用個(gè)性化重啟隨機(jī)游走,以捕獲群組內(nèi)在的社交關(guān)系.Lu 等人[59]提出一種雙層局部隨機(jī)游走(DLRW)方法來提取用戶的社交特征,并基于GBDT 算法構(gòu)建了事件參與預(yù)測模型.
Boutsis 等人[60]考慮用戶的歷史參與行為特征和地理位置偏好,將用戶組織成群組,利用混合馬爾可夫模型來提取群組中用戶的行為模式,進(jìn)行個(gè)性化事件推薦.
基于圖模型的推薦具有高靈活性和可擴(kuò)展性,能在數(shù)據(jù)量不足的情況下做出相對高質(zhì)量的推薦,能解決數(shù)據(jù)不足的問題和事件冷啟動(dòng)問題.但該方法的訓(xùn)練過程中需要大量的訓(xùn)練數(shù)據(jù),耗費(fèi)時(shí)間過長,推薦結(jié)果受限于歷史數(shù)據(jù),而且對新用戶和新群組難以產(chǎn)生好的推薦.
基于概率模型的推薦方法使用統(tǒng)計(jì)學(xué)習(xí)方法從樣本數(shù)據(jù)中學(xué)習(xí)概率分布模型[48],學(xué)習(xí)到概率分布模型后,利用該模型生成被推薦對象的概率得到推薦列表,也稱為概率生成方法.概率生成方法的核心在于學(xué)習(xí)并獲取概率分布函數(shù)的參數(shù),其具體的步驟包括構(gòu)造似然函數(shù)、從已有的數(shù)據(jù)中學(xué)習(xí)到參數(shù),使得似然函數(shù)的值最大.常見被使用的概率生成模型有高斯混合模型、樸素貝葉斯模型、隱馬爾可夫模型等.一種應(yīng)用于推薦系統(tǒng)的簡單概率模型[61]在形式上表示如下[48].
假設(shè)存在用戶集合U和項(xiàng)目集合I以及一個(gè)潛在的主題集合Z,項(xiàng)目集合中的每一個(gè)項(xiàng)目都有一個(gè)相應(yīng)的潛在主題,用戶與主題之間存在一個(gè)概率分布,項(xiàng)目與主題之間也有概率分布.
用戶u、項(xiàng)目i和主題z之間的聯(lián)合概率計(jì)算公式如下:
用戶u和項(xiàng)目i之間的聯(lián)合概率為
優(yōu)化目標(biāo)函數(shù)如下:
用戶u選擇項(xiàng)目i的概率為
EBSN 中存在多種多樣的概率分布,如用戶事件概率分布、用戶主題概率分布、事件主題概率分布、用戶群組概率分布、用戶社會(huì)關(guān)系概率分布等等.這些概率分布模型中的隨機(jī)變量通常是相互獨(dú)立的,因此可以將不同的因素作為隨機(jī)變量計(jì)算它們的聯(lián)合概率.EBSN 推薦系統(tǒng)中,首先通過采樣統(tǒng)計(jì)學(xué)習(xí)各種概率分布模型的參數(shù),然后考慮推薦模型中涉及的各種隨機(jī)變量之間的關(guān)系,計(jì)算這些隨機(jī)變量的聯(lián)合概率,得到最終的推薦目標(biāo)與被推薦對象之間的概率.
EBSN 推薦系統(tǒng)中,使用概率生成模型進(jìn)行推薦的研究有文獻(xiàn)[62-69]等;在推薦過程中,結(jié)合概率方法的有文獻(xiàn)[32,36,64,70]等.
Yin 等人[62]使用基于貝葉斯網(wǎng)絡(luò)的概率生成模型來解決EBSN 中的社區(qū)檢測問題.可以對檢測到的社區(qū)進(jìn)行更有效的事件推薦或群組推薦,模型如下:
Yuan 等人[63]提出一個(gè)概率生成模型來模擬群組偏好的生成過程,其用戶u在給定主題z以及開關(guān)量x的條件下,對事件e的概率為
Du 等人[69]提出一個(gè)內(nèi)容場所感知主題模型(CVTM),該模型從內(nèi)容和場地兩個(gè)角度捕捉群組對事件的興趣.其群組對事件的評(píng)分計(jì)算如下:
Jeong 等人[68]提出一種考慮群體凝聚力(GGC)的群體推薦模型,其用戶u在給定主題z以及開關(guān)量x,o的條件下,對事件e的概率為
文獻(xiàn)[32,36,64,65,67,70]提出了不同的概率生成模型,用于計(jì)算群組參與事件的概率、用戶參與事件的概率、兩個(gè)用戶在事件、群組和地理位置上影響概率、用戶對其好友的影響概率與用戶對事件的喜好概率等.
概率生成模型從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況,學(xué)習(xí)收斂速度快.當(dāng)學(xué)習(xí)的樣本數(shù)量足夠時(shí),能快速收斂到真實(shí)模型.因其學(xué)習(xí)到的是數(shù)據(jù)的概率分布,這能夠反映出同類數(shù)據(jù)的相似度,因此可以解決事件冷啟動(dòng)問題.但概率生成模型復(fù)雜性較高,需要較長的學(xué)習(xí)時(shí)間,不能向新用戶和新群組推薦.
深度學(xué)習(xí)能夠自動(dòng)學(xué)習(xí)到數(shù)據(jù)的隱式特征表示,發(fā)現(xiàn)數(shù)據(jù)的潛在特征,并能通過在低層特征上變換形成高層的抽象特征.基于深度學(xué)習(xí)的推薦方法[71]建立深度學(xué)習(xí)模型捕獲輸入的用戶和項(xiàng)目的相關(guān)信息,尋找發(fā)現(xiàn)數(shù)據(jù)中存在的錯(cuò)綜復(fù)雜的關(guān)系,然后學(xué)習(xí)到用戶和項(xiàng)目之間的非線性關(guān)系,挖掘用戶與項(xiàng)目的潛在特征,最后,融合用戶與項(xiàng)目的特征表示獲取推薦列表.已知的應(yīng)用于推薦系統(tǒng)的深度學(xué)習(xí)模型有許多,如一些經(jīng)典的模型包括多層感知機(jī)、自編碼器、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等[71].
基于深度學(xué)習(xí)的EBSN 推薦系統(tǒng)結(jié)合EBSN 的特點(diǎn)與深度學(xué)習(xí)的優(yōu)點(diǎn),利用用戶、群組和事件的信息、顯式反饋與隱式反饋信息、上下文信息與社交關(guān)系信息等,通過獲取被推薦對象相關(guān)的各種原始數(shù)據(jù),如用戶信息、事件信息、顯式反饋信息與隱式反饋信息與其他信息,將需要的信息處理成合適的數(shù)據(jù)作為深度學(xué)習(xí)模型的輸入.通過建立的各種深度學(xué)習(xí)模型,學(xué)習(xí)生成推薦列表并進(jìn)行推薦.已有部分研究在EBSN 上結(jié)合深度學(xué)習(xí)模型產(chǎn)生推薦[11,46,72-76].
Wu 等人[72]提出了一個(gè)端到端的深度事件參與預(yù)測(DEAP)框架,這是一個(gè)三級(jí)分層LSTM 架構(gòu),可以明確地模擬用戶的多維和不斷變化的偏好,目的在于解決用戶事件參與的可預(yù)測性.
Jhamb 等人[73]利用降噪自動(dòng)編碼器作為所提出的ACDA 模型的主要構(gòu)建塊,模型使用注意機(jī)制將上下文信息編碼為用戶偏好的隱藏表示,利用降噪自動(dòng)編碼器預(yù)測用戶的偏好以進(jìn)行個(gè)性化事件推薦.Li 等人[77]采用極限學(xué)習(xí)機(jī)(ELM)對EBSN 中提取的空間特征、時(shí)間特征、語義特征、社會(huì)關(guān)系特征和歷史特征學(xué)習(xí),將事件推薦問題轉(zhuǎn)為分類問題.
有部分研究在推薦過程中結(jié)合了深度學(xué)習(xí)方法,融合EBSN 中的多種信息獲取更準(zhǔn)確的用戶偏好.Wang 等人[46]利用帶有字嵌入的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來深度捕獲用戶感興趣的事件的上下文信息,并為每個(gè)用戶建立用戶潛在模型.然后,將用戶潛在模型合并到概率矩陣分解(PMF)模型中,以提高推薦準(zhǔn)確性.Luceri 等人[74]引入了一個(gè)深度神經(jīng)網(wǎng)絡(luò)(DNN)框架,該框架能夠模擬社會(huì)影響和預(yù)測人類行為.Wang 等人[11]使用前饋神經(jīng)網(wǎng)絡(luò)將事件的特征嵌入到低維向量中.Pramanik 等人[75]提出了一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的框架DeepVenue,用于推薦舉辦Meetup 事件的場所.
EBSN 中有大量各種類型的上下文信息,包括文本、圖像、音頻甚至視頻等,其他推薦方法難以完全利用上這些信息.但深度學(xué)習(xí)模型中無需用戶手工設(shè)計(jì)特征,它能自動(dòng)從輸入數(shù)據(jù)中有效學(xué)習(xí)潛在的有用特征表示,能夠?qū)?shù)據(jù)進(jìn)行非線性建模,捕獲關(guān)系錯(cuò)綜復(fù)雜的用戶與事件特征.深度學(xué)習(xí)模型通過大量數(shù)據(jù)的訓(xùn)練,能獲取更為準(zhǔn)確的用戶偏好,緩解冷啟動(dòng)問題.深度神經(jīng)網(wǎng)絡(luò)具有廣泛的適用性和高度的靈活性,能輕松快速地構(gòu)建出推薦模型.但是深度學(xué)習(xí)中參數(shù)太多,難以解釋其具體作用,因此可解釋性較差.同時(shí),深度學(xué)習(xí)需要大量數(shù)據(jù)才能完成其模型訓(xùn)練,若數(shù)據(jù)量太小,學(xué)習(xí)到的模型推薦效果可能會(huì)很差.深度學(xué)習(xí)模型有時(shí)可能需要進(jìn)行大量超參數(shù)調(diào)整.
EBSN 中,有的用戶會(huì)在一段時(shí)間內(nèi)參與多個(gè)事件,因此這些用戶希望能合理地安排參與自己喜歡的事件.事件的組織者希望自己組織的事件有更多感興趣的用戶來參與,也會(huì)希望有合理的事件安排,這通常被稱為事件安排問題.用戶參與事件具有許多約束條件,例如事件沖突約束、事件容量約束、用戶預(yù)算約束等,為用戶提供滿意的事件安排需要盡量滿足這些約束.然而,這些約束有時(shí)相互矛盾,需要綜合考慮提出目標(biāo)函數(shù),使得目標(biāo)函數(shù)獲得最優(yōu)值,目標(biāo)函數(shù)代表了用戶或組織的滿意度.事件安排問題通常是NP 難問題,啟發(fā)式算法是解決NP 難問題的常用方法,因此,我們稱其為基于啟發(fā)式算法的推薦方法.
Tong 等人[78]提出了瓶頸感知社會(huì)事件安排(BSEA)問題,設(shè)計(jì)了兩種基于貪心的啟發(fā)式算法解決BSEA 問題.該問題考慮了3 個(gè)影響因素:活動(dòng)與用戶之間的位置影響、活動(dòng)與用戶之間屬性的相似性以及用戶之間的社會(huì)關(guān)系.
事件安排需要滿足最大化平均效用的最小值,同時(shí)滿足事件容量和用戶社會(huì)關(guān)系的約束.效用函數(shù)為
其中,D(lu,le)表示用戶位置與事件發(fā)生位置的距離,sim(tu,te)表示用戶與事件的相似度.
平均效用表示為
其中,M(e)表示事件安排M中安排給事件e的用戶集合.
She 等人[79]定義了效用感知社會(huì)事件參與者計(jì)劃(USEP)問題,該問題同時(shí)考慮了時(shí)空沖突和旅行支出約束,并需要最大程度地提高事件參與者的整體滿意度.其效用函數(shù)為
其中,μ(u,e)表示用戶對事件的偏好.She 等人在文獻(xiàn)[80]中提出了帶事件沖突和事件容量限制的全局事件安排(GEACC)問題,該問題的目的是找出滿足事件沖突和事件容量限制的事件安排,對所有安排的事件和用戶,最大化用戶對事件的偏好總和.She 等人還在文獻(xiàn)[81]中提出了反饋感知事件安排(FASEA)問題.在給用戶安排事件時(shí),考慮用戶接受或拒絕安排事件的反饋,從而使用戶接受的事件總數(shù)最大化.
Liang 等人[82]提出的事件安排問題,其目標(biāo)是最小化用戶與事件的空間距離和用戶社會(huì)關(guān)系緊密度的總和,以使事件安排多樣化.其效用函數(shù)為
其中,第1 項(xiàng)是事件安排的每個(gè)用戶與事件之間距離的總和,第2 項(xiàng)是用戶社交關(guān)系的緊密程度.Liang 還在文獻(xiàn)[83]中提出了三維匹配事件安排(EATDM)問題,其提出的效用評(píng)分同時(shí)考慮了用戶、事件組織者和事件.
Kou 等人[84]提出了交互感知全局事件參與者安排(IGEPA)問題.它在全局范圍內(nèi)優(yōu)化事件和參與者之間的安排,避免了事件之間的沖突.作者提出的效用函數(shù)考慮了用戶偏好和用戶之間的潛在交互程度.其效用函數(shù)表示如下:
文獻(xiàn)[85-88]分別考慮了不同的約束條件,如差旅預(yù)算、事件參與上限和下限、用戶的空閑時(shí)間、用戶的平均移動(dòng)速度、用戶的整體偏好等,以滿足最大化全局效用分?jǐn)?shù),最大程度增加事件參與者人數(shù),確保每個(gè)用戶都可以按時(shí)參加活動(dòng)等目標(biāo)函數(shù)進(jìn)行事件安排.Li 等人[89]定義了增量雙邊偏好穩(wěn)定安排(IBPSP)問題,旨在動(dòng)態(tài)制定使用戶和事件組織者都滿意的安排.
基于啟發(fā)式算法的推薦考慮了更多條件,因此能有更精確的推薦結(jié)果.但其考慮的問題和解決過程比較復(fù)雜,因此難以建模.此外,EBSN 平臺(tái)上爬取的數(shù)據(jù)集通常沒有包含一些必要的約束信息,因此需要復(fù)雜的數(shù)據(jù)處理過程.
上述各種推薦方法與傳統(tǒng)的推薦方法都各有優(yōu)缺點(diǎn).混合推薦方法是指同時(shí)使用多種推薦技術(shù)產(chǎn)生推薦,從而結(jié)合不同方法的優(yōu)點(diǎn)、彌補(bǔ)缺點(diǎn)、獲得更好的推薦效果.Burke 等人[90]提出了混合推薦方法的7 種混合策略,Jannach 等人[3]將其劃分成3 種:整體式混合設(shè)計(jì)、并行式混合設(shè)計(jì)和流水線式混合設(shè)計(jì),其中,整體式混合設(shè)計(jì)策略是EBSN 推薦系統(tǒng)中采用最多的混合推薦策略.
上下文感知推薦方法中,EBSN 推薦系統(tǒng)通常需要結(jié)合上下文信息從多個(gè)角度獲取用戶偏好.Wang 等人[18]采用多種上下文信息的特征組合作為獲取用戶偏好的輸入數(shù)據(jù).基于因子分解的推薦方法中,也需要從多角度獲取用戶偏好,而且通常需要優(yōu)化才能得到因子分解的結(jié)果.Gu 等人[40]采用的因子分解模型分別考慮了用戶和事件隱因子特征以及用戶和事件之間的多個(gè)上下文特征來捕獲用戶的偏好.在基于圖模型的推薦方法中,EBSN 推薦系統(tǒng)也需要采用不同的數(shù)據(jù)來源獲取用戶偏好.Liu 等人[52]同時(shí)考慮了采用隨機(jī)游走獲得的用戶參與事件收斂概率與根據(jù)用戶歷史事件參與信息獲得的偏好計(jì)算用戶偏好.
基于概率模型的推薦方法、基于深度學(xué)習(xí)的推薦方法和基于內(nèi)容的推薦方法在獲取推薦系統(tǒng)的輸入數(shù)據(jù)時(shí),同樣可以結(jié)合多種方法獲取.由此可知,EBSN 推薦系統(tǒng)中大多數(shù)時(shí)候采用是混合推薦方法.
每種推薦方法都有優(yōu)點(diǎn)和不足,表2 對比了本文列出的8 種EBSN 推薦系統(tǒng)的推薦方法的優(yōu)點(diǎn)和缺點(diǎn).
Table 2 Comparison of recommended methods for the EBSN recommendation system表2 EBSN 推薦系統(tǒng)推薦方法的對比
從推薦內(nèi)容的角度,EBSN 推薦系統(tǒng)可以分為事件推薦、群組推薦、事件安排、參與者預(yù)測、聯(lián)合推薦、朋友推薦、場地推薦.
· 事件推薦的目標(biāo)是向用戶推薦事件,根據(jù)用戶的歷史參與記錄信息和用戶的社會(huì)關(guān)系,采用上下文感知、因子分解、概率生成、隨機(jī)游走、深度學(xué)習(xí)等方法獲取用戶對事件內(nèi)容、舉辦時(shí)間、舉辦地點(diǎn)和組織者等的偏好,然后采用BPR、學(xué)習(xí)排序方法等對被推薦事件排序獲取事件列表.
· 群組推薦的目標(biāo)是向群組推薦事件,通過獲取用戶對事件的偏好以及用戶在群組中的影響力權(quán)重,融合群組成員偏好得到群組偏好,或使用概率生成、隨機(jī)游走等方法得到群組對事件的偏好.然后對被推薦事件排序獲得群組成員相對滿意的事件列表.
· 事件安排為用戶推薦安排多個(gè)事件,在約束條件的限制下,使用一個(gè)目標(biāo)函數(shù),該目標(biāo)函數(shù)通常綜合考慮了多種情況.在目標(biāo)函數(shù)達(dá)到最優(yōu)值獲得的事件序列即為推薦安排的事件序列,目標(biāo)函數(shù)的最優(yōu)解通常使用啟發(fā)式算法獲取.
· 參與者預(yù)測指預(yù)測事件的參與者,能向事件組織者推薦事件的參與者.通常,參與者預(yù)測需要根據(jù)事件的上下文信息,計(jì)算用戶偏好與該事件的相似程度,獲取用戶列表.
· 聯(lián)合推薦指同時(shí)向用戶推薦多個(gè)對象,如同時(shí)向用戶推薦事件和伙伴,根據(jù)用戶偏好、伙伴偏好、用戶與伙伴的社交關(guān)系親密度、事件的上下文信息等計(jì)算用戶對事件-伙伴對的評(píng)分,找出并推薦評(píng)分最高的多個(gè)事件-伙伴對.
· 朋友推薦指向用戶推薦朋友,根據(jù)用戶的歷史參與事件記錄、用戶的社交關(guān)系等找出與目標(biāo)用戶最相似的用戶并推薦;
· 場地推薦指向事件組織者推薦事件舉辦場地,通過計(jì)算場地相似度、事件相似度和興趣組相似度,采用深度學(xué)習(xí)方法獲取用于舉辦目標(biāo)事件的場地排名列表.
EBSN 推薦系統(tǒng)按推薦內(nèi)容的分類對比見表3.
Table 3 Comparison of classification of the EBSN recommendationsystem表3 EBSN 推薦系統(tǒng)的分類對比
綜上所述,近年來,EBSN 推薦系統(tǒng)已取得了較多研究和應(yīng)用進(jìn)展.但在未來的研究與應(yīng)用中,以下方面仍然值得重點(diǎn)關(guān)注和研究.
(1) 冷啟動(dòng)問題
EBSN 中每天都有大量新用戶加入,他們沒有歷史事件評(píng)價(jià)信息及朋友信息.事件的組織者或興趣組的組織者邀請這些用戶參加事件、興趣組將會(huì)非常困難.EBSN 中每天會(huì)發(fā)布大量新事件,這些事件都是未來即將發(fā)生的,這意味著事件在開始時(shí)沒有歷史參與者,在事件發(fā)生前沒有任何用戶參與評(píng)價(jià)的信息.即使事件從發(fā)布到開始前這段時(shí)間內(nèi)可能會(huì)有少量的用戶表示愿意參加信息,但是該信息非常稀疏,且不能代表用戶真正參加了事件.另外,經(jīng)典推薦系統(tǒng)通常使用的用戶反饋信息(例如評(píng)分或評(píng)論)在EBSN 中變得無用,因?yàn)楫?dāng)事件參與者在他們參加事件之后給出評(píng)分和評(píng)論時(shí),事件已經(jīng)結(jié)束無需推薦.EBSN 中每天會(huì)有大量的新興趣組成立,向用戶推薦這些興趣組也將變得十分困難.因此,EBSN 推薦系統(tǒng)中向新用戶、新興趣組推薦事件,向用戶、興趣組推薦新事件變得非常困難,存在嚴(yán)重冷啟動(dòng)問題.
解決冷啟動(dòng)問題的直接方法是采用基于內(nèi)容的推薦技術(shù),通??梢岳每臻g、時(shí)間、內(nèi)容和社會(huì)關(guān)系信息等來緩解EBSN 推薦系統(tǒng)中的冷啟動(dòng)問題.文獻(xiàn)[36,67]從新事件的文本描述集合中推斷出潛在的主題處理事件冷啟動(dòng)問題.Zhang 等人[32]將事件內(nèi)容、組織者、位置和用戶社交關(guān)系整合在一起,能夠在統(tǒng)一模型中推斷冷啟動(dòng)事件.Wang 等人[18]將EBSN 和其他社交網(wǎng)絡(luò)的信息結(jié)合起來,用以解決冷啟動(dòng)問題.Li 等人[15]將用戶興趣、組織者影響力和地理偏好整合到新事件推薦中.Jhamb 等人[37]利用群組的潛在因素解決冷啟動(dòng)問題.Du 等人[21]使用用戶和組織者之間的社交關(guān)系來緩解事件推薦中的冷啟動(dòng)問題.Du 等人[69]利用事件組織者與事件描述之間的相關(guān)性以及事件描述與事件舉辦地點(diǎn)之間的相關(guān)性解決群組事件推薦冷啟動(dòng)問題.Liu 等人[55]利用EBSN中的不同關(guān)系和異步反饋來處理新事件冷啟動(dòng)問題.雖然已有的研究在一定程度上緩解了冷啟動(dòng)問題,但仍需尋找更有效的技術(shù)和方法,這是EBSN 推薦系統(tǒng)中一項(xiàng)非常重要的研究內(nèi)容.
(2) 群組推薦
EBSN 推薦系統(tǒng)中的群組推薦指向群組推薦事件.在群組推薦中,群組內(nèi)各成員具有不同的興趣偏好,需要協(xié)調(diào)各個(gè)群組成員的偏好,使其形成相對一致的意見后進(jìn)行推薦.群組推薦的主要任務(wù)通常包括獲取群組成員的偏好、群組發(fā)現(xiàn)和偏好融合等.群組成員在形成對事件的偏好時(shí),會(huì)受到用戶個(gè)性化、信任關(guān)系和用戶重要性等社會(huì)因素的影響.因此,如何引入社會(huì)因素幫助推薦,以獲得準(zhǔn)確的用戶偏好,是值得關(guān)注的研究方向之一.群組發(fā)現(xiàn)是尋找具有相似特征的用戶構(gòu)成的群組.EBSN 中存在成員數(shù)量少、用戶偏好相似且溝通較頻繁等特征的群組,但EBSN 通常沒有顯式存在這樣的群組信息,因此,在群組發(fā)現(xiàn)時(shí),除可考慮成員的偏好相似性之外,還可考慮成員之間線上和線下交互.如何利用多種異構(gòu)信息發(fā)現(xiàn)群組,是群組推薦領(lǐng)域值得研究的問題.偏好融合指融合群組成員的偏好,得到群組的偏好.在進(jìn)行偏好融合時(shí),既可考慮用戶的影響力、群組成員角色等多種因素計(jì)算用戶權(quán)重,也可考慮用戶的滿意度、公平性等性能要求,還可考慮群組成員的互動(dòng).群組決策過程實(shí)際上是群組成員之間相互交流、相互影響和相互妥協(xié),最終達(dá)到一致意見的過程.因此,如何有效刻畫這種過程,是群組推薦面臨的難點(diǎn).
目前,EBSN 群組推薦系統(tǒng)的研究還很少,隨著越來越多國內(nèi)外研究單位的關(guān)注,EBSN 群組推薦也將成為研究熱點(diǎn)之一.
(3) 結(jié)合深度學(xué)習(xí)推薦
第3.6 節(jié)已介紹了基于深度學(xué)習(xí)的推薦方法:一是直接通過深度學(xué)習(xí)模型獲取用戶偏好,二是通過深度學(xué)習(xí)模型融合多種信息獲取用戶偏好的部分特征.與傳統(tǒng)的推薦方法相比,深度學(xué)習(xí)是一個(gè)有效的特征提取工具,可以更好地理解用戶的需求、事件特征以及它們之間的交互.因而,相比于傳統(tǒng)的推薦方法,結(jié)合深度學(xué)習(xí)的推薦方法可獲得更好的性能和推薦結(jié)果.近幾年,EBSN 推薦系統(tǒng)應(yīng)用深度學(xué)習(xí)方法進(jìn)行推薦已得到關(guān)注,但相關(guān)研究仍然不多.未來可從兩個(gè)方面研究基于深度學(xué)習(xí)的EBSN 推薦系統(tǒng).
· 隨著深度學(xué)習(xí)的發(fā)展,不斷出現(xiàn)新的深度學(xué)習(xí)模型,采用新的深度學(xué)習(xí)模型進(jìn)一步提高EBSN 推薦系統(tǒng)性能值得深入研究.
· EBSN 擁有豐富的上下文信息,如何用深度學(xué)習(xí)方法的融合更多這些上下文信息,以獲取更為準(zhǔn)確的用戶偏好特征,也是值得研究的方向之一.
(4) 信息安全與隱私保護(hù)
EBSN 推薦系統(tǒng)能幫用戶在社交網(wǎng)絡(luò)中快速找到自己感興趣的群組、事件和朋友,使用戶能有更好的體驗(yàn),給用戶提供了極大的方便;但同時(shí),讓用戶受信息與隱私被泄露的威脅.EBSN 推薦系統(tǒng)進(jìn)行高效推薦的前提是掌握大量準(zhǔn)確的用戶個(gè)性化信息,如用戶的偏好、用戶的社交關(guān)系等.從EBSN 網(wǎng)絡(luò)收集到的用戶個(gè)人信息,包括用戶的個(gè)人隱私或生活細(xì)節(jié),無論是自愿還是無意,都可能被泄露.例如:由于EBSN 中的事件具有主題、舉辦地點(diǎn)和舉辦時(shí)間,事件推薦通常需要“準(zhǔn)確的”和“詳細(xì)的”用戶個(gè)人信息,如用戶的位置,還可以通過分析用戶和他/她的團(tuán)隊(duì)信息來推斷用戶的個(gè)人興趣.因此,了解EBSN 中的潛在信息安全與隱私保護(hù),可以設(shè)計(jì)更安全的EBSN 平臺(tái)以保護(hù)用戶的個(gè)人隱私,解決EBSN 推薦系統(tǒng)中的信息安全和隱私保護(hù)問題,有利于推薦系統(tǒng)的發(fā)展與應(yīng)用.
用戶的信息安全研究長期以來都是社會(huì)網(wǎng)絡(luò)領(lǐng)域的研究熱點(diǎn).但是在EBSN 中,相關(guān)研究還很少.Chung 等人[94]嘗試調(diào)查Meetup 中的隱私泄漏,作者從網(wǎng)站的公開數(shù)據(jù)中發(fā)現(xiàn)并推斷出私人信息的內(nèi)容.Dong 等人[95]通過連接用戶的線上和線下社交活動(dòng),使用幾種簡單而有效的隱私推理模型,可以高精度地推斷用戶的線上群組成員隱私和線下事件參與情況,隱私威脅程度非常嚴(yán)重.用戶需要準(zhǔn)確快速的推薦服務(wù),推薦系統(tǒng)需要先獲取準(zhǔn)確的用戶個(gè)性化信息,然后才能提供準(zhǔn)確的各種推薦服務(wù),這就意味著用戶的個(gè)人信息會(huì)被共享,但是用戶的個(gè)人信息共享就表示個(gè)人信息和隱私的泄露.因此在實(shí)現(xiàn)EBSN 推薦服務(wù)的過程中,如何保護(hù)用戶的信息安全,減少用戶的個(gè)人隱私泄漏,是一項(xiàng)極具挑戰(zhàn)的工作.
(5) EBSN 推薦系統(tǒng)評(píng)價(jià)
推薦系統(tǒng)評(píng)價(jià)通常用于評(píng)估推薦系統(tǒng)是否具有良好性能,它能幫助推薦系統(tǒng)開發(fā)者發(fā)現(xiàn)系統(tǒng)存在的問題,從而幫助改善推薦性能.推薦系統(tǒng)評(píng)價(jià)已被眾多研究者關(guān)注,并提出了較多研究成果.Herlocker 等人[96]對協(xié)同過濾推薦系統(tǒng)的評(píng)價(jià)策略進(jìn)行了回顧.Gunawardana 等人[97]根據(jù)評(píng)價(jià)上下文屬性概述了大量評(píng)價(jià)指標(biāo).Meng 等人[98]從數(shù)據(jù)集、評(píng)價(jià)方法、評(píng)價(jià)指標(biāo)這3 個(gè)方面對基于位置的移動(dòng)推薦系統(tǒng)的評(píng)價(jià)進(jìn)行了綜述,并提出一種基于位置的移動(dòng)推薦系統(tǒng)的評(píng)價(jià)體系.傳統(tǒng)推薦系統(tǒng)正逐漸形成成熟的評(píng)價(jià)體系,擁有較為完善的評(píng)價(jià)方法、大量評(píng)價(jià)指標(biāo)和許多公開可用的數(shù)據(jù)集.
然而,目前針對EBSN 推薦系統(tǒng)評(píng)價(jià)的研究相對較少,未形成標(biāo)準(zhǔn)的評(píng)價(jià)體系.EBSN 推薦系統(tǒng)常用離線評(píng)價(jià)方法進(jìn)行評(píng)價(jià),常用的評(píng)價(jià)指標(biāo)包括NDCG、AUC、MAP、Precision、Recall、ROC、F1、HitRate 等.在事件安排推薦系統(tǒng)中,將運(yùn)行時(shí)間、內(nèi)存消耗和自定義目標(biāo)函數(shù)作為評(píng)價(jià)指標(biāo).
此外,EBSN 推薦系統(tǒng)中常用的數(shù)據(jù)集是從Meetup,Plancast 和Douban Event 等平臺(tái)爬取.
總的來看,EBSN 推薦系統(tǒng)尚未形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)和評(píng)價(jià)方法,且缺乏標(biāo)準(zhǔn)數(shù)據(jù)集.因此,結(jié)合EBSN 領(lǐng)域特征研究新穎的評(píng)價(jià)方法,以及根據(jù)EBSN 推薦系統(tǒng)的特點(diǎn)尋找專用評(píng)價(jià)指標(biāo),如覆蓋率、多樣性、新穎性等,都是未來具有潛力的研究方向.
近年來,基于事件社會(huì)網(wǎng)絡(luò)的發(fā)展十分迅速,產(chǎn)生了豐富的事件和群組信息,給用戶選擇造成極大困難.將推薦系統(tǒng)引入EBSN,可有效提高用戶的使用體驗(yàn)和平臺(tái)滿意程度.本文在分析EBSN 網(wǎng)絡(luò)特征和推薦面臨的挑戰(zhàn)性問題基礎(chǔ)上,對EBSN 推薦系統(tǒng)進(jìn)行了較為全面的綜述.文中介紹和分析了EBSN 推薦系統(tǒng)的框架,包括數(shù)據(jù)采集層、數(shù)據(jù)處理層和推薦生成層;對EBSN 推薦系統(tǒng)目前采用的推薦方法進(jìn)行了歸納和分類,包括基于內(nèi)容的推薦方法、上下文感知推薦方法、基于因子分解推薦方法、基于圖模型推薦方法、基于概率模型的推薦方法、基于深度學(xué)習(xí)的推薦方法、基于啟發(fā)式算法的推薦方法以及混合推薦方法等8 類方法,并對它們的優(yōu)缺點(diǎn)進(jìn)行了對比與分析;根據(jù)推薦內(nèi)容將EBSN 推薦系統(tǒng)分為事件推薦、群組推薦、事件安排、參與者預(yù)測、聯(lián)合推薦、朋友推薦、場地推薦;指出EBSN 未來需重點(diǎn)關(guān)注的研究方向,包括冷啟動(dòng)、群組推薦、結(jié)合深度學(xué)習(xí)推薦、信息安全與隱私保護(hù)和EBSN 推薦系統(tǒng)評(píng)價(jià)等.