国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Twitter社交網(wǎng)絡(luò)用戶行為理解及個性化服務(wù)推薦算法研究

2020-07-18 04:13:06于亞新張宏宇
關(guān)鍵詞:耦合矩陣區(qū)域

于亞新 劉 夢 張宏宇

(東北大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 沈陽 110169)(醫(yī)學(xué)影像智能計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室(東北大學(xué)) 沈陽 110169)

隨著互聯(lián)網(wǎng)的快速發(fā)展,社交網(wǎng)成為了人們生活中不可或缺的工具,同時,無線通信與位置采集技術(shù)使得社交網(wǎng)的發(fā)展更為全面.例如Twitter、微博等,用戶不僅可以發(fā)表tweets、微博等來分享他們的觀點(diǎn)、日常生活,還可以在興趣點(diǎn)(如娛樂場所、餐廳、商場等)發(fā)表帶有地理位置的狀態(tài),展示具體的活動.這些信息不僅真實(shí)展現(xiàn)了人們的生活,也從側(cè)面反映了他們的興趣習(xí)慣以及生活需求.如何利用社交網(wǎng)的用戶數(shù)據(jù)發(fā)現(xiàn)用戶行為規(guī)律,同時根據(jù)用戶行為理解用戶需求從而為用戶推薦滿足需求的服務(wù)地點(diǎn),已成為當(dāng)前的研究熱點(diǎn)之一.

由于用戶發(fā)布的信息大多帶有時間戳、地理位置、文本等信息,導(dǎo)致了“4W”的信息布局,即某個用戶(who)在某個時間(when)、某個地點(diǎn)(where)產(chǎn)生了某種行為(what),對應(yīng)4個不同層次的信息[1].這些信息反映了用戶的行為模式和需求.基于用戶需求為用戶進(jìn)行個性化的服務(wù)推薦,這方面的研究還較少.

目前社交網(wǎng)個性化推薦面臨著一些新的挑戰(zhàn).

1) 短文本下主題難于捕捉.社交網(wǎng)數(shù)據(jù)由于文本長度短、關(guān)鍵特征非常稀疏,導(dǎo)致主題挖掘困難.傳統(tǒng)的主題挖掘方法直接應(yīng)用到短文本上效果不佳.

2) 地理位置過于稀疏.一方面用戶發(fā)布的帶有地理位置的文本數(shù)據(jù)較少;另一方面1條文本僅帶有1個地理位置,導(dǎo)致用戶地理位置數(shù)據(jù)稀疏,造成了用戶活動區(qū)域挖掘困難.

3) 行為要素間依賴關(guān)系缺少融合.用戶的行為要素包括活動時間、內(nèi)容和區(qū)域,不同用戶在不同時間段有不同的活動區(qū)域和內(nèi)容,四者間存在依賴關(guān)系.缺少對依賴關(guān)系的融合將導(dǎo)致用戶行為理解的片面性.

4) 服務(wù)地點(diǎn)屬性間的耦合性考慮不足.傳統(tǒng)推薦算法假設(shè)地點(diǎn)屬性間、地點(diǎn)屬性內(nèi)部不存在相互影響關(guān)系,屬性值服從獨(dú)立同分布.但實(shí)際上屬性間、屬性內(nèi)部存在相互影響的關(guān)系,是非獨(dú)立同分布的.對屬性間耦合性的忽略導(dǎo)致了推薦結(jié)果不準(zhǔn)確.

基于上述問題,本文重點(diǎn)研究社交網(wǎng)用戶行為理解并完成了服務(wù)地點(diǎn)的推薦,主要貢獻(xiàn)有4個方面:

1) 利用社交網(wǎng)目標(biāo)用戶的文本時間戳、內(nèi)容,提出了用戶-時間-活動模型(user-time-activity model, UTAM),挖掘用戶活動時間和內(nèi)容,解決了短文本下主題難于捕捉的問題;利用目標(biāo)用戶的文本時間戳、地理標(biāo)簽提出了用戶-時間-區(qū)域模型(user-time-region model, UTRM),挖掘用戶活動時間和區(qū)域,解決了地理位置過于稀疏導(dǎo)致的活動區(qū)域難以挖掘的問題.

2) 利用社交網(wǎng)中大眾數(shù)據(jù)的文本內(nèi)容和簽到服務(wù)地點(diǎn),提出了挖掘活動和服務(wù)對應(yīng)關(guān)系的ASTM.

3) 將用戶的活動區(qū)域與服務(wù)地點(diǎn)間的距離以及地點(diǎn)屬性間的耦合性融合到矩陣分解中,提出了基于耦合和距離的矩陣分解(matrix factorization based on couple & distance, MFCD),旨在實(shí)現(xiàn)精準(zhǔn)個性化服務(wù)場所推薦.

4) 使用真實(shí)的tweets數(shù)據(jù)集進(jìn)行大量的實(shí)驗(yàn)評估推薦效果,實(shí)驗(yàn)表明優(yōu)于傳統(tǒng)推薦算法.

1 相關(guān)工作

社交網(wǎng)用戶行為理解是當(dāng)前研究熱點(diǎn)之一,大量關(guān)于行為理解的模型和方法被提出.通常社交網(wǎng)用戶行為理解包括4個方面:用戶、活動時間、活動區(qū)域和活動內(nèi)容.

基于文本語義(活動內(nèi)容)和基于位置(活動區(qū)域)等是研究用戶行為理解的主要手段.基于語義的用戶行為理解主要是通過對用戶的文本信息進(jìn)行研究,從文本中提取出用戶的行為;基于位置的用戶行為理解主要是根據(jù)用戶的位置信息,將位置軌跡相似的用戶聚成一簇.然而,由于用戶的信息中有用的信息相比于龐大的數(shù)據(jù)量過于稀疏,并且僅僅針對于上述的方法來對用戶行為進(jìn)行分析會有很大的片面性,使得這些方法在對用戶進(jìn)行行為理解的效果難以有更好的突破.

文獻(xiàn)[2-3]僅利用時間和地理位置2個方面,研究社交網(wǎng)用戶移動性和時間的關(guān)系;文獻(xiàn)[4-5]考慮了用戶、位置、內(nèi)容3個方面,文獻(xiàn)[4]基于LDA(latent Dirichlet allocation),提出了1個考慮位置坐標(biāo)和語義信息的模型,假設(shè)每一個文檔的內(nèi)容主題和活動區(qū)域分別基于全局的和用戶特定的主題、區(qū)域分布進(jìn)行抽?。晃墨I(xiàn)[6]提出了基于CRF(Chinese restaurant franchise)的模型研究用戶的活動區(qū)域;文獻(xiàn)[7]從4個方面進(jìn)行用戶行為理解,但是沒有考慮到短文本、地理位置稀疏等對模型帶來的影響.

目前,在用戶行為理解后進(jìn)行服務(wù)等推薦的研究較少.個性化推薦方法主要有基于內(nèi)容推薦、基于協(xié)同過濾推薦、基于隱語義推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識推薦和組合推薦.

2 問題定義

表1給出了本文使用的符號列表和描述.

1) 非獨(dú)立同分布.在概率論中,非獨(dú)立同分布指隨機(jī)過程中,隨機(jī)變量X1和X2服從同一分布,但X1的取值會影響X2的取值,同樣X2的取值也會影響X1的取值.這種變量取值間互相影響的關(guān)系稱為耦合性.圖1描述了推薦系統(tǒng)中用戶、項(xiàng)目屬性間的耦合關(guān)系.其中,I代表項(xiàng)目集合,A代表屬性集合,Z代表項(xiàng)目的屬性值集合.在一個屬性Aj內(nèi)部,不同的屬性值Zlj和Zkj存在依賴關(guān)系,同時屬性Ai的屬性值Zli也受另外的屬性Aj的屬性值影響[8].

2)LDA主題模型.LDA是一種文檔主題生成模型,由參數(shù)α和β確定,α反映了文檔集合中隱含主題間的相對強(qiáng)弱,β刻畫所有隱含主題自身的概率分布.圖2給出了LDA模型的生成過程[9].其中θm表示文檔主題的概率分布,φk表示特定主題下特征詞的概率分布.wm,n代表第m篇文檔中的第n個詞語,Zm,n代表wm,n所屬的主題.

Table 1 Symbol List表1 符號列表

Fig. 1 Attributes coupling of items圖1 項(xiàng)目屬性耦合關(guān)系

Fig. 2 Structure of LDA圖2 LDA結(jié)構(gòu)圖

定義1.推薦地點(diǎn)屬性空間.F=I,H,Z表示推薦地點(diǎn)的屬性空間.其中I={I1,I2,…,Io}是推薦地點(diǎn)集合,H={H1,H2,…,Ho}是地點(diǎn)的非空屬性集合,Z表示所有服務(wù)地點(diǎn)的屬性值集合,Zi,j表示地點(diǎn)i在屬性j上的值.

(1)

其中,|gj(x)={oi|Zi,j=x,1≤j≤M,1≤i≤N}|是屬性Hj對應(yīng)屬性值為x的所有服務(wù)的個數(shù).

定義3.屬性耦合相似度ECLS.表示2個服務(wù)地點(diǎn)在某個屬性下的耦合相似度(coupled location similarity, CLS),即在某個屬性所有取值下的屬性內(nèi)耦合相似度:

(2)

問題1.行為理解.給定用戶U發(fā)布的tweets集合D,得到用戶的4W行為模式(u,s,z,r),表示用戶u在時間段s的活動內(nèi)容集合和活動區(qū)域集合.

問題2.個性化服務(wù)地點(diǎn)推薦.給定用戶行為模式(u,s,z,r)、服務(wù)場所集合Pl、為用戶推薦滿足其興趣的場所列表c.

3 用戶行為理解模型

利用攜帶時間戳、地理位置的短文本數(shù)據(jù),能夠挖掘出用戶的行為模式[1],即用戶在某個時間段的活動內(nèi)容和區(qū)域.該模式存在一定規(guī)律:1) 活動位置具有相對聚簇性[10].2)活動區(qū)域和內(nèi)容具有時效性.比如圖3揭示了某個用戶訪問過的位置具有相對聚簇性,圖4則揭示了某個用戶訪問過的區(qū)域具有時效性.在圖3中,白色的點(diǎn)表示用戶在工作日訪問過的位置,黑色的點(diǎn)表示用戶周末訪問過的位置,通過圖3中的聚簇性可以發(fā)現(xiàn)該用戶在不同時間段有頻繁訪問的活動區(qū)域.在圖4中,工作日被劃分成3個時間段,可以看出該用戶在工作日的不同時段,訪問過的活動區(qū)域不同,因此時間對用戶活動區(qū)域確有一定影響.

Fig. 3 Visited locations of a user圖3 某用戶訪問過的位置

Fig. 4 Visited time of locations in weekdays圖4 某用戶在工作日訪問過的位置

根據(jù)上述分析,用戶、時間、行為、地理位置4個方面存在依賴關(guān)系,為此,本文提出了2種行為理解模型:1)用戶-時間-活動模型(user-time-activity model, UTAM);2)用戶-時間-區(qū)域模型(user-time-region model, UTRM).前者理解用戶的活動內(nèi)容,后者主要理解用戶的活動區(qū)域.下面,分別對這2個模型加以詳細(xì)闡述.

3.1 用戶時間活動模型UTAM

3.1.1 UTAM結(jié)構(gòu)

用戶活動內(nèi)容與時間存在依賴關(guān)系.例如一個上班族周末可能會有更多的娛樂活動,看電影逛街等,而工作日更多的是與工作相關(guān)的行為如中午購買咖啡.所以,將用戶活動時間分成4類:T1(周末),T2(工作日06:00—12:00),T3(工作日12:00—18:00)和T4(工作日18:00—06:00).針對目標(biāo)用戶數(shù)據(jù)集D,將相同用戶在相同時間段發(fā)布的tweets放到同一個文檔Du,t中.

LDA主題模型適合處理長文本,由于Du,t的長度較短,傳統(tǒng)LDA不再適用,因此本文對此進(jìn)行改進(jìn),對于Du,t中的每1條tweet采樣自同一個主題,提出了UTAM行為理解模型,該模型的Du,t服從Dirchlet分布、其主題服從Multi分布,圖5給出了UATM的結(jié)構(gòu)圖.其中,v是已知詞條,表示u在時間段t發(fā)布的第i條文本中的第n個詞語;Zu,t,j表示用戶u在時間段t的第j個主題;φm,θu,t分別表示潛在主題m的詞語分布和u在時間段t的主題分布.通過φm可以計(jì)算出u在Du,t中各個潛在主題的概率,通過θu,t可以計(jì)算出v在主題m下出現(xiàn)的概率.

Fig. 5 The graphical model of UTAM圖5 用戶-時間-活動模型結(jié)構(gòu)圖

3.1.2 參數(shù)估計(jì)

給定Du,s,并根據(jù)經(jīng)驗(yàn)設(shè)定Dirchlet分布、Multi分布的先驗(yàn)參數(shù)α和β,則根據(jù)Gibbs采樣[11]可以計(jì)算出變Z,φ,θ:

(3)

(4)

3.2 用戶時間區(qū)域模型(UTRM)

3.2.1 UTRM結(jié)構(gòu)

用戶活動區(qū)域與時間存在依賴關(guān)系.與UTAM對時間處理的方式相同,將時間劃分成4類,將用戶u在時間段t訪問過的地理位置放到同一個Gu,t中.由于tweets中地理位置信息相對比較稀疏,因此Gu,t短文本特性更加明顯,不適合使用傳統(tǒng)主題模型解決,因此本文提出了基于位置對組合的用戶-時間-區(qū)域模型UTRM.

文獻(xiàn)[12]提出詞對主題模型(biterm topic model, BTM)用于文本單詞的主題挖掘,本文借鑒該模型對地理位置進(jìn)行處理.UTRM的結(jié)構(gòu)如圖6所示,該模型是3層結(jié)構(gòu),分別對應(yīng)位置對、區(qū)域和位置,位置對-區(qū)域假設(shè)為Dirichlet分布,區(qū)域-位置假設(shè)為Multi分布.生成位置對的過程是將Gu,t中無序的2個位置作為一個共現(xiàn)位置對,|L|個位置共生成|LB|個共現(xiàn)位置對.li,lj是位置對中的2個不同位置,?是所有位置對共享的區(qū)域分布,φ是每個區(qū)域?qū)?yīng)的位置分布,另外γ和λ都是Dirichlet先驗(yàn)分布的超參數(shù).

Fig. 6 The graphical model of UTRM圖6 用戶-時間-區(qū)域模型結(jié)構(gòu)圖

UTRM模型生成位置對的過程:

1) 選擇?~Dir(λ);

2) 對于每一個區(qū)域r∈R:選擇φr~Dir(γ);

3) 對于每一個位置對l=(li,lj)∈LB:

① 選擇1個區(qū)域r~Multi(θ);

② 選擇2個位置li,lj~Multi(φr).

UTRM模型生成語料庫中位置對的過程如上所示.對于位置對集合Lb中的每一個位置對l=(li,lj),先從整個位置對集合共享的?中抽取1個區(qū)域r,r~Multi(θ),然后從區(qū)域r下抽取2個位置li,lj,即li,lj~Multi(φr).

由于該模型是對整個語料庫進(jìn)行建模,所以不能直接得出Gu,t的區(qū)域概率分布.為了推理出該分布,假設(shè)Gu,t的區(qū)域概率分布等于從該文檔中生成位置對的區(qū)域概率的期望值.其中p(r|b,d)表示位置對b采樣自主題r的概率.

(5)

3.2.2 UTRM參數(shù)估計(jì)

給定Gu,t,根據(jù)經(jīng)驗(yàn)設(shè)定Dirchlet分布的先驗(yàn)參數(shù)λ和γ,根據(jù)Gibbs采樣推斷隱含變量?和φ:

(6)

根據(jù)區(qū)域下位置對出現(xiàn)的次數(shù),可以估計(jì)出區(qū)域-位置的分布和語料庫的區(qū)域分布:

(7)

(8)

從大眾文本挖掘出來的活動內(nèi)容能夠反映出大眾的興趣、需求,從而影響了服務(wù)的選擇[13].所以大眾活動與服務(wù)間存在對應(yīng)關(guān)系,且這種對應(yīng)關(guān)系具有客觀性[14].如活動是吃飯,與之對應(yīng)的服務(wù)是餐館而不是商場,那么推薦的服務(wù)地點(diǎn)應(yīng)是具體的餐館.通過分析大眾tweets文本及簽到地點(diǎn)數(shù)據(jù),能夠挖掘出這種對應(yīng)關(guān)系[14].

大眾發(fā)布的tweets詞語能組成語義相關(guān)的活動,服務(wù)能組成功能相關(guān)的主題.為了得到活動和服務(wù)地點(diǎn)間的對應(yīng)關(guān)系,本文提出了活動-服務(wù)主題模型(activity-to-service topic model, ASTM).

4.1 ASTM結(jié)構(gòu)

ASTM生成大眾文本、地點(diǎn)的過程:

對于集合Pu中的每一個用戶u:

1) 選擇ψu(yù)~Dir(ξ).

2) 對于Pd中的每一個詞w,選擇活動x~Mul(ψu(yù)),選擇詞分布χx~Dir(μ),選擇詞語w~Mul(χx).

3) 對于Pg中的每一個服務(wù)地點(diǎn)c,選擇活動y~Mul(ψu(yù)),選擇活動-主題分布πy~Dir(μ),選擇主題e~Mul(πy),選擇服務(wù)地點(diǎn)分布δe~Dir(ε),選擇服務(wù)地點(diǎn)c~Mul(δe).

Fig. 7 The graphical model of ASTM圖7 活動服務(wù)主題模型結(jié)構(gòu)圖

對大眾Pu發(fā)布的tweets數(shù)據(jù)集,將大眾u發(fā)布的所有tweets放到文檔Pd中,所有簽到地點(diǎn)c放到Pg中.ASTM結(jié)構(gòu)圖如圖7所示.假設(shè)文檔Pd的活動服從Dirchlet分布,活動x的詞服從Dirchlet分布,主題z的服務(wù)服從Dirchlet分布.其中,w是Pd中已知詞條,c是Pg中已知服務(wù)地點(diǎn),ψu(yù)表示Pd的活動分布,χx表示活動x的詞分布,πy表示活動y對應(yīng)的主題分布,δt表示主題t的服務(wù)地點(diǎn)分布.μ,ξ,η,ε是模型的超參數(shù).

對于大眾Pu發(fā)布的數(shù)據(jù)集,ASTM執(zhí)行圖7所示的生成過程.對于Pd中的每一個詞條,從活動的多項(xiàng)式分布ψu(yù)中生成活動x,在x下采樣一個詞w;對于Pg中的每一個服務(wù)地點(diǎn),先采樣一個活動y,根據(jù)πy采樣生成主題e,在e下采樣一個服務(wù)地點(diǎn)c.

4.2 ASTM參數(shù)估計(jì)

同樣采用Gibbs采樣進(jìn)行模型參數(shù)估計(jì).具體來說,由3個方程來更新主題x,y,t.首先:

p(xi=a|x,y,e,w,c)=
p(xi=a|x,y,wi=w)∝

(9)

p(yj=a|y,x,e,w,c)=
p(yj=a|y,x,tj=d)∝

(10)

p(ej=d|e,x,y,w,c)=
p(ej=d|e,yj=a,cj=c)∝

(11)

當(dāng)Markov鏈得到收斂狀態(tài)之后,通過式(12)~(15)進(jìn)行參數(shù)更新.

(12)

(13)

(14)

(15)

5 個性化服務(wù)推薦算法MFCD

在實(shí)際生活中,用戶更偏向于訪問與自己活動區(qū)域較近或在自己活動區(qū)域內(nèi)的地點(diǎn),所以服務(wù)地點(diǎn)與用戶活動區(qū)域的物理距離影響了用戶訪問該服務(wù)的可能性.另外,傳統(tǒng)推薦算法忽略了服務(wù)屬性內(nèi)的耦合性,導(dǎo)致推薦結(jié)果不準(zhǔn)確.基于此,本文將用戶活動區(qū)域與服務(wù)地點(diǎn)間物理距離、服務(wù)屬性內(nèi)耦合性融合到推薦算法中,提出了MFCD推薦算法.首先利用UTAM和UTRM模型得到了用戶4W元組,其中包括某用戶在某個時間段的活動區(qū)域向量和活動內(nèi)容向量;然后,利用ASTM模型得到的大眾活動內(nèi)容向量和服務(wù)地點(diǎn)之間的關(guān)系,計(jì)算得到用戶在某個時間段的活動向量和服務(wù)地點(diǎn)之間的關(guān)系,構(gòu)成用戶-服務(wù)地點(diǎn)矩陣;最后,在用戶-服務(wù)矩陣的基礎(chǔ)上,融合用戶活動區(qū)域與服務(wù)地點(diǎn)之間的距離以及服務(wù)地點(diǎn)屬性間的耦合性,形成了MFCD推薦算法.

5.1 用戶服務(wù)矩陣

通過UTAM和UTRM這2個模型可以得到用戶u的4W元組(u,s,z,r),其中u∈U,s∈S,z表示長度為|L|的活動向量,向量元素為u參加對應(yīng)活動的概率;r表示長度為|R|的區(qū)域向量,向量元素為u在對應(yīng)區(qū)域的概率.由于每個用戶不可能參加所有活動,因此給定一個閾值th,則z中活動其概率均≥th,由此構(gòu)成用戶-活動矩陣A|U|×|L|.通過類似方法,還可以構(gòu)成用戶-區(qū)域矩陣B|U|×|R|.

根據(jù)用戶活動和大眾活動的詞分布和φ,χ,使用JS(Jensen-Shannon)距離[15]和KL(Kullback-Leibler )距離[16]利用式(16)計(jì)算出|L|個用戶活動和|PL|個大眾活動間的相似度,并取概率值大于th的活動構(gòu)成活動相似度矩陣C|L|×|PL|.

(16)

通過ASTM模型中的活動-主題分布πy及主題-服務(wù)分布δt,由于一個活動不能涵蓋所有主題,同樣一個主題不能涵蓋所有服務(wù),因此取分布中概率大的構(gòu)成活動-服務(wù)矩陣M.

通過上述4個矩陣A,B,C,M的乘積運(yùn)算,最終得到稀疏的用戶-服務(wù)矩陣R.

5.2 服務(wù)活動區(qū)域間物理距離計(jì)算

用戶活動區(qū)域是由一系列地理位置組成,該活動區(qū)域與服務(wù)的物理距離D會影響用戶訪問該服務(wù)地點(diǎn)的可能性S.一般而言,D越大則S越?。环粗?,D越小S越大.基于此,將服務(wù)-活動區(qū)域距離D納入矩陣分解,于是S=|1-D|.

對于推薦服務(wù)地點(diǎn)集合Pl中的每一個地點(diǎn),計(jì)算其與用戶區(qū)域中多個地點(diǎn)間的距離,并將其進(jìn)行歸一化,得到距離差D.

5.3 服務(wù)屬性耦合相似性計(jì)算

大多數(shù)推薦算法假設(shè)用戶、項(xiàng)目的屬性服從獨(dú)立同分布,即屬性間以及屬性值間是相互獨(dú)立的,不存在互相影響的關(guān)系[8,17-19].但實(shí)際上大多屬性都是或多或少的互相影響,彼此間存在耦合性.

本文假設(shè)服務(wù)屬性服從非獨(dú)立同分布,屬性值存在相互影響的耦合關(guān)系,并將這種耦合關(guān)系整合到矩陣分解算法中,進(jìn)而提高推薦質(zhì)量.

5.4 個性化服務(wù)推薦MFCD

矩陣分解模型常用形式是:N=PQT.將矩陣N轉(zhuǎn)化為了2個淺層因子P,Q的乘積,其中N|U|×|PL|,P|U|×d,Q|PL|×d,d是淺層因子的維度[20].

由于距離的影響以及耦合性的存在,為了提高推薦準(zhǔn)確度,本文提出了MFCD方法.

(17)

其中,Su i表示用戶u的活動區(qū)域與簽到地點(diǎn)i的距離1-Du i,N′(i)表示與簽到地點(diǎn)i相似度較高的前T個.該模型在優(yōu)化過程中加入了另外2項(xiàng)規(guī)則化因子來篩選預(yù)測相似度較高的用戶和服務(wù)地點(diǎn).采樣用梯度下降法進(jìn)行優(yōu)化更新,進(jìn)而計(jì)算出最優(yōu)的P和Q:

(18)

(19)

其中,Iu,i標(biāo)識用戶u對簽到地點(diǎn)是否有過概率,Su,i表示用戶u和簽到地點(diǎn)i之間的距離,ECLS(i,j)表示簽到地點(diǎn)i和j的耦合相似度,N′(i)則表示與簽到地點(diǎn)i相似的地點(diǎn)集合,可通過設(shè)置閾值等方式選擇前T個.

最后,得到矩陣R,對于每一個用戶u,即矩陣R中的每一行,將結(jié)果排序,取值較大的前M個服務(wù)組成列表c推薦給該用戶.

6 實(shí)驗(yàn)與分析

本節(jié)將在真實(shí)的Twitter數(shù)據(jù)集上驗(yàn)證本次研究提出模型的參數(shù)敏感性、推薦有效性及推薦質(zhì)量.介紹了實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)數(shù)據(jù),介紹了實(shí)驗(yàn)的評估標(biāo)準(zhǔn),給出了相關(guān)實(shí)驗(yàn)結(jié)果及對實(shí)驗(yàn)結(jié)果的分析.

6.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

本文采用真實(shí)的Twitter數(shù)據(jù)集,共6 058個用戶,137 830條文本.Twitter支持第3方的位置共享服務(wù)如Foursquare.Foursquare上的用戶可以在Twitter上分享簽到.利用Foursquare將在真實(shí)POI有過簽到且次數(shù)大于10次的用戶作為大眾用戶,進(jìn)行數(shù)據(jù)清理,去除被訪問次數(shù)少于10次的POI及用戶,同時采集POI的屬性信息.其他用戶作為目標(biāo)用戶,去除發(fā)布文本數(shù)量少于3次的用戶-數(shù)據(jù)的統(tǒng)計(jì)如表2所示:

Table 2 Statistics of Twitter Datasets表2 Twitter數(shù)據(jù)集統(tǒng)計(jì)

6.2 評價指標(biāo)

由于用戶行為理解模型UTAM,UTRM是基于LDA主題模型的,故采用2個常用的LDA評價指標(biāo),即困惑度(perplexity)和平均余弦相似性(average cosine similarity,ACS),分別記為per和QACS.

1) 困惑度[21].perplexity是當(dāng)前最常用的度量語言模型性能好壞的評測指標(biāo),困惑度越小意味著模型效果越好.其中,p(wd)表示文檔d中的詞匯的生成概率,Nd表示為文檔d中所有的詞匯.

2) 平均余弦相似性ACS[22].ACS是所有主題向量之間的余弦相似性的平均值,該值越小,模型效果越好,其計(jì)算為

(20)

(21)

另外,為了評估MFCD算法的效果,本文采用推薦系統(tǒng)常用的2個指標(biāo)[23]:平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean squared error,RMSE).其中MAE記為JMAE,RMSE記為IRMSE:

(22)

(23)

最后在我們的對比方法中,采用2種指標(biāo)精確率Precision@K和召回率Recall@K來評估服務(wù)地點(diǎn)推薦的質(zhì)量.其定義為:

(24)

(25)

其中,U是用戶集合,K是推薦給用戶的服務(wù)地點(diǎn)的數(shù)量;R(u)是推薦給用戶的top-k列表;T(u)是用戶實(shí)際訪問的服務(wù)地點(diǎn)數(shù)量.

6.3 實(shí)驗(yàn)結(jié)果

6.3.1節(jié)測試了UTAM,UTRM模型和MFCD算法的參數(shù),確定了模型最優(yōu)的參數(shù).6.3.2節(jié)測試了MFCD模型推薦效果,實(shí)驗(yàn)結(jié)果表明MFCD優(yōu)于傳統(tǒng)的推薦算法.6.3.3節(jié)測試了本文提出推薦方法的質(zhì)量.

6.3.1 參數(shù)敏感性測試

1) 用戶行為理解模型參數(shù)

采用困惑度和ACS兩個評價指標(biāo)查找最優(yōu)的活動數(shù)目K和區(qū)域數(shù)目R.

UTAM模型的困惑度和ACS隨活動數(shù)目選擇的變化趨勢如圖8所示:

Fig. 8 The influence of activity number on USAM圖8 活動主題數(shù)目對USAM模型的影響

在圖8(a)中,隨著活動數(shù)目的增加,困惑度呈現(xiàn)先降低后升高的趨勢,在K=50時困惑度最低.產(chǎn)生這種現(xiàn)象的原因是:當(dāng)活動數(shù)目較少時,很多潛在的活動并沒有挖掘出;當(dāng)活動數(shù)目較大時,出現(xiàn)過擬合現(xiàn)象,即有一部分活動是重復(fù)的.在圖8(b)中剛開始ACS呈現(xiàn)下降的趨勢,當(dāng)活動數(shù)k=50時,ACS達(dá)到最低,之后ACS呈現(xiàn)上升趨勢.綜合看圖8(a)和圖8(b),當(dāng)活動數(shù)k=50時,USAM模型最穩(wěn)定.

USRM模型的困惑度和ACS隨區(qū)域數(shù)目的變化趨勢如圖9所示.在圖9(a)中,開始困惑度較高,隨著區(qū)域數(shù)目的增加,困惑度下降較明顯,當(dāng)R=150時,困惑度最低,之后緩慢增加.產(chǎn)生這種現(xiàn)象的原因是:當(dāng)區(qū)域數(shù)目R<150時,很多潛在的區(qū)域并沒有發(fā)現(xiàn);當(dāng)R>150時,有一部分重合,出現(xiàn)過擬合現(xiàn)象.在圖9(b)中,ACS隨區(qū)域數(shù)目的增加,變化不明顯,但也呈現(xiàn)出先降后升的趨勢,當(dāng)R=150時ACS最低.綜合考慮,當(dāng)R=150時,困惑度和ACS都是最低的,這時UTRM模型的結(jié)構(gòu)最穩(wěn)定.

Fig. 9 The influence of regions number on USRM圖9 區(qū)域數(shù)目對USRM模型的影響

2) 活動-服務(wù)模型參數(shù)

為了得到最優(yōu)的活動主題數(shù)和服務(wù)主題數(shù),同樣采用perplexity和ACS指標(biāo).

圖10展示了主題數(shù)的變化對活動模型的影響,當(dāng)活動主題數(shù)為70、服務(wù)主題數(shù)為130時,困惑度的值最低;當(dāng)活動主題數(shù)為80,70,服務(wù)數(shù)為50,80,130,ACS的值較低,在圖10中使用了顏色最深的(紅色)柱形進(jìn)行標(biāo)注.圖11展示了主題數(shù)對服務(wù)模型的影響,當(dāng)活動主題數(shù)為80,70且服務(wù)主題數(shù)為50,130時,困惑度值較低;當(dāng)活動數(shù)為70時,ACS的值較低,如圖11中顏色最深的(紅色)柱形所示.綜合考慮,當(dāng)活動主題數(shù)為60、服務(wù)主題數(shù)為130時模型效果較優(yōu).

Fig. 10 The influence of topic number on behavior model圖10 活動、服務(wù)主題數(shù)對活動模型的影響

Fig. 11 The influence of topic number on service model圖11 活動、服務(wù)主題數(shù)對服務(wù)模型的影響

參數(shù)ρ是耦合項(xiàng)正則化權(quán)重,作用是調(diào)整地點(diǎn)間耦合性對預(yù)測結(jié)果的影響.為了選取合適的參數(shù),觀察在不同取值下的推薦效果.這里僅展示ρ在0~1之間的變化.圖12展示了RMSE變化情況.由圖12可知,參數(shù)ρ的取值會影響矩陣分解的性能,在實(shí)際應(yīng)用中要根據(jù)實(shí)際情況選擇合適的參數(shù),因?yàn)楫?dāng)我們推薦一些服務(wù)地點(diǎn)給用戶后,用戶的主觀評價可能占據(jù)著主導(dǎo)的作用,也可能用戶更看重它近鄰的參考意見或者選擇跟自己需求最大的服務(wù)地點(diǎn)更相似的地點(diǎn).

Fig. 12 RMSE of CDMF by changing parameter ρ圖12 調(diào)整ρ算法RMSE變化情況

另外一個參數(shù)是通過耦合相似度得到某地點(diǎn)的相似集合,選取相似度較高的前T個,參數(shù)T對算法有一定影響.圖13可以看出在當(dāng)前數(shù)據(jù)集下,隨著T的數(shù)目增加,RMSE逐漸降低,當(dāng)T=30時RMSE最小,之后達(dá)到飽和趨于平穩(wěn).

Fig. 13 RMSE of CDMF by changing parameter T圖13 調(diào)整T算法RMSE變化情況

6.3.2 推薦系統(tǒng)性能測試

本文使用了地理位置的類型特征,如Coffee Shop,Park,Restaurant等,利用用戶活動區(qū)域計(jì)算距離,地點(diǎn)屬性信息計(jì)算相似度,訓(xùn)練MFCD完成推薦.

為了評價MFCD的有效性,將該模型和基礎(chǔ)矩陣分解(Basic MF)、帶偏差的矩陣分解(With Biases MF)模型進(jìn)行比較.對于每個方法都設(shè)置了不同的淺層因子維度,分別是5,10,50,梯度下降步長因子設(shè)置為0.001,正則化權(quán)重ν=0.005,ρ=0.1.從圖14,15可以看出,隨著淺層因子維度d的增加,RMSE,MAE呈減小趨勢,且MFCD的結(jié)果優(yōu)于Basic MF和With Biases MF.d并不是越大越好,過大容易產(chǎn)生過擬合現(xiàn)象.

Fig. 14 The result of RMSE圖14 RMSE評價結(jié)果

Fig. 15 The result of MAE圖15 MAE評價結(jié)果

6.3.3 推薦質(zhì)量測試

本節(jié)采用準(zhǔn)確率及召回率2個指標(biāo)對推薦質(zhì)量進(jìn)行測試.分別測試了當(dāng)為用戶推薦的服務(wù)地點(diǎn)數(shù)量為10,30,50這3種情況時,對應(yīng)的準(zhǔn)確率和召回率變化情況.圖16展示了隨著推薦數(shù)量d的增加,準(zhǔn)確率呈現(xiàn)下降趨勢.由于用戶實(shí)際訪問的服務(wù)地點(diǎn)是固定的,所以隨著推薦數(shù)量的增加,準(zhǔn)確率會呈現(xiàn)下降趨勢.圖17展示了隨著推薦數(shù)量的增加,召回率呈現(xiàn)上升趨勢.從圖16和圖17中可以看出,MFCD的推薦質(zhì)量都是優(yōu)于傳統(tǒng)的矩陣分解推薦算法.

Fig. 16 The result of Precision@K圖16 Precision@K評價結(jié)果

Fig. 17 The result of Recall@K圖17 Recall@K評價結(jié)果

7 結(jié)束語

為了理解用戶的行為規(guī)律,基于LDA主題模型,綜合考慮用戶行為發(fā)生的時間、活動內(nèi)容、活動區(qū)域提出了UTAM,UTRM模型.其中UTAM解決了短文本導(dǎo)致的活動內(nèi)容難于捕捉的問題;UTRM模型解決了地理位置稀疏導(dǎo)致的活動區(qū)域難于挖掘的問題.另外將距離和服務(wù)地點(diǎn)耦合性融合到矩陣分解算法中,改進(jìn)目標(biāo)函數(shù),提高了推薦算法的有效性.下一步的研究工作中,我們將把用戶的屬性信息,如年齡、居住地等信息,融合到矩陣分解推薦算法中,考慮用戶屬性間的耦合相似性,進(jìn)一步提高推薦質(zhì)量.

猜你喜歡
耦合矩陣區(qū)域
非Lipschitz條件下超前帶跳倒向耦合隨機(jī)微分方程的Wong-Zakai逼近
初等行變換與初等列變換并用求逆矩陣
關(guān)于四色猜想
分區(qū)域
基于“殼-固”耦合方法模擬焊接裝配
大型鑄鍛件(2015年5期)2015-12-16 11:43:20
矩陣
南都周刊(2015年4期)2015-09-10 07:22:44
矩陣
南都周刊(2015年3期)2015-09-10 07:22:44
矩陣
南都周刊(2015年1期)2015-09-10 07:22:44
基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
電測與儀表(2015年5期)2015-04-09 11:30:52
求解奇異攝動Volterra積分微分方程的LDG-CFEM耦合方法
庆元县| 通州区| 犍为县| 通江县| 双流县| 邵阳县| 永吉县| 阿拉尔市| 若羌县| 改则县| 长宁区| 平邑县| 乳源| 海阳市| 德保县| 瓮安县| 定襄县| 朔州市| 寿阳县| 洞头县| 靖安县| 石狮市| 永定县| 镇平县| 梅河口市| 北辰区| 元阳县| 眉山市| 平和县| 台湾省| 宁乡县| 辉南县| 泾川县| 珲春市| 绿春县| 清流县| 宜宾县| 甘孜县| 射洪县| 当阳市| 凤阳县|