吳勁,陳樹沛*,楊慶,2,周帆
(1.電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054;2.中國(guó)電子科技集團(tuán)公司第十研究所 成都 610036)
隨著物聯(lián)網(wǎng)和移動(dòng)應(yīng)用的發(fā)展,基于位置信息的應(yīng)用服務(wù)越來(lái)越多。在各種移動(dòng)應(yīng)用中,大量的個(gè)人位置信息和活動(dòng)信息被收集,如共享單車的軌跡信息、用戶的簽到信息。這些信息反映了用戶的移動(dòng)模式和活動(dòng)意圖,可以用于提供各種各樣的服務(wù),如交通規(guī)劃、智能推薦和智能城市規(guī)劃等。這為研究人員提供了一個(gè)挖掘人類移動(dòng)模式的新機(jī)會(huì),衍生了很多新研究,如下一個(gè)興趣點(diǎn)(point of interest,POI)推薦[1]、基于位置的信息推送[2]及在線社交推薦[3]等。在眾多的研究中,軌跡用戶鏈接(trajectory-user linking,TUL)[4]問(wèn)題旨在研究如何將軌跡鏈接到生成該軌跡的用戶,可以更好地掌握各種基于位置的移動(dòng)應(yīng)用中用戶的移動(dòng)模式和規(guī)律?;谖恢玫纳缃痪W(wǎng)絡(luò)(location-based social networks,LBSNs),如Foursquare 和Yelp 等網(wǎng)站收集了很多用戶的簽到位置信息,出于隱私考慮,第三方服務(wù)提供商會(huì)對(duì)用戶身份進(jìn)行匿名處理,因此用戶軌跡數(shù)據(jù)或用戶簽到數(shù)據(jù)一般不包含對(duì)應(yīng)的真實(shí)用戶。將這些軌跡與相應(yīng)的用戶關(guān)聯(lián)起來(lái),可以挖掘出用戶的訪問(wèn)意圖和活動(dòng)規(guī)律,用于POI 推薦和用戶旅行路線推薦等。此外,TUL還可以識(shí)別出可疑的訪問(wèn)和移動(dòng)模式,預(yù)防違法犯罪活動(dòng)。
近些年來(lái),與人類移動(dòng)相關(guān)的數(shù)據(jù)呈爆炸式增長(zhǎng)[5]。由于軌跡數(shù)據(jù)的稀疏性和帶標(biāo)記軌跡的數(shù)量不足,解決TUL 問(wèn)題存在一定的挑戰(zhàn)。傳統(tǒng)的工作通常是通過(guò)馬爾可夫鏈等序列學(xué)習(xí)模型來(lái)建模人類的移動(dòng)規(guī)律,進(jìn)而將軌跡和用戶相鏈接。這些模型捕獲的是用戶簽到點(diǎn)之間的短期依賴關(guān)系。受現(xiàn)有深度學(xué)習(xí)技術(shù)的啟發(fā),一些研究人員采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)建模用戶軌跡,其表現(xiàn)優(yōu)于淺層機(jī)器學(xué)習(xí)方法。文獻(xiàn)[4]正式定義了TUL 問(wèn)題,并提出了基于POI 嵌入和循環(huán)神經(jīng)網(wǎng)絡(luò)的軌跡用戶鏈接模型TULER。TULVAE[6]通過(guò)軌跡分布的變分推斷擴(kuò)展了TULER,利用半監(jiān)督學(xué)習(xí)方式學(xué)習(xí)人類移動(dòng)規(guī)律。TGAN[7]和STULIG[8]是兩種深度生成模型,通過(guò)數(shù)據(jù)增強(qiáng)增加軌跡數(shù)據(jù)量,并分別使用對(duì)抗學(xué)習(xí)和分級(jí)自編碼器對(duì)用戶軌跡進(jìn)行分類。而最近關(guān)于用戶簽到點(diǎn)預(yù)測(cè)的方法,如DeepMove[9]、CATHI[10]和VaNext[11],也可以用于解決TUL 問(wèn)題。它們利用RNN 的變體,如長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory network,LSTM)[12]和門控循環(huán)單元(gatedrecurrent unit,GRU)[13]學(xué)習(xí)軌跡中的序列變換規(guī)律,在捕獲用戶個(gè)性化移動(dòng)模式方面表現(xiàn)良好。
盡管上述研究在用戶移動(dòng)模式學(xué)習(xí)和分類方面取得了很好的成果,但它們?nèi)源嬖谝欢ǖ木窒扌?。首先,簽到點(diǎn)之間的空間位置關(guān)系尚未得到充分挖掘。現(xiàn)有方法只依靠軌跡數(shù)據(jù)來(lái)獲取簽到點(diǎn)嵌入,忽略了簽到點(diǎn)之間的地理位置信息。因此,僅從軌跡序列數(shù)據(jù)中不足以學(xué)習(xí)到有代表性的簽到點(diǎn)嵌入。其次,大多數(shù)POI 被訪問(wèn)的頻率非常低,導(dǎo)致基于位置的社交網(wǎng)絡(luò)中的簽到數(shù)據(jù)往往過(guò)于稀疏,使得模型忽略了數(shù)據(jù)中隱含的訪問(wèn)偏好和移動(dòng)模式。另外,以往的工作主要使用生成模型來(lái)豐富軌跡數(shù)據(jù),這通常需要非常高的計(jì)算成本。如,TULVAE和TGAN 分別利用變分自編碼器(variational autoencoder,VAE)[14]和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[15]來(lái)推斷潛在的軌跡分布,這對(duì)于訓(xùn)練和計(jì)算效率而言是一個(gè)挑戰(zhàn)。這些生成模型的效率問(wèn)題限制了它們?cè)诖笠?guī)模移動(dòng)數(shù)據(jù)上的應(yīng)用。
為了解決上述挑戰(zhàn)和當(dāng)前模型存在的不足,本文提出了一種新的基于圖神經(jīng)網(wǎng)絡(luò)的軌跡用戶鏈接模型GTUL。GTUL 不再只依賴用戶的訪問(wèn)序列,而是利用簽到點(diǎn)構(gòu)建簽到圖,收集軌跡中的空間信息和時(shí)間信息,然后使用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)[16]學(xué)習(xí)簽到圖中的簽到點(diǎn)的表示,再結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)建模用戶的移動(dòng)模式,最后使用全連接網(wǎng)絡(luò)對(duì)軌跡進(jìn)行用戶分類,實(shí)現(xiàn)軌跡與用戶的正確鏈接。簽到圖可以綜合所有的歷史軌跡信息,提取出原始軌跡數(shù)據(jù)的訪問(wèn)偏好和復(fù)雜移動(dòng)規(guī)律。與現(xiàn)有的軌跡數(shù)據(jù)增強(qiáng)算法相比,該方法更具通用性、可擴(kuò)展性和有效性。
本文模型分為4 個(gè)模塊,模型總體框架如圖1所示。首先,對(duì)原始軌跡數(shù)據(jù)進(jìn)行分割處理,并基于分割后的軌跡數(shù)據(jù)構(gòu)建用戶簽到圖(如圖1a 所示);其次,利用GNN 學(xué)習(xí)簽到圖中的節(jié)點(diǎn)嵌入(如圖1b 所示);然后,利用RNN 構(gòu)建軌跡序列的向量表示(如圖1c 所示);最后使用全連接網(wǎng)絡(luò)得到最終的分類結(jié)果(如圖1d 所示)。
圖1 基于圖神經(jīng)網(wǎng)絡(luò)的用戶軌跡分類模型架構(gòu)
根據(jù)文獻(xiàn)[4,9]的研究,用戶軌跡包含的簽到數(shù)量因人而異,軌跡的時(shí)間跨度也極不規(guī)則。因此,需要對(duì)用戶軌跡進(jìn)行分割,劃分成多個(gè)子軌跡。文獻(xiàn)[4,10]發(fā)現(xiàn)用戶的簽到點(diǎn)存在很強(qiáng)的周期性,因此本文將每個(gè)用戶的歷史軌跡按固定的時(shí)間間隔(如6h)劃分為若干個(gè)子軌跡。
構(gòu)建方法如圖2 所示,首先分別構(gòu)建兩個(gè)圖來(lái)表示簽到點(diǎn)的地理特征(圖2c)和用戶的訪問(wèn)偏好(圖2d),并將這兩個(gè)圖合并形成最終的簽到圖(圖2e)。
圖2 簽到圖構(gòu)建方法
正如文獻(xiàn)[4,9]中所觀察到的,移動(dòng)應(yīng)用用戶通常更喜歡訪問(wèn)距離自己更近的位置。因此,連接距離相近的簽到點(diǎn)構(gòu)造無(wú)向圖GS=
除了地理特征,還構(gòu)建了有向訪問(wèn)圖(visiting graph),即GV=
為了整合地理特征和序列信息,將上述GS和GV合并形成最終的無(wú)向簽到圖 G。具體來(lái)說(shuō),G是通過(guò)將屬于GV的邊添加到GS中來(lái)形成的。為簡(jiǎn)單起見,根據(jù)LBSN 軌跡中的地理可互換的屬性省略了GV中的方向,即如果存在從位置i到位置j的移動(dòng)轉(zhuǎn)移,那么從j到i的訪問(wèn)模式對(duì)于另一個(gè)用戶來(lái)說(shuō)是合理的。因此,簽到圖保存了空間圖的地理信息,同時(shí)保存了訪問(wèn)圖中的用戶訪問(wèn)偏好和簽到模式信息。此外,簽到圖的節(jié)點(diǎn)特征由簽到點(diǎn)的地理信息和POI 分類信息組成。
圖表示學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一種編碼映射函數(shù),將圖節(jié)點(diǎn)映射為低維密集的向量,以保持圖的結(jié)構(gòu)和屬性特征。GNN 是神經(jīng)網(wǎng)絡(luò)在圖結(jié)構(gòu)數(shù)據(jù)上的一個(gè)延伸,現(xiàn)在已經(jīng)成為學(xué)習(xí)圖表示的強(qiáng)大模型。在本文任務(wù)中,基于深度圖互信息最大化(deep graph infomax,DGI)[17]算法實(shí)現(xiàn)GNN 模塊,來(lái)學(xué)習(xí)簽到圖中的節(jié)點(diǎn)嵌入表示。DGI 是一種無(wú)監(jiān)督的圖神經(jīng)網(wǎng)絡(luò)模型,通過(guò)最大化近鄰表示(patch representation)與對(duì)應(yīng)的高階圖摘要(high-level summaries of graphs)之間的互信息(mutual information)來(lái)學(xué)習(xí)一個(gè)對(duì)比任務(wù)。DGI 能夠?qū)W習(xí)到包含圖全局結(jié)構(gòu)信息的節(jié)點(diǎn)嵌入向量,用于分類、預(yù)測(cè)等下游任務(wù)。
在簽到圖G=(V,E,X,A)中,V代表簽到點(diǎn)的集合,E代表邊的集合,X代表簽到點(diǎn)特征的集合,A代表鄰接矩陣,由V和E得出。如圖3 所示,基于DGI 通過(guò)5 個(gè)步驟實(shí)現(xiàn)簽到圖的節(jié)點(diǎn)嵌入學(xué)習(xí)。
圖3 圖神經(jīng)網(wǎng)絡(luò)表示學(xué)習(xí)
1)利用簽到圖,通過(guò)擾動(dòng)函數(shù)(corruption function)構(gòu)建負(fù)例節(jié)點(diǎn),即不改變鄰接矩陣,對(duì)特征矩陣進(jìn)行行變換,改變節(jié)點(diǎn)的特征向量:,C表示擾動(dòng)函數(shù)。
2)使用圖卷積網(wǎng)絡(luò)(graph convolutional nueral network,GCN)[18]學(xué)習(xí)正例節(jié)點(diǎn)的鄰近節(jié)點(diǎn)表示:H=ε(X,A),ε表示由圖卷積網(wǎng)絡(luò)構(gòu)成的編碼器。
4)利用正例節(jié)點(diǎn)的節(jié)點(diǎn)表示獲得包含圖全局信息的高階圖摘要,生成摘要向量s=R(H),R表示獲得高階圖摘要的輸出函數(shù)。
5)最大化簽到點(diǎn)的鄰近節(jié)點(diǎn)表示(局部特征)與摘要向量(全局特征)之間的互信息,作為整個(gè)GNN 模塊的優(yōu)化目標(biāo)。由于互信息計(jì)算困難,利用Infomax 準(zhǔn)則[19],將互信息計(jì)算等價(jià)轉(zhuǎn)化為關(guān)于聯(lián)合分布和邊緣分布乘積間的JS 散度計(jì)算(Jensen-Shannon divergence),即最大化互信息等價(jià)于最大化JS 散度:
式中,N表示正例的數(shù)量;M表示負(fù)例的數(shù)量;D表示判別器,用于計(jì)算節(jié)點(diǎn)表示與摘要向量之間的互信息。如果該節(jié)點(diǎn)表示包含在摘要向量中,得到的分?jǐn)?shù)更高。
利用GNN 模塊學(xué)習(xí)到簽到圖的所有節(jié)點(diǎn)嵌入表示H,按照分割后的軌跡序列組成軌跡簽到點(diǎn)嵌入表示向量z,就可以進(jìn)行后續(xù)的分類任務(wù)。
該模塊中的分類器是一個(gè)基于RNN 的神經(jīng)網(wǎng)絡(luò),包含一個(gè)雙向LSTM 和一個(gè)單層全連接網(wǎng)絡(luò)。LSTM 可以有效捕獲軌跡中高階復(fù)雜的序列信息,其結(jié)構(gòu)包含一個(gè)存儲(chǔ)單元和3 個(gè)門結(jié)構(gòu):輸入門g(i)、輸出門g(o)和遺忘門g(f)。LSTM 在第t時(shí)刻的輸入為t時(shí)刻簽到點(diǎn)嵌入表示zt:
式中,W,U,V,b均為可學(xué)習(xí)的參數(shù);σ表示sigmoid激活函數(shù);ct表示當(dāng)前單元的狀態(tài),它通過(guò)以下方式獲得門的組合:
式中,“ ⊙”表示矩陣對(duì)應(yīng)元素相乘,最終的候選狀態(tài)mt為:
為了增強(qiáng)RNN 的記憶能力,使用由前向LSTM與后向LSTM 組合而成的BiLSTM,以利用來(lái)自正反兩個(gè)方向的上下文信息。在第t步時(shí),可以得到軌跡嵌入qt:
式中,mt和是BiLSTM 的兩個(gè)輸出。軌跡向量q用最后時(shí)刻的qt來(lái)表示。
分類器還包含了一層的全連接網(wǎng)絡(luò),用于輸出軌跡對(duì)應(yīng)用戶(標(biāo)簽)的概率分布。將軌跡向量q輸入至全連接網(wǎng)絡(luò)中,最后利用softmax 函數(shù)映射成C維的向量,得到分類輸出。其中C表示用戶數(shù)量,softmax 函數(shù)為歸一化指數(shù)函數(shù):
式中,y為該軌跡屬于每個(gè)用戶的概率。在模型訓(xùn)練中,將模型輸出的概率分布和真實(shí)分布(onehot 向量)之間的交叉熵作為模型的損失函數(shù)并進(jìn)行訓(xùn)練。本文模型GTUL 的預(yù)測(cè)算法如下。
Gowalla[20]是一個(gè)基于LBSN 網(wǎng)站的數(shù)據(jù)集,該數(shù)據(jù)集收集了2009 年2 月?2010 年10 月期間1 萬(wàn)多個(gè)用戶的軌跡,包括詳細(xì)的時(shí)間戳和每次簽到點(diǎn)的地理坐標(biāo)。Foursquare[21]包括從Foursquare網(wǎng)站收集的2012 年4 月?2013 年2 月期間大約10個(gè)月的簽到數(shù)據(jù)。簽到數(shù)據(jù)包含了簽到點(diǎn)的地理位置坐標(biāo)、簽到時(shí)間和簽到點(diǎn)的類別屬性,以及簽到用戶的個(gè)人應(yīng)用ID。
本文的實(shí)驗(yàn)?zāi)P投蓟赑yTorch 深度學(xué)習(xí)框架來(lái)實(shí)現(xiàn),使用了一塊GTX1070GPU 來(lái)加速計(jì)算。實(shí)驗(yàn)數(shù)據(jù)集設(shè)置遵循文獻(xiàn)[4,6]中的設(shè)置。實(shí)驗(yàn)從Gowalla 中隨機(jī)選擇了201 個(gè)用戶及其生成的軌跡,從Foursquare 中隨機(jī)選擇了300 個(gè)用戶和相應(yīng)軌跡進(jìn)行評(píng)估。具體的數(shù)據(jù)集設(shè)置如表1 所示。
表1 實(shí)驗(yàn)中使用的數(shù)據(jù)集統(tǒng)計(jì)
在實(shí)驗(yàn)中,需要分開訓(xùn)練GNN 模型和多分類器模型。其中,GNN 模塊的具體參數(shù)設(shè)置如表2所示,多分類器模塊在訓(xùn)練中使用Adam 優(yōu)化器(adaptive moment estimation),多分類器學(xué)習(xí)率設(shè)置為0.0016,批處理塊大小為16,全局迭代了50 次。
表2 GNN 模塊參數(shù)設(shè)置
本文使用ACC@K、macro-P、macro-R和macro-F1 作為評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)TUL 任務(wù)的性能。ACC@K表示用戶軌跡分類的準(zhǔn)確性,如果生成軌跡T的用戶u(T)位于預(yù)測(cè)的top-K用戶集UK(T)內(nèi),則認(rèn)為是正確的??杀硎緸椋?/p>
式中,ACC@K表示軌跡正確分類到生成該軌跡的用戶的比率。macro-F1 是所有類的macro-P和macro-R的調(diào)和平均值。三者的計(jì)算方式為:
式中,i表示在第i個(gè)用戶標(biāo)簽上的評(píng)價(jià)指標(biāo);R為召回率(recall);P為精準(zhǔn)率(precision);TP 為正類用戶標(biāo)簽被模型預(yù)測(cè)為正類的樣本數(shù)量;FN 為正類用戶標(biāo)簽被模型預(yù)測(cè)為負(fù)類的樣本數(shù)量;FP為負(fù)類用戶標(biāo)簽被模型預(yù)測(cè)為正類的樣本數(shù)量。
將GTUL 與TUL 相關(guān)模型進(jìn)行比較:
1)TULER[4]是第一個(gè)TUL 解決方案,它使用各種RNN 模型對(duì)用戶移動(dòng)規(guī)律進(jìn)行建模。
2)HTULER[6]是一個(gè)分層的TUL 模型,由3 個(gè)變體組成,包括HTULER-LSTM、HTULER-Bi 和HTULER-GRU。
3)TULVAE[6]以半監(jiān)督學(xué)習(xí)方式學(xué)習(xí)軌跡分布和用戶移動(dòng)規(guī)律,該算法利用VAE 來(lái)學(xué)習(xí)RNN 中隱藏狀態(tài)的隨機(jī)隱變量的層次語(yǔ)義信息。
4)TGAN[7]是一種軌跡增強(qiáng)方法,利用條件對(duì)抗網(wǎng)絡(luò)來(lái)學(xué)習(xí)基本軌跡分布并生成綜合軌跡。原始軌跡數(shù)據(jù)將與增廣數(shù)據(jù)一起進(jìn)行訓(xùn)練,以解決數(shù)據(jù)的稀疏性問(wèn)題。
5)STULIG[8]是最新的TUL 模型,它使用分層隱因子擴(kuò)展了TULVAE。利用合成軌跡豐富了訓(xùn)練數(shù)據(jù),同時(shí)通過(guò)聯(lián)合訓(xùn)練提高了TUL 的性能。
表3 展示了GTUL 與其他基準(zhǔn)算法在兩個(gè)真實(shí)數(shù)據(jù)集上的性能比較。結(jié)果表明,GTUL 模型在各種指標(biāo)中均取得了最好的性能,并且在用戶軌跡辨別的直接指標(biāo)上有了明顯的提升,說(shuō)明GTUL 可以有效提取歷史軌跡信息,建模用戶的移動(dòng)規(guī)律。
除了模型的優(yōu)越性之外,本文還有以下發(fā)現(xiàn)。首先,像TULER 和HTULER 這樣的確定性分類模型表現(xiàn)整體不佳。這些模型使用簡(jiǎn)單的RNN 模型來(lái)建模用戶軌跡,極大地依賴歷史軌跡的數(shù)量和質(zhì)量,所以它們不足以從稀疏的訓(xùn)練數(shù)據(jù)中捕捉復(fù)雜的用戶移動(dòng)模式。這一結(jié)果表明,在LBSNs 中,用戶軌跡分類并不是一項(xiàng)簡(jiǎn)單的任務(wù),因?yàn)閷?duì)于大多數(shù)用戶來(lái)說(shuō),許多必要的用戶移動(dòng)模式因?yàn)楹灥叫袨檫^(guò)少而無(wú)法發(fā)掘。由此可見,提高解決TUL 問(wèn)題的效果還需要借助更多的數(shù)據(jù)處理技術(shù),發(fā)掘更多的時(shí)空信息,以解決稀疏訓(xùn)練數(shù)據(jù)帶來(lái)的問(wèn)題。
另一方面,與傳統(tǒng)的基于RNN 的模型相比,TULVAE、TGAN 和STULIG 有效提高了TUL 的性能。這些方法依靠深度生成模型,利用合成軌跡來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)。TULVAE 使用具有隨機(jī)隱變量的生成架構(gòu)來(lái)學(xué)習(xí)用戶的移動(dòng)規(guī)律。TGAN 使用從分布中采樣生成的軌跡來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù),并且通過(guò)對(duì)抗學(xué)習(xí)的方式對(duì)模型進(jìn)行訓(xùn)練。STULIG 則利用合成軌跡增強(qiáng)訓(xùn)練數(shù)據(jù),并使用分層隱因子擴(kuò)展生成架構(gòu)。這些模型均取得了一定的效果,但它們都依賴于深層生成技術(shù)來(lái)推斷潛在的移動(dòng)分布和估計(jì)潛在因素,通常計(jì)算效率低。更重要的是,由于數(shù)據(jù)稀疏性問(wèn)題,生成模型可能引入關(guān)于數(shù)據(jù)分布的額外偏差。相比上述方法,本文提出的解決方案更簡(jiǎn)潔,并省去了后驗(yàn)分布推理的開銷。GTUL 算法基于用戶歷史軌跡構(gòu)建簽到圖,使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)簽到點(diǎn)的向量表示,使簽到點(diǎn)的表示包含更多的位置信息和時(shí)間信息,成功提高了軌跡用戶辨別的準(zhǔn)確度。
GTUL 的另一主要優(yōu)點(diǎn)是訓(xùn)練效率高。為了證明這一點(diǎn),本文對(duì)比了所有方法的訓(xùn)練時(shí)間,并將結(jié)果展示在表4 中。在所有方法中,TULVAE,TGAN 和STULIG 等生成模型為了生成新的合成軌跡需要花費(fèi)大量計(jì)算開銷進(jìn)行數(shù)據(jù)基礎(chǔ)分布的估算,無(wú)法迅速收斂。在這些生成模型中,基于VAE的模型更為昂貴。它們?cè)谕评砥陂g計(jì)算每個(gè)時(shí)期每個(gè)軌跡的發(fā)生概率,其時(shí)間復(fù)雜度隨著用戶數(shù)量的增加而顯著增加。用戶越多,每個(gè)時(shí)期的迭代就越多,會(huì)產(chǎn)生巨大的計(jì)算成本。與這些方法相比,本文提出的GTUL 模型結(jié)構(gòu)簡(jiǎn)單清晰,不需要進(jìn)行潛在因素推斷。GTUL 構(gòu)建了信息豐富的簽到圖,利用GNN 模塊進(jìn)行自監(jiān)督對(duì)比學(xué)習(xí),可以高效無(wú)監(jiān)督地學(xué)習(xí)到包含地理位置信息和用戶訪問(wèn)偏好信息的簽到點(diǎn)嵌入表示。因此GTUL 省去了生成模型的軌跡合成過(guò)程,在提取有用信息的同時(shí)極大地減少了計(jì)算成本,訓(xùn)練時(shí)間大大縮短。
表4 訓(xùn)練時(shí)間對(duì)比h
為了探究簽到圖包含的時(shí)空信息的有效性,增強(qiáng)本文方法的可解釋性,本文設(shè)計(jì)了一個(gè)模塊對(duì)比實(shí)驗(yàn)。具體而言,分別只利用空間圖和訪問(wèn)圖學(xué)習(xí)簽到點(diǎn)的嵌入表示,替換GTUL 中原有的簽到圖節(jié)點(diǎn)嵌入,得到兩個(gè)新的方法分別表示為GTULSGE和GTULVGE。將GTUL、GTULSGE 和GTULVGE一起對(duì)比,得到的結(jié)果如圖4 所示,其中value 表示各項(xiàng)評(píng)價(jià)指標(biāo)的具體數(shù)值。
圖4 空間圖和訪問(wèn)圖對(duì)TUL 性能的影響
根據(jù)圖4 可知,GTUL 的性能優(yōu)于GTULSGE和GTULVGE,說(shuō)明空間信息和訪問(wèn)意圖都對(duì)解決TUL 問(wèn)題有重要作用,基于GNN 的簽到點(diǎn)嵌入表示成功獲取了這些關(guān)鍵信息。此外,GTULSGE的性能明顯低于GTUL 和GTULVGE,說(shuō)明只利用地理位置信息,不考慮用戶訪問(wèn)習(xí)慣,不足以學(xué)習(xí)到有代表性的簽到點(diǎn)嵌入表示。
本文提出了一種新的基于圖神經(jīng)網(wǎng)絡(luò)的用戶軌跡分類模型。該模型實(shí)現(xiàn)一種通過(guò)軌跡數(shù)據(jù)生成簽到圖的通用構(gòu)造方法,對(duì)與用戶簽到位置和時(shí)間移動(dòng)意圖相關(guān)的時(shí)空特征進(jìn)行建模;利用圖神經(jīng)網(wǎng)絡(luò)獲取高階時(shí)空信息,發(fā)掘所構(gòu)造的簽到圖中隱含的簽到之間的轉(zhuǎn)換模式。在真實(shí)移動(dòng)應(yīng)用的用戶軌跡數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,本文模型能夠有效解決軌跡數(shù)據(jù)的稀疏問(wèn)題和提高用戶移動(dòng)模式的學(xué)習(xí)效率,高效區(qū)分不同用戶的軌跡,提高了TUL 任務(wù)的性能。未來(lái)的研究工作將考慮利用軌跡上下文POI屬性來(lái)提高模型的效率。另一種可能的擴(kuò)展是引入額外的信息,如考慮用戶的交通方式、天氣或節(jié)假日等信息以提高模型的綜合預(yù)測(cè)能力。