国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)空Transformer-Encoder的跨社交網(wǎng)絡(luò)用戶匹配方法

2024-12-30 00:00:00張洋馬強(qiáng)
計(jì)算機(jī)應(yīng)用研究 2024年12期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

摘 要:

針對(duì)目前基于簽到時(shí)空數(shù)據(jù)的跨社交網(wǎng)絡(luò)用戶匹配方法未充分利用時(shí)空信息之間的耦合關(guān)系,導(dǎo)致時(shí)空數(shù)據(jù)特征提取困難,匹配準(zhǔn)確率下降的問(wèn)題,提出了一種基于時(shí)空Transformer-encoder的跨社交網(wǎng)絡(luò)用戶匹配方法。該方法通過(guò)網(wǎng)格映射將簽到時(shí)空信息轉(zhuǎn)換為序列數(shù)據(jù),生成簽到序列;利用序列嵌入層將離散的簽到序列映射到連續(xù)高維空間;然后借助多頭注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)提取高維簽到特征,并利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)優(yōu)化多頭注意力模塊權(quán)重變換和特征融合;最后利用前饋神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)分類,輸出用戶匹配得分。在兩組真實(shí)社交網(wǎng)絡(luò)用戶數(shù)據(jù)集上進(jìn)行大量用戶匹配實(shí)驗(yàn),與現(xiàn)有方法相比,準(zhǔn)確率提升了0.40~10.53百分點(diǎn),F(xiàn)1值提升了0.43~9.5百分點(diǎn)。這驗(yàn)證了所提方法能夠有效提取用戶簽到耦合特征,并提高用戶匹配的性能。

關(guān)鍵詞:跨社交網(wǎng)絡(luò);用戶匹配;Transformer-encoder;卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào):TP391"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2024)12-029-3742-07

doi: 10.19734/j.issn.1001-3695.2024.05.0146

User matching method for cross social networks based on spatial-temporal Transformer-encoder

Zhang Yang, Ma Qiang

(School of Information Engineering, Southwest University of Science amp; Technology, Mianyang Sichuan 621010, China)

Abstract:

In response to the shortcomings of current cross social network user matching methods based on check-in spatial-temporal data that do not fully utilize the coupling relationship between spatial and temporal information, resulting in difficulty in feature extraction from spatial-temporal data and a decrease in matching accuracy. This paper proposed a cross social network user matching model based on spatial-temporal Transformer-encoder. This method converted check-in spatial-temporal information into sequential data through grid mapping, generated check-in sequences. It used sequence embedding layers to map discrete check-in sequences to a continuous high-dimensional space. Then, it used multi-head attention mechanism and convolutional neural network to extract high-dimensional check-in features, and used convolutional neural network to optimize multi-head attention module weight transformation and feature fusion. Finally, it used feedforward neural networks to implement classi-fication and outputting user matching scores. Extensive user matching experiments on two real social network user datasets show improvements in accuracy by 0.40 to 10.53 percentage point, and F1 value by 0.43 to 9.5 percentage point, compared to existing methods. The experiment validates that the proposed method can effectively extract user check-in coupling features and improve user matching performance.

Key words:cross social network; user matching; Transformer-encoder; convolutional neural network

0 引言

在互聯(lián)網(wǎng)迅速發(fā)展的時(shí)代背景下,社交網(wǎng)絡(luò)同樣也得到迅猛發(fā)展。由于社交網(wǎng)絡(luò)平臺(tái)功能的差異性,且各個(gè)社交網(wǎng)絡(luò)之間是相互獨(dú)立的,為了滿足自身的需求,用戶通常會(huì)在不同的社交平臺(tái)注冊(cè)賬號(hào),與不同社交平臺(tái)的好友進(jìn)行信息交互??缟缃痪W(wǎng)絡(luò)衍生出信息推薦、廣告?zhèn)€性化投放以及隱私保護(hù)等服務(wù)。由于實(shí)時(shí)定位技術(shù)的廣泛應(yīng)用,社交網(wǎng)絡(luò)中具有大量用戶時(shí)空簽到信息,這些時(shí)空簽到數(shù)據(jù)具有難偽造性和唯一性的特點(diǎn),在用戶匹配的準(zhǔn)確率和穩(wěn)定性方面更具有優(yōu)勢(shì)[1]。

對(duì)于跨社交網(wǎng)絡(luò)的用戶匹配,研究人員基于不同的方法和數(shù)據(jù)提出了不同的匹配方法。陳鴻昶等人[2]提出使用paragraph2vec模型抽取用戶的位置信息,通過(guò)PV-DM方法訓(xùn)練用戶軌跡,該方案為跨社交網(wǎng)絡(luò)匹配提供了新方向,但是沒(méi)有考慮到劃分子網(wǎng)格地圖語(yǔ)義信息。為解決此問(wèn)題,Chen等人[3]提出通過(guò)檢索時(shí)間和空間的共現(xiàn)頻率,同時(shí)篩選候選用戶修剪搜索空間。馬強(qiáng)等人[4]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的用戶匹配方法,通過(guò)對(duì)時(shí)間和空間信息分別提取特征,再對(duì)特征進(jìn)行融合,該方法能夠有效提取用戶特征,但是沒(méi)有挖掘出時(shí)間和空間之間的耦合關(guān)系。Yin等人[5]把所用的社交網(wǎng)絡(luò)用戶映射到關(guān)系圖中,利用關(guān)系圖的集合匹配方法得到候選匹配用戶的置信度集合,以篩選出最優(yōu)匹配,但圖計(jì)算效率低,不適合大規(guī)模匹配任務(wù)。He等人[6]設(shè)計(jì)了一個(gè)二進(jìn)制搜索函數(shù),對(duì)相似的用戶軌跡進(jìn)行聚類。針對(duì)用戶多對(duì)多識(shí)別中匹配精度較低的問(wèn)題,Qiu等人[7]提出社交網(wǎng)絡(luò)中影響最大化的兩階段方法,以選擇一定數(shù)量有影響力的節(jié)點(diǎn)作為候選節(jié)點(diǎn);Deng等人[8]提出了基于穩(wěn)定婚姻匹配的隨機(jī)森林確認(rèn)方法,該方案通過(guò)構(gòu)建隨機(jī)森林方法對(duì)用戶相似度向量進(jìn)行訓(xùn)練,對(duì)候選匹配對(duì)進(jìn)行二次匹配,基于候選節(jié)點(diǎn)的方法對(duì)數(shù)據(jù)源有更高的要求,不具有適用性。Qi等人[9]通過(guò)構(gòu)建頻繁分布的top-n區(qū)域,利用用戶軌跡相似性度量進(jìn)行匹配,忽略了用戶時(shí)序特征。戴軍等人[10]對(duì)時(shí)空簽到信息進(jìn)行網(wǎng)格聚類,然后提取時(shí)空信息的特征,計(jì)算不同屬性的相似度進(jìn)行匹配,但是會(huì)受到數(shù)據(jù)稀疏性的影響。針對(duì)數(shù)據(jù)稀疏性的問(wèn)題,Li等人[11]提出一種基于三層注意力機(jī)制的網(wǎng)絡(luò)嵌入模型,利用一階和二階鄰居的加權(quán)結(jié)構(gòu)相似性識(shí)別用戶。此外,Zheng等人[12]提出循環(huán)一致性的對(duì)抗映射方法建立社交網(wǎng)絡(luò)中用戶的應(yīng)用關(guān)系,解決數(shù)據(jù)分布差異的問(wèn)題。Han等人[13]通過(guò)比較用戶生成的位置數(shù)據(jù)將該用戶多個(gè)賬戶鏈接起來(lái),構(gòu)建主題方法捕捉用戶在時(shí)間和空間維度上的特征,最后計(jì)算KL散度得到用戶相似度,但忽略了時(shí)間和空間之間的耦合性。Li等人[14]利用樹(shù)狀圖的思想建立匹配模型,開(kāi)發(fā)不同的方法,分別在時(shí)間、空間以及內(nèi)容的維度上衡量相似度,并構(gòu)成相應(yīng)的特征向量,通過(guò)三級(jí)機(jī)器學(xué)習(xí)的級(jí)聯(lián)進(jìn)行用戶識(shí)別。由于社交網(wǎng)絡(luò)中用戶行為的局限性,Nie等人[15]提出一種動(dòng)態(tài)核心興趣映射方法,該方法通過(guò)用戶社交網(wǎng)絡(luò)結(jié)構(gòu)和用戶生成內(nèi)容進(jìn)行建模匹配。Hao等人[16]提出了一種網(wǎng)絡(luò)物理空間用戶識(shí)別框架,對(duì)網(wǎng)絡(luò)空間和物理空間進(jìn)行建模,融合兩個(gè)空間中用戶共享特征進(jìn)行用戶匹配,但沒(méi)有充分利用時(shí)空信息,一定程度上提高了用戶匹配精度。也有研究者嘗試把神經(jīng)網(wǎng)絡(luò)應(yīng)用到圖結(jié)構(gòu)數(shù)據(jù)中,Lei等人[17]采用特定的編碼方法把圖數(shù)據(jù)轉(zhuǎn)換成序列數(shù)據(jù),然后利用Transformer-encoder提取低維序列特征,但是該模型信息量較小導(dǎo)致匹配精度下降。Tan等人[18]提出超圖流行對(duì)齊的一種新的子空間學(xué)習(xí)模型,充分利用社交網(wǎng)絡(luò)結(jié)構(gòu)將用戶映射到低維空間中。Han等人[19]將多維時(shí)空數(shù)據(jù)轉(zhuǎn)換成三部圖的方式,通過(guò)最優(yōu)圖劃分進(jìn)行用戶匹配。張偉等人[20]基于循環(huán)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)從時(shí)間、空間以及社交三個(gè)方面分析用戶軌跡,該方案準(zhǔn)確率較高,但是需要大量的軌跡數(shù)據(jù)。Lee等人[21]分析社交網(wǎng)絡(luò)的拓?fù)湫畔?,利用用戶之間的相似度達(dá)到識(shí)別用戶的目的。Li等人[22]基于核密度估計(jì)方法測(cè)量用戶的相似度,同時(shí)處理空間和時(shí)間數(shù)據(jù),按照TFIDF的思想給簽到記錄分配權(quán)重,突出了有區(qū)別的用戶信息。

盡管現(xiàn)有基于時(shí)空數(shù)據(jù)的跨社交網(wǎng)絡(luò)匹配方法已被證明是有效的,但其中大多數(shù)都分別處理時(shí)間和空間信息,導(dǎo)致時(shí)間和空間信息之間的相關(guān)性丟失,存在難以耦合多維度的用戶簽到信息、特征提取困難、匹配準(zhǔn)確率低的問(wèn)題。本文提出了一種基于時(shí)空Transformer-encoder的跨社交網(wǎng)絡(luò)用戶匹配方法(user matching method for cross social networks based on spatial-temporal Transformer-encoder,UMMSTT),通過(guò)網(wǎng)格映射對(duì)用戶簽到時(shí)空信息離散化處理,生成簽到序列,通過(guò)序列嵌入層將離散的簽到序列映射到連續(xù)的高維空間中,基于Transformer-encoder和卷積神經(jīng)網(wǎng)絡(luò)對(duì)高維特征進(jìn)行特征提取,利用前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征向量和用戶匹配之間的潛在聯(lián)系。在兩組真實(shí)社交網(wǎng)絡(luò)用戶數(shù)據(jù)集進(jìn)行用戶匹配測(cè)試,結(jié)果表明,準(zhǔn)確率和F1值相較于現(xiàn)有方法均有提升,驗(yàn)證了方法的有效性。

1 相關(guān)定義及數(shù)據(jù)預(yù)處理

1.1 相關(guān)定義

定義1 用戶簽到。其是指社交網(wǎng)絡(luò)中的用戶在特定的時(shí)間和地點(diǎn)進(jìn)行登錄或打卡的信息。簽到數(shù)據(jù)是一個(gè)元組S=(id,tim,lon,lat)。其中:id表示用戶的唯一標(biāo)識(shí)符;tim表示用戶簽到的時(shí)間,包括日期和時(shí)間戳;lon和lat分別表示用戶簽到的經(jīng)度和緯度。按照id構(gòu)建單個(gè)用戶的簽到數(shù)據(jù)集Fid={S1,S2,…,Sn},Sn表示用戶的第n次簽到數(shù)據(jù)。

定義2 用戶匹配。其是指在不同的社交網(wǎng)絡(luò)平臺(tái)上,將相同用戶的賬戶進(jìn)行匹配的任務(wù)。給定F1∈D1,F(xiàn)2∈D2是來(lái)自兩個(gè)不同社交網(wǎng)絡(luò)(D1和D2)的兩個(gè)簽到數(shù)據(jù),如果F1和F2是同一個(gè)現(xiàn)實(shí)用戶產(chǎn)生的簽到數(shù)據(jù),則F1和F2對(duì)應(yīng)的用戶id匹配成功。

1.2 簽到數(shù)據(jù)網(wǎng)格映射

將原始簽到數(shù)據(jù)轉(zhuǎn)換為離散化網(wǎng)格表示,數(shù)據(jù)簡(jiǎn)化的同時(shí)保留特征信息,可以減少簽到數(shù)據(jù)的維度和存儲(chǔ)空間,即只需要存儲(chǔ)網(wǎng)格單元的索引或者編碼而不需要存儲(chǔ)具體的簽到數(shù)據(jù)。給定簽到數(shù)據(jù)S=(id,tim,lon,lat),簽到的時(shí)間和空間范圍M=(timmin,timmax,lonmin,lonmax,latmin,latmax)。其中:timmin、lonmin、latmin分別是簽到時(shí)間戳、經(jīng)度和緯度的最小值;timmax、lonmax、latmax分別是簽到時(shí)間戳、經(jīng)度和緯度的最大值。本文采用了獨(dú)立時(shí)空數(shù)據(jù)網(wǎng)格映射和聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射兩種時(shí)空數(shù)據(jù)網(wǎng)格映射方法。獨(dú)立時(shí)空數(shù)據(jù)網(wǎng)格映射將簽到時(shí)間和空間信息分別映射到二維空間中;聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射充分利用時(shí)空信息之間的耦合關(guān)系,將簽到時(shí)空信息映射到一個(gè)三維空間中。

方法1 獨(dú)立時(shí)空數(shù)據(jù)網(wǎng)格映射。簽到數(shù)據(jù)的時(shí)間網(wǎng)格表示為Ts=(xt,yt),簽到數(shù)據(jù)的空間網(wǎng)格表示為Ss=(xs,ys)。其中:xt和xs分別表示時(shí)間網(wǎng)格和空間網(wǎng)格的水平坐標(biāo)序號(hào);yt和ys分別表示時(shí)間網(wǎng)格和空間網(wǎng)格的垂直坐標(biāo)序號(hào)。計(jì)算公式如下:

xt=k-f(k×timmax-tim+adjtimmax-timmin)

yt=k-f(k×(timmax-tim+adj)%timdentimden)

timden=timmax-timmink (1)

xs=k-f(k×lonmax-lon+adjlonmax-lonmin)ys=k-f(k×latmax-lat+adjlatmax-latmin)(2)

其中: f是向下取整函數(shù);k是時(shí)間網(wǎng)格和空間網(wǎng)格的密度系數(shù);adj是調(diào)節(jié)參數(shù)。把時(shí)間網(wǎng)格Ts和空間網(wǎng)格Ss分別轉(zhuǎn)換為子網(wǎng)格編號(hào)Ti和Si表示,計(jì)算公式如下:

Ti=xt+k(yt-1)(3)

Si=xs+k(ys-1)(4)

方法2 聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射。令簽到數(shù)據(jù)的時(shí)空網(wǎng)格表示為L(zhǎng)s=(xs,ys,zs)。xs、ys和zs分別表示時(shí)空網(wǎng)格行坐標(biāo)序號(hào)、列坐標(biāo)序號(hào)以及層坐標(biāo)序號(hào),計(jì)算公式如下:

xs=k-f(k×lonmax-lon+adjlonmax-lonmin)ys=k-f(k×latmax-lat+adjlatmax-latmin)zs=k-f(k×timmax-tim+adjtimmax-timmin) (5)

其中: f、k和adj的定義同式(2)。時(shí)空網(wǎng)格Ls轉(zhuǎn)換為子網(wǎng)格編號(hào)Li,計(jì)算公式如下:

Li=xs+k(ys-1)+k2(zs-1)(6)

1.3 構(gòu)建簽到序列

根據(jù)用戶簽到id,將簽到數(shù)據(jù)映射到網(wǎng)格,通過(guò)子網(wǎng)格編號(hào)鏈接簽到數(shù)據(jù)和簽到序列,每個(gè)簽到序列包含該用戶的時(shí)間和空間信息,反映了用戶在不同時(shí)間和地點(diǎn)的簽到行為。構(gòu)建用戶簽到序列集FM={B1,B2,B3},Bi={L1,L2,…,Ln},1≤i≤3,n表示序列長(zhǎng)度,B1表示時(shí)間序列,B2表示空間序列,B3表示時(shí)空序列。簽到數(shù)據(jù)具有時(shí)空關(guān)聯(lián)特性,用戶的簽到序列融合了用戶的行為特征。本文利用時(shí)空簽到數(shù)據(jù)構(gòu)建簽到序列集,簽到序列填充算法偽代碼如算法1。

算法1 簽到序列填充算法

輸入:用戶簽到數(shù)據(jù)集S1;與S1待匹配簽到集S2;網(wǎng)格密度系數(shù)k;調(diào)節(jié)參數(shù)adj。

輸出:用戶簽到序列集FM。

a)初始化n維序列集FM={B1,B2,B3}。

b)遍歷數(shù)據(jù)集S1和S2,通過(guò)S1和S2設(shè)定時(shí)空域。 /*遍歷簽到數(shù)據(jù)集和待匹配簽到數(shù)據(jù)集設(shè)定時(shí)間和空間范圍*/

c)獲取網(wǎng)格:Ts=(xt,yt);Ss=(xs,ys);Ls=(xs,ys,zs)。 /*分別對(duì)簽到數(shù)據(jù)進(jìn)行獨(dú)立時(shí)空數(shù)據(jù)網(wǎng)格映射和聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射,得到簽到數(shù)據(jù)的時(shí)間網(wǎng)格表示、空間網(wǎng)格表示和時(shí)空網(wǎng)格表示*/

d)獲取子網(wǎng)格編號(hào):Ti,Si和Li。 /*將簽到數(shù)據(jù)的三類網(wǎng)格轉(zhuǎn)換為相應(yīng)子網(wǎng)格編號(hào)*/

e)填充序列:B1.append(Ti);B2.append(Si);B3.append(Li)。//將三類子網(wǎng)格編號(hào)分別填充到時(shí)間序列、空間序列和時(shí)空序列

f)輸出FM。

2 用戶匹配模型

2.1 模型框架

基于Transformer-encoder和卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)序列數(shù)據(jù)具有很好的特征提取能力,本文提出了如圖1的跨社交網(wǎng)絡(luò)用戶匹配模型。該模型的輸入是社交網(wǎng)絡(luò)簽到數(shù)據(jù)集,經(jīng)過(guò)網(wǎng)格映射和序列填充得到用戶簽到序列。利用序列嵌入層將離散的簽到序列映射到連續(xù)的高維空間中,得到高維特征張量。在優(yōu)化Transformer-encoder層進(jìn)行特征提取過(guò)程中,將高維特征張量劃分成兩個(gè)部分并分別輸入到優(yōu)化多頭注意力模塊提取時(shí)空特征,一部分通過(guò)多頭自注意力提取時(shí)空序列特征,另一部分先添加噪聲進(jìn)行數(shù)據(jù)增強(qiáng)操作后再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取時(shí)空序列特征,將這兩部分的輸出進(jìn)行拼接并規(guī)范化;再利用CNN2對(duì)優(yōu)化多頭注意力模塊殘差連接后的輸出進(jìn)行權(quán)重變換和特征融合;通過(guò)前饋神經(jīng)網(wǎng)絡(luò)得到多頭平均注意力并轉(zhuǎn)換成嵌入序列的張量形式。利用特征展開(kāi)模塊將得到的高維特征張量展開(kāi)成一維特征向量,并利用前饋神經(jīng)網(wǎng)絡(luò)作為分類器,最后得到匹配結(jié)果。

2.2 序列嵌入

將用戶簽到序列集FM={B1,B2,B3},Bi={L1,L2,…,Ln},通過(guò)序列嵌入轉(zhuǎn)換成高維向量。序列Bi中Ln映射到整數(shù)標(biāo)記索引得到向量1×V,V表示字典大小,將Bi中所有元素映射到整數(shù)標(biāo)記索引,得到索引矩陣Vid,Vid∈Euclid ExtraaBpn×v。計(jì)算Vid在嵌入矩陣Wd中對(duì)應(yīng)的嵌入向量,計(jì)算方法為

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

本文實(shí)驗(yàn)數(shù)據(jù)集來(lái)自斯坦福大學(xué)的社交網(wǎng)絡(luò)數(shù)據(jù)集Brightkite和Gowalla[23],它們是使用公共API收集的基于位置的社交網(wǎng)絡(luò),每個(gè)用戶的簽到數(shù)據(jù)包括用戶id、簽到時(shí)間、簽到經(jīng)度,簽到緯度以及位置id。將社交網(wǎng)絡(luò)數(shù)據(jù)集劃分成兩個(gè)子數(shù)據(jù)集a和b,數(shù)據(jù)集a和b表示兩個(gè)社交網(wǎng)絡(luò),進(jìn)行用戶匹配。劃分方法:以相同的概率將每個(gè)用戶id的每條簽到數(shù)據(jù)劃分到a和b,同時(shí)保證劃分結(jié)束時(shí)a和b的簽到數(shù)不少于用戶總簽到數(shù)的1/4。隨機(jī)選擇50%的用戶通過(guò)用戶id鏈接構(gòu)建正例,并標(biāo)記a中正例用戶id;在構(gòu)建負(fù)例時(shí),在a中選擇未被標(biāo)記的用戶id,在b中隨機(jī)選擇不同的用戶id構(gòu)成50%負(fù)例,以此保證每條數(shù)據(jù)的唯一性。模型利用嵌入后的時(shí)空簽到序列數(shù)據(jù)進(jìn)行訓(xùn)練,整個(gè)數(shù)據(jù)集分成80%的訓(xùn)練集和20%的測(cè)試集。數(shù)據(jù)集信息如表1所示。該文采用準(zhǔn)確率(acc)、精確率(pre)、召回率(rec)以及綜合評(píng)價(jià)指標(biāo)F1作為衡量方法性能的評(píng)價(jià)指標(biāo),計(jì)算公式如下:

acc=tp+tntp+fp+tn+fnpre=tptp+fp+epsilonrec=tptp+fn+epsilon

F1=2×pre×recpre+rec+epsilon (28)

其中:tp表示正確預(yù)測(cè)正例的樣本數(shù);tn表示正確預(yù)測(cè)負(fù)例的樣本數(shù); fp表示錯(cuò)誤預(yù)測(cè)正例的樣本數(shù); fn表示錯(cuò)誤預(yù)測(cè)負(fù)例的樣本數(shù);epsilon表示調(diào)節(jié)參數(shù)。

3.2 模型參數(shù)設(shè)置

為調(diào)整模型中的超參數(shù)以及驗(yàn)證模型在訓(xùn)練過(guò)程中的效果,在訓(xùn)練集中劃分出5%的數(shù)據(jù)作為驗(yàn)證集。模型在不同迭代輪數(shù)(epoch)的訓(xùn)練結(jié)果曲線如圖2所示。模型訓(xùn)練結(jié)果顯示epoch超過(guò)15以后,模型的損失和準(zhǔn)確率趨于穩(wěn)定,方法在Brightkite測(cè)試集的準(zhǔn)確率達(dá)到99.51%;在Gowalla的測(cè)試集準(zhǔn)確率達(dá)到99.50%。

對(duì)優(yōu)化多頭注意力模塊降低了時(shí)間復(fù)雜度進(jìn)行驗(yàn)證,在不同變量設(shè)置條件下使用相同的數(shù)據(jù)集,并采用模型訓(xùn)練時(shí)間作為衡量計(jì)算效率的指標(biāo)。實(shí)驗(yàn)將模型輸入序列長(zhǎng)度逐步增加,訓(xùn)練時(shí)間選擇30個(gè)epoch計(jì)算時(shí)長(zhǎng)取值。用Trans表示Transformer-encoder基本模型;用Protrans表示使用優(yōu)化多頭注意力模塊而不使用CNN2模塊的Transformer-encoder模型;UMMSTT表示同時(shí)使用優(yōu)化多頭注意力模塊和CNN2模塊的Transformer-encoder模型。不同模型訓(xùn)練時(shí)間結(jié)果如圖3所示。

本文UMMSTT訓(xùn)練時(shí)間低于Trans,這表明UMMSTT有效提高了基礎(chǔ)Transformer-encoder的計(jì)算效率;同時(shí)隨著序列長(zhǎng)度的增加兩條曲線的差值在逐漸增大,表明特征數(shù)據(jù)序列長(zhǎng)度越大,時(shí)間復(fù)雜度降低越明顯。Protrans的訓(xùn)練時(shí)間略低于UMMSTT,并且兩條曲線的差值相對(duì)穩(wěn)定,說(shuō)明CNN2模塊帶來(lái)的額外時(shí)間復(fù)雜度較小。

此外,針對(duì)聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射和獨(dú)立時(shí)空數(shù)據(jù)網(wǎng)格映射對(duì)特征提取的有效性,優(yōu)化Transformer-encoder層對(duì)匹配模型性能的提升,在不同模型和數(shù)據(jù)條件下測(cè)試匹配性能。S表示獨(dú)立空間數(shù)據(jù)網(wǎng)格映射提取簽到空間特征序列;T表示獨(dú)立時(shí)間數(shù)據(jù)網(wǎng)格映射提取簽到時(shí)間特征序列;ST表示對(duì)獨(dú)立空間數(shù)據(jù)網(wǎng)格映射提取的簽到空間特征序列和獨(dú)立時(shí)間數(shù)據(jù)網(wǎng)格映射提取的簽到時(shí)間特征序列進(jìn)行拼接;UN表示聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射提取簽到時(shí)空特征序列。消融實(shí)驗(yàn)結(jié)果如表2所示。

實(shí)驗(yàn)結(jié)果表明,在兩個(gè)數(shù)據(jù)集上,UN的準(zhǔn)確率和F1值均高于ST,說(shuō)明了聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射能夠最大限度地提取用戶的簽到特征。此外,在簽到信息聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射下,UMMSTT相較于基礎(chǔ)Trans,準(zhǔn)確率提升約0.30和0.21百分點(diǎn),F(xiàn)1值提升約0.19和0.22百分點(diǎn);相較于Protrans,準(zhǔn)確率提升約0.35和0.37百分點(diǎn),F(xiàn)1值提升約0.37和0.38百分點(diǎn),說(shuō)明了UMMSTT能夠有效提高匹配性能。由于簽到信息的時(shí)間特征較弱,所以同一模型下僅使用時(shí)間特征的準(zhǔn)確率和F1值均低于僅使用空間特征的準(zhǔn)確率和F1值。聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射能夠有效耦合簽到數(shù)據(jù)中的時(shí)間和空間特征,以提高模型匹配性能。

時(shí)間網(wǎng)格、空間網(wǎng)格和時(shí)空網(wǎng)格的密度系數(shù)對(duì)數(shù)據(jù)建模的性能有重要影響,當(dāng)k設(shè)置過(guò)小,序列數(shù)據(jù)的特征則很模糊,不具有區(qū)分性;設(shè)置過(guò)大時(shí),序列數(shù)據(jù)則會(huì)引入過(guò)多噪聲,導(dǎo)致特征丟失。為了研究k的合理取值,設(shè)置了多組對(duì)照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。

實(shí)驗(yàn)結(jié)果顯示,模型準(zhǔn)確率隨著k值的增大而呈現(xiàn)出先增后減的趨勢(shì),增大k值會(huì)增強(qiáng)序列數(shù)據(jù)的特征,模型準(zhǔn)確率增大,當(dāng)k值過(guò)大時(shí),會(huì)在序列數(shù)據(jù)中引入過(guò)多噪聲導(dǎo)致準(zhǔn)確率下降。因此在Brightkite和Gowalla兩個(gè)數(shù)據(jù)集中k值分別設(shè)置為6和8。模型的其他參數(shù)設(shè)置如表3所示。

3.3 方法對(duì)比分析

為了驗(yàn)證本文方法在用戶匹配中的有效性,將其與多種方法進(jìn)行對(duì)比,所有方法訓(xùn)練時(shí)都采用了早停策略。這里選擇了UNICORN[15]、TUMA[17]、UIDwST[22]、DLUMCN[4]作為對(duì)比方法,UNICORN將用戶簽到數(shù)據(jù)向量化,利用簽到數(shù)據(jù)向量相似性度量用戶匹配;TUMA把用戶數(shù)據(jù)映射成序列,利用Transformer-encoder提取高維序列特征,并計(jì)算特征向量的相似度;UIDwST基于核密度估計(jì)的方法,測(cè)量用戶的相似度;DLUMCN將用戶數(shù)據(jù)映射到網(wǎng)格,利用卷積神經(jīng)網(wǎng)絡(luò)提取網(wǎng)格用戶特征,并進(jìn)行特征分類匹配。本文方法UMMSTT利用聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射將時(shí)空簽到信息映射成簽到序列,通過(guò)Transformer-encoder和CNN提取序列特征構(gòu)建匹配方法。令數(shù)據(jù)集用戶匹配對(duì)數(shù)為M,用戶簽到數(shù)最大值為n,隱藏層維度為d,在兩組數(shù)據(jù)集中不同方法的時(shí)間和空間復(fù)雜度的結(jié)果如表4所示,不同方法的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果如表5所示。

從表4、5不同方法的對(duì)比測(cè)試結(jié)果可以看出,UNICORN的各項(xiàng)評(píng)價(jià)指標(biāo)均比其他方法差,這是因?yàn)閁NICORN只考慮了位置信息而忽略了時(shí)間信息;UMMSTT和TUMA都是基于Transformer的方法,但是TUMA過(guò)于簡(jiǎn)單,不能充分提取用戶時(shí)空特征,不適合大規(guī)模匹配任務(wù),并且需要更多的訓(xùn)練時(shí)間;UIDwST在計(jì)算相似性權(quán)重時(shí)過(guò)于復(fù)雜,同樣不適合大規(guī)模數(shù)據(jù)匹配任務(wù);UMMSTT和DLUMCN都是基于網(wǎng)格映射對(duì)簽到數(shù)據(jù)進(jìn)行預(yù)處理,UMMSTT獲得更高匹配精度的同時(shí)需要耗費(fèi)更多的訓(xùn)練時(shí)間,但是DLUMCN分別獨(dú)立處理時(shí)間和空間數(shù)據(jù),忽略了時(shí)空數(shù)據(jù)之間的耦合關(guān)系。此外,模型的召回率大于精確率,這是由于簽到數(shù)據(jù)集中的極少數(shù)負(fù)例用戶被模型錯(cuò)誤判別為正例所造成的。對(duì)比目前方法,所提UMMSTT的準(zhǔn)確率和F1值均表現(xiàn)更好,驗(yàn)證了所提方法的有效性。

3.4 匹配樣例分析

通過(guò)在Brightkite數(shù)據(jù)集上,設(shè)置網(wǎng)格密度系數(shù)k=9,采用聯(lián)合時(shí)空數(shù)據(jù)網(wǎng)格映射算法,訓(xùn)練并測(cè)試用戶匹配模型,將測(cè)試效果好的預(yù)訓(xùn)練模型保存到本地。本文進(jìn)行了一個(gè)匹配實(shí)例驗(yàn)證UMMSTT的有效性。

旅游推薦系統(tǒng):用戶希望提供個(gè)性化的旅游景點(diǎn)推薦服務(wù),為了實(shí)現(xiàn)這一目標(biāo),系統(tǒng)需要整合用戶在不同社交網(wǎng)絡(luò)上的簽到數(shù)據(jù),以更全面地了解用戶的興趣和行為。

為了尋找旅游推薦系統(tǒng)中服務(wù)需求用戶在另一個(gè)社交網(wǎng)絡(luò)的賬戶id,將該服務(wù)需求用戶與社交網(wǎng)絡(luò)中所有用戶組成用戶匹配對(duì),社交網(wǎng)絡(luò)包含500個(gè)用戶。利用預(yù)訓(xùn)練模型計(jì)算用戶匹配對(duì)的相似性值,并篩選出相似性值最大的匹配對(duì),若最大相似性值大于匹配閾值,則匹配成功,否則匹配失敗,匹配閾值設(shè)置為0.95。通過(guò)對(duì)匹配結(jié)果分析,匹配成功率達(dá)到98.5%,有部分用戶的簽到數(shù)據(jù)過(guò)于稀疏,導(dǎo)致匹配失敗。

4 結(jié)束語(yǔ)

本文提出了一種基于時(shí)空Transformer-encoder的跨社交網(wǎng)絡(luò)用戶匹配方法。該方法針對(duì)目前基于簽到時(shí)空數(shù)據(jù)的跨社交網(wǎng)絡(luò)用戶匹配方法未充分利用時(shí)空信息之間的耦合關(guān)系,導(dǎo)致時(shí)空數(shù)據(jù)特征提取困難,匹配準(zhǔn)確率下降的問(wèn)題,將時(shí)空簽到數(shù)據(jù)進(jìn)行網(wǎng)格映射生成用戶簽到序列,最大限度地融合時(shí)空信息,以便于更好地提取序列特征。利用序列嵌入層將離散的簽到序列映射到連續(xù)高維空間,得到高維特征張量。優(yōu)化多頭注意力模塊提取高維簽到特征,并基于卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)優(yōu)化多頭注意力模塊權(quán)重變換和特征融合。最后基于前饋神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)分類,學(xué)習(xí)用戶特征和用戶匹配之間的潛在聯(lián)系,輸出用戶匹配得分。為驗(yàn)證方法的有效性,選取了兩組真實(shí)社交網(wǎng)絡(luò)用戶數(shù)據(jù)集進(jìn)行用戶匹配,與現(xiàn)有方法相比,準(zhǔn)確率提升了0.40~10.53百分點(diǎn),F(xiàn)1值提升了0.43~9.5百分點(diǎn),驗(yàn)證了所提方法能夠有效提取用戶簽到耦合特征。下一步研究將融合更多數(shù)據(jù)特征,進(jìn)一步提高模型匹配精度。

參考文獻(xiàn):

[1]邢玲, 鄧凱凱, 吳紅海, 等. 復(fù)雜網(wǎng)絡(luò)視角下跨社交網(wǎng)絡(luò)用戶身份識(shí)別研究綜述 [J]. 電子科技大學(xué)學(xué)報(bào), 2020, 49(6): 905-917. (Xing Ling, Deng Kaikai, Wu Honghai, et al. Review of user identification across social networks: the complex network approach [J]. Journal of University of Electronic Science and Tech-nology of China, 2020, 49(6): 905-917.)

[2]陳鴻昶, 徐乾, 黃瑞陽(yáng), 等. 一種基于用戶軌跡的跨社交網(wǎng)絡(luò)用戶身份識(shí)別算法 [J]. 電子與信息學(xué)報(bào), 2018, 40(11): 2758-2764. (Chen Hongchang, Xu Qian, Huang Ruiyang, et al. User identification across social networks based on user trajectory [J]. Journal of Electronics amp; Information Technology, 2018, 40(11): 2758-2764.)

[3]Chen Wei, Wang Weiqiang, Yin Hongzhi, et al. User account lin-kage across multiple platforms with location data [J]. Journal of Computer Science and Technology, 2020, 35(4): 751-768.

[4]馬強(qiáng), 戴軍. 基于深度學(xué)習(xí)的跨社交網(wǎng)絡(luò)用戶匹配方法 [J]. 電子與信息學(xué)報(bào), 2023, 45(7): 2650-2658. (Ma Qiang, Dai Jun. Deep learning based user matching method for cross social networks [J]. Journal of Electronics amp; Information Technology, 2023, 45(7): 2650-2658.)

[5]Yin Zhangfeng, Yang Yang, Fang Yuan. Link user identities across social networks based on contact graph and user social behavior [J]. IEEE Access, 2022, 10: 42432-42440.

[6]He Wenqiang, Li Yongjun, Zhang Yinyin, et al. A binary-search-based locality-sensitive hashing method for cross-site user identification [J]. IEEE Trans on Computational Social Systems, 2022, 10(2): 480-491.

[7]Qiu Liqing, Gu Chunmei, Zhang Shuang, et al. TSIM: a two-stage selection algorithm for influence maximization in social networks [J]. IEEE Access, 2020, 8: 12084-12095.

[8]Deng Kaikai, Xing Ling, Zhang Mingchuan, et al. A multiuser identification algorithm based on internet of things [J]. Wireless Communications and Mobile Computing, 2019, 2019: 6974809.

[9]Qi Mengjun, Wang Zhongyuan, He Zheng, et al. User identification across asynchronous mobility trajectories [J]. Sensors, 2019, 19(9): 2102.

[10]戴軍, 馬強(qiáng). 基于用戶簽到的跨社交網(wǎng)絡(luò)用戶匹配 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(2): 76-84. (Dai Jun, Ma Qiang. Cross-social network user matching based on user check-in [J]. Computer Engineering and Applications, 2023, 59(2): 76-84.)

[11]Li Yao, Cui Huiyuan, Liu Huilin, et al. Triple-layer attention mecha-nism-based network embedding approach for anchor link identification across social networks [J]. Neural Computing amp; Applications, 2022, 34(4): 2811-2829.

[12]Zheng Conghui, Pan Li, Wu Peng. CAMU: cycle-consistent adversarial mapping model for user alignment across social networks [J]. IEEE Trans on Cybernetics, 2022, 52(10): 10709-10720.

[13]Han Xiaohui, Wang Lianhai, Xu Shujiang, et al. Linking social network accounts by modeling user spatiotemporal habits [C]// Proc of IEEE International Conference on Intelligence and Security Informatics. Piscataway, NJ: IEEE Press, 2017: 19-24.

[14]Li Yongjun, Zhang Zhen, Peng You, et al. Matching user accounts based on user generated content across social networks [J]. Future Generation Computer Systems, 2018, 83: 104-115.

[15]Nie Yuanping, Jia Yan, Li Shudong, et al. Identifying users across social networks based on dynamic core interests [J]. Neurocompu-ting, 2016, 210: 107-115.

[16]Hao Tianyi, Zhou Jingbo, Cheng Yunsheng, et al. User identification in cyber-physical space: a case study on mobile query logs and trajec-tories [C]// Proc of the 24th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM Press, 2016: 1-4.

[17]Lei Tianliang, Ji Lixin, Wang Gengrun, et al. Transformer-based user alignment model across social networks [J]. Electronics, 2023, 12(7): 1686.

[18]Tan Shulong, Guan Ziyu, Cai Deng, et al. Mapping users across networks by manifold alignment on hypergraph [C]// Proc of the 28th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2014: 159-165.

[19]Han Xiaohui, Wang Lianhai, Xu Lijuan, et al. Social media account linkage using user-generated geo-location data [C]// Proc of IEEE Conference on Intelligence and Security Informatics. Piscataway, NJ: IEEE Press, 2016: 157-162.

[20]張偉, 李揚(yáng), 張吉, 等. 融合時(shí)空行為與社交關(guān)系的用戶軌跡識(shí)別模型[J]. 計(jì)算機(jī)學(xué)報(bào), 2021, 44(11): 2173-2188. (Zhang Wei, Li Yang, Zhang Ji, et al. A user trajectory identification model with fusion of spatio-temporal behavior and social relation [J]. Chinese Journal of Computers, 2021, 44(11): 2173-2188.)

[21]Lee J Y, Hussain R, Rivera V, et al. Second-level degree-based entity resolution in online social networks [J]. Social Network Analysis and Mining, 2018, 8: 1-8.

[22]Li Yongjun, Ji Wenli, Gao Xing, et al. Matching user accounts with spatio-temporal awareness across social networks [J]. Information Sciences, 2021, 570: 1-15.

[23]Eunjoon C, Seth A M, Jure L. Friendship and mobility: user movement in location-based social networks [C]// Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2011: 1082-1090.

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)
基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型研究
基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
軟件(2016年5期)2016-08-30 06:27:49
基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
永州市| 临朐县| 永宁县| 澳门| 湟源县| 泸水县| 海兴县| 玉林市| 荣昌县| 阳新县| 延吉市| 万盛区| 大庆市| 古浪县| 自贡市| 右玉县| 平泉县| 盘锦市| 新巴尔虎右旗| 西丰县| 高青县| 平果县| 博兴县| 博爱县| 洪湖市| 霍山县| 土默特左旗| 饶河县| 永和县| 阿坝县| 漳平市| 体育| 师宗县| 九江市| 南溪县| 南皮县| 泗洪县| 崇义县| 靖安县| 当涂县| 鄱阳县|