国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

二階段孿生圖卷積神經(jīng)網(wǎng)絡(luò)推薦算法

2024-03-21 02:24:46荊智文張嶼佳孫伯廷
計算機應(yīng)用 2024年2期
關(guān)鍵詞:雙塔卷積神經(jīng)網(wǎng)絡(luò)

荊智文,張嶼佳,孫伯廷,郭 浩

(太原理工大學(xué) 信息與計算機學(xué)院,山西 晉中 030600)

0 引言

近年來,隨著各類電子商務(wù)平臺的蓬勃發(fā)展,商品種類日漸繁多,但在通常情況下,用戶單位時間內(nèi)能接受信息密度有限,造成了嚴(yán)重的信息過載問題[1]。而推薦系統(tǒng)因能通過在大規(guī)模商品中篩選用戶可能感興趣的商品,緩解信息過載問題,得到廣泛研究。大規(guī)模推薦系統(tǒng)最關(guān)鍵的任務(wù)之一,是快速且準(zhǔn)確地為每一位用戶計算大量商品的分?jǐn)?shù)排序。一種普遍采用的方法是將推薦系統(tǒng)分為召回和排序兩階段架構(gòu)。具體而言,首先從大規(guī)模商品集中召回與給定用戶相關(guān)的相對數(shù)較少的商品;然后使用排序模型根據(jù)學(xué)習(xí)到的用戶興趣,對召回階段篩選過的相關(guān)商品排序[2]。一個高性能的召回模型是整個推薦系統(tǒng)的基礎(chǔ);但由于電子商務(wù)平臺具有數(shù)據(jù)規(guī)模大、用戶行為稀疏和數(shù)據(jù)長尾等特性,傳統(tǒng)的數(shù)據(jù)召回模型對用戶和商品之間關(guān)系的學(xué)習(xí)可能出現(xiàn)不平衡或不充分的情況。

為了解決上述問題,Huang 等[3]提出了雙塔型神經(jīng)網(wǎng)絡(luò)算法DSSM(Deep Structured Semantic Models)。它的核心思想是將用戶和商品映射到同一維度的語義空間,分別訓(xùn)練用戶側(cè)和商品側(cè)的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),以最大化用戶和商品的相似性。該算法雖然一定程度上提高了大規(guī)模召回的性能,但由于DNN 之間相互獨立,兩塔之間缺乏信息交互,算法無法充分學(xué)習(xí)用戶和商品之間更深層次的交互信息。因此,如何增強DSSM 的信息交互,提升DSSM 的召回性能值得深入研究。

綜上所述,如果能在DSSM 之間建立合適的連接機制,在避免信息串聯(lián)的情況下,讓DNN 學(xué)習(xí)盡可能多的用戶和商品之間的交互信息,就能提升推薦算法的準(zhǔn)確性。因此,本文提出二階段孿生圖卷積神經(jīng)網(wǎng)絡(luò)推薦算法(Two-stage Siamese graph convolutional Neural network recommendation algorithm,TSN),通過引入基于圖學(xué)習(xí)的孿生網(wǎng)絡(luò),增強DSSM 的圖特征學(xué)習(xí)能力和用戶-商品交互捕捉能力。

本文的主要工作如下:

1)為推薦系統(tǒng)設(shè)計通過用戶行為連接的異質(zhì)圖,提出基于圖卷積神經(jīng)網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)結(jié)構(gòu),對異質(zhì)圖建模,在學(xué)習(xí)異質(zhì)圖連接信息的同時,在用戶和商品側(cè)DNN 之間雙向傳遞信息,使DNN 學(xué)習(xí)到更多交互特征。

2)提出二階段學(xué)習(xí)技術(shù),該機制能在避免孿生網(wǎng)絡(luò)串聯(lián)兩側(cè)DNN 的基礎(chǔ)上,使DNN 學(xué)習(xí)到包括正向和負(fù)向的全量樣本,同時使共享機制具備學(xué)習(xí)能力。

3)在兩個真實數(shù)據(jù)集上與若干算法在不同指標(biāo)下進(jìn)行比較,證明了TSN 算法能顯著提升推薦系統(tǒng)的性能。

1 相關(guān)工作

1.1 增強雙塔型神經(jīng)網(wǎng)絡(luò)

為了增加DSSM 中用戶側(cè)和商品側(cè)之間的信息交互,Yu等[4]在DAT(Dual Augmented Two-tower model for online largescale recommendation)中設(shè)計了一種自適應(yīng)模擬共享機制為每個用戶和商品提供增強向量,增強向量中蘊含內(nèi)容特征。對于每個帶有正標(biāo)簽的樣本,根據(jù)另一個DNN 的輸出表示向量生成增強向量,作為輸入特征的增強向量便攜帶了另一DNN 中有價值的信息,便可在隱語義空間模擬兩塔之間的信息交互。

雖然DAT 在一定程度上緩解了DSSM 缺乏信息交互的問題,但仍存在一些局限:

1)自適應(yīng)模擬共享機制的結(jié)構(gòu)決定在訓(xùn)練階段只能使用正樣本進(jìn)行增強,模型缺乏對負(fù)面信息的學(xué)習(xí)。

2)自適應(yīng)模擬共享機制在一次訓(xùn)練結(jié)束后,通過乘積生成增強向量,本身不具備對信息交互過程的學(xué)習(xí)能力。

3)該算法需要調(diào)整較多參數(shù),這一定程度上增加了優(yōu)化模型的工作量。

1.2 孿生神經(jīng)網(wǎng)絡(luò)

最早由Bromley 等[5]提出的孿生神經(jīng)網(wǎng)絡(luò)是一種特殊的DNN 結(jié)構(gòu),它由兩個或多個子網(wǎng)絡(luò)構(gòu)成,同時接收特征數(shù)據(jù)的輸入,且相互之間共享DNN 權(quán)值。

如圖1 所示,孿生網(wǎng)絡(luò)整體結(jié)構(gòu)的核心是找到一個合適的映射關(guān)系,該映射關(guān)系能將輸入的特征數(shù)據(jù)映射到目標(biāo)語義空間,并讓目標(biāo)語義空間中不同實體之間的簡單距離(如歐氏距離、余弦相似度等)逼近輸入空間實際的語義距離。具體地,孿生網(wǎng)絡(luò)結(jié)構(gòu)嘗試通過更新參數(shù),找到一組可以使兩個或多個實體的表示在實際意義上相似的情況下?lián)碛懈〉南嗨菩远攘浚诓幌嗨频那闆r下?lián)碛懈蟮南嗨菩远攘浚?]。

圖1 孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of Siamese neural network

孿生網(wǎng)絡(luò)中不同神經(jīng)網(wǎng)絡(luò)之間共享權(quán)重在一定程度上限制了各神經(jīng)網(wǎng)絡(luò)之間的學(xué)習(xí)內(nèi)容應(yīng)具有高相似性,所以通常用于處理兩個輸入差異不是非常大的問題,如對比兩張圖片、兩個句子、兩個詞匯的相似度。對于輸入差異較大的學(xué)習(xí)任務(wù),如圖片與相應(yīng)的文字描述、文章標(biāo)題與文章段落的相似度等,孿生網(wǎng)絡(luò)起到的作用比較有限。雙塔型神經(jīng)網(wǎng)絡(luò)的最終目的是學(xué)習(xí)用戶向量和商品向量的相似性,孿生網(wǎng)絡(luò)可能會在一定程度上有增強雙塔型神經(jīng)網(wǎng)絡(luò)召回性能的作用。

1.3 異質(zhì)圖卷積網(wǎng)絡(luò)

在推薦系統(tǒng)中,將用戶對商品的評分作為邊,用戶和商品的特征信息作為節(jié)點信號,便可將推薦系統(tǒng)問題轉(zhuǎn)化為異質(zhì)圖學(xué)習(xí)問題[7]。以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8]為理論基礎(chǔ)的異質(zhì)圖卷積網(wǎng)絡(luò)(Hetero Graph Convolutional Network,HGCN)[9-13]因其強大的特征表征能力而被廣泛應(yīng)用。具體地,HGCN 會在圖的異質(zhì)節(jié)點間進(jìn)行圖卷積操作。若異質(zhì)圖由m個用戶節(jié)點和n個商品節(jié)點構(gòu)成,則HGCN 會將異質(zhì)圖視為(m+n) × (m+n)的二分圖,以節(jié)點特征為信號,以評分信息為圖進(jìn)行圖卷積,挖掘二分圖中包含的連接信息[14]。

2 模型設(shè)計

如圖2 所示,為了緩解DSSM 算法在推薦系統(tǒng)中的局限性,TSN 使用一對DNN 分別學(xué)習(xí)用戶和商品的特征信息。為了解決用戶側(cè)和商品側(cè)DNN 缺乏高質(zhì)量交互的問題,本文提出基于異質(zhì)圖的孿生卷積神經(jīng)網(wǎng)絡(luò)(Hetero Siamese Graph Convolutional Neural network,HS-GCN)連接兩側(cè)DNN。在進(jìn)行兩側(cè)DNN 全量交互的同時,挖掘由用戶和商品構(gòu)成的二分圖的連接特征信息。為避免直接連接HS-GCN 和兩側(cè)DNN 后,在訓(xùn)練過程中出現(xiàn)的神經(jīng)網(wǎng)絡(luò)串聯(lián)問題,本文設(shè)計基于梯度凍結(jié)(Gradient Freeze,GF)技術(shù)的二階段學(xué)習(xí)技術(shù)。通過多層感知機進(jìn)行相似度打分,按照降序排序,進(jìn)行TOP-K推薦。TSN 的重要符號定義見表1。

表1 重要符號定義Tab.1 Definition of important notations

圖2 二階段孿生圖卷積神經(jīng)網(wǎng)絡(luò)推薦算法架構(gòu)Fig.2 Architecture of two-stage Siamese graph convolutional neural network recommendation algorithm

2.1 神經(jīng)網(wǎng)絡(luò)文本嵌入

為使用戶側(cè)和商品側(cè)的DNN 學(xué)習(xí)到有效特征,DSSM 的輸入包含用戶對商品的評論、用戶的畫像信息、商品的詳情信息和標(biāo)簽的內(nèi)容信息。通過使用文檔嵌入,將內(nèi)容信息映射到低維密集的內(nèi)容向量。文檔嵌入的代表工作為Doc2Vec,包含分布式內(nèi)存(Distributed Memory,DM)和分布式詞袋(Distributed Bag Of Word,DBOW)兩個子模型??紤]到內(nèi)容向量不應(yīng)受到每段文檔詞序的影響,本文采用在訓(xùn)練過程中不學(xué)習(xí)詞序的DBOW。具體地,對于給定用戶ui∈U,結(jié)合ui的用戶畫像文檔ufi和包含對商品的評論及標(biāo)簽信息的評論文檔Coi*獲得用戶文檔doci,對于商品vj∈V,結(jié)合商品詳細(xì)信息vdj和商品評論Co*j,獲得商品文檔docm+j,通過LTP(Language Technology Platform)對文檔D={d1,d2,…,dm+n}進(jìn)行清洗和分詞,再使用Doc2Vec 將文檔D分別映射為用戶和商品的密集向量UD和VD。

2.2 DSSM

TSN 的DSSM 包含用戶側(cè)和物品側(cè)兩部分,兩側(cè)分別為用戶和商品提供基于DNN 的編碼器。以用戶ui和商品vj為例,在實際訓(xùn)練過程中,為了獲得用戶和商品的信息,向量udi∈UD和vdj∈VD將輸入到具有ReLU 激活功能的全連接層當(dāng)中。用戶側(cè)的全連接深度DNN 處理過程如下:

其中:huser(1)和huser(x)分別為用戶側(cè)DNN 的第1 層和第x層;和bx分別是第x層的權(quán)重矩陣和偏置向量。商品側(cè)全連接DNN 結(jié)構(gòu)同用戶側(cè)相似。兩側(cè)DNN 的輸出將作為進(jìn)行相似度計算的輸入,通過計算相似度與實際標(biāo)簽的損失優(yōu)化DNN。本文在DSSM 的相似度計算中采用余弦相似度,公式如下:

其中uei∈UE和vej∈VE分別為用戶側(cè)和商品側(cè)DNN 的輸出。在構(gòu)建樣本時,選擇用戶對商品的評分作為標(biāo)簽,同時考慮隱式和顯式反饋:

其中:rij∈R為用戶ui對商品vj的評分,fst(?)為將評分限制在0~1 的標(biāo)準(zhǔn)化函數(shù)。在計算損失時采用歸一化交叉熵?fù)p失作為損失函數(shù),公式如下:

其中max(?)是取最大值函數(shù)。

2.3 用戶行為二分圖

m個用戶對n個商品的評分矩陣為R∈Rm×n,評分范圍為{1,2,…,X},則用戶和商品的交互圖為:

在后續(xù)的HS-GCN 的卷積操作中,u1的特征表示來自它評分的商品i1、i3、i4;商品i4的特征表示來自為它評分的用戶u1和u2。

2.4 孿生卷積神經(jīng)網(wǎng)絡(luò)

2.4.1 用戶和商品子圖構(gòu)建算法

在輸入階段,通過在二分圖以用戶為起點,交替隨機游走,形成步長為k的用戶鏈路,算法如下。

算法1 用戶和商品子圖構(gòu)建算法。

2.4.2 網(wǎng)絡(luò)結(jié)構(gòu)

HS-GCN由兩個相同的CNN組成,分別為CNNL和CNNR。設(shè)以用戶為起始節(jié)點構(gòu)成的子圖和以商品為起始節(jié)點構(gòu)成的子圖為HS-GCN的一對實例。由此提出計算兼容性的函數(shù):

HS-GCN 采用隨機梯度下降(Stochastic Gradient Descent,SGD)訓(xùn)練。在每次SGD 的迭代中,兩個結(jié)構(gòu)相同的CNN 對訓(xùn)練樣本進(jìn)行處理。式(9)用于計算訓(xùn)練誤差,模型根據(jù)誤差在訓(xùn)練過程中更新HS-GCN,直至滿足停止條件。

2.4.3 孿生卷積架構(gòu)

孿生網(wǎng)絡(luò)由一對由若干卷積層和一個全連接層的CNN構(gòu)成,共包含5 層,輸入子圖尺寸由步長k決定。本節(jié)以大小為32 × 32 的子圖為例,將Cx作為卷積層,Sx作為下采樣層,F(xiàn)x作為全連接層,x為各層的索引。C1層是卷積層,使用6 個5 × 5 的卷積核對子圖卷積,得到具有6 個28 × 28 的特征圖;S2為下采樣層,使用2 × 2 下采樣得到6 個14 × 14 的特征圖;C3是卷積層,通過16 個5 × 5 的卷積核對特征圖卷積,得到16 個10 × 10 的特征圖;經(jīng)下采樣層S4和核卷積層C5分別得到16 個5 × 5 的特征圖和120 個1 × 1 的特征圖;F6為全連接層。

2.5 二階段孿生信息共享機制

介于用戶側(cè)和商品側(cè)DNN 之間的孿生網(wǎng)絡(luò)通過二階段孿生信息共享機制在避免孿生網(wǎng)絡(luò)將兩側(cè)DNN 串聯(lián)的基礎(chǔ)上,捕捉來自對方的異質(zhì)特征,并動態(tài)學(xué)習(xí)用戶和商品的交互信息。該機制由共享連接、二階段學(xué)習(xí)技術(shù)和信息交叉融合三部分構(gòu)成。

2.5.1 共享連接

首先,為使孿生網(wǎng)絡(luò)能同時學(xué)習(xí)異質(zhì)圖中用戶側(cè)和商品側(cè)的異質(zhì)信息,用戶側(cè)和商品側(cè)的孿生網(wǎng)絡(luò)分別接收經(jīng)卷積層得到的用戶和商品的輸出然后,通過共享兩側(cè)孿生網(wǎng)絡(luò)的權(quán)重矩陣WSia實現(xiàn)兩側(cè)信息的交互。最后,通過信息交叉融合使用戶側(cè)和商品側(cè)DNN 學(xué)習(xí)到來自對方的特征信息。但是,直接使用該方法會導(dǎo)致用戶側(cè)和商品側(cè)DNN 形成信息串聯(lián),使DSSM 的雙塔型結(jié)構(gòu)能天然區(qū)分用戶和商品的特質(zhì)失去意義,并將TSN 在結(jié)構(gòu)上與基于圖學(xué)習(xí)的YoutubeDNN 等價。因此,需要一種特殊的二階段學(xué)習(xí)技術(shù)完成非串聯(lián)的信息共享。

2.5.2 二階段學(xué)習(xí)技術(shù)

為了防止DSSM 被HS-GCN 訓(xùn)練過程完全串聯(lián),為模型設(shè)計了二階段學(xué)習(xí)機制(Two-Stage learning Mechanism,TSM)。TSM 將算法的訓(xùn)練過程分為兩個階段,兩個階段交替完成一次,即為一輪訓(xùn)練。

在第一階段,首先,凍結(jié)DSSM 的權(quán)重參數(shù),即WDNN中各元素的值保持不變;然后,使用HS-GCN 和DSSM 分別對經(jīng)神經(jīng)網(wǎng)絡(luò)嵌入得到的特征矩陣及交互二部圖進(jìn)行非線性編碼,并將HS-GCN 和DSSM 輸出的特征矩陣進(jìn)行信息交叉融合(融合方法在2.5.3 節(jié)中介紹);最后,使用交叉融合后的矩陣特征向量更新WSia的參數(shù),完成對HS-GCN 一個批次的訓(xùn)練。在這一階段中,若為首輪訓(xùn)練,則算法僅學(xué)習(xí)圖卷積操作中提取的交互二分圖連接信息;若不為首輪訓(xùn)練,則可學(xué)習(xí)到交互二分圖連接信息及上一輪訓(xùn)練中DSSM 之間的交互信息。該階段解決了DSSM 無法提取圖拓?fù)浣Y(jié)構(gòu)特征,以及缺乏對用戶和商品交互信息學(xué)習(xí)能力的問題。

第二階段與第一階段相對應(yīng),凍結(jié)HS-GCN 的權(quán)重參數(shù)WSia,通過信息交叉融合得到特征矩陣,完成DSSM 一個批次的訓(xùn)練。在這一階段,算法將由HS-GCN 建模的交互圖連接信息及用戶側(cè)和商品側(cè)的交互信息融入DSSM 的訓(xùn)練過程。該階段解決了直接連接HS-GCN 和DSSM 導(dǎo)致的網(wǎng)絡(luò)完全串聯(lián)問題。

TSN 實際部署于工業(yè)生產(chǎn)環(huán)境中時,為盡可能減少從原始輸入到最終結(jié)果的人工處理,并具有根據(jù)數(shù)據(jù)自動調(diào)整模型參數(shù)的能力,提出梯度截斷技術(shù)(Gradient Truncation,GT)實現(xiàn)TSM,將TSN 優(yōu)化為端到端模型。具體地,GT 同時訓(xùn)練DSSM 和HS-GCN,交替截斷DSSM 和HS-GCN 損失的反向傳播,在實現(xiàn)TSM 功能的同時,將TSN 轉(zhuǎn)化為一個端到端的模型,TG 的實現(xiàn)邏輯見算法2。

算法2 基于梯度截斷的二階段學(xué)習(xí)技術(shù)。

輸入梯度更新標(biāo)記pstep,特征向量feature_vec,DSSM 權(quán)重參數(shù)WDNN,HS-GCN 權(quán)重參數(shù)WSia,訓(xùn)練批次大小batch_size;

2.5.3 信息交叉融合

由圖2 所示,在信息交叉部分,來自雙塔網(wǎng)絡(luò)和孿生網(wǎng)絡(luò)的信息進(jìn)行交叉。為了更細(xì)粒度地融合來自DSSM 和HSGCN 的特征信息,采用哈達(dá)瑪積方法實現(xiàn)信息交叉,對于用戶:

2.6 訓(xùn)練

本文將召回任務(wù)視為二分類任務(wù)。在訓(xùn)練過程中,對于給定的用戶,模型分別將匹配正確的商品和隨機選擇的商品作為正樣本和負(fù)樣本。在信息交叉后計算的余弦相似度,最后通過計算歸一化交叉熵?fù)p失函數(shù)得到預(yù)測的損失。

3 實驗與結(jié)果分析

本文通過實驗驗證TSN 的有效性,實驗包括對比分析、消融實驗和訓(xùn)練強度分析三部分。對比分析將TSN 與主流的召回算法在不同性能維度上進(jìn)行比較;消融實驗將TSN 的部分模塊拆除,以驗證模型各部分的有效性;訓(xùn)練強度分析通過觀察分析不同訓(xùn)練強度下的孿生網(wǎng)絡(luò)對雙塔型神經(jīng)網(wǎng)絡(luò)的增強效果,選擇最優(yōu)的孿生網(wǎng)絡(luò)訓(xùn)練強度。

3.1 實驗設(shè)置

為驗證TSN 的召回性能,本文選擇了現(xiàn)實世界中的離線大規(guī)模數(shù)據(jù)集:來自MovieLens 數(shù)據(jù)集[15]和豆瓣電影數(shù)據(jù)集[16],這些數(shù)據(jù)集已經(jīng)被廣泛用于推薦系統(tǒng)的研究和開發(fā)。其中,MovieLens 是一個開源的電影推薦數(shù)據(jù)集,該數(shù)據(jù)集提供了大量電影評分和用戶行為數(shù)據(jù);豆瓣數(shù)據(jù)集是指從豆瓣網(wǎng)上爬取的大量電影、圖書、音樂等數(shù)據(jù)的集合,本文僅使用豆瓣數(shù)據(jù)集中的電影部分。內(nèi)容詳細(xì)信息見表2。

表2 實驗數(shù)據(jù)集統(tǒng)計信息Tab.2 Statistics of experimental datasets

將數(shù)據(jù)打亂,隨機選擇80%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為驗證集,10%的數(shù)據(jù)作為測試集。

3.2 比較模型和指標(biāo)

將TSN 與7 個廣泛應(yīng)用于工業(yè)領(lǐng)域的基準(zhǔn)模型算法進(jìn)行比較,包括TF-IDF(Term Frequency-Inverse Document Frequency)[17]、FM(Factorization Machines)[18]、YoutubeDNN(Deep Neural Networks for Youtube recommendations)[19]、DSSM[3]、STAN(Spatio-Temporal Attention Network for next location recommendation)[20]、HIRS(Hypergraph Infomax Recommender System)[14]和DAT[4]。上述基準(zhǔn)算法囊括了基于直接統(tǒng)計的推薦算法、基于矩陣分解的推薦算法和基于深度學(xué)習(xí)的推薦算法。根據(jù)命中率(Hit Ratio,HR)@N[21]、歸一化折損累計增益(Normalized Discounted Cumulative Gain,NDCG)@N[22]、平均倒數(shù)排名(Mean Reciprocal Rank,MRR)@N[7](N=10,50,100)三種評價標(biāo)準(zhǔn)評估所有算法。其中,HR 表示推薦列表中被用戶實際點擊或購買商品所占的比重,NDCG 用來衡量推薦列表的排序質(zhì)量的指標(biāo),MRR 用來衡量推薦列表的排序質(zhì)量和推薦物品的多樣性。

3.3 參數(shù)設(shè)置

將訓(xùn)練批量大小設(shè)置為512,向量的維度設(shè)置為32。為了達(dá)到更好的訓(xùn)練效果,選擇Adam 作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,并在[0.001,0.001 5,0.002 5,0.005,0.008,0.01]尋找最優(yōu)值,初始epoch 設(shè)置為16,并在[16,32,64,128,256]中尋找最優(yōu)值。對比分析中,將2.4.1 節(jié)的默認(rèn)步長設(shè)置為最優(yōu)值10。

3.4 對比分析

實驗結(jié)果如表3、4 所示,其中TSN(GC)為標(biāo)準(zhǔn)TSN 算法,它在每個訓(xùn)練批次中先更新DSSM。對表3、4 分析可知:

表3 各算法在MovieLens數(shù)據(jù)集的實驗結(jié)果Tab.3 Experimental results of different models on MovieLens dataset

表4 各算法在豆瓣電影數(shù)據(jù)集的實驗結(jié)果Tab.4 Experimental results of different models on Douban movie dataset

1)FM 通過分解用戶-商品矩陣,實現(xiàn)基于向量的二階特征交叉,它在稀疏場景中的表現(xiàn)明顯優(yōu)于基于頻率的TF-IDF,在MovieLens數(shù)據(jù)集上,F(xiàn)M相較于TF-IDF在HR@10、HR@50、HR@100性能指標(biāo)上提升40.06%~76.61%。

2)得益于DNN 強大的學(xué)習(xí)能力,用戶和商品信息在DSSM 生成的向量中得到了較好的表示,相較于YoutubeDNN,DSSM 在豆瓣電影數(shù)據(jù)集中的NDCG@10、NDCG@50、NDCG@100 性能指標(biāo)上提升了10.27%~36.07%。而YoutubeDNN 的表現(xiàn)相較于FM 整體上略有降低,這可能是由于全連接層過擬合導(dǎo)致的。

3)STAN 基于FM,使用自注意力機制提取用戶行為的相對時空信息,MRR@10、MRR@50、MRR@100 性能指標(biāo)相較于DSSM,在MovieLens數(shù)據(jù)集上提升了6.46%~8.75%。

4)HIRS 先將數(shù)據(jù)集映射為超圖,再使用超邊預(yù)測直接生成有益的特征交互,提高模型推薦性能。對超圖的有效學(xué)習(xí)使得HIRS 的HR@10、HR@50、HR@100 性能指標(biāo)相較于STAN,在MovieLens 數(shù)據(jù)集中提升了1.30%~3.96%。

5)在DSSM 的基礎(chǔ)之上,DAT 自適應(yīng)模擬機制生成的增強向量獲取了用戶側(cè)和商品側(cè)DNN 之間豐富的交互信息,這使得DAT 的HR@10、HR@50、HR@100 性能指標(biāo)相較于傳統(tǒng)的雙塔模型在豆瓣數(shù)電影劇集中提升了16.24%~17.91%,NDCG@10、NDCG@50、NDCG@100 性能指標(biāo)相較于HIRS 在豆瓣電影數(shù)據(jù)集中至少提升了10.29%。由于DAT的自適應(yīng)模擬機制只能學(xué)習(xí)到正樣本中用戶和商品之間的交互信息,且雙向共享機制不具備學(xué)習(xí)能力,其推薦性能仍有可提升空間。

6)TSN(GC)能通過對異構(gòu)圖進(jìn)行卷積,提取用戶和商品之間的連接信息,并使用具有二階段學(xué)習(xí)技術(shù)的孿生神經(jīng)網(wǎng)絡(luò)對正樣本和負(fù)樣本進(jìn)行全量訓(xùn)練的同時,學(xué)習(xí)到了用戶側(cè)和商品側(cè)DNN 的深層次交互信息,提高了DSSM 對樣本特征的學(xué)習(xí)能力。它的NDCG@10、NDCG@50、NDCG@100性能指標(biāo)相較于DAT 在豆瓣電影數(shù)據(jù)集上提升了11.39%~23.98%。

為了更加直觀地表示TSN 和基準(zhǔn)算法的特征分布差別,本文將驗證集通過TSN 和最優(yōu)基準(zhǔn)算法DAT 計算得到的用戶及商品特征矩陣進(jìn)行t-SNE 可視化降維,生成特征散點圖,如圖3。

圖3 TSN及最優(yōu)基準(zhǔn)算法DAT的用戶和商品特征散點圖(t-SNE)Fig.3 Scatter diagrams(t-SNE)of user and item features for TSN and optimal benchmark algorithm DAT

從圖3 中可以觀察到,TSN 和DAT 整體的分布比較均勻,沒有出現(xiàn)非常明顯的整體聚類現(xiàn)象,這說明TSN 和DAT都能針對不同類型的用戶進(jìn)行有效的推薦。此外,相較于DAT,TSN 在某些區(qū)域內(nèi)對用戶和商品的聚合能力更強,這說明TSN 更能根據(jù)用戶的興趣劃分用戶群體,根據(jù)商品特征劃分商品類別,從而更好地完成推薦。

3.5 消融實驗

為了驗證TSN 中各部分功能的有效性,本文在豆瓣電影數(shù)據(jù)集上為TSN 設(shè)計了相應(yīng)的消融實驗。如表5 所示,TSN(w/o TS,GC)為去掉TSM 部分的TSN 模型,讓孿生網(wǎng)絡(luò)和雙塔網(wǎng)絡(luò)同時進(jìn)行學(xué)習(xí),不加限制地相互傳遞信息。TSN(U-GC)將HS-GCN 和DSSM 的商品側(cè)DNN 之間的信息交互通道切斷,僅保留和用戶側(cè)DNN 之間的信息交互通道,并采用TSM 的方式與用戶側(cè)塔進(jìn)行信息交互。TSN(I-GC)僅保留HS-GCN 和商品側(cè)DNN 之間的信息交互通道,同樣采用TSM 的方式與商品側(cè)塔進(jìn)行信息交互。TSN(TS)在每個訓(xùn)練批次中先對HS-GCN 進(jìn)行更新。

表5 TSN(GC)及其變體在豆瓣電影數(shù)據(jù)集的實驗結(jié)果Tab.5 Experimental results of TSN(GC)and its variants on Douban movie dataset

從表5 中可看出,TSN(w/o TS,GC)在不采用TSM 的情況下,HR@10、HR@50、HR@100 性能指標(biāo)相較于TSN(GC)至少下降了69.15%,甚至相較于傳統(tǒng)DSSM 下降了32.86%~58.70%??赡苁怯捎贖S-GCN 將用戶側(cè)和商品側(cè)DNN 完全串聯(lián),導(dǎo)致雙方?jīng)]有分別從用戶和商品的特征數(shù)據(jù)中學(xué)習(xí)到正確的信息。TSN(U-GC)和TSN(I-GC)的NDCG@10、NDCG@50、NDCG@100 性能指標(biāo)比傳統(tǒng)的DSSM 分別提升18.44%~37.05%和20.34%~38.25%,這說明不論在用戶側(cè)還是商品側(cè)進(jìn)行HS-GCN 的增強,都能有效提高雙塔模型的召回性能,且在用戶側(cè)增強的效果更好,這可能和HS-GCN能從異質(zhì)圖中提取到更多用戶節(jié)點信息有關(guān)。而TSN(GC)的 MRR@10、MRR@50、MRR@100 性能指標(biāo)相較于TSN(U-GC)和TSN(I-GC)分別提升了18.79%~29.34% 和22.26%~28.67%,這證明了HS-GCN 對DSSM 雙向增強的有效性。此外,TSN(GC)和TSN(TS)的平均召回性能在三類指標(biāo)中均無明顯差異,這說明在訓(xùn)練過程中,HS-GCN 和DSSM的更新順序?qū)λ惴ú辉斐蓪嵸|(zhì)影響。

3.6 HS-GCN訓(xùn)練強度分析

對HS-GCN 采用不同強度的訓(xùn)練,會在很大程度上影響最終模型在測試集上的表現(xiàn)。因此,以不同強度訓(xùn)練HS-GCN,觀察分析HS-GCN 的訓(xùn)練強度對TSN 及其變體在召回性能上的影響。由于篇幅限制,本文僅對豆瓣電影數(shù)據(jù)集上的HR@100、NDCG@100、MRR@100 性能指標(biāo)進(jìn)行分析和對比。其余的性能指標(biāo)與上述三種指標(biāo)結(jié)果的趨勢相似。

圖4 中的橫坐標(biāo)為對于同一批樣本,HS-GCN 和DSSM 訓(xùn)練次數(shù)的比值。實驗中DSSM 的訓(xùn)練次數(shù)固定不變,因此該比值可以DSSM 的訓(xùn)練強度為單位,描述HS-GCN 的訓(xùn)練強度。實驗將訓(xùn)練強度限制在0.4~2.0,步長為0.2。

圖4 HS-GCN訓(xùn)練強度對TSN及其變體性能的影響Fig.4 Effect of HS-GCN training intensity on performance of TSN and its variants

從圖4 中可以看出,除了TSN(w/o TS,GC),訓(xùn)練強度從0.4~1.4,隨著訓(xùn)練強度的提升,各算法的召回指標(biāo)均不斷上升,而超出1.4 后,都呈現(xiàn)出緩慢下降的趨勢。這說明訓(xùn)練強度低于1.4 時,提升HS-GCN 的訓(xùn)練強度對雙塔網(wǎng)絡(luò)起到正向增強作用,1.4 為最佳訓(xùn)練強度,在訓(xùn)練強度超過1.4后,繼續(xù)提升HS-GCN 的訓(xùn)練強度,將會對整個模型產(chǎn)生微負(fù)向的作用。TSN(GC)和TSN(TS)的指標(biāo)折線纏繞比較緊密,無明顯優(yōu)劣之分,這支持了3.5 節(jié)中HS-GCN 和DSSM 的更新順序?qū)λ惴ǖ挠绊懞苄〉慕Y(jié)論。關(guān)于TSN(U-GC)和TSN(I-GC),它們的變化趨勢與TSN(GC)和TSN(TS)相似,這從另一角度證實了HS-GCN 的有效性,且驗證了上述HSGCN 最佳訓(xùn)練強度的正確性,但由于僅進(jìn)行了用戶側(cè)或商品側(cè)的部分信息交換,TSN(U-GC)和TSN(I-GC)在性能整體上弱于TSN(GC)和TSN(TS)。此外,TSN(w/o TS,GC)將雙塔網(wǎng)絡(luò)的用戶側(cè)塔和商品側(cè)塔完全串聯(lián),不僅使雙塔網(wǎng)絡(luò)喪失了獨立學(xué)習(xí)用戶特征和商品特征的優(yōu)勢,也無法讓孿生網(wǎng)絡(luò)學(xué)習(xí)正確的交互信息;所以,TSN(w/o TS,GC)的性能表現(xiàn)始終處于較低水準(zhǔn),且孿生網(wǎng)絡(luò)訓(xùn)練強度的變化對TSN(w/o TS,GC)的性能表現(xiàn)幾乎沒有影響。

4 結(jié)語

本文提出一種二階段孿生圖卷積神經(jīng)網(wǎng)絡(luò)推薦算法TSN,該算法基于用戶-商品二分圖設(shè)計孿生圖卷積神經(jīng)網(wǎng)絡(luò),不僅連接雙塔型神經(jīng)網(wǎng)絡(luò)的兩側(cè),而且引入用戶和商品的連接特征,實現(xiàn)雙塔型神經(jīng)網(wǎng)絡(luò)用戶側(cè)與商品側(cè)之間的深度信息交換。為了避免雙塔型神經(jīng)網(wǎng)絡(luò)完全串聯(lián),減少訓(xùn)練參數(shù)和人工成本,提出以梯度截斷技術(shù)為核心的二階段學(xué)習(xí)機制,使TSN 更適合用于大規(guī)模的推薦環(huán)境中。此外,本文對孿生網(wǎng)絡(luò)的訓(xùn)練強度進(jìn)行分析,并得到最佳訓(xùn)練強度。大量實驗表明,TSN 可以有效提高雙塔模型的召回性能。

猜你喜歡
雙塔卷積神經(jīng)網(wǎng)絡(luò)
雙塔雙循環(huán)濕法脫硫系統(tǒng)SO3脫除率及排放測試
雙塔雙循環(huán)脫硫系統(tǒng)超低排放運行優(yōu)化研究
能源工程(2022年1期)2022-03-29 01:06:36
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
雙塔水庫抬高汛期限制水位的可行性探討
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
安达市| 房山区| 大厂| 昌宁县| 天门市| 邢台县| 方城县| 耿马| 六安市| 洛隆县| 左云县| 镇平县| 浮山县| 蒙山县| 昭苏县| 金秀| 辽源市| 通海县| 宁乡县| 平江县| 平南县| 廉江市| 广丰县| 浦江县| 扎赉特旗| 兴安盟| 墨脱县| 光泽县| 岢岚县| 西贡区| 虞城县| 家居| 进贤县| 建水县| 日照市| 武夷山市| 开平市| 拜城县| 墨竹工卡县| 扎鲁特旗| 大石桥市|