雙感知門控交互的多任務(wù)推薦模型

2023-06-07 08:30陳育康

計(jì)算機(jī)與生活 2023年6期

林建，吳云，陳育康

貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，貴陽550025

+通信作者E-mail:wuyun_v@126.com

多任務(wù)學(xué)習(xí)（multi-task learning，MTL）[1]已成功地應(yīng)用于許多推薦應(yīng)用場(chǎng)景中。例如，在微視頻的多任務(wù)推薦中，需要同時(shí)優(yōu)化微視頻的點(diǎn)贊、轉(zhuǎn)發(fā)、關(guān)注和讀評(píng)論等多目標(biāo)任務(wù)。然而，像微視頻這種的多任務(wù)推薦問題中，多任務(wù)之間復(fù)雜的相關(guān)性，使模型難以同時(shí)學(xué)習(xí)到每個(gè)任務(wù)的最優(yōu)。在之前大多數(shù)的工作中，如多門混合專家（multi-gate mixture of experts，MMOE）[2]在硬參數(shù)[3]的基礎(chǔ)上考慮使用門控來學(xué)習(xí)不同任務(wù)的參數(shù)，一定程度上解決了任務(wù)之間的沖突。MTL 模型往往會(huì)出現(xiàn)性能負(fù)遷移的問題。在PLE（progressive layered extraction）[4]中指出，一個(gè)任務(wù)的性能通常會(huì)通過降低其他一些任務(wù)的性能而得到提高，PLE將學(xué)習(xí)參數(shù)分離成共享和專有的方式，通過參數(shù)共享和專有參數(shù)學(xué)習(xí)到多任務(wù)中的共性和差異性。盡管這些經(jīng)典的模型在多任務(wù)的表現(xiàn)中取得了較好的結(jié)果，然而過去的工作中沒有探索底層特征學(xué)習(xí)的方式，另外多任務(wù)之間的參數(shù)經(jīng)過門控網(wǎng)絡(luò)后每個(gè)任務(wù)的參數(shù)是獨(dú)立的，沒有考慮到任務(wù)之間的學(xué)習(xí)參數(shù)可以互補(bǔ)。為了進(jìn)一步有效解決多任務(wù)負(fù)遷移的問題，本文提出了一種雙感知門控交互的多任務(wù)推薦模型（multi-task recommendation model of dual perception gated interaction，DPGIMTRM）。DPGI-MTRM模型具有多個(gè)任務(wù)共享的組件和任務(wù)特定的組件，主要包括雙感知專家層、門控層、交互層、輸出層。雙感知專家層對(duì)輸入特征學(xué)習(xí)不同層級(jí)的表示，從元素級(jí)和向量級(jí)的雙感知方面提取更豐富的特征隱含表示。同時(shí)通過門控層來選擇不同任務(wù)學(xué)習(xí)到的共享參數(shù)和特定任務(wù)參數(shù)。然后任務(wù)門控的輸出經(jīng)過交互層之后，提取多任務(wù)之間復(fù)雜的相關(guān)性。另外，在多任務(wù)優(yōu)化中一個(gè)重要的問題就是多目標(biāo)損失函數(shù)的優(yōu)化。傳統(tǒng)的解決方法采用手動(dòng)設(shè)置不同任務(wù)的權(quán)重，這種靠經(jīng)驗(yàn)去調(diào)節(jié)的參數(shù)不具有泛化性，難以解決不同的多任務(wù)的優(yōu)化問題。本文使用梯度歸一化的多目標(biāo)函數(shù)優(yōu)化方法，將不同任務(wù)類型、不同尺度的損失統(tǒng)一，使多個(gè)目標(biāo)的優(yōu)化較一致地收斂。

本文主要的貢獻(xiàn)如下：（1）針對(duì)輸入特征學(xué)習(xí)的方式，設(shè)計(jì)了雙感知專家層提取更豐富的特征表達(dá)；（2）創(chuàng)造性地在特定任務(wù)門控網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)了交互層，使特定任務(wù)得到更深層次的語義信息，利用多任務(wù)之間復(fù)雜的相關(guān)性來學(xué)習(xí)參數(shù)；（3）使用一種梯度歸一化的多目標(biāo)優(yōu)化方法，將多個(gè)目標(biāo)損失統(tǒng)一到同一尺度，使多個(gè)目標(biāo)的優(yōu)化較一致地收斂。

1 相關(guān)工作

近年來，深度神經(jīng)網(wǎng)絡(luò)（deep neural network，DNN）[5-7]模型已經(jīng)成功地應(yīng)用于許多現(xiàn)實(shí)大規(guī)模應(yīng)用中，然而這些模型只能建立單個(gè)目標(biāo)任務(wù)，面對(duì)多任務(wù)問題時(shí)需要建立多個(gè)模型。如推薦系統(tǒng)[8-9]，這種推薦系統(tǒng)通常需要同時(shí)優(yōu)化多個(gè)目標(biāo)，往往只能對(duì)多個(gè)目標(biāo)單獨(dú)建立模型。例如，當(dāng)向用戶推薦觀看微視頻時(shí)，可能希望用戶不僅瀏覽點(diǎn)擊后點(diǎn)贊、關(guān)注，還希望用戶瀏覽點(diǎn)擊其他微視頻，甚至對(duì)微視頻進(jìn)行讀評(píng)論和轉(zhuǎn)發(fā)。在同一個(gè)樣本空間中，傳統(tǒng)的方法創(chuàng)建了多個(gè)模型預(yù)測(cè)多個(gè)任務(wù)。這在大規(guī)模的推薦場(chǎng)景中是一項(xiàng)巨大的工作，在實(shí)際生產(chǎn)部署中也是耗費(fèi)大量成本的。事實(shí)上，許多大規(guī)模的推薦系統(tǒng)已經(jīng)采用了DNN模型的多任務(wù)學(xué)習(xí)。

推薦系統(tǒng)（recommender systems，RS）[10]需要結(jié)合各種用戶反饋，以建模用戶的興趣，并最大限度地提高用戶的參與度和滿意度。然而，由于問題的高維性，用戶滿意度通常很難通過學(xué)習(xí)算法直接解決。同時(shí)，用戶滿意度和參與度有許多可以直接學(xué)習(xí)的主要因素，例如在微視頻中，點(diǎn)擊、完成、分享、點(diǎn)贊和評(píng)論等的可能性。因此，在RS中應(yīng)用MTL來同時(shí)建模用戶滿意度或參與的多個(gè)方面的趨勢(shì)越來越大。實(shí)際上，MTL已經(jīng)是主要行業(yè)應(yīng)用程序[11-13]的主流方法。文獻(xiàn)[11-12]中的工作都使用了矩陣分解與序列學(xué)習(xí)相結(jié)合的聯(lián)合訓(xùn)練方式構(gòu)建點(diǎn)擊率預(yù)測(cè)的多任務(wù)推薦模型，文獻(xiàn)[13]采用MMOE 模型思想應(yīng)用在視頻的多任務(wù)推薦中。

硬參數(shù)共享[3]，如圖1（a）是最基本和最常用的MTL 結(jié)構(gòu)，但任務(wù)之間直接共享參數(shù)，由于任務(wù)沖突，可能會(huì)發(fā)生負(fù)轉(zhuǎn)移。為了處理任務(wù)沖突，交叉縫合網(wǎng)絡(luò)[14]及閘網(wǎng)[2]兩者都提出學(xué)習(xí)線性組合的權(quán)重，以有選擇性地融合來自不同任務(wù)的表示。圖1（b）針對(duì)不同的任務(wù)定義了特定任務(wù)的學(xué)習(xí)參數(shù)，同時(shí)保留共享的參數(shù)，但依然存在任務(wù)沖突的問題。圖1（c）MMOE針對(duì)每個(gè)特定任務(wù)增加了一個(gè)門控網(wǎng)絡(luò)，特定任務(wù)的門控對(duì)專家系統(tǒng)[15]進(jìn)行選擇，一定程度上解決了任務(wù)沖突，但模型的底層參數(shù)都是共享的，學(xué)習(xí)不到多任務(wù)的差異性，往往存在負(fù)遷移的問題。圖1（d）的PLE 模型采用具有門結(jié)構(gòu)的漸進(jìn)路由機(jī)制，基于輸入融合知識(shí)，實(shí)現(xiàn)了不同輸入的自適應(yīng)組合，然而PLE 模型忽略了任務(wù)之間帶來的影響。盡管這些模型在解決推薦中的多任務(wù)問題提供了范式，但依然存在一些問題。首先，在底層參數(shù)學(xué)習(xí)時(shí)只得到單一的特征表達(dá)。另外，這些模型在多任務(wù)的復(fù)雜相關(guān)性上沒有進(jìn)行建模。本文提出了雙感知專家層對(duì)特征提取得到兩個(gè)層級(jí)的特征表達(dá)，同時(shí)設(shè)計(jì)門控交互層使得模型學(xué)習(xí)到多任務(wù)之間復(fù)雜的相關(guān)性。

圖1 經(jīng)典多任務(wù)學(xué)習(xí)模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Network structure of classic multi-task learning model

在共享參數(shù)和分離參數(shù)的模型結(jié)構(gòu)中，每個(gè)任務(wù)的收斂程度不一致，使用簡單的各個(gè)任務(wù)的損失總和作為優(yōu)化目標(biāo)不能提升多個(gè)任務(wù)的準(zhǔn)確度。文獻(xiàn)[16]提出了一種有原則的方法，結(jié)合多個(gè)損失函數(shù)，以同時(shí)學(xué)習(xí)多個(gè)目標(biāo)使用同方差不確定性，將同方差不確定性解釋為任務(wù)相關(guān)的權(quán)重，推導(dǎo)出一個(gè)有原則的多任務(wù)損失函數(shù)，該函數(shù)可以學(xué)習(xí)平衡各種回歸和分類損失。文獻(xiàn)[17]引入了一種隨機(jī)多梯度下降方法來解決這個(gè)問題，通過梯度歸一化，可以將不同尺度的目標(biāo)組合成一個(gè)單一連貫的框架。

2 本文方法

2.1 問題定義

為了便于后續(xù)形式化描述，在此給出了一些會(huì)用到的符號(hào)。本文用X表示輸入的特征向量，用Ek和Es分別表示任務(wù)專家系統(tǒng)和共享專家系統(tǒng)的輸出，用表示多任務(wù)交互的輸出，任務(wù)門控輸出和共享專家門控輸出分別用Gk和Gs表示，任務(wù)塔網(wǎng)絡(luò)的輸出用tk表示。本文的目標(biāo)是構(gòu)建一個(gè)多任務(wù)預(yù)測(cè)模型，yk表示每個(gè)特定任務(wù)的輸出表示。

2.2 模型描述

多任務(wù)問題中受不同任務(wù)間的相關(guān)性的影響，多任務(wù)模型的效果往往不如對(duì)任務(wù)單獨(dú)建立模型的效果好?，F(xiàn)有的方法雖然將多任務(wù)的參數(shù)分離為共享參數(shù)和專有參數(shù)一定程度上解決了任務(wù)沖突和負(fù)遷移的問題，但是模型并沒有考慮任務(wù)之間復(fù)雜的相關(guān)性，忽略了任務(wù)之間的聯(lián)系。另外，對(duì)多任務(wù)模型中的門控輸出沒有考慮來自底層特征的輸入影響?；谝陨喜蛔阒帲疚奶岢隽薉PGI-MTRM模型。該模型考慮了底層輸入特征對(duì)多任務(wù)的影響，在底層參數(shù)的學(xué)習(xí)中設(shè)計(jì)了雙感知專家層（dual perception expert layer，DPE-Layer），從元素級(jí)和向量級(jí)對(duì)特征進(jìn)行提取。同時(shí)，在門控網(wǎng)絡(luò)的基礎(chǔ)上，創(chuàng)新性地提出了門控交互層（gating interaction layer，GILayer），交互層將多個(gè)任務(wù)的門控輸出進(jìn)行元素相乘得到任務(wù)之間的交互相關(guān)值。另外，為了減少其他任務(wù)帶來的沖突，通過殘差的方式加上當(dāng)前特定任務(wù)輸出的值，最終得到特定任務(wù)的輸出表示。在模型訓(xùn)練時(shí)，采用了梯度歸一化多目標(biāo)優(yōu)化的方法對(duì)模型的參數(shù)進(jìn)行優(yōu)化，能夠?qū)⒉煌叨鹊奶荻戎禋w一化到統(tǒng)一尺度，減小了多目標(biāo)中損失值差異較大帶來的模型收斂問題。

DPGI-MTRM 模型結(jié)構(gòu)如圖2 所示，模型由DPGI 模塊和Outputs 輸出層構(gòu)成，其中DPGI 模塊包含雙感知專家層（DPE-Layer）和門控交互層（GILayer），輸出層對(duì)應(yīng)不同任務(wù)的多層感知機(jī)輸出預(yù)測(cè)模型。

圖2 DPGI-MTRM模型Fig. 2 DPGI-MTRM model

2.3 雙感知專家層

經(jīng)典的多任務(wù)模型的底層參數(shù)包含共享參數(shù)和專有參數(shù)，門控模塊利用這種專有和共享的參數(shù)來學(xué)習(xí)特定任務(wù)的輸出，直接利用這種專家模塊輸出會(huì)導(dǎo)致底層參數(shù)對(duì)任務(wù)的噪音干擾。多任務(wù)之間的不確定性關(guān)系往往很難捕獲，模型學(xué)習(xí)不到有益的參數(shù)就會(huì)帶來負(fù)面的影響。IFMs（input-aware factorization machine for sparse prediction）[18]中指出特征的多層級(jí)表達(dá)可以提升推薦性能，根據(jù)不同的輸入實(shí)例自適應(yīng)地學(xué)習(xí)給定特征的靈活表示，將不同層級(jí)的輸入因素重加權(quán)原始特征表示。多層級(jí)的特征表達(dá)從多方面學(xué)習(xí)特征的隱含表示，比單一的特征表達(dá)語義更加豐富。為了更好地使用共享參數(shù)和專有參數(shù)，在專家模塊學(xué)習(xí)參數(shù)時(shí)，受IFMs工作的啟發(fā)設(shè)計(jì)了雙感知專家層。雙感知專家層主要的作用是從特征的元素級(jí)和向量級(jí)兩個(gè)層面得到多層級(jí)表達(dá)（多層級(jí)是元素級(jí)和向量級(jí)的統(tǒng)稱），得到同一特征的不同表達(dá)形式。首先在特征向量級(jí)方面，根據(jù)Google 2017 年提出的注意力機(jī)制[19]，特征向量計(jì)算過程如圖3中Vector Wise Part所示，特征向量輸出的自注意力值形式化定義如式（1）所示：

圖3 雙感知專家層Fig. 3 Dual perception expert layer

在特征元素級(jí)方面，利用多層感知機(jī)（multilayer perceptron，MLP）對(duì)元素級(jí)的特征進(jìn)行提取，如圖3中Bit Wise Part所示，元素級(jí)的特征輸出如式（2）所示：

其中，δ(·)是非線性激活函數(shù)；是任務(wù)k可訓(xùn)練的權(quán)重矩陣，輸出維度為d；bk是偏置參數(shù)。

利用多層感知機(jī)作為元素級(jí)特征的提取模型，可以得到更加復(fù)雜的特征表達(dá)形式，提升了模型的學(xué)習(xí)能力。

最后，將向量級(jí)的輸出特征與元素級(jí)輸出特征進(jìn)行拼接作為下一步的輸入。雙感知專家層通過對(duì)特征多級(jí)別的提取之后，得到更豐富的特征表達(dá)，從而提升多任務(wù)差異性和共性的參數(shù)優(yōu)化學(xué)習(xí)，減少負(fù)遷移問題。

2.4 門控交互層

在多任務(wù)模型中，大多數(shù)先進(jìn)的模型都在結(jié)構(gòu)上有特定任務(wù)的參數(shù)和多個(gè)任務(wù)共享的參數(shù)兩部分。同時(shí)，對(duì)于各個(gè)任務(wù)的輸出之前增加了一個(gè)門控網(wǎng)絡(luò)，選擇不同的專家模塊來學(xué)習(xí)參數(shù)，如圖4（a）所示。本文考慮了不同任務(wù)之間具有復(fù)雜的相關(guān)性，除了通過特定任務(wù)的雙感知專家層學(xué)習(xí)特征差異性之外，同時(shí)利用任務(wù)之間不確定性的關(guān)系提升任務(wù)的性能。在通過門控網(wǎng)絡(luò)學(xué)習(xí)任務(wù)特征的深層次的語義之后，將特定任務(wù)的門控輸出與其他任務(wù)的門控輸出經(jīng)過交互層來捕獲任務(wù)之間的相關(guān)性。多任務(wù)交互層結(jié)構(gòu)圖如圖4（b）所示。多任務(wù)交互的輸出形式化定義如式（3）所示：

圖4 門控網(wǎng)絡(luò)和門控交互層Fig. 4 Gating networks and gating interaction layer

其中，Wm是交互模塊輸出的特征變換矩陣，符號(hào)⊙表示逐元素相乘，Gi是任務(wù)k之外的其他任務(wù)的門控輸出。在式（3）中，Gk的形式化定義如式（4）所示：

其中，g(·)是門控輸出的函數(shù)，這里使用多層感知機(jī)的神經(jīng)網(wǎng)絡(luò)，Wg表示神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣。和分別是任務(wù)k的專家模塊輸出和共享專家模塊的輸出。特別地，在共享門控中，包含了全部任務(wù)的專家模塊和共享專家模塊的輸出作為輸入，形式化定義如式（5）所示：

門控交互層漸進(jìn)地學(xué)習(xí)了多任務(wù)的差異性的專有參數(shù)，利用任務(wù)之間的差異性建模了多任務(wù)之間復(fù)雜的相關(guān)性。同時(shí)，采用殘差的方式加上原始特定任務(wù)學(xué)習(xí)到的專有參數(shù)。這樣既保留了原有的任務(wù)特定參數(shù)，也利用了其他任務(wù)的復(fù)雜相關(guān)性。

2.5 損失函數(shù)優(yōu)化

由前面幾節(jié)的介紹，DPGI-MTRM模型的最后輸出表示為模型中單個(gè)任務(wù)的損失函數(shù)為：

其中，?θLk(·)是任務(wù)k的目標(biāo)函數(shù)梯度，任務(wù)k的目標(biāo)函數(shù)根據(jù)任務(wù)的輸出類型決定，當(dāng)為分類任務(wù)時(shí)目標(biāo)函數(shù)為交叉熵?fù)p失函數(shù)，當(dāng)為回歸任務(wù)時(shí)目標(biāo)函數(shù)為均方誤差（MSE）。yk和y^k分別為任務(wù)k的目標(biāo)真實(shí)值和目標(biāo)預(yù)測(cè)值。綜上，多任務(wù)模型最終的損失函數(shù)可以形式化定義為式（7）所示：

其中，?θL(θ)是模型共同的梯度向量，K是多任務(wù)的目標(biāo)數(shù)量。根據(jù)文獻(xiàn)[20]，多目標(biāo)優(yōu)化問題是一個(gè)帕累托求解的問題，文獻(xiàn)中使用QCOP（quadratic constrained optimization problem）方法優(yōu)化多個(gè)任務(wù)的損失權(quán)重wi。特別地，式（7）滿足幾個(gè)條件：（1）wi,wi+1,…,wK≥0；（2）；（3）存在但是僅僅考慮單目標(biāo)優(yōu)化問題時(shí)，梯度為零是必要的條件。然而在多目標(biāo)優(yōu)化中，是多個(gè)目標(biāo)梯度組合為零的問題。根據(jù)文獻(xiàn)[21]，帕累托的解是一個(gè)集合，優(yōu)化多目標(biāo)就是在解集里面尋找最優(yōu)的一個(gè)。根據(jù)QCOP定義，考慮兩個(gè)任務(wù)目標(biāo)優(yōu)化的情況下如式（8）所示，最后得到式（8）中w的一個(gè)解析解，如式（9）所示：

根據(jù)DPGI-MTRM模型的損失函數(shù)，使用梯度歸一化的多目標(biāo)優(yōu)化算法得到DPGI-MTRM 模型參數(shù)的優(yōu)化算法，如算法1所示。

算法1DPGI-MTRM參數(shù)優(yōu)化算法

DPGI-MTRM 模型的參數(shù)優(yōu)化主要來自雙感知專家層和門控交互層的參數(shù)學(xué)習(xí)。雙感知層從差異性和共性方面進(jìn)行參數(shù)優(yōu)化學(xué)習(xí)，門控交互層從差異性方面進(jìn)行參數(shù)優(yōu)化學(xué)習(xí)。

對(duì)比的基準(zhǔn)模型中，參數(shù)差異性方面只有來自元素級(jí)的特征輸入到門控網(wǎng)絡(luò)中，參數(shù)共性也只是元素級(jí)的特征參數(shù)學(xué)習(xí)。本文提出的模型，首先在雙感知專家層中，從元素級(jí)和向量級(jí)的雙感知特征表達(dá)來學(xué)習(xí)底層參數(shù)的差異性，在參數(shù)量上主要增加來自計(jì)算向量級(jí)的部分，空間復(fù)雜度是d，d為輸入維度。從時(shí)間復(fù)雜度上來看，提出的雙感知層在元素級(jí)和向量級(jí)的計(jì)算是并行的，幾乎不增加時(shí)間復(fù)雜度。其次在門控交互層中，每個(gè)任務(wù)門控網(wǎng)絡(luò)單獨(dú)學(xué)習(xí)到各自任務(wù)的差異性。從多方面學(xué)習(xí)到多任務(wù)參數(shù)差異性，提升了模型的泛化性。在參數(shù)共性上，雙感知專家層得到兩個(gè)層級(jí)的特征表達(dá)，得到豐富的特征語義，為門控交互層提供了增強(qiáng)型的特征表達(dá)輸入。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

所有實(shí)驗(yàn)均在Intel CoreTMi5-4690 CPU@3.5 GHz和16 GB 內(nèi)存，11 GB 顯存的GTX1080Ti 顯卡的64位Ubuntu 系統(tǒng)中完成，所有代碼均使用Python 語言編寫，計(jì)算各評(píng)價(jià)指標(biāo)依賴的是Python 的第三方庫scikit-learn 0.23.2。本文模型基于Tensorflow 1.15 實(shí)現(xiàn)，使用Adam優(yōu)化器進(jìn)行訓(xùn)練，初始學(xué)習(xí)率設(shè)為1E-3且每隔25輪下降到原來的10%，訓(xùn)練模型100輪約需要3.5 h。

3.2 數(shù)據(jù)集

為了評(píng)估本文模型的性能，本文在Synthetic Data、Census-income（http://archive.ics.uci.edu/ml）和Ali-CCP（https://tianchi.aliyun.com/dataset/dataDetail?dataId=408）數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。

Synthetic Data 數(shù)據(jù)集是根據(jù)文獻(xiàn)[22]的數(shù)據(jù)合成過程生成的，用來控制任務(wù)之間的相關(guān)性。按照標(biāo)準(zhǔn)正態(tài)分布隨機(jī)采樣αi和βi，并且設(shè)置c=1，m=10，d=512，分別生成相關(guān)性為0.20、0.50、0.75、1.00的兩個(gè)目標(biāo)的多任務(wù)樣本，每個(gè)相關(guān)性生成100萬個(gè)具有連續(xù)標(biāo)簽的樣本數(shù)據(jù)。

Census-income 數(shù)據(jù)集是美國UCI 從1994 年人口普查收入數(shù)據(jù)庫中提取的包含299 285 個(gè)美國成年人的人口統(tǒng)計(jì)信息，由40 個(gè)特征組成的數(shù)據(jù)集。從中選擇兩組多任務(wù)目標(biāo)進(jìn)行實(shí)驗(yàn)，多任務(wù)目標(biāo)如表1 所示。具體地說，第一組任務(wù)中預(yù)測(cè)收入是否超過5 萬美元和個(gè)人婚姻狀況是否從未結(jié)婚；第二組任務(wù)將第一組的預(yù)測(cè)收入換為是否接受過高等教育；第三組任務(wù)是將第一組和第二組的首個(gè)任務(wù)進(jìn)行組合。

表1 Census-income多任務(wù)Table 1 Census-income multi-task

Ali-CCP 數(shù)據(jù)集是從淘寶的推薦系統(tǒng)中提取的8 400 萬個(gè)樣本的公共數(shù)據(jù)集，其中點(diǎn)擊率（clickthrough rate，CTR）和轉(zhuǎn)化率（conversion rate，CVR）是在此數(shù)據(jù)集上需要建模的點(diǎn)擊和購買的兩個(gè)任務(wù)目標(biāo)。

3.3 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)中將數(shù)據(jù)集按照8∶1∶1分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。對(duì)于分類任務(wù)采用AUC 來評(píng)估模型的CTR 預(yù)測(cè)性能，對(duì)于回歸任務(wù)采用MSE 作為評(píng)價(jià)指標(biāo)，其中MSE的計(jì)算指標(biāo)如下所示：

3.4 結(jié)果分析與比較

3.4.1 實(shí)驗(yàn)結(jié)果比較

表2 和圖5 分別展示了本文在Census-income、Ali-CCP 以及Synthetic Data 數(shù)據(jù)集上兩個(gè)評(píng)價(jià)指標(biāo)AUC 和MSE 上的對(duì)比結(jié)果。使用MMOE 和PLE 作為對(duì)比模型，為了公平地比較模型的性能，對(duì)比模型和DPGI-MTRM 模型的專家數(shù)n設(shè)置為8，模型層數(shù)都為3。從表2 中看到，本文的模型在兩個(gè)數(shù)據(jù)集上的AUC 指標(biāo)表現(xiàn)都優(yōu)于對(duì)比的模型。圖5 展示了DPGI-MTRM 模型和對(duì)比模型在Synthetic Data 數(shù)據(jù)集上，在不同相關(guān)性任務(wù)上的MSE 表現(xiàn)。從圖5 中可以看出本文方法具有明顯的優(yōu)勢(shì)。

表2 Census-income和Ali-CCP 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果（AUC）Table 2 Experimental results(AUC)on Census-income and Ali-CCP datasets

圖5 Synthetic Data數(shù)據(jù)集上相關(guān)性多任務(wù)的實(shí)驗(yàn)結(jié)果Fig. 5 Experimental results of correlated multi-task on Synthetic Data dataset

3.4.2 各參數(shù)對(duì)模型的影響

DPGI-MTRM 模型里的參數(shù)專家數(shù)n是一個(gè)很重要的參數(shù)，用于對(duì)模型的寬度進(jìn)行控制，能影響多任務(wù)的性能。圖6（a）展示了不同n取值下，DPGIMTRM 模型在Census-income 數(shù)據(jù)集上預(yù)測(cè)Education 和Marital 多任務(wù)的AUC 表現(xiàn)性能。設(shè)置了4 組參數(shù)n分別進(jìn)行實(shí)驗(yàn)，從圖中可以看到，當(dāng)n取12時(shí)，模型在AUC 指標(biāo)上表現(xiàn)最好。模型的層數(shù)l同樣是一個(gè)重要的參數(shù)，當(dāng)l越大，模型在Census-income 數(shù)據(jù)集上的AUC 指標(biāo)表現(xiàn)越好，考慮到模型參數(shù)量問題，實(shí)驗(yàn)分別設(shè)置了l取值為2、3、6、9 和12，且n=8。圖6（b）展示了不同l取值下的AUC指標(biāo)表現(xiàn)性能，可以看到當(dāng)深度為6時(shí)，AUC表現(xiàn)最好，隨著深度增加，模型表現(xiàn)逐漸變差，這是因?yàn)橛?xùn)練樣本不足造成過擬合。

圖6 參數(shù)n和l對(duì)模型的影響Fig. 6 Influence of parameters n and l on model

3.4.3 模型方法的消融實(shí)驗(yàn)

為了驗(yàn)證本文提出的雙感知專家層和門控交互層對(duì)多任務(wù)中負(fù)遷移的有效解決，設(shè)置以下實(shí)驗(yàn)進(jìn)行對(duì)比驗(yàn)證。

（1）將DPGI-MTRM模型去掉雙感知專家層和門控交互層作為基線模型，記為Base 模型。在Base 模型基礎(chǔ)上增加雙感知專家層，記為Base-DP模型。兩種模型在數(shù)據(jù)集Census-income 上的AUC 指標(biāo)的表現(xiàn)如表3所示，可以看到使用了雙感知專家層在AUC指標(biāo)上對(duì)比Base 模型在第一組任務(wù)上最大提升了0.94%。使用了雙感知專家層，讓任務(wù)的共享參數(shù)和專有參數(shù)能更好地得到學(xué)習(xí)，從元素級(jí)和向量級(jí)得到參數(shù)的多層級(jí)優(yōu)化，得到豐富的特征語義表達(dá)。由實(shí)驗(yàn)可以得出本文提出的雙感知專家層，可以解決多任務(wù)中負(fù)遷移問題，從而提升多任務(wù)的性能。

表3 Census-income數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果（AUC）Table 3 Experimental results(AUC)on Census-income dataset

（2）對(duì)比Base模型，在Base模型的基礎(chǔ)上增加門控交互層，記為Base-GI 模型。兩種模型在數(shù)據(jù)集Census-income 上的AUC 指標(biāo)的表現(xiàn)如表3 所示，可以看到使用了門控交互層在第一組任務(wù)上AUC指標(biāo)最大提升了0.89%。設(shè)計(jì)的門控交互層，將多任務(wù)的專有參數(shù)漸進(jìn)地優(yōu)化學(xué)習(xí)，將第一階段中雙感知專家層學(xué)習(xí)的差異參數(shù)進(jìn)一步優(yōu)化。同時(shí)，使用任務(wù)之間差異性進(jìn)行交互，對(duì)任務(wù)之間復(fù)雜相關(guān)性進(jìn)行建模，增強(qiáng)了共性參數(shù)的優(yōu)化學(xué)習(xí)。由實(shí)驗(yàn)可以得到本文提出的門控交互層，可以解決多任務(wù)中負(fù)遷移問題，從而提升多任務(wù)的性能。

（3）對(duì)比Base模型，在Base模型的基礎(chǔ)上同時(shí)增加雙感知專家層和交互層，即為DPGI-MTRM 模型。兩種模型在數(shù)據(jù)集Census-income 上的AUC 指標(biāo)的表現(xiàn)如表3 所示，可以看到AUC 指標(biāo)最大提升了2.06%，由此可以得出本文提出的雙感知門控交互的多任務(wù)推薦模型是有效可行的，能解決多任務(wù)負(fù)遷移問題。

4 結(jié)束語

為提升多任務(wù)推薦中點(diǎn)擊率預(yù)測(cè)的準(zhǔn)確性，解決多任務(wù)中負(fù)遷移的問題，本文提出了一種雙感知門控交互的多任務(wù)推薦模型（DPGI-MTRM）。模型考慮到底層特征提取的方式，設(shè)計(jì)了雙感知專家層，其得到元素級(jí)和向量級(jí)的雙感知特征表達(dá)。同時(shí)針對(duì)多任務(wù)的負(fù)遷移問題，提出門控交互層，增強(qiáng)了多任務(wù)交互學(xué)習(xí)，有效利用了多任務(wù)的專有參數(shù)，從而提升多任務(wù)的模型性能。通過在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)，結(jié)果表明提出的模型在預(yù)測(cè)準(zhǔn)確性上較基準(zhǔn)模型有明顯的提升，驗(yàn)證了模型方法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡