林 建,吳 云,陳育康
貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽550025
+通信作者E-mail:wuyun_v@126.com
多任務(wù)學(xué)習(xí)(multi-task learning,MTL)[1]已成功地應(yīng)用于許多推薦應(yīng)用場(chǎng)景中。例如,在微視頻的多任務(wù)推薦中,需要同時(shí)優(yōu)化微視頻的點(diǎn)贊、轉(zhuǎn)發(fā)、關(guān)注和讀評(píng)論等多目標(biāo)任務(wù)。然而,像微視頻這種的多任務(wù)推薦問題中,多任務(wù)之間復(fù)雜的相關(guān)性,使模型難以同時(shí)學(xué)習(xí)到每個(gè)任務(wù)的最優(yōu)。在之前大多數(shù)的工作中,如多門混合專家(multi-gate mixture of experts,MMOE)[2]在硬參數(shù)[3]的基礎(chǔ)上考慮使用門控來學(xué)習(xí)不同任務(wù)的參數(shù),一定程度上解決了任務(wù)之間的沖突。MTL 模型往往會(huì)出現(xiàn)性能負(fù)遷移的問題。在PLE(progressive layered extraction)[4]中指出,一個(gè)任務(wù)的性能通常會(huì)通過降低其他一些任務(wù)的性能而得到提高,PLE將學(xué)習(xí)參數(shù)分離成共享和專有的方式,通過參數(shù)共享和專有參數(shù)學(xué)習(xí)到多任務(wù)中的共性和差異性。盡管這些經(jīng)典的模型在多任務(wù)的表現(xiàn)中取得了較好的結(jié)果,然而過去的工作中沒有探索底層特征學(xué)習(xí)的方式,另外多任務(wù)之間的參數(shù)經(jīng)過門控網(wǎng)絡(luò)后每個(gè)任務(wù)的參數(shù)是獨(dú)立的,沒有考慮到任務(wù)之間的學(xué)習(xí)參數(shù)可以互補(bǔ)。為了進(jìn)一步有效解決多任務(wù)負(fù)遷移的問題,本文提出了一種雙感知門控交互的多任務(wù)推薦模型(multi-task recommendation model of dual perception gated interaction,DPGIMTRM)。DPGI-MTRM模型具有多個(gè)任務(wù)共享的組件和任務(wù)特定的組件,主要包括雙感知專家層、門控層、交互層、輸出層。雙感知專家層對(duì)輸入特征學(xué)習(xí)不同層級(jí)的表示,從元素級(jí)和向量級(jí)的雙感知方面提取更豐富的特征隱含表示。同時(shí)通過門控層來選擇不同任務(wù)學(xué)習(xí)到的共享參數(shù)和特定任務(wù)參數(shù)。然后任務(wù)門控的輸出經(jīng)過交互層之后,提取多任務(wù)之間復(fù)雜的相關(guān)性。另外,在多任務(wù)優(yōu)化中一個(gè)重要的問題就是多目標(biāo)損失函數(shù)的優(yōu)化。傳統(tǒng)的解決方法采用手動(dòng)設(shè)置不同任務(wù)的權(quán)重,這種靠經(jīng)驗(yàn)去調(diào)節(jié)的參數(shù)不具有泛化性,難以解決不同的多任務(wù)的優(yōu)化問題。本文使用梯度歸一化的多目標(biāo)函數(shù)優(yōu)化方法,將不同任務(wù)類型、不同尺度的損失統(tǒng)一,使多個(gè)目標(biāo)的優(yōu)化較一致地收斂。
本文主要的貢獻(xiàn)如下:(1)針對(duì)輸入特征學(xué)習(xí)的方式,設(shè)計(jì)了雙感知專家層提取更豐富的特征表達(dá);(2)創(chuàng)造性地在特定任務(wù)門控網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)了交互層,使特定任務(wù)得到更深層次的語義信息,利用多任務(wù)之間復(fù)雜的相關(guān)性來學(xué)習(xí)參數(shù);(3)使用一種梯度歸一化的多目標(biāo)優(yōu)化方法,將多個(gè)目標(biāo)損失統(tǒng)一到同一尺度,使多個(gè)目標(biāo)的優(yōu)化較一致地收斂。
近年來,深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)[5-7]模型已經(jīng)成功地應(yīng)用于許多現(xiàn)實(shí)大規(guī)模應(yīng)用中,然而這些模型只能建立單個(gè)目標(biāo)任務(wù),面對(duì)多任務(wù)問題時(shí)需要建立多個(gè)模型。如推薦系統(tǒng)[8-9],這種推薦系統(tǒng)通常需要同時(shí)優(yōu)化多個(gè)目標(biāo),往往只能對(duì)多個(gè)目標(biāo)單獨(dú)建立模型。例如,當(dāng)向用戶推薦觀看微視頻時(shí),可能希望用戶不僅瀏覽點(diǎn)擊后點(diǎn)贊、關(guān)注,還希望用戶瀏覽點(diǎn)擊其他微視頻,甚至對(duì)微視頻進(jìn)行讀評(píng)論和轉(zhuǎn)發(fā)。在同一個(gè)樣本空間中,傳統(tǒng)的方法創(chuàng)建了多個(gè)模型預(yù)測(cè)多個(gè)任務(wù)。這在大規(guī)模的推薦場(chǎng)景中是一項(xiàng)巨大的工作,在實(shí)際生產(chǎn)部署中也是耗費(fèi)大量成本的。事實(shí)上,許多大規(guī)模的推薦系統(tǒng)已經(jīng)采用了DNN模型的多任務(wù)學(xué)習(xí)。
推薦系統(tǒng)(recommender systems,RS)[10]需要結(jié)合各種用戶反饋,以建模用戶的興趣,并最大限度地提高用戶的參與度和滿意度。然而,由于問題的高維性,用戶滿意度通常很難通過學(xué)習(xí)算法直接解決。同時(shí),用戶滿意度和參與度有許多可以直接學(xué)習(xí)的主要因素,例如在微視頻中,點(diǎn)擊、完成、分享、點(diǎn)贊和評(píng)論等的可能性。因此,在RS中應(yīng)用MTL來同時(shí)建模用戶滿意度或參與的多個(gè)方面的趨勢(shì)越來越大。實(shí)際上,MTL已經(jīng)是主要行業(yè)應(yīng)用程序[11-13]的主流方法。文獻(xiàn)[11-12]中的工作都使用了矩陣分解與序列學(xué)習(xí)相結(jié)合的聯(lián)合訓(xùn)練方式構(gòu)建點(diǎn)擊率預(yù)測(cè)的多任務(wù)推薦模型,文獻(xiàn)[13]采用MMOE 模型思想應(yīng)用在視頻的多任務(wù)推薦中。
硬參數(shù)共享[3],如圖1(a)是最基本和最常用的MTL 結(jié)構(gòu),但任務(wù)之間直接共享參數(shù),由于任務(wù)沖突,可能會(huì)發(fā)生負(fù)轉(zhuǎn)移。為了處理任務(wù)沖突,交叉縫合網(wǎng)絡(luò)[14]及閘網(wǎng)[2]兩者都提出學(xué)習(xí)線性組合的權(quán)重,以有選擇性地融合來自不同任務(wù)的表示。圖1(b)針對(duì)不同的任務(wù)定義了特定任務(wù)的學(xué)習(xí)參數(shù),同時(shí)保留共享的參數(shù),但依然存在任務(wù)沖突的問題。圖1(c)MMOE針對(duì)每個(gè)特定任務(wù)增加了一個(gè)門控網(wǎng)絡(luò),特定任務(wù)的門控對(duì)專家系統(tǒng)[15]進(jìn)行選擇,一定程度上解決了任務(wù)沖突,但模型的底層參數(shù)都是共享的,學(xué)習(xí)不到多任務(wù)的差異性,往往存在負(fù)遷移的問題。圖1(d)的PLE 模型采用具有門結(jié)構(gòu)的漸進(jìn)路由機(jī)制,基于輸入融合知識(shí),實(shí)現(xiàn)了不同輸入的自適應(yīng)組合,然而PLE 模型忽略了任務(wù)之間帶來的影響。盡管這些模型在解決推薦中的多任務(wù)問題提供了范式,但依然存在一些問題。首先,在底層參數(shù)學(xué)習(xí)時(shí)只得到單一的特征表達(dá)。另外,這些模型在多任務(wù)的復(fù)雜相關(guān)性上沒有進(jìn)行建模。本文提出了雙感知專家層對(duì)特征提取得到兩個(gè)層級(jí)的特征表達(dá),同時(shí)設(shè)計(jì)門控交互層使得模型學(xué)習(xí)到多任務(wù)之間復(fù)雜的相關(guān)性。
圖1 經(jīng)典多任務(wù)學(xué)習(xí)模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Network structure of classic multi-task learning model
在共享參數(shù)和分離參數(shù)的模型結(jié)構(gòu)中,每個(gè)任務(wù)的收斂程度不一致,使用簡單的各個(gè)任務(wù)的損失總和作為優(yōu)化目標(biāo)不能提升多個(gè)任務(wù)的準(zhǔn)確度。文獻(xiàn)[16]提出了一種有原則的方法,結(jié)合多個(gè)損失函數(shù),以同時(shí)學(xué)習(xí)多個(gè)目標(biāo)使用同方差不確定性,將同方差不確定性解釋為任務(wù)相關(guān)的權(quán)重,推導(dǎo)出一個(gè)有原則的多任務(wù)損失函數(shù),該函數(shù)可以學(xué)習(xí)平衡各種回歸和分類損失。文獻(xiàn)[17]引入了一種隨機(jī)多梯度下降方法來解決這個(gè)問題,通過梯度歸一化,可以將不同尺度的目標(biāo)組合成一個(gè)單一連貫的框架。
為了便于后續(xù)形式化描述,在此給出了一些會(huì)用到的符號(hào)。本文用X表示輸入的特征向量,用Ek和Es分別表示任務(wù)專家系統(tǒng)和共享專家系統(tǒng)的輸出,用表示多任務(wù)交互的輸出,任務(wù)門控輸出和共享專家門控輸出分別用Gk和Gs表示,任務(wù)塔網(wǎng)絡(luò)的輸出用tk表示。本文的目標(biāo)是構(gòu)建一個(gè)多任務(wù)預(yù)測(cè)模型,yk表示每個(gè)特定任務(wù)的輸出表示。
多任務(wù)問題中受不同任務(wù)間的相關(guān)性的影響,多任務(wù)模型的效果往往不如對(duì)任務(wù)單獨(dú)建立模型的效果好?,F(xiàn)有的方法雖然將多任務(wù)的參數(shù)分離為共享參數(shù)和專有參數(shù)一定程度上解決了任務(wù)沖突和負(fù)遷移的問題,但是模型并沒有考慮任務(wù)之間復(fù)雜的相關(guān)性,忽略了任務(wù)之間的聯(lián)系。另外,對(duì)多任務(wù)模型中的門控輸出沒有考慮來自底層特征的輸入影響?;谝陨喜蛔阒帲疚奶岢隽薉PGI-MTRM模型。該模型考慮了底層輸入特征對(duì)多任務(wù)的影響,在底層參數(shù)的學(xué)習(xí)中設(shè)計(jì)了雙感知專家層(dual perception expert layer,DPE-Layer),從元素級(jí)和向量級(jí)對(duì)特征進(jìn)行提取。同時(shí),在門控網(wǎng)絡(luò)的基礎(chǔ)上,創(chuàng)新性地提出了門控交互層(gating interaction layer,GILayer),交互層將多個(gè)任務(wù)的門控輸出進(jìn)行元素相乘得到任務(wù)之間的交互相關(guān)值。另外,為了減少其他任務(wù)帶來的沖突,通過殘差的方式加上當(dāng)前特定任務(wù)輸出的值,最終得到特定任務(wù)的輸出表示。在模型訓(xùn)練時(shí),采用了梯度歸一化多目標(biāo)優(yōu)化的方法對(duì)模型的參數(shù)進(jìn)行優(yōu)化,能夠?qū)⒉煌叨鹊奶荻戎禋w一化到統(tǒng)一尺度,減小了多目標(biāo)中損失值差異較大帶來的模型收斂問題。
DPGI-MTRM 模型結(jié)構(gòu)如圖2 所示,模型由DPGI 模塊和Outputs 輸出層構(gòu)成,其中DPGI 模塊包含雙感知專家層(DPE-Layer)和門控交互層(GILayer),輸出層對(duì)應(yīng)不同任務(wù)的多層感知機(jī)輸出預(yù)測(cè)模型。
圖2 DPGI-MTRM模型Fig. 2 DPGI-MTRM model
經(jīng)典的多任務(wù)模型的底層參數(shù)包含共享參數(shù)和專有參數(shù),門控模塊利用這種專有和共享的參數(shù)來學(xué)習(xí)特定任務(wù)的輸出,直接利用這種專家模塊輸出會(huì)導(dǎo)致底層參數(shù)對(duì)任務(wù)的噪音干擾。多任務(wù)之間的不確定性關(guān)系往往很難捕獲,模型學(xué)習(xí)不到有益的參數(shù)就會(huì)帶來負(fù)面的影響。IFMs(input-aware factorization machine for sparse prediction)[18]中指出特征的多層級(jí)表達(dá)可以提升推薦性能,根據(jù)不同的輸入實(shí)例自適應(yīng)地學(xué)習(xí)給定特征的靈活表示,將不同層級(jí)的輸入因素重加權(quán)原始特征表示。多層級(jí)的特征表達(dá)從多方面學(xué)習(xí)特征的隱含表示,比單一的特征表達(dá)語義更加豐富。為了更好地使用共享參數(shù)和專有參數(shù),在專家模塊學(xué)習(xí)參數(shù)時(shí),受IFMs工作的啟發(fā)設(shè)計(jì)了雙感知專家層。雙感知專家層主要的作用是從特征的元素級(jí)和向量級(jí)兩個(gè)層面得到多層級(jí)表達(dá)(多層級(jí)是元素級(jí)和向量級(jí)的統(tǒng)稱),得到同一特征的不同表達(dá)形式。首先在特征向量級(jí)方面,根據(jù)Google 2017 年提出的注意力機(jī)制[19],特征向量計(jì)算過程如圖3中Vector Wise Part所示,特征向量輸出的自注意力值形式化定義如式(1)所示:
圖3 雙感知專家層Fig. 3 Dual perception expert layer
在特征元素級(jí)方面,利用多層感知機(jī)(multilayer perceptron,MLP)對(duì)元素級(jí)的特征進(jìn)行提取,如圖3中Bit Wise Part所示,元素級(jí)的特征輸出如式(2)所示:
其中,δ(·)是非線性激活函數(shù);是任務(wù)k可訓(xùn)練的權(quán)重矩陣,輸出維度為d;bk是偏置參數(shù)。
利用多層感知機(jī)作為元素級(jí)特征的提取模型,可以得到更加復(fù)雜的特征表達(dá)形式,提升了模型的學(xué)習(xí)能力。
最后,將向量級(jí)的輸出特征與元素級(jí)輸出特征進(jìn)行拼接作為下一步的輸入。雙感知專家層通過對(duì)特征多級(jí)別的提取之后,得到更豐富的特征表達(dá),從而提升多任務(wù)差異性和共性的參數(shù)優(yōu)化學(xué)習(xí),減少負(fù)遷移問題。
在多任務(wù)模型中,大多數(shù)先進(jìn)的模型都在結(jié)構(gòu)上有特定任務(wù)的參數(shù)和多個(gè)任務(wù)共享的參數(shù)兩部分。同時(shí),對(duì)于各個(gè)任務(wù)的輸出之前增加了一個(gè)門控網(wǎng)絡(luò),選擇不同的專家模塊來學(xué)習(xí)參數(shù),如圖4(a)所示。本文考慮了不同任務(wù)之間具有復(fù)雜的相關(guān)性,除了通過特定任務(wù)的雙感知專家層學(xué)習(xí)特征差異性之外,同時(shí)利用任務(wù)之間不確定性的關(guān)系提升任務(wù)的性能。在通過門控網(wǎng)絡(luò)學(xué)習(xí)任務(wù)特征的深層次的語義之后,將特定任務(wù)的門控輸出與其他任務(wù)的門控輸出經(jīng)過交互層來捕獲任務(wù)之間的相關(guān)性。多任務(wù)交互層結(jié)構(gòu)圖如圖4(b)所示。多任務(wù)交互的輸出形式化定義如式(3)所示:
圖4 門控網(wǎng)絡(luò)和門控交互層Fig. 4 Gating networks and gating interaction layer
其中,Wm是交互模塊輸出的特征變換矩陣,符號(hào)⊙表示逐元素相乘,Gi是任務(wù)k之外的其他任務(wù)的門控輸出。在式(3)中,Gk的形式化定義如式(4)所示:
其中,g(·)是門控輸出的函數(shù),這里使用多層感知機(jī)的神經(jīng)網(wǎng)絡(luò),Wg表示神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣。和分別是任務(wù)k的專家模塊輸出和共享專家模塊的輸出。特別地,在共享門控中,包含了全部任務(wù)的專家模塊和共享專家模塊的輸出作為輸入,形式化定義如式(5)所示:
門控交互層漸進(jìn)地學(xué)習(xí)了多任務(wù)的差異性的專有參數(shù),利用任務(wù)之間的差異性建模了多任務(wù)之間復(fù)雜的相關(guān)性。同時(shí),采用殘差的方式加上原始特定任務(wù)學(xué)習(xí)到的專有參數(shù)。這樣既保留了原有的任務(wù)特定參數(shù),也利用了其他任務(wù)的復(fù)雜相關(guān)性。
由前面幾節(jié)的介紹,DPGI-MTRM模型的最后輸出表示為模型中單個(gè)任務(wù)的損失函數(shù)為:
其中,?θLk(·)是任務(wù)k的目標(biāo)函數(shù)梯度,任務(wù)k的目標(biāo)函數(shù)根據(jù)任務(wù)的輸出類型決定,當(dāng)為分類任務(wù)時(shí)目標(biāo)函數(shù)為交叉熵?fù)p失函數(shù),當(dāng)為回歸任務(wù)時(shí)目標(biāo)函數(shù)為均方誤差(MSE)。yk和y^k分別為任務(wù)k的目標(biāo)真實(shí)值和目標(biāo)預(yù)測(cè)值。綜上,多任務(wù)模型最終的損失函數(shù)可以形式化定義為式(7)所示:
其中,?θL(θ)是模型共同的梯度向量,K是多任務(wù)的目標(biāo)數(shù)量。根據(jù)文獻(xiàn)[20],多目標(biāo)優(yōu)化問題是一個(gè)帕累托求解的問題,文獻(xiàn)中使用QCOP(quadratic constrained optimization problem)方法優(yōu)化多個(gè)任務(wù)的損失權(quán)重wi。特別地,式(7)滿足幾個(gè)條件:(1)wi,wi+1,…,wK≥0;(2);(3)存在但是僅僅考慮單目標(biāo)優(yōu)化問題時(shí),梯度為零是必要的條件。然而在多目標(biāo)優(yōu)化中,是多個(gè)目標(biāo)梯度組合為零的問題。根據(jù)文獻(xiàn)[21],帕累托的解是一個(gè)集合,優(yōu)化多目標(biāo)就是在解集里面尋找最優(yōu)的一個(gè)。根據(jù)QCOP定義,考慮兩個(gè)任務(wù)目標(biāo)優(yōu)化的情況下如式(8)所示,最后得到式(8)中w的一個(gè)解析解,如式(9)所示:
根據(jù)DPGI-MTRM模型的損失函數(shù),使用梯度歸一化的多目標(biāo)優(yōu)化算法得到DPGI-MTRM 模型參數(shù)的優(yōu)化算法,如算法1所示。
算法1DPGI-MTRM參數(shù)優(yōu)化算法
DPGI-MTRM 模型的參數(shù)優(yōu)化主要來自雙感知專家層和門控交互層的參數(shù)學(xué)習(xí)。雙感知層從差異性和共性方面進(jìn)行參數(shù)優(yōu)化學(xué)習(xí),門控交互層從差異性方面進(jìn)行參數(shù)優(yōu)化學(xué)習(xí)。
對(duì)比的基準(zhǔn)模型中,參數(shù)差異性方面只有來自元素級(jí)的特征輸入到門控網(wǎng)絡(luò)中,參數(shù)共性也只是元素級(jí)的特征參數(shù)學(xué)習(xí)。本文提出的模型,首先在雙感知專家層中,從元素級(jí)和向量級(jí)的雙感知特征表達(dá)來學(xué)習(xí)底層參數(shù)的差異性,在參數(shù)量上主要增加來自計(jì)算向量級(jí)的部分,空間復(fù)雜度是d,d為輸入維度。從時(shí)間復(fù)雜度上來看,提出的雙感知層在元素級(jí)和向量級(jí)的計(jì)算是并行的,幾乎不增加時(shí)間復(fù)雜度。其次在門控交互層中,每個(gè)任務(wù)門控網(wǎng)絡(luò)單獨(dú)學(xué)習(xí)到各自任務(wù)的差異性。從多方面學(xué)習(xí)到多任務(wù)參數(shù)差異性,提升了模型的泛化性。在參數(shù)共性上,雙感知專家層得到兩個(gè)層級(jí)的特征表達(dá),得到豐富的特征語義,為門控交互層提供了增強(qiáng)型的特征表達(dá)輸入。
所有實(shí)驗(yàn)均在Intel CoreTMi5-4690 CPU@3.5 GHz和16 GB 內(nèi)存,11 GB 顯存的GTX1080Ti 顯卡的64位Ubuntu 系統(tǒng)中完成,所有代碼均使用Python 語言編寫,計(jì)算各評(píng)價(jià)指標(biāo)依賴的是Python 的第三方庫scikit-learn 0.23.2。本文模型基于Tensorflow 1.15 實(shí)現(xiàn),使用Adam優(yōu)化器進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)為1E-3且每隔25輪下降到原來的10%,訓(xùn)練模型100輪約需要3.5 h。
為了評(píng)估本文模型的性能,本文在Synthetic Data、Census-income(http://archive.ics.uci.edu/ml)和Ali-CCP(https://tianchi.aliyun.com/dataset/dataDetail?dataId=408)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。
Synthetic Data 數(shù)據(jù)集是根據(jù)文獻(xiàn)[22]的數(shù)據(jù)合成過程生成的,用來控制任務(wù)之間的相關(guān)性。按照標(biāo)準(zhǔn)正態(tài)分布隨機(jī)采樣αi和βi,并且設(shè)置c=1,m=10,d=512,分別生成相關(guān)性為0.20、0.50、0.75、1.00的兩個(gè)目標(biāo)的多任務(wù)樣本,每個(gè)相關(guān)性生成100萬個(gè)具有連續(xù)標(biāo)簽的樣本數(shù)據(jù)。
Census-income 數(shù)據(jù)集是美國UCI 從1994 年人口普查收入數(shù)據(jù)庫中提取的包含299 285 個(gè)美國成年人的人口統(tǒng)計(jì)信息,由40 個(gè)特征組成的數(shù)據(jù)集。從中選擇兩組多任務(wù)目標(biāo)進(jìn)行實(shí)驗(yàn),多任務(wù)目標(biāo)如表1 所示。具體地說,第一組任務(wù)中預(yù)測(cè)收入是否超過5 萬美元和個(gè)人婚姻狀況是否從未結(jié)婚;第二組任務(wù)將第一組的預(yù)測(cè)收入換為是否接受過高等教育;第三組任務(wù)是將第一組和第二組的首個(gè)任務(wù)進(jìn)行組合。
表1 Census-income多任務(wù)Table 1 Census-income multi-task
Ali-CCP 數(shù)據(jù)集是從淘寶的推薦系統(tǒng)中提取的8 400 萬個(gè)樣本的公共數(shù)據(jù)集,其中點(diǎn)擊率(clickthrough rate,CTR)和轉(zhuǎn)化率(conversion rate,CVR)是在此數(shù)據(jù)集上需要建模的點(diǎn)擊和購買的兩個(gè)任務(wù)目標(biāo)。
實(shí)驗(yàn)中將數(shù)據(jù)集按照8∶1∶1分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。對(duì)于分類任務(wù)采用AUC 來評(píng)估模型的CTR 預(yù)測(cè)性能,對(duì)于回歸任務(wù)采用MSE 作為評(píng)價(jià)指標(biāo),其中MSE的計(jì)算指標(biāo)如下所示:
3.4.1 實(shí)驗(yàn)結(jié)果比較
表2 和圖5 分別展示了本文在Census-income、Ali-CCP 以及Synthetic Data 數(shù)據(jù)集上兩個(gè)評(píng)價(jià)指標(biāo)AUC 和MSE 上的對(duì)比結(jié)果。使用MMOE 和PLE 作為對(duì)比模型,為了公平地比較模型的性能,對(duì)比模型和DPGI-MTRM 模型的專家數(shù)n設(shè)置為8,模型層數(shù)都為3。從表2 中看到,本文的模型在兩個(gè)數(shù)據(jù)集上的AUC 指標(biāo)表現(xiàn)都優(yōu)于對(duì)比的模型。圖5 展示了DPGI-MTRM 模型和對(duì)比模型在Synthetic Data 數(shù)據(jù)集上,在不同相關(guān)性任務(wù)上的MSE 表現(xiàn)。從圖5 中可以看出本文方法具有明顯的優(yōu)勢(shì)。
表2 Census-income和Ali-CCP 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(AUC)Table 2 Experimental results(AUC)on Census-income and Ali-CCP datasets
圖5 Synthetic Data數(shù)據(jù)集上相關(guān)性多任務(wù)的實(shí)驗(yàn)結(jié)果Fig. 5 Experimental results of correlated multi-task on Synthetic Data dataset
3.4.2 各參數(shù)對(duì)模型的影響
DPGI-MTRM 模型里的參數(shù)專家數(shù)n是一個(gè)很重要的參數(shù),用于對(duì)模型的寬度進(jìn)行控制,能影響多任務(wù)的性能。圖6(a)展示了不同n取值下,DPGIMTRM 模型在Census-income 數(shù)據(jù)集上預(yù)測(cè)Education 和Marital 多任務(wù)的AUC 表現(xiàn)性能。設(shè)置了4 組參數(shù)n分別進(jìn)行實(shí)驗(yàn),從圖中可以看到,當(dāng)n取12時(shí),模型在AUC 指標(biāo)上表現(xiàn)最好。模型的層數(shù)l同樣是一個(gè)重要的參數(shù),當(dāng)l越大,模型在Census-income 數(shù)據(jù)集上的AUC 指標(biāo)表現(xiàn)越好,考慮到模型參數(shù)量問題,實(shí)驗(yàn)分別設(shè)置了l取值為2、3、6、9 和12,且n=8。圖6(b)展示了不同l取值下的AUC指標(biāo)表現(xiàn)性能,可以看到當(dāng)深度為6時(shí),AUC表現(xiàn)最好,隨著深度增加,模型表現(xiàn)逐漸變差,這是因?yàn)橛?xùn)練樣本不足造成過擬合。
圖6 參數(shù)n和l對(duì)模型的影響Fig. 6 Influence of parameters n and l on model
3.4.3 模型方法的消融實(shí)驗(yàn)
為了驗(yàn)證本文提出的雙感知專家層和門控交互層對(duì)多任務(wù)中負(fù)遷移的有效解決,設(shè)置以下實(shí)驗(yàn)進(jìn)行對(duì)比驗(yàn)證。
(1)將DPGI-MTRM模型去掉雙感知專家層和門控交互層作為基線模型,記為Base 模型。在Base 模型基礎(chǔ)上增加雙感知專家層,記為Base-DP模型。兩種模型在數(shù)據(jù)集Census-income 上的AUC 指標(biāo)的表現(xiàn)如表3所示,可以看到使用了雙感知專家層在AUC指標(biāo)上對(duì)比Base 模型在第一組任務(wù)上最大提升了0.94%。使用了雙感知專家層,讓任務(wù)的共享參數(shù)和專有參數(shù)能更好地得到學(xué)習(xí),從元素級(jí)和向量級(jí)得到參數(shù)的多層級(jí)優(yōu)化,得到豐富的特征語義表達(dá)。由實(shí)驗(yàn)可以得出本文提出的雙感知專家層,可以解決多任務(wù)中負(fù)遷移問題,從而提升多任務(wù)的性能。
表3 Census-income數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(AUC)Table 3 Experimental results(AUC)on Census-income dataset
(2)對(duì)比Base模型,在Base模型的基礎(chǔ)上增加門控交互層,記為Base-GI 模型。兩種模型在數(shù)據(jù)集Census-income 上的AUC 指標(biāo)的表現(xiàn)如表3 所示,可以看到使用了門控交互層在第一組任務(wù)上AUC指標(biāo)最大提升了0.89%。設(shè)計(jì)的門控交互層,將多任務(wù)的專有參數(shù)漸進(jìn)地優(yōu)化學(xué)習(xí),將第一階段中雙感知專家層學(xué)習(xí)的差異參數(shù)進(jìn)一步優(yōu)化。同時(shí),使用任務(wù)之間差異性進(jìn)行交互,對(duì)任務(wù)之間復(fù)雜相關(guān)性進(jìn)行建模,增強(qiáng)了共性參數(shù)的優(yōu)化學(xué)習(xí)。由實(shí)驗(yàn)可以得到本文提出的門控交互層,可以解決多任務(wù)中負(fù)遷移問題,從而提升多任務(wù)的性能。
(3)對(duì)比Base模型,在Base模型的基礎(chǔ)上同時(shí)增加雙感知專家層和交互層,即為DPGI-MTRM 模型。兩種模型在數(shù)據(jù)集Census-income 上的AUC 指標(biāo)的表現(xiàn)如表3 所示,可以看到AUC 指標(biāo)最大提升了2.06%,由此可以得出本文提出的雙感知門控交互的多任務(wù)推薦模型是有效可行的,能解決多任務(wù)負(fù)遷移問題。
為提升多任務(wù)推薦中點(diǎn)擊率預(yù)測(cè)的準(zhǔn)確性,解決多任務(wù)中負(fù)遷移的問題,本文提出了一種雙感知門控交互的多任務(wù)推薦模型(DPGI-MTRM)。模型考慮到底層特征提取的方式,設(shè)計(jì)了雙感知專家層,其得到元素級(jí)和向量級(jí)的雙感知特征表達(dá)。同時(shí)針對(duì)多任務(wù)的負(fù)遷移問題,提出門控交互層,增強(qiáng)了多任務(wù)交互學(xué)習(xí),有效利用了多任務(wù)的專有參數(shù),從而提升多任務(wù)的模型性能。通過在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn),結(jié)果表明提出的模型在預(yù)測(cè)準(zhǔn)確性上較基準(zhǔn)模型有明顯的提升,驗(yàn)證了模型方法的有效性。