国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合注意力膠囊的深度因子分解機(jī)模型

2021-11-14 08:23:16顧亦然姚朱鵬楊海根
通信學(xué)報(bào) 2021年10期
關(guān)鍵詞:正則物品注意力

顧亦然,姚朱鵬,楊海根

(1.南京郵電大學(xué)自動(dòng)化學(xué)院、人工智能學(xué)院,江蘇 南京 210023;2.南京郵電大學(xué)智慧校園研究中心,江蘇 南京 210023;3.南京郵電大學(xué)寬帶無(wú)線通信技術(shù)教育部工程研究中心,江蘇 南京 210003)

1 引言

隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),計(jì)算機(jī)技術(shù)的高速發(fā)展使人們進(jìn)入了一個(gè)信息爆炸的時(shí)代。面對(duì)海量的信息,用戶往往會(huì)花費(fèi)大量的時(shí)間和精力去尋找自己所感興趣的物品,這就產(chǎn)生了信息過(guò)載問(wèn)題,即實(shí)際存在的信息遠(yuǎn)遠(yuǎn)大于用戶所需要的。推薦系統(tǒng)通過(guò)用戶標(biāo)簽、歷史行為、共同好友等因素對(duì)用戶進(jìn)行推薦,從而增加用戶體驗(yàn)。點(diǎn)擊率(CTR,click through rate)預(yù)測(cè)是推薦系統(tǒng)中最熱門的分支。推薦系統(tǒng)通過(guò)預(yù)測(cè)用戶點(diǎn)擊待推薦物品的概率,對(duì)待推薦列表進(jìn)行排序,將預(yù)測(cè)概率最高的物品推薦給用戶,達(dá)到個(gè)性化推薦的目的。

隨著信息越來(lái)越多,系統(tǒng)數(shù)據(jù)量也越來(lái)越大,傳統(tǒng)的廣義線性推薦模型由于訓(xùn)練開銷大、特征交叉能力不足、學(xué)習(xí)能力弱等劣勢(shì),逐漸無(wú)法勝任高準(zhǔn)確率的推薦任務(wù)。為了提高CTR 模型的預(yù)測(cè)準(zhǔn)確率,深度學(xué)習(xí)模型開始成為推薦模型的主流,主要以多層感知器(MLP,multi-layer perceptron)為核心。深度學(xué)習(xí)早期,研究人員主要通過(guò)改變神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),構(gòu)建特點(diǎn)各異的推薦模型。Sedhain 等[1]設(shè)計(jì)了一種單隱層神經(jīng)網(wǎng)絡(luò),將自編碼器和協(xié)同過(guò)濾相結(jié)合,利用協(xié)同過(guò)濾中的共現(xiàn)矩陣,學(xué)習(xí)用戶和物品的低維向量表示,進(jìn)行預(yù)測(cè)評(píng)分。但是該模型結(jié)構(gòu)較為簡(jiǎn)單,學(xué)習(xí)能力不足。He 等[2]提出了將深度神經(jīng)網(wǎng)絡(luò)與協(xié)同過(guò)濾相結(jié)合,該模型利用用戶向量和物品向量的Embedding 特征進(jìn)行特征交叉來(lái)代替矩陣分解,解決矩陣分解易欠擬合的問(wèn)題,但該模型是以協(xié)同過(guò)濾為核心的,所以特征選取較少,模型表達(dá)能力不足。Shan 等[3]提出的Deep Crossing模型是MLP&Embedding 的典型應(yīng)用,多層殘差網(wǎng)絡(luò)進(jìn)行多維度的特征組合,但是由于其純高階的結(jié)構(gòu)比較單一,無(wú)法滿足現(xiàn)實(shí)中復(fù)雜的推薦任務(wù)。

CTR 預(yù)測(cè)任務(wù)中主要有2 種特征交互模式:淺層交互和深層交互[4]。淺層交互指的是那些明顯能看出有關(guān)聯(lián)的特征交互,比如下雨和雨傘、飲料和杯子等。而深層交互指的是那些并不容易看出來(lái)且需要進(jìn)行深層次的分析才能找出關(guān)聯(lián)的特征交互,比如下雨和減肥。在現(xiàn)實(shí)的推薦系統(tǒng)中,用戶特征和物品特征往往十分復(fù)雜多樣,特征與特征之間的關(guān)聯(lián)也很難做到完美組合,為了提高模型的泛化能力,需要同時(shí)考慮淺層交互和深層交互[5]。對(duì)此,Guo 等[6]提出了深度因子分解機(jī)(DeepFM,deep factorization machine)模型,該模型可自動(dòng)進(jìn)行低維特征組合,同時(shí)對(duì)高維特征進(jìn)行提取,但該模型所分配的特征權(quán)重是固定的,在進(jìn)行推薦時(shí)并未考慮用戶的歷史行為對(duì)用戶興趣的差異性影響,事實(shí)上消解了大量有價(jià)值的特征信息。例如,應(yīng)用場(chǎng)景是預(yù)測(cè)一位20 歲的女性用戶是否購(gòu)買一款香水,那么“性別=女并且購(gòu)買歷史中包含口紅”這一特征遠(yuǎn)比“性別=女且年齡=20”重要,模型應(yīng)該賦予前者特征更大的權(quán)重,與無(wú)關(guān)特征的交互會(huì)引入噪聲甚至降低模型性能。

基于上述分析,本文設(shè)計(jì)了一種新型的注意力得分機(jī)制——注意力膠囊,通過(guò)給予不同交叉特征不同的分配權(quán)重,解決了不同特征交叉所產(chǎn)生的噪聲問(wèn)題?;诖耍疚奶岢隽艘环N融合注意力膠囊的深度因子分解機(jī)(AxDFM,deep factorization machine based on attention capsule)模型。本文的主要工作如下。

1) 設(shè)計(jì)了一種新型的注意力得分機(jī)制,解決了DeepFM 模型存在的噪聲問(wèn)題,在保證模型泛化能力和訓(xùn)練速度的基礎(chǔ)上,充分挖掘了不同歷史行為對(duì)用戶興趣的差異性影響。

2) 在訓(xùn)練過(guò)程中加入自適應(yīng)正則化式,以減少大規(guī)模訓(xùn)練時(shí)產(chǎn)生的過(guò)擬合影響。

3) 在Avazu 和Criteo 這2 個(gè)公開數(shù)據(jù)集上與主流推薦模型進(jìn)行比較,驗(yàn)證了所提方法的可行性與有效性。

2 AxDFM 模型介紹

2.1 Embedding 特征表示

CTR 預(yù)測(cè)的主要任務(wù)是給用戶推薦其可能感興趣的物品,用戶在進(jìn)入推薦系統(tǒng)前,并沒(méi)有表明自己的喜好。所以,在建立CTR 模型時(shí),需要從用戶的個(gè)人信息和歷史行為中提取用戶的興趣特征[7]。因此,用戶的個(gè)人信息以及用戶歷史行為數(shù)據(jù)的特征表示就顯得十分重要,特征表示是CTR建模的基本要素。

推薦系統(tǒng)的輸入往往具有很多屬性特征,其中甚至有部分特征是缺失的,為了能夠全面地表示這些特征,one-hot 編碼可對(duì)其進(jìn)行表示,但one-hot編碼極其稀疏,直接進(jìn)行訓(xùn)練產(chǎn)生的開銷太大。因此,Embedding 層被用于對(duì)one-hot 編碼進(jìn)行降維稠密化,由高維稀疏向量轉(zhuǎn)換為低維稠密向量。Embedding 的過(guò)程本質(zhì)上是一層全連接的神經(jīng)網(wǎng)絡(luò)。Embedding 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,輸入為一個(gè)五維one-hot 編碼向量,接入神經(jīng)網(wǎng)絡(luò)與一個(gè)三維Embedding 層連接,虛線所代表的權(quán)重即為該one-hot 編碼對(duì)應(yīng)的Embedding 值。

圖1 Embedding 網(wǎng)絡(luò)結(jié)構(gòu)

2.2 DeepFM

DeepFM 是一個(gè)典型的并行融合網(wǎng)絡(luò)結(jié)構(gòu),由因子分解機(jī)(FM,factorization machine)和深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)構(gòu)成,兩者共享用戶和物品的Embedding 層向量。FM 部分負(fù)責(zé)特征的一階二階自動(dòng)組合,通過(guò)學(xué)習(xí)低階特征,使模型具有較強(qiáng)的記憶能力。DNN 部分負(fù)責(zé)高階特征提取,使模型具有較強(qiáng)的泛化能力[8]。整個(gè)模型的輸出如式(1)所示。

其中,(0,1)y′∈是CTR 的預(yù)測(cè)概率;yFM是FM 部分的輸出;yDNN是DNN 部分的輸出。

FM 模型是Rendle[9]提出的因子分解機(jī),主要解決了數(shù)據(jù)稀疏和復(fù)雜度上兩大缺陷。FM 利用2 個(gè)向量?jī)?nèi)積取代了單一的權(quán)重系數(shù),為每一個(gè)特征學(xué)習(xí)到一個(gè)隱向量,特征之間的特征組合權(quán)重即為特征的隱向量?jī)?nèi)積。FM 的提出使即使2 個(gè)特征之間即便沒(méi)有交互數(shù)據(jù),也可以計(jì)算兩者的相關(guān)程度,即

在DeepFM 中,對(duì)于每個(gè)特征i,都有重要程度wi和隱向量Vi這2 個(gè)參數(shù),其中,wi主要用來(lái)衡量特征的一階重要性;Vi則用來(lái)進(jìn)行特征組合,用于FM 的二階計(jì)算和DNN 的高階特征組合。FM 模塊結(jié)構(gòu)如圖2 所示,其中,F(xiàn)ield 為相同性質(zhì)特征場(chǎng),是DeepFM 特征表示的基礎(chǔ)。

圖2 FM 模塊結(jié)構(gòu)

FM 模塊的輸出為

DNN 部分是一個(gè)全連接的前饋神經(jīng)網(wǎng)絡(luò),用來(lái)學(xué)習(xí)用戶與物品間的高階特征組合,DNN 模塊結(jié)構(gòu)如圖3 所示。

圖3 DNN 模塊結(jié)構(gòu)

網(wǎng)絡(luò)原始輸入是高維稀疏的one-hot 編碼,經(jīng)Embedding 層轉(zhuǎn)化為低維稠密向量,使網(wǎng)絡(luò)能夠訓(xùn)練。Embedding 層輸出為

其中,m表示特征域的個(gè)數(shù),ei代表第i個(gè)特征域的Embedding 向量。將a(0)輸入DNN 中,則DNN的正向傳播過(guò)程為

其中,l是層數(shù),σ是激活函數(shù),是第l層的輸出,是模型權(quán)重,是偏置。DNN 模塊的最終輸出為

2.3 AxDFM 模型

用戶的歷史行為在CTR 預(yù)測(cè)中起著至關(guān)重要的作用。DeepFM 在對(duì)用戶進(jìn)行興趣表示時(shí),將用戶的歷史行為特征組上的所有Embedding 向量連接起來(lái),得到一個(gè)固定長(zhǎng)度的表示向量,如式(4)所示。對(duì)于一個(gè)給定的用戶,由于采用了平均池化,使用戶興趣表示具有一致性與不變性,無(wú)論候選物品是什么,該表示向量均不會(huì)變化,即缺乏興趣表達(dá)能力,無(wú)法挖掘歷史行為對(duì)用戶興趣的差異性影響,消解了大量有價(jià)值的信息。例如,男生喜歡買球衣球鞋,也喜歡買鼠標(biāo)耳機(jī),甚至還為自己女朋友購(gòu)買過(guò)香水口紅。在實(shí)際生活中,當(dāng)男生在購(gòu)買鍵盤的時(shí)候,并不需要考慮香水口紅這個(gè)偏好特征,而男生購(gòu)買鍵盤的行為受鼠標(biāo)耳機(jī)的影響遠(yuǎn)比其余兩組特征大。此時(shí),香水口紅特征不僅沒(méi)有對(duì)推薦結(jié)果產(chǎn)生正向影響,反而消解了鼠標(biāo)耳機(jī)特征的正向影響,變成了推薦系統(tǒng)中的噪聲,降低了模型性能。

在上述例子中,整個(gè)購(gòu)買過(guò)程如下:候選商品鍵盤通過(guò)對(duì)該用戶的購(gòu)買行為進(jìn)行軟搜索,發(fā)現(xiàn)該用戶購(gòu)買過(guò)鼠標(biāo)耳機(jī),從而觸及了他相關(guān)的興趣。換而言之,與候選物品相關(guān)的歷史行為對(duì)于用戶的點(diǎn)擊與否有著很大的貢獻(xiàn)??紤]到注意力機(jī)制可以提升模型的重點(diǎn)內(nèi)容的學(xué)習(xí)能力和降低無(wú)關(guān)特征影響的特性,本文針對(duì)用戶行為與候選物品的關(guān)系程度設(shè)計(jì)了一種新型的注意力得分機(jī)制——注意力膠囊。將注意力膠囊引入DeepFM 模型中,AxDFM 模型可以在表示向量維度有限的情況下,產(chǎn)生一個(gè)可變的、動(dòng)態(tài)的表示向量來(lái)對(duì)用戶興趣進(jìn)行表示,即利用候選物品在歷史行為中的不同激活程度自適應(yīng)地改變DNN 的輸入Embedding向量。

用戶的每一個(gè)歷史行為都會(huì)與候選物品進(jìn)行權(quán)重計(jì)算,以自適應(yīng)地計(jì)算候選物品的用戶興趣表示向量,注意力膠囊的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,具體計(jì)算式如式(7)所示。

圖4 注意力膠囊網(wǎng)絡(luò)結(jié)構(gòu)

其中,vA是候選物品A的Embedding 向量,g()是一個(gè)前饋網(wǎng)絡(luò),weightj是激活權(quán)重。

注意力膠囊的輸入為歷史行為和候選物品的Embedding 向量。引入兩者的外積(有助于相關(guān)性建模),將三者進(jìn)行組合拼接,利用一個(gè)3 × 3卷積核對(duì)其進(jìn)行卷積,將得到的輸出連接單全連接層得到權(quán)重大小。本文提出的注意力膠囊拋棄了傳統(tǒng)注意力機(jī)制中的Softmax 層[10],使得到的權(quán)重和并不為1,即。通過(guò)放棄Softmax 的規(guī)范化來(lái)保留物品的激活程度,即權(quán)重和越大,物品與歷史行為相關(guān)程度就越大,增強(qiáng)了模型的興趣表達(dá)能力。

AxDFM 網(wǎng)絡(luò)結(jié)構(gòu)如圖 5 所示,通過(guò)在Embedding 層后加入注意力膠囊,使用戶的歷史點(diǎn)擊行為與候選物品進(jìn)行權(quán)重計(jì)算,得到每個(gè)點(diǎn)擊行為與候選物品的權(quán)重,在形成表示向量時(shí)能夠更加突出候選物品與歷史行為中所相關(guān)的物品,可以自適應(yīng)地生成動(dòng)態(tài)表示向量,從而達(dá)到在有限的維度下,增強(qiáng)模型興趣表達(dá)能力的目的。

圖5 AxDFM 網(wǎng)絡(luò)結(jié)構(gòu)

2.4 自適應(yīng)正則化

在模型訓(xùn)練過(guò)程中,由于訓(xùn)練數(shù)據(jù)、權(quán)重參數(shù)過(guò)多,過(guò)擬合不可避免。過(guò)擬合是指模型在訓(xùn)練集上表現(xiàn)良好,在測(cè)試集上卻表現(xiàn)一般,甚至?xí)S著時(shí)間的推移模型效果越來(lái)越差,使模型泛化能力較弱[11],如圖6 所示。

圖6 過(guò)擬合

為了減小過(guò)擬合的影響,最簡(jiǎn)單有效的方法是在損失函數(shù)后添加正則化項(xiàng),對(duì)高階權(quán)重部分進(jìn)行懲罰,即

其中,X為輸入樣本,y為對(duì)應(yīng)標(biāo)簽,w為權(quán)重系數(shù),L()為損失函數(shù),λ為正則化系數(shù),f(w) 為懲罰項(xiàng)。

CTR 預(yù)測(cè)中往往具有輸入稀疏且維度高的特點(diǎn),在這樣一個(gè)龐大的網(wǎng)絡(luò)上直接應(yīng)用傳統(tǒng)的正則化方法顯然不現(xiàn)實(shí)。以隨機(jī)梯度下降法(SGD,stochastic gradient descent)為例,在沒(méi)有進(jìn)行正則化前,只需更新輸入特征中不為0 的特征所對(duì)應(yīng)的參數(shù)。然而,當(dāng)增加了L2 正則化后,需要計(jì)算全部參數(shù)的L2 范數(shù),這極大地增加了訓(xùn)練的開銷,降低了模型的效率。對(duì)此,本文使用了一種自適應(yīng)的正則化式,只計(jì)算不為0 的輸入特征所對(duì)應(yīng)參數(shù)的L2 范數(shù),如式(9)所示,判斷函數(shù)如式(10)所示。

其中,W為整個(gè)輸入字典,K為特征維度,S為大小為N的訓(xùn)練集,x為網(wǎng)絡(luò)的輸入,y∈{0,1}為點(diǎn)擊標(biāo)簽(0 代表未點(diǎn)擊,1 代表點(diǎn)擊),wj為第j個(gè)向量,I表示第i個(gè)樣本是否有j這個(gè)特征,nj為整個(gè)樣本中j特征的出現(xiàn)次數(shù),B表示樣本分割的小批量數(shù)。

本文采用的優(yōu)化算法為小批量梯度下降(MBGD,mini batch gradient descent)法[12],總樣本數(shù)可以拆分為多個(gè)小批量樣本,于是式(9)可以轉(zhuǎn)換為

其中,Bm表示第m個(gè)小批量。

訓(xùn)練的損失函數(shù)采用對(duì)數(shù)似然損失函數(shù),如式(12)所示。

其中,y為樣本的真實(shí)標(biāo)簽,p(x)為預(yù)測(cè)輸入x被點(diǎn)擊的概率。

將式(11)和式(12)代入式(8),可以得到本文最終采用的正則化后的損失函數(shù)為

其中,損失函數(shù)的輸出區(qū)間為[0,+∞),其值越小,代表模型的分類工作越好。由于y是每個(gè)樣本的標(biāo)簽(0、1 標(biāo)簽),p(x)(p(x) ∈[0,1])是模型對(duì)其的預(yù)測(cè)概率,因此對(duì)于每個(gè)樣本而言,預(yù)測(cè)值越接近樣本標(biāo)簽,損失函數(shù)值越接近于0,即模型預(yù)測(cè)越準(zhǔn)確。

3 實(shí)驗(yàn)設(shè)計(jì)

3.1 實(shí)驗(yàn)環(huán)境

本文在Window10 環(huán)境下進(jìn)行實(shí)驗(yàn),代碼語(yǔ)言為Python3.7,深度學(xué)習(xí)框架為TensorFlow-GPU 2.1.2,CUDA 版本為11.2.152,cuDNN 版本為7.6.5,運(yùn)行內(nèi)存為16 GB,GPU 為NVIDIA RTX 3070,處理器為Intel(R) Core(TM) i5-10600KF CPU。

3.2 數(shù)據(jù)集

本文使用的數(shù)據(jù)集為Kaggle CTR 大賽上所使用的兩個(gè)公開數(shù)據(jù)集,即Avazu 和Criteo。

Avazu 包含了真實(shí)的用戶點(diǎn)擊行為數(shù)據(jù),按時(shí)間順序排列,其中訓(xùn)練集是10 天的點(diǎn)擊數(shù)據(jù),測(cè)試集是一天的點(diǎn)擊數(shù)據(jù)。數(shù)據(jù)集擁有4 000 萬(wàn)行數(shù)據(jù),23 個(gè)特征域(包含用戶屬性特征、設(shè)備特征、廣告屬性特征以及匿名特征)。

Criteo 是Criteo 公司的真實(shí)數(shù)據(jù),按時(shí)間順序排列,其中訓(xùn)練集是7 天的點(diǎn)擊數(shù)據(jù),測(cè)試集是緊跟著訓(xùn)練集后一天的點(diǎn)擊數(shù)據(jù)。數(shù)據(jù)集擁有4 500 萬(wàn)行數(shù)據(jù)(包含點(diǎn)擊標(biāo)簽)、13 個(gè)數(shù)值特征和26 個(gè)匿名分類特征。

3.3 評(píng)價(jià)標(biāo)準(zhǔn)

CTR 預(yù)測(cè)本質(zhì)上來(lái)說(shuō)是一個(gè)二分類問(wèn)題,即判定用戶是否會(huì)點(diǎn)擊。針對(duì)二分類問(wèn)題,機(jī)器學(xué)習(xí)有一個(gè)應(yīng)用非常廣泛的指標(biāo)——AUC(area under the curve)。AUC 是ROC(receiver operating characteristic)曲線所圍成的面積,范圍為[0,1]。對(duì)于隨機(jī)抽取的一對(duì)正負(fù)樣本,本質(zhì)上來(lái)說(shuō)AUC 是把正樣本預(yù)測(cè)為1 的概率大于把負(fù)樣本預(yù)測(cè)為1 的概率的概率,即

其中,Pture是將正樣本預(yù)測(cè)為1 的概率,Pfalse是將負(fù)樣本預(yù)測(cè)為1 的概率。

AUC 值是一個(gè)概率值,AUC>0.5 時(shí),將正樣本預(yù)測(cè)為1 的概率比把負(fù)樣本預(yù)測(cè)為1 的概率大,說(shuō)明模型有一定的分類能力。在[0,1]的范圍內(nèi),AUC 越大代表模型性能越好。AUC 計(jì)算式為

然而,在實(shí)際CTR 預(yù)測(cè)中,由于用戶的個(gè)性化程度較高,不同用戶間的排序結(jié)果對(duì)于評(píng)價(jià)模型性能的意義不大。對(duì)此,本文采用了GAUC(group area under the curve)[13],對(duì)每個(gè)用戶的AUC 進(jìn)行加權(quán)平均,可以減小不同用戶間的排序結(jié)果失真的影響,具體如下

其中,timei表示給用戶i展示物品的次數(shù)。

采用RelaImpr 衡量模型性能提升百分比,即

其中,GAUCmeasured_model為對(duì)比模型的GAUC 值,GAUCbase_mdoel為基準(zhǔn)模型的GAUC 值。

采用浮點(diǎn)運(yùn)算數(shù)(FLOPS,floating-point operations per second)表示GPU 計(jì)算量,來(lái)衡量算法/模型的復(fù)雜度。

此外,為了準(zhǔn)確評(píng)估及對(duì)比模型性能,本文采用對(duì)數(shù)似然損失函數(shù)值Loss 這一指標(biāo),如式(13)所示。一般而言,Loss 接近于0,模型的分類性能越好。

3.4 實(shí)驗(yàn)結(jié)果

3.4.1模型性能對(duì)比

為了驗(yàn)證本文所提的融合注意力膠囊的深度因子分解機(jī)模型的可靠性,本節(jié)在GAUC、RelaImpr和Loss 這3 個(gè)指標(biāo)上,將所提模型和以下模型進(jìn)行了比較。

LR(logistic regression)[14]:傳統(tǒng)線性模型。

DeepCrossing[3]:采用多層殘差網(wǎng)絡(luò)實(shí)現(xiàn)MLP,利用帶殘差連接的多層全連接神經(jīng)網(wǎng)絡(luò)捕捉到更多的非線性特征和組合特征。

DeepFM[6]:由FM 和DNN 兩部分構(gòu)成,分別進(jìn)行低階與高階特征組合。

AFM(attentional factorization machines)[15]:在NFM 基礎(chǔ)上引入注意力機(jī)制,在NFM 的特征交叉池化層與輸出層之間加入一層基于注意力機(jī)制的池化層,用以區(qū)分特征之間的不同重要性。

DeepFM_Multi-head:在DeepFM 模型中加入多頭注意力機(jī)制[16],將本文提出的注意力膠囊與多頭注意力機(jī)制進(jìn)行對(duì)比。

xDeepFM(extreme deep factorization machine)[17]:提出了一種新的壓縮交叉網(wǎng)絡(luò),以顯示方式進(jìn)行向量級(jí)的特征交互,可以隱式學(xué)習(xí)任意的低階與高階特征組合。

所提AxDFM 模型的主要參數(shù)設(shè)置如下:深度神經(jīng)網(wǎng)絡(luò)部分采用三層全連接層,網(wǎng)絡(luò)結(jié)構(gòu)為200-200-2;優(yōu)化器為MBGD;batch-size 設(shè)置為512;激活函數(shù)選取Dice,可根據(jù)數(shù)據(jù)分布靈活調(diào)整階躍變化點(diǎn);Embedding-size 設(shè)置為40;學(xué)習(xí)率設(shè)置為0.001;Epoch 設(shè)置為10;注意力膠囊層維度設(shè)置為48;正則化式采用自適應(yīng)正則化函數(shù),正則化系數(shù)為0.01。

為減小過(guò)擬合的影響,實(shí)驗(yàn)中剔除一些無(wú)關(guān)標(biāo)簽(Avazu 中的device_ip 和device_type,Criteo 中的C20和C22)。表1顯示了在數(shù)據(jù)集Criteo和Avazu上,選取前100 萬(wàn)份數(shù)據(jù),本文提出的AxDFM 模型和其他6 種模型的對(duì)比(其中LR 是線性模型,其余均為深度學(xué)習(xí)模型),實(shí)驗(yàn)重復(fù)10 次,GAUC取10 次的平均值,RelaImpr 反映了模型相較于DeepFM 的提升。從表1 可以得到以下結(jié)論。

表1 不同模型在數(shù)據(jù)集Criteo 和Avazu 上的對(duì)比

1) 所有的深度學(xué)習(xí)模型的結(jié)果均優(yōu)于LR 模型。LR 模型是這7 種模型里唯一不考慮特征組合的模型,其性能表現(xiàn)最差,由此可以證明學(xué)習(xí)特征組合可以提高CTR 預(yù)測(cè)模型的性能,也證明了深度學(xué)習(xí)的可行性。

2) 純高階特征組合模型不如低階-高階特征組合模型。DeepCrossing 模型是經(jīng)典的高階特征組合的深度模型,在性能表現(xiàn)上不如低階-高階特征組合模型。

3) 注意力機(jī)制的加入可以提高模型性能。AFM、DeepFM_Multi-head 和本文的提出的AxDFM引入了注意力機(jī)制,三者表現(xiàn)均優(yōu)于其基礎(chǔ)模型。

不同模型訓(xùn)練過(guò)程中的損失函數(shù)曲線如圖7 所示。從圖7 中可以看出,LR 特征學(xué)習(xí)能力較弱,故數(shù)值較大;加入多頭注意力機(jī)制的DeepFM_Multi-head 在高階特征映射時(shí)易導(dǎo)致學(xué)習(xí)精度誤差,故產(chǎn)生了一個(gè)較大波動(dòng);AxDFM 收斂速度較快,Loss 較其余6 種模型保持著較低的水平,收斂值約為0.446 4,整體表現(xiàn)最優(yōu)。

圖7 損失函數(shù)曲線

綜上所述,AxDFM 通過(guò)引入注意力膠囊計(jì)算候選物品和用戶歷史行為的權(quán)重,突出了用戶歷史行為對(duì)候選物品的影響,增強(qiáng)了模型的興趣表達(dá)能力,提高了CTR 預(yù)測(cè)的準(zhǔn)確性和可靠性。

3.4.2模型復(fù)雜度對(duì)比

由于本文提出的AxDFM 模型的時(shí)間成本主要在深度神經(jīng)網(wǎng)絡(luò)中,因此,本節(jié)實(shí)驗(yàn)主要對(duì)比包含深度神經(jīng)網(wǎng)絡(luò)的模型。MFLOPS 為百萬(wàn)次的浮點(diǎn)運(yùn)算,Time 為不同模型訓(xùn)練100 萬(wàn)條數(shù)據(jù)的時(shí)間,具體實(shí)驗(yàn)結(jié)果如表2 所示。

綜合表1 和表2 可以看出,AxDFM 在增加5.2%的訓(xùn)練開銷后,獲得了最大7.81%的模型性能提升。xDeepFM 由于引入了壓縮交叉單元,使模型復(fù)雜度大大提升,訓(xùn)練開銷也隨之增大。雖然xDeepFM在Avazu 數(shù)據(jù)集上的GAUC 略優(yōu)于AxDFM,但前者復(fù)雜度過(guò)高。綜合考慮模型復(fù)雜度和性能提升,AxDFM 在這5 種模型中表現(xiàn)最優(yōu)。

表2 不同模型的復(fù)雜度和運(yùn)行時(shí)間對(duì)比

3.4.3正則化式對(duì)比

在實(shí)際CTR 中,模型的輸入是極高維與極稀疏的,且樣本數(shù)是億級(jí)的,如果不經(jīng)過(guò)正則化處理,模型性能將在一次完整迭代后迅速下降。因此,針對(duì)正則化式,本文在完整的Criteo 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),選取AxDFM 作為基準(zhǔn)實(shí)驗(yàn)?zāi)P?,正則化參數(shù)設(shè)置為0.01,并且與以下幾種正則化式進(jìn)行對(duì)比,證明所提出自適應(yīng)正則化式的可行性。

L1 正則化:L1 正則化式為權(quán)值絕對(duì)值之和。

L2 正則化:L2 正則化式為權(quán)值絕對(duì)值平方和。

Dropout[18]:隨機(jī)丟棄樣本中50%的特征。

圖8 為不同正則化式在Criteo 數(shù)據(jù)集上的Loss和GAUC 對(duì)比。不加正則化式的模型在每迭代一次之后,模型的Loss 和GAUC 迅速下降,過(guò)擬合發(fā)生。L1 和L2 正則化雖然能在一定程度上緩解過(guò)擬合,隨著迭代次數(shù)的增加,模型的性能受過(guò)擬合的影響程度增大。Dropout 雖然可以防止快速過(guò)擬合,但是Dropout 收斂速度較慢。本文的自適應(yīng)正則化方法表現(xiàn)最好,在有效防止過(guò)擬合的同時(shí),還保持著一定的收斂速率。

圖8 不同正則化式在Criteo 上的AxDFM 模型性能對(duì)比

圖9 為不同正則化式在Criteo 數(shù)據(jù)集中前1 000 萬(wàn)份數(shù)據(jù)的訓(xùn)練時(shí)間對(duì)比。從圖9 可以看出,不加正則化式的訓(xùn)練時(shí)間最短,AxDFM 次之。L1 和L2正則化都需要對(duì)所有權(quán)重進(jìn)行計(jì)算,訓(xùn)練時(shí)間顯著增加。Dropout 雖然隨機(jī)丟棄了50%的樣本,但是只是讓神經(jīng)元失活,即變?yōu)?,并且由于訓(xùn)練網(wǎng)絡(luò)的每個(gè)單元要添加一道概率流程,收斂到全局最優(yōu)的時(shí)間變長(zhǎng),因此訓(xùn)練時(shí)間大大增加。

圖9 不同正則化式訓(xùn)練時(shí)間對(duì)比

綜上所述,自適應(yīng)正則化模型相比于無(wú)正則化模型,在增加8.4%的時(shí)間基礎(chǔ)上(其余分別為13.9%、13.4%和83.5%),極大地減少了過(guò)擬合的影響,提升了模型的分類能力。與其他正則式相比,AxDFM 在有效防止過(guò)擬合的同時(shí),還保持著較快的收斂速率。

4 結(jié)束語(yǔ)

本文設(shè)計(jì)了一種新型的注意力得分機(jī)制——注意力膠囊,提出了一種融合注意力膠囊的深度因子分解機(jī)模型。注意力膠囊的引入使該模型不僅可以對(duì)輸入特征同時(shí)進(jìn)行低階與高階組合,還可以根據(jù)不同的候選物品生成不同的興趣表示向量,在保證了模型的記憶與泛化能力的同時(shí),大大提高了模型的興趣表達(dá)能力,挖掘了不同歷史行為對(duì)興趣的差異性影響。此外,利用自適應(yīng)正則化式,使模型在訓(xùn)練過(guò)程中有效地減少了過(guò)擬合的影響,并保證了訓(xùn)練效率。在2 個(gè)公開數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證了AxDFM 的可行性與有效性。在未來(lái)的研究中,考慮不必將用戶所有的行為記錄壓縮進(jìn)一個(gè)向量,只選取部分行為記錄從而進(jìn)一步減少模型訓(xùn)練時(shí)間。

猜你喜歡
正則物品注意力
稱物品
讓注意力“飛”回來(lái)
“雙十一”,你搶到了想要的物品嗎?
誰(shuí)動(dòng)了凡·高的物品
剩余有限Minimax可解群的4階正則自同構(gòu)
類似于VNL環(huán)的環(huán)
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
找物品
有限秩的可解群的正則自同構(gòu)
屏东县| 内黄县| 宾阳县| 周宁县| 留坝县| 承德市| 长岭县| 安新县| 汉寿县| 洛川县| 遂昌县| 凤翔县| 金昌市| 辛集市| 山西省| 武平县| 方城县| 青岛市| 中牟县| 勃利县| 射阳县| 和静县| 太谷县| 五原县| 云安县| 大埔县| 高雄市| 尉犁县| 那坡县| 东阳市| 英吉沙县| 双峰县| 禄劝| 浪卡子县| 建平县| 珠海市| 疏勒县| 通化市| 化隆| 礼泉县| 新龙县|