国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力交叉的點擊率預測算法

2021-12-14 01:28杜博亞楊衛(wèi)東
計算機應用與軟件 2021年12期
關(guān)鍵詞:點擊率網(wǎng)絡結(jié)構(gòu)高階

杜博亞 楊衛(wèi)東

(復旦大學計算機科學與技術(shù)系 上海 201203)

0 引 言

點擊率(CTR)預測在推薦系統(tǒng)中至關(guān)重要。用戶在電商頁面上點擊推薦的商品,意味著推薦信息與用戶偏好和需求之間存在一定的相關(guān)性。利用這種相關(guān)性數(shù)據(jù)建立點擊率預測模型,如果直接使用原始商品特征和用戶行為特征,往往難以奏效。因此,數(shù)據(jù)科學家通常會花費大量精力研究和實施面向推薦算法的特征工程,以期得到最佳點擊率預估模型,其中一種主要手段即為特征組合的方法[1]。組合特征也稱交叉特征,例如:一個三維組合特征“AND(組織=復旦,性別=男,研究方向=機器學習)”的值為1,即表示用戶所屬組織為復旦,性別為男且研究方向為機器學習方向。

傳統(tǒng)的特征組合方法主要有三個缺點。首先,由于高效組合特征往往依賴于具體業(yè)務場景,數(shù)據(jù)科學家需要花費大量時間從產(chǎn)品數(shù)據(jù)中探索特征的潛在組成模式,然后才能提取出有意義的交叉特征,因此獲取高質(zhì)量的組合特征需要很高的人力成本;其次,在現(xiàn)實點擊率預估場景中,原始特征經(jīng)過編碼后往往可以達到上億維度,這使得手動特征組合變得不可行;最后,人工特征工程難以挖掘出隱藏的交叉特征,限制了推薦系統(tǒng)的個性化程度。因此,利用模型自動提取出高效的組合特征是一項十分有意義的工作。

對于特征組合方式,其中FM[2]將每個特征i映射到一個隱因子向量Vi=[vi1,vi2,…,viD],組合特征通過隱因子兩兩內(nèi)積進行交叉:f(2)(i,j)=xixj。雖然經(jīng)典的FM模型也可以擴展到任意高階[3],但其暴力擴展方式使得組合特征中包含大量無用、冗余特征,這些冗余特征的加入會降低點擊率預估模型的精度[4]。近年來,深度神經(jīng)網(wǎng)絡(DNN)以其功能強大的特征表征能力在計算機視覺、語音識別和自然語言處理領(lǐng)域取得了巨大成功,利用DNN來提取高階特征組合已經(jīng)在業(yè)界得到廣泛應用。Zhang等[5]提出了Factorisation-machine supported Neural Network(FNN)來學習高階特征交互,使用FM的隱層向量作為用戶和物料的Embedding,從而避免了完全從隨機狀態(tài)訓練嵌入矩陣,大大降低了模型的訓練時間和Embedding的不穩(wěn)定性。Qu等[6]進一步提出了Product-based Neural Network(PNN),其在嵌入層和全連接層之間加入了Product層完成針對性的特征交叉,增強了模型表征不同數(shù)據(jù)模式的能力。FNN和PNN的主要缺點是它們更多地關(guān)注高階交叉特征,而挖掘的低階交叉特征卻很少。Wide&Deep[1]和DeepFM[7]模型通過引入混合網(wǎng)絡結(jié)構(gòu)克服了這個問題,該網(wǎng)絡結(jié)構(gòu)包含Wide層和Deep層,目的是同時對數(shù)據(jù)進行“記憶”和“泛化”,其分別對應特征的低階和高階交互。

上述模型都使用DNN來學習高階特征交互。然而,由于DNN模型是以隱式方式提取高階組合特征,目前并未有理論證明其表征特征對應組合階數(shù)。此外,DNN學習到的非線性組合特征的含義難以解釋。因此,本文提出一種基于注意力機制的顯式特征交叉模型,實現(xiàn)Bit-wise級別的特征交叉,利用Attention機制對組合特征進行賦權(quán),消除了暴力組合方式帶來冗余特征的影響。本文方法基于Deep & Cross Network(DCN)[8],但傳統(tǒng)的DCN只能通過交叉網(wǎng)絡進行暴力顯式特征組合,不能區(qū)分各組合特征的重要性,這些特征中不僅包含了有效交叉特征,也同時涵蓋了大量冗余特征,其限制了最終的點擊率預估模型表現(xiàn)。

本文設計一種全新的Attention Cross Network(ACN)用于各階顯式特征自動篩選,ACN實現(xiàn)了自動提取指定階Bit-wise級顯式特征組合。同時,該網(wǎng)絡巧妙地運用了矩陣映射,使得模型空間復雜度隨網(wǎng)絡深度線性增長,大大降低了模型上線的負擔。然而,受限于ACN網(wǎng)絡參數(shù)規(guī)模的限制,保留了DNN用于隱式高階特征組合作為模型補充,整個模型以并行網(wǎng)絡結(jié)構(gòu)組織。本文模型不再需要人工特征工程,可自動實現(xiàn)特征組合、抽取,完成端到端模型訓練。

1 注意力交叉網(wǎng)絡結(jié)構(gòu)

DACN整體網(wǎng)絡一共由五部分組成,分別為輸入層、嵌入層、Attention Cross Network、DNN和輸出層,其整體網(wǎng)絡結(jié)構(gòu)如圖1所示。

圖1 DACN模型結(jié)構(gòu)

圖1中,稀疏特征經(jīng)過嵌入層映射為Embedding,然后與稠密特征進行堆疊,分別傳給ACN、DNN用于顯式特征、隱式特征提取,將提取特征傳送給輸出神經(jīng)元完成點擊率預估。

1.1 嵌入層和堆疊層

網(wǎng)絡結(jié)構(gòu)的輸入特征主要包含數(shù)值型特征和類別型特征,而在實際的CTR預估場景中,輸入主要是類別型特征,如“國家=中國”。這類特征通常需要進行One-hot編碼,如“[0,1,0]”,當對ID類特征進行One-hot編碼時,往往會造成嵌入空間的向量維度過大。

為了降低編碼導致的特征稀疏性,使用嵌入層將稀疏類特征轉(zhuǎn)換為向量空間的稠密向量(通常稱為嵌入向量):

xembed,i=Wembed,ixi

(1)

式中:xembed,i是嵌入向量;xi是第i類的二進制輸入;Wembed,i∈Rne×nv是將與網(wǎng)絡中的其他參數(shù)一起進行優(yōu)化的嵌入矩陣;ne和nv分別是輸入維度和嵌入向量維度。映射邏輯如圖2所示。

圖2 嵌入層網(wǎng)絡結(jié)構(gòu)

最后,將嵌入向量以及歸一化的稠密特征xdense堆疊到一個向量中:

(2)

將堆疊后的向量x0傳入ACN網(wǎng)絡進行顯式特征提取,傳入DNN進行隱式特征提取,完成CTR預估。

1.2 注意力交叉網(wǎng)絡

本文的注意力交叉網(wǎng)絡核心思想是利用交叉網(wǎng)絡完成Bit-wise級特征高階交叉,利用注意力機制完成顯式特征提取。其主體架構(gòu)如圖3所示。

圖3 注意力交叉網(wǎng)絡結(jié)構(gòu)

注意力交叉網(wǎng)絡主要包含輸入層、交叉層、注意力層和輸出層。其中,輸入層完成從稀疏特征到稠密特征的嵌入,交叉層完成指定階顯式特征交叉,注意力層完成組合特征賦權(quán)。三者聯(lián)立完成特征自動組合、交叉和篩選,最后傳遞給輸出神經(jīng)元進行點擊率預測。

1.2.1交叉層

交叉層旨在以一種高效的方式進行顯式特征組合。其中,每一層的神經(jīng)元數(shù)量都相同且等于輸入向量x0的維度,每一層都符合式(3),其中函數(shù)f擬合的是指定階顯式特征組合。

(3)

式中:Xl,Xl+1∈Rd是列向量,分別表示來自第l層和第l+1層交叉層輸出;Wl,Bl∈Rd是第l層的權(quán)重和偏差。圖4給出了一個交叉層的計算操作示例。

圖4 交叉層網(wǎng)絡結(jié)構(gòu)

從圖4中矩陣和向量運算不難發(fā)現(xiàn),其輸入、輸出結(jié)果始終保持長度為d,保證了交叉網(wǎng)絡單層空間復雜度為O(d)。同時,交叉網(wǎng)絡的參數(shù)規(guī)模也限制了模型的顯式特征表達能力。為了捕獲高度非線性的交互特征,需要引入并行的DNN網(wǎng)絡。

1.2.2注意力層

注意力機制的核心思想為:當把不同的部分壓縮在一起的時候,讓不同部分的貢獻程度不一樣。ACN通過在交叉層后接一個單隱層全連接神經(jīng)網(wǎng)絡來學習組合特征權(quán)重,從而實現(xiàn)特征自動提取。

對于注意力權(quán)重,ACN采用一個Attention network來學習組合特征權(quán)重,Attention network采用單隱層的全連接神經(jīng)網(wǎng)絡,激活函數(shù)使用ReLU,網(wǎng)絡大小用注意力因子表示。注意力網(wǎng)絡的輸入是完成指定階特征交叉之后的d維向量,輸出是組合特征對應的注意力得分。最后,使用Softmax對得到的注意力分數(shù)進行規(guī)范化,其計算公式邏輯如下:

(4)

(5)

式中:W∈Rt×d,b∈Rt,h∈Rt是模型參數(shù)。注意力分數(shù)通過Softmax進行標準化,用于加速參數(shù)學習。注意力層輸出是d維矢向量,對應各階特征系數(shù)。

因此,ACN網(wǎng)絡的輸出計算式如下:

(6)

(7)

式中:ai是注意力權(quán)重,表示不同組合特征對最終預測函數(shù)的貢獻程度。不難看出,對于交叉網(wǎng)絡的顯式組合特征,通過注意力機制實現(xiàn)組合項的動態(tài)加權(quán),更高效地利用了組合特征,并消除了冗余特征對點擊率預測模型的影響。

1.3 多層感知機

注意力交叉網(wǎng)絡的參數(shù)規(guī)模限制了模型顯式特征提取能力,為了獲得高階非線性的組合特征,本文并行引入了多層感知機,其網(wǎng)絡結(jié)構(gòu)如圖5所示。

圖5 多層感知機結(jié)構(gòu)

該網(wǎng)絡是一個全連接前饋神經(jīng)網(wǎng)絡,各層計算邏輯如下:

Hl+1=f(WlHl+Bl)

(8)

式中:Hl+1表示隱藏層;f(·)是ReLU函數(shù),通過全連接方式進行網(wǎng)絡構(gòu)建,用于隱式高階特征提取。

1.4 輸出層

輸出層將注意力交叉網(wǎng)絡和多層感知機的輸出傳給標準Logits層,進行點擊率預估,點擊率預估公式為:

(9)

式中:XL1∈Rd,HL2∈Rm分別是ACN和DNN的輸出;Wlogits∈R(d+m)是輸出層的權(quán)重向量;σ=1/(1+exp(-x))。損失函數(shù)為帶正則項的對數(shù)損失函數(shù):

(10)

式中:pi為點擊率預估模型輸出;yi為樣本對應標簽;N為訓練樣本數(shù);λ為L2正則項系數(shù)。通過對數(shù)損失函數(shù)進行誤差反傳直至收斂,完成模型訓練。

2 注意力交叉網(wǎng)絡分析

本節(jié)在理論層面對ACN做有效性分析,論述其進行顯式特征交互的理論依據(jù),并對ACN網(wǎng)絡的空間復雜度進行分析。

2.1 多項式近似

根據(jù)Weierstrass逼近定理[9],在特定平滑假設下任意函數(shù)都可以被一個多項式以任意的精度逼近,因此可以從多項式近似的角度分析交叉網(wǎng)絡。對于d元n階多項式,其表達式如下:

(11)

多項式參數(shù)量為O(dn),而ACN只需要O(d)參數(shù)量就可以生成同階多項式中出現(xiàn)的所有交叉項。

(12)

然而,正是受限于ACN的參數(shù)規(guī)模,其模型特征表征能力受限,為了提取高階非線性組合特征,本文并行引入了DNN。

2.2 因子分解機泛化

ACN本質(zhì)是對FM模型的進一步推廣,從特征顯式二階交互到高階交互。

2.3 空間復雜度

對于ACN,假設Lc表示ACN層數(shù),d表示輸入向量x0的維度,Attention網(wǎng)絡隱層神經(jīng)元數(shù)量為m,則l層的交叉網(wǎng)絡組成了x1,x2,…,xd在l+1階的所有特征組合,對應ACN的參數(shù)數(shù)目為(d×Lc+d×m)×2。

對于交叉網(wǎng)絡,每一層的參數(shù)向量W和b都是d維,所以交叉層參數(shù)數(shù)量為d×Lc×2,而注意力網(wǎng)絡為單隱層全連接神經(jīng)網(wǎng)絡,輸入輸出均是長度為d的向量,對應參數(shù)數(shù)量為d×m×2。

ACN網(wǎng)絡空間復雜度是輸入維度d的線性函數(shù),所以相比于DNN,ACN引入的復雜度微不足道,這樣就保證了整體網(wǎng)絡DACN的復雜度和DNN同屬一個數(shù)量級。

3 實 驗

3.1 實驗設置

3.1.1實驗數(shù)據(jù)集

在以下兩個數(shù)據(jù)集上評估DACN的有效性和效率。

(1) Criteo數(shù)據(jù)集[10]。Criteo數(shù)據(jù)集包含4 500萬用戶的點擊記錄,共13個連續(xù)特征和26個分類特征。為方便訓練,從中隨機抽取2 000萬條數(shù)據(jù)集分為兩部分,其中90%用于訓練,其余10%用于測試。

(2) MovieLens數(shù)據(jù)集[11]。MovieLens數(shù)據(jù)包含13萬用戶對2萬多部電影的評分記錄,共21個特征,約2 000萬條評分數(shù)據(jù)。為了使其適用于CTR預測場景,本文將其轉(zhuǎn)換為二分類數(shù)據(jù)集,電影的原始用戶評分是從0到5的離散值,本文將標有4和5的樣本標記為正,其余標記為負樣本。

根據(jù)用戶ID從中隨機選取13萬用戶,將數(shù)據(jù)劃分為訓練和測試數(shù)據(jù)集,隨機抽取10萬用戶作為訓練集(約1 447萬個樣本),其余3萬用戶作為測試集(約502萬個樣本),則任務是根據(jù)用戶歷史行為來預測該用戶是否會對指定電影評分高于3(正標簽)。

3.1.2評估指標

使用AUC(ROC曲線下的面積)和Logloss(交叉熵)兩個指標進行模型評估,這兩個指標從不同層面評估了模型的表現(xiàn)。

(1) AUC。AUC衡量模型對正負樣本的排序能力,表示隨機從樣本中抽取一對正負樣本,其中正樣本比負樣本排名要高的概率。此外,AUC對樣本類別是否均衡并不敏感。(2) Logloss。Logloss衡量各樣本預測值與真實值之差。廣告系統(tǒng)往往更依賴Logloss,因為需要使用預測的概率來估算排序策略的收益(通常將其調(diào)整為CTR×出價)。

3.1.3對比模型

實驗將DACN與LR(Logistic Regression)[12]、DNN、FM(Factorization Machines)[2]、Wide & Deep[1]、DCN(Deep & Cross Network)[8]和DeepFM[7]進行對比。

如前文所述,這些模型與DACN高度相關(guān),是目前主流且經(jīng)過工業(yè)界驗證的點擊率預估模型。因DACN旨在通過模型提取特征組合,為控制變量,本文將不對原始特征進行任何人工特征工程。

3.1.4參數(shù)設置

1) DACN模型參數(shù)設置。本文在TensorFlow上實現(xiàn)DACN。對稠密型特征使用對數(shù)變換進行數(shù)據(jù)標準化;對類別型特征,將特征嵌入到長度為6×dimension1/4的稠密向量中;使用Adam[13]優(yōu)化器,采用Mini-batch隨機梯度下降,其中Batch大小設置為512,DNN網(wǎng)絡設置Batch normalization[14]。

2) 對比模型參數(shù)設置。對于對比模型,遵循PNN[6]中針對FNN和PNN的參數(shù)設置。其中,DNN模塊設置了Dropout為0.5,網(wǎng)絡結(jié)構(gòu)設置為400- 400- 400,優(yōu)化算法采用基于Adam的Mini-batch梯度下降,激活函數(shù)統(tǒng)一使用ReLU,F(xiàn)M的嵌入維度設置為10,模型其余部分設置與DACN一致。

3.2 實驗對比

3.2.1單模型表現(xiàn)對比

各單模型在兩公開數(shù)據(jù)集表現(xiàn)如表1所示。對比模型中,F(xiàn)M顯式度量2階特征交互,DNN建模隱式高階特征交互,Cross Network建模顯式高階特征交互,而ACN建模顯式高階特征交互并自帶特征篩選。

實驗表明,本文所提的ACN始終優(yōu)于其他對比模型。一方面,對于實際的數(shù)據(jù)集,稀疏特征上的高階交互是必要的,這一點從DNN、Cross Network和ACN在上述兩個數(shù)據(jù)集上均明顯優(yōu)于FM得到證明;另一方面,ACN是最佳的個體模型,驗證了ACN在建模顯式高階特征交互方面的有效性。

3.2.2集成模型表現(xiàn)對比

DACN將ACN和DNN集成到端到端網(wǎng)絡結(jié)構(gòu)中。其中ACN用于顯式組合特征提取及篩選,DNN用于隱式組合特征提取,通過兩者并行聯(lián)立,以期最大程度地進行特征表征。比較了DACN與目前主流CTR預估模型在兩公開數(shù)據(jù)集上的表現(xiàn),結(jié)果如表2所示。

表2 集成網(wǎng)絡結(jié)果對比

續(xù)表2

可以看出,LR比所有其他模型都差,這表明基于因子分解的模型對于建模稀疏類交互特征至關(guān)重要;而Wide&Deep、DCN和DeepFM則明顯優(yōu)于DNN,表明DNN隱式特征提取能力比較受限,通常需要借助人工特征工程彌補特征組合能力不足的短板。其次,DACN相比于DCN指標提升明顯。前文已從理論角度論證了DACN相較DCN的優(yōu)勢,通過添加Attention網(wǎng)絡結(jié)構(gòu)實現(xiàn)各指定階組合特征篩選,提升重要組合特征權(quán)重,消除冗余特征影響。實驗結(jié)果證明,該結(jié)構(gòu)可有效地實現(xiàn)特征篩選,對整體模型表現(xiàn)具有較大提升。

最后,本文所提的DACN網(wǎng)絡在兩個公開數(shù)據(jù)集上均實現(xiàn)了最佳性能,這表明將顯式和隱式高階特征聯(lián)立,對原始特征表征更充分。同時,實驗結(jié)果也驗證了使用ACN進行指定階顯式特征組合對最終模型表現(xiàn)具有很大提升,從側(cè)面驗證了該結(jié)構(gòu)的合理性。

3.2.3網(wǎng)絡參數(shù)數(shù)量對比

考慮到ACN引入的額外參數(shù),在Criteo數(shù)據(jù)集上對ACN、CrossNet及DNN進行了對比,比較各模型實現(xiàn)最佳對數(shù)損失閾值所需的最少參數(shù)數(shù)量,因為各模型嵌入矩陣參數(shù)數(shù)量相等,在參數(shù)數(shù)量計算中省略了嵌入層中的參數(shù)數(shù)量,實驗結(jié)果如表3所示。

表3 相同對數(shù)損失對應最少參數(shù)量

從實驗結(jié)果不難看出,ACN和Cross Network的存儲效率比DNN高出近一個數(shù)量級,主要原因是共有的特征交叉結(jié)構(gòu)實現(xiàn)以線性空間復雜度完成指定階特征交互。

此外,ACN與Cross Network參數(shù)量都屬同一數(shù)量級,ACN引入的Attention網(wǎng)絡只包含一個隱層,所需參數(shù)數(shù)量可近似忽略,但對模型點擊率預測精度具有較大提升。

4 結(jié) 語

識別有效的特征組合已成為目前主流點擊率預測模型成功的關(guān)鍵,現(xiàn)有方法往往借助暴力枚舉或隱式DNN提取進行特征組合,其中摻雜了大量無用、冗余特征,限制了點擊率預測模型的表現(xiàn)。本文提出的注意力交叉網(wǎng)絡DACN可以同時進行顯示特征交叉和隱式特征提取,其Attention結(jié)構(gòu)自動依據(jù)特征重要性完成特征篩選,有效地降低了冗余特征帶來的影響。實驗結(jié)果表明,就模型準確性和參數(shù)使用量而言,DACN都優(yōu)于目前主流點擊率預測模型。

未來將進一步探索注意力交叉網(wǎng)絡作為顯式特征交叉模塊在其他領(lǐng)域的使用效果。此外,當前DACN的顯式特征組合粒度較粗,如何在保證模型空間復雜度隨網(wǎng)絡層數(shù)線性增長的前提下進一步挖掘細粒度組合特征將作為研究工作的下一個目標。

猜你喜歡
點擊率網(wǎng)絡結(jié)構(gòu)高階
高階時頻變換理論與應用
高階思維介入的高中英語閱讀教學
三個高階微分方程的解法研究
高階非線性慣性波模型的精確孤立波和周期波解
基于特征工程的視頻點擊率預測算法
試論分布式計算機網(wǎng)絡結(jié)構(gòu)分析與優(yōu)化
帶通信配網(wǎng)故障指示器故障監(jiān)測方法及安裝分析
非常規(guī)突發(fā)事件跨組織合作網(wǎng)絡結(jié)構(gòu)演化機理研究
《江南STYLE》為何這么火