国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征降維和DBN的廣告點(diǎn)擊率預(yù)測(cè)

2018-12-22 08:06:52楊長(zhǎng)春梅佳俊
關(guān)鍵詞:點(diǎn)擊率張量數(shù)據(jù)量

楊長(zhǎng)春,梅佳俊,吳 云,顧 寰

(常州大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 常州 213164)

0 引 言

點(diǎn)擊率預(yù)測(cè)是搜索廣告產(chǎn)業(yè)的核心技術(shù),有效提升點(diǎn)擊率的預(yù)測(cè)效果不但能滿足廣告主推銷產(chǎn)品與服務(wù)的要求,還能增加廣告媒介的利益,并且可以提升網(wǎng)絡(luò)用戶的滿意度。由此可以看出廣告點(diǎn)擊率預(yù)測(cè)無(wú)疑是計(jì)算廣告學(xué)中的一個(gè)至關(guān)重要的問題,而本文的探索意義也在于此[1]。

目前比較主流的廣告點(diǎn)擊率預(yù)測(cè)模型方向的探索主要使用的都是傳統(tǒng)的機(jī)器學(xué)習(xí)中分類算法。朱志北等針對(duì)廣告和用戶數(shù)據(jù)量大并且數(shù)據(jù)稀疏的問題,提出了一種基于LDA的方法[2],該方法按照主題,將數(shù)據(jù)分割,再對(duì)分割后的數(shù)據(jù)集建立各自的預(yù)測(cè)模型,根據(jù)各個(gè)主題的概率,分配權(quán)重,從而得出最終的預(yù)測(cè)結(jié)果。針對(duì)傳統(tǒng)方法利用單個(gè)權(quán)重衡量特征的影響力不夠全面的問題,潘書敏等提出了基于用戶相似度和特征分化的混合模型[3]。Jahrer等[4]提出了一種綜合利用了特征工程,協(xié)同過濾和貝葉斯網(wǎng)絡(luò)等多種模型的混合式點(diǎn)擊率預(yù)測(cè)模型。岳昆等采用貝葉斯網(wǎng)的概率圖預(yù)測(cè)沒有歷史記錄的用戶對(duì)廣告的點(diǎn)擊率[5]。Rendle利用因子分解對(duì)變量間的交互進(jìn)行建模,提出了因子分解機(jī)模型[6],該模型適合處理大量的稀疏數(shù)據(jù)。Trofimov等建立了一個(gè)綜合運(yùn)用多個(gè)決策樹來(lái)對(duì)點(diǎn)擊率預(yù)測(cè)的梯度提升決策樹模型[7],該模型具有運(yùn)算時(shí)間少,無(wú)需大量訓(xùn)練數(shù)據(jù)的優(yōu)點(diǎn),但同時(shí)該模型并不支持較多的特征,所以可提升空間還很大。Lee等[8]通過數(shù)據(jù)分層的方法來(lái)解決數(shù)據(jù)稀疏的問題。

上述模型還都還是僅僅在探索廣告特征間的線性關(guān)系,并沒有充分挖掘更深層次的非線性關(guān)聯(lián)。本文在將深度學(xué)習(xí)中的深度置信網(wǎng)絡(luò)運(yùn)用到廣告點(diǎn)擊率預(yù)測(cè)領(lǐng)域挖掘深層次的特征關(guān)聯(lián)的同時(shí),還考慮到廣告數(shù)據(jù)中的ID類特征具有高維性,不適合深度學(xué)習(xí)方法,所以對(duì)特征進(jìn)行了降維處理。

1 基于特征降維和DBN的預(yù)測(cè)模型

1.1 特征選取

特征提取是廣告點(diǎn)擊率預(yù)測(cè)的重要過程。本文針對(duì)廣告數(shù)據(jù)中的特點(diǎn),選擇了幾類特征,列舉如下:

(1)ID類特征。本文中使用的ID類特征包括用戶ID,查詢ID,廣告ID。本文將ID類特征進(jìn)行one-hot編碼。例如本文中測(cè)試數(shù)據(jù)集中共有23 669 284位用戶,用戶ID會(huì)被轉(zhuǎn)為23 669 284維的特征,僅當(dāng)某用戶ID出現(xiàn)時(shí)該維會(huì)置為1,其余則為0。這樣處理是因?yàn)镮D類特征不應(yīng)該被分類模型當(dāng)做具體的值,而是標(biāo)稱類的特征來(lái)處理。但是這樣產(chǎn)生的ID類特征會(huì)變成上億維的特征向量,深度學(xué)習(xí)難以處理這樣高維的特征。所以本文為了降低ID類特征的維度,會(huì)在下兩節(jié)中對(duì)ID類特征進(jìn)行降維。

(2)廣告特征。本文所涉及的廣告特征有廣告位置position和返回頁(yè)中的廣告數(shù)depth。搜索的返回結(jié)果中廣告的展示個(gè)數(shù)和廣告所在的位置,對(duì)于點(diǎn)擊率均有影響。

(3)用戶特征。本文包含的用戶特征主要有用戶性別gender和用戶年齡age。根據(jù)計(jì)算廣告學(xué)中的以往經(jīng)驗(yàn),性別的不同會(huì)導(dǎo)致對(duì)廣告的不同反應(yīng),例如,女生對(duì)化妝品類廣告更有興趣,而男生對(duì)體育,汽車類廣告有更多的點(diǎn)擊欲望。同理,處于不同年齡段的用戶的興趣點(diǎn)也會(huì)更傾向于某幾類相對(duì)應(yīng)的廣告。

(4)歷史反饋特征。本文使用的歷史反饋特征有廣告歷史展示次數(shù)ad-view,廣告歷史點(diǎn)擊次數(shù)ad-click,廣告位置歸一化后的點(diǎn)擊率COEC。歷史反饋特征可以很好地評(píng)價(jià)廣告的質(zhì)量,對(duì)于點(diǎn)擊率預(yù)測(cè)也有較好的作用。

本文選取的特征庫(kù)見表1。

1.2 K-means聚類

上節(jié)中提到由于ID類特征維數(shù)過高,不能直接作為深度置信網(wǎng)絡(luò)的輸入,需要進(jìn)行處理。而通過對(duì)廣告數(shù)據(jù)的梳理觀察,可以發(fā)現(xiàn)用戶,查詢,廣告等對(duì)象間有著非常復(fù)雜的關(guān)系。對(duì)于某一對(duì)象,比如廣告,其內(nèi)部的成員間具有相似關(guān)系。針對(duì)這些對(duì)象間的相互性,本文選擇使用K-means聚類,將相似的對(duì)象聚類到一起,從而起到降維的作用。

本文將廣告的聚類作為例子,展示算法的具體過程。

(1)以數(shù)據(jù)集中的廣告展示次數(shù)為權(quán)重,建立一個(gè)廣告-查詢矩陣Mi×j,該矩陣包含i個(gè)廣告,j個(gè)查詢;

表1 本文選取的特征庫(kù)

(2)使I=1,從i個(gè)廣告中隨機(jī)選取出K個(gè)當(dāng)作初始的簇的中心Zp(I),p=1,2,3,…k;

(3)計(jì)算每個(gè)廣告xi與各個(gè)簇的中心點(diǎn)Zp(I)的距離D(xi,Zp(I)),若廣告xi與簇的中心點(diǎn)Zp(j)的距離最短,即D(xi,Zk(I))=min{D(xi,Zj(I)),i=1, 2, 3,…n},則將xi劃分給第j類;

(4)將所有廣告劃分好后,再一次計(jì)算各個(gè)簇的聚類中心

(1)

(5)直到聚類中心再也不發(fā)生變化,則聚類完成,否則退回到第(3)步重新計(jì)算。

上文中的聚類算法完成了對(duì)廣告的聚類,同樣的,我們也可以基于同一矩陣對(duì)查詢進(jìn)行聚類。兩次聚類都是在原始的矩陣上進(jìn)行,相互獨(dú)立,互不影響。由于用戶,查詢這兩個(gè)對(duì)象之間也具有相似性,進(jìn)行類似查詢的用戶之間是有相似性的,所以,可以根據(jù)查詢的聚類結(jié)果將處于同一類查詢的用戶作為一組。

1.3 張量分解

張量也可以稱作多維的矩陣,向量即為一維張量,而矩陣則為二維張量。矩陣分解其實(shí)是一種特殊的張量分解。N階張量可以定義成A∈RI1×…×IN,張量所包含的元素則可以表示成ai 1 , … , i N。

將上文中通過聚類得到的數(shù)據(jù)用“用戶-查詢-廣告-權(quán)重”的四元組關(guān)系{u,i,t,w}的形式表現(xiàn),根據(jù)本文中使用的數(shù)據(jù)的特點(diǎn),權(quán)重選擇聚類后的廣告展示次數(shù)的總和,并以此建立三維張量模型。得到的張量以A∈RI1×…×IN表示。

本文選用高階奇異值分解法(HOSVD)對(duì)張量A分解。

公式表示如下

A=S×1U(1)×2U(2)×3U(3)

(2)

核心張量S∈RI1×I2×I3是一個(gè)與張量A維數(shù)相同的張量,將張量A在3個(gè)模式(1-模,2-模,3-模)下進(jìn)行n-模展開,生成A1,A2,A3。對(duì)A1,A2,A3分別進(jìn)行矩陣分解,結(jié)果表示如下

(3)

(4)

(5)

(6)

最后由近似核心張量和3個(gè)新的左奇異矩陣計(jì)算近似張量

(7)

1.4 深度置信網(wǎng)絡(luò)

本文選用深度置信網(wǎng)絡(luò)來(lái)充分挖掘廣告數(shù)據(jù)的特征之間的非線性關(guān)系,從而從低階特征中獲取高階混合特征。

受限玻爾茲曼機(jī)(RBM):RBM是DBN的基本組成成分,它是具有一個(gè)顯示層和一個(gè)隱藏層的兩層結(jié)構(gòu),兩層之間的節(jié)點(diǎn)進(jìn)行全連接,層內(nèi)節(jié)點(diǎn)無(wú)連接。RBM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中,v為顯示層,用于輸入數(shù)據(jù),h為隱藏層,可以作為特征提取器,W為兩層之間的權(quán)重矩陣,偏置量分為顯示層的偏置量m和隱藏層的偏置量n。

圖1 RBM結(jié)構(gòu)

RBM定義的能量函數(shù)為

E(v,h;θ)=-∑vmwnmhm-∑bmvn-∑cnhn

(8)

能量函數(shù)的具體定義參見文獻(xiàn)[9]。

RBM采用對(duì)比散度(contrastice divergence,CD)算法進(jìn)行訓(xùn)練,這是Hinton提出的一個(gè)RBM的快速學(xué)習(xí)算法[10],并提出了改進(jìn)[11]。

深度置信網(wǎng)絡(luò)(DBN):DBN是由數(shù)個(gè)RBM堆疊起來(lái)的網(wǎng)絡(luò)結(jié)構(gòu),本文所用的深度置信網(wǎng)絡(luò)是由數(shù)層RBM加上最后一層的BP網(wǎng)絡(luò)所構(gòu)成,BP層的激活函數(shù)選擇sigmoid函數(shù)。本文的DBN訓(xùn)練采用貪心逐層非監(jiān)督的學(xué)習(xí)方法,DBN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,訓(xùn)練步驟分為模型預(yù)訓(xùn)練和參數(shù)微調(diào)兩步。

圖2 DBN網(wǎng)絡(luò)結(jié)構(gòu)

預(yù)訓(xùn)練階段:對(duì)于DBN的多層結(jié)構(gòu),將每相鄰的兩層作為一個(gè)RBM網(wǎng)絡(luò),使用處理好的特征作為輸入層的輸入,從最底層開始使用上節(jié)中的RBM無(wú)監(jiān)督學(xué)習(xí)算法預(yù)訓(xùn)練每一個(gè)網(wǎng)絡(luò),每次只訓(xùn)練一層的網(wǎng)絡(luò)參數(shù),將其訓(xùn)練好的網(wǎng)絡(luò)的輸出作為下面一層RBM網(wǎng)絡(luò)的輸入,重復(fù)此步驟,將所有的RBM網(wǎng)絡(luò)訓(xùn)練完。每層的RBM網(wǎng)絡(luò)都會(huì)對(duì)輸入的數(shù)據(jù)進(jìn)行提取,抽象,挖掘更高層的特征,但是各層RBM網(wǎng)絡(luò)訓(xùn)練的最好結(jié)果也僅僅是各層的網(wǎng)絡(luò)參數(shù)達(dá)到最優(yōu),而并不能使整個(gè)網(wǎng)絡(luò)達(dá)到最優(yōu),所以預(yù)訓(xùn)練完成后,本文使用有監(jiān)督的BP網(wǎng)絡(luò)將誤差進(jìn)行反向的傳播,自頂向下微調(diào)整個(gè)模型。

參數(shù)微調(diào)階段:最后一層的BP網(wǎng)絡(luò)將充當(dāng)模型有監(jiān)督學(xué)習(xí)的分類器,對(duì)DBN模型的參數(shù)自頂向下進(jìn)行微調(diào)。其訓(xùn)練過程共有兩步:其一為前向傳播,將輸入信息送入第一層的RBM,經(jīng)過幾個(gè)RBM和BP層的計(jì)算,得出輸出結(jié)果,其二為反向傳播,計(jì)算輸出結(jié)果和正確結(jié)果間的偏差,根據(jù)偏差從輸出端向輸入端反向傳播,更新網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)。

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)環(huán)境

硬件環(huán)境:中科曙光服務(wù)器一臺(tái),AMD Opteron(tm) Processor 6320@3.60 GHz 32核CPU,64 GB內(nèi)存。

軟件環(huán)境:Ubuntu 16.04操作系統(tǒng),Anaconda 3 4.4.0開發(fā)環(huán)境以及TensorFlow工具包。

2.2 實(shí)驗(yàn)數(shù)據(jù)

本文使用KDD CUP2012比賽上track2任務(wù)的由騰訊的搜搜搜索引擎提供的廣告點(diǎn)擊日志作為實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)集包括9.8 G的訓(xùn)練數(shù)據(jù)集,1.2 G的測(cè)試數(shù)據(jù)集和243 M的測(cè)試數(shù)據(jù)的真實(shí)展示次數(shù)和點(diǎn)擊數(shù)。訓(xùn)練數(shù)據(jù)集包含149 639 105行數(shù)據(jù),測(cè)試數(shù)據(jù)則有20 217 594行數(shù)據(jù)。數(shù)據(jù)集中的一行數(shù)據(jù)代表的是某次檢索中的返回頁(yè)上的廣告列表中的某一條廣告的關(guān)于用戶,查詢,廣告的所有信息。

2.3 實(shí)驗(yàn)評(píng)估方法

本文采用ROC曲線下面積AUC作為模型預(yù)測(cè)性能的評(píng)估方法。曲線下面積(AUC)就是ROC曲線下方的那部分面積大小,該值通常在[0.5,1)區(qū)間內(nèi),并且AUC值越大,表明模型性能越好。

2.4 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)一:隱藏層層數(shù)和節(jié)點(diǎn)數(shù)的確定

本文為了確定DBN模型對(duì)于廣告數(shù)據(jù)最合適的隱藏層層數(shù)和節(jié)點(diǎn)數(shù),選擇在10萬(wàn)的數(shù)據(jù)集上,分別對(duì)不同層數(shù)和節(jié)點(diǎn)數(shù)的模型進(jìn)行訓(xùn)練,然后比較在同一測(cè)試集上的AUC指標(biāo),見表2。從表2中可知,將模型層數(shù)從2層提高到3層,不論節(jié)點(diǎn)數(shù)怎么變化,預(yù)測(cè)效果都有了明顯的提高,而當(dāng)層數(shù)增加到4層,雖然預(yù)測(cè)效果還是比2層的模型有了提高,但是卻并沒有比3層提高多少,有些甚至比3層模型還差。5層與4層的模型表現(xiàn)類似。所以,本文選擇3層作為DBN模型的隱藏層層數(shù)。而通過比較表中的3層模型的AUC值,本文選擇將隱藏層的節(jié)點(diǎn)數(shù)自底向下分別設(shè)為50層,500層和100層。

表2 不同隱藏層層數(shù)和節(jié)點(diǎn)數(shù)的深度置信網(wǎng)絡(luò)模型的AUC值

實(shí)驗(yàn)二:預(yù)測(cè)效果的比較與分析

本文選擇在5種數(shù)據(jù)規(guī)模的訓(xùn)練集上,并選用同一測(cè)試集對(duì)預(yù)測(cè)效果進(jìn)行評(píng)價(jià)。既考慮了數(shù)據(jù)的規(guī)模對(duì)預(yù)測(cè)效果的影響,也比較了不同方法的預(yù)測(cè)效果。表3展示了不同模型在不同規(guī)模下的預(yù)測(cè)效果。在表中LR表示傳統(tǒng)的邏輯回歸模型,HPCM表示文獻(xiàn)[12]中的矩陣分解和張量分解加EM算法的點(diǎn)擊預(yù)測(cè)模型,KTDDBN表示本文的模型。

表3 3種模型在不同數(shù)據(jù)量下的預(yù)測(cè)結(jié)果

從表3可知,在不同數(shù)據(jù)量下3種模型的預(yù)測(cè)效果相比較,本文的KTDDBN模型要優(yōu)于其它兩種模型,并且當(dāng)數(shù)據(jù)量逐漸增加,預(yù)測(cè)結(jié)果的提高也愈加明顯,在數(shù)據(jù)量為10萬(wàn)時(shí),相比于LR和HPCM模型,本文的模型分別只有0.0019和0.0009的提高,而隨著數(shù)據(jù)量逐步增大,本文比其它模型的效果的提高愈加增加,當(dāng)數(shù)據(jù)量提升到90萬(wàn)時(shí),比其它兩個(gè)模型的提高已經(jīng)分別達(dá)到0.0614和0.0370。

為了更直觀地看出不同數(shù)據(jù)量下3種模型的預(yù)測(cè)效果的變化趨勢(shì),圖3展示了表3所對(duì)應(yīng)的AUC折線圖。

圖3 3種模型在不同數(shù)據(jù)量時(shí)的預(yù)測(cè)結(jié)果對(duì)比

從圖3中可知當(dāng)數(shù)據(jù)量逐漸增大,各模型的預(yù)測(cè)性能均表現(xiàn)出上升的趨向,這表明隨著訓(xùn)練數(shù)據(jù)的增大,各模型均得到了更充分的訓(xùn)練,獲得更穩(wěn)健的參數(shù)。然而,3種模型雖然在數(shù)據(jù)量增大時(shí),預(yù)測(cè)效果均呈上升趨勢(shì),但他們變化趨勢(shì)卻不盡相同。剛開始,3種模型預(yù)測(cè)效果無(wú)太大差異,這說(shuō)明此時(shí),3種模型均處于過擬合狀態(tài),未得到充分訓(xùn)練。隨著數(shù)據(jù)量逐漸增加,本文的KTDDBN模型的預(yù)測(cè)效果提升速度明顯要優(yōu)于其它兩個(gè)模型。而當(dāng)數(shù)據(jù)量達(dá)到50萬(wàn)之后,LR模型的預(yù)測(cè)效果已趨于平穩(wěn),HPCM模型也在數(shù)據(jù)量處于70萬(wàn)之后,預(yù)測(cè)效果不再有明顯提升。相對(duì)的本文的KTDDBN模型在90萬(wàn)數(shù)據(jù)量之時(shí)仍有較明顯的上升趨勢(shì)。

3 結(jié)束語(yǔ)

本文針對(duì)廣告數(shù)據(jù)中ID類特征的高維性,基于廣告數(shù)據(jù)間的相似性,對(duì)其進(jìn)行聚類,一定程度上降低其維度,再建立張量模型,獲得低階近似張量,并利用了廣告數(shù)據(jù)的特征具有復(fù)雜的非線性關(guān)系的特點(diǎn),引入了深度學(xué)習(xí)中的深度置信網(wǎng)絡(luò),對(duì)其深層特征組合進(jìn)行學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,本文模型的預(yù)測(cè)結(jié)果相比其它方法有一定的提高。然而,本文的模型雖有改進(jìn),但尚有不足,所以下一步的研究方向是如何在保證預(yù)測(cè)效果的同時(shí),減小計(jì)算開銷。

猜你喜歡
點(diǎn)擊率張量數(shù)據(jù)量
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
四元數(shù)張量方程A*NX=B 的通解
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
電子制作(2019年13期)2020-01-14 03:15:18
基于特征工程的視頻點(diǎn)擊率預(yù)測(cè)算法
擴(kuò)散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
喜報(bào)!萌寶大賽參賽者660名,投票321657人次,點(diǎn)擊率超60萬(wàn)!
海峽姐妹(2015年8期)2015-02-27 15:12:30
工程中張量概念的思考
河南科技(2014年19期)2014-02-27 14:15:33
札达县| 得荣县| 繁昌县| 龙南县| 瓦房店市| 佳木斯市| 安徽省| 七台河市| 津南区| 察雅县| 宜都市| 莫力| 灵璧县| 安塞县| 垦利县| 石河子市| 丽水市| 惠来县| 石泉县| 肃宁县| 永春县| 长乐市| 富阳市| 乌兰察布市| 泌阳县| 建宁县| 左权县| 九龙城区| 武威市| 绿春县| 上虞市| 吐鲁番市| 洪湖市| 黄龙县| 土默特左旗| 四子王旗| 乐昌市| 精河县| 衡水市| 平陆县| 西丰县|