郝曉培,朱建生,單杏花
(中國(guó)鐵道科學(xué)研究院,北京 100081)
互聯(lián)網(wǎng)產(chǎn)品的多樣化以及智能終端的普及,已促使互聯(lián)網(wǎng)成為當(dāng)今社會(huì)信息傳遞最快捷有效的媒介,互聯(lián)網(wǎng)公司為用戶(hù)提供服務(wù)的同時(shí),也為廣告平臺(tái)的推送帶來(lái)了極大的便利,在用戶(hù)享受產(chǎn)品帶來(lái)的服務(wù)的時(shí)候,廣告平臺(tái)會(huì)為用戶(hù)推送各種各樣的廣告,在一定程度上提高了用戶(hù)對(duì)新產(chǎn)品的認(rèn)知。然而用戶(hù)基本屬性的差異,大量無(wú)差別的廣告推送不能滿(mǎn)足所有用戶(hù)的個(gè)性化需求,不僅會(huì)導(dǎo)致用戶(hù)對(duì)互聯(lián)網(wǎng)產(chǎn)品產(chǎn)生抵觸情緒,嚴(yán)重影響用戶(hù)體驗(yàn),同時(shí)也會(huì)降低廣告的點(diǎn)擊率以及轉(zhuǎn)化率,難以保證公司廣告平臺(tái)的可持續(xù)穩(wěn)定的發(fā)展。為了解決數(shù)據(jù)冗余以及信息過(guò)載為用戶(hù)獲取有效信息帶來(lái)的困擾,以及最大化廣告平臺(tái)的經(jīng)濟(jì)收益,基于用戶(hù)基本特征以及歷史行為信息構(gòu)建個(gè)性化推薦系統(tǒng)成為相關(guān)領(lǐng)域的研究熱點(diǎn)[1]。
文獻(xiàn)[2]提出了一種基于在線貝葉斯概率回歸模型的點(diǎn)擊率評(píng)估方法,但是該模型只在確定廣告特征的場(chǎng)景取得較好的效果;文獻(xiàn)[3]第一次提出了“滿(mǎn)意度”的概念,并基于“滿(mǎn)意度”構(gòu)建頁(yè)面的相關(guān)性,最后通過(guò)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型進(jìn)行評(píng)估;文獻(xiàn)[4]將梯度增強(qiáng)決策樹(shù)運(yùn)用到廣告點(diǎn)擊率預(yù)估,該模型解決了貝葉斯網(wǎng)絡(luò)中各項(xiàng)特征必須相互獨(dú)立的缺點(diǎn),可以學(xué)習(xí)特征之間的相關(guān)性,達(dá)到了較好的預(yù)估效果。傳統(tǒng)的推薦算法中,龐大的用戶(hù)量以及產(chǎn)品量使得評(píng)分矩陣極其稀疏,且存在冷啟動(dòng)的問(wèn)題,為產(chǎn)品的精準(zhǔn)推薦帶來(lái)了極大的挑戰(zhàn)。隨著深度學(xué)習(xí)以及社交網(wǎng)絡(luò)在電商、資訊、短視頻等互聯(lián)網(wǎng)產(chǎn)品的普及,不同的產(chǎn)品已積累了大量復(fù)雜的社交關(guān)系數(shù)據(jù),為基于社交關(guān)系的個(gè)性化推薦提供了數(shù)據(jù)基礎(chǔ)。文獻(xiàn)[5-6]從社交關(guān)系中挖掘信任關(guān)系,并將其運(yùn)用到了推薦算法中,其在推薦精度以及TOP-K推薦能力方面有明顯提高。文獻(xiàn)[7]提出了Wide&Deep模型,該模型融合了線下邏輯回歸以及非線性的神經(jīng)網(wǎng)絡(luò),提高了模型的“記憶性”及“泛化性”,取得了不錯(cuò)的效果,在該模型的基礎(chǔ)上越來(lái)越多的研究人員開(kāi)始對(duì)此進(jìn)行改進(jìn)并運(yùn)用到生產(chǎn)環(huán)境。針對(duì)目前廣告CTR預(yù)估存在的問(wèn)題,該文綜合考慮現(xiàn)有預(yù)估模型的特點(diǎn),設(shè)計(jì)了一種基于圖注意力網(wǎng)絡(luò)的特征處理,以及Wide&Deep模型的CRT評(píng)估模型Wide&Deep-GR,通過(guò)圖注意力網(wǎng)絡(luò)將鐵路12306互聯(lián)網(wǎng)售票系統(tǒng)中旅客之間存在的同行關(guān)系、購(gòu)票關(guān)系、廣告的交互信息以及個(gè)體特征相結(jié)合生成用戶(hù)以及廣告的特征向量,并將此特征向量作為Wide&Deep的輸入進(jìn)行CRT評(píng)估,綜合考慮了用戶(hù)的個(gè)體特征以及相關(guān)用戶(hù)特征,提高了推薦算法的準(zhǔn)確度。
相對(duì)于傳統(tǒng)的機(jī)器算法模型,深度學(xué)習(xí)在個(gè)性推薦以及CTR預(yù)測(cè)中表現(xiàn)出了巨大的潛力。近兩年科研高校,互聯(lián)網(wǎng)公司已經(jīng)將其作為了研究重點(diǎn),極大地提高了推薦系統(tǒng)的準(zhǔn)確率[8]。
該文在GAT與Wide&Deep兩個(gè)模型的基礎(chǔ)上,構(gòu)造了兩個(gè)模塊:特征處理,點(diǎn)擊通過(guò)率預(yù)測(cè)。其中特征處理包括:用戶(hù)特征、用戶(hù)關(guān)系、廣告特征、用戶(hù)與廣告關(guān)系。用戶(hù)特征采用用戶(hù)的出行行為特征以及廣告點(diǎn)擊情況構(gòu)建完整的用戶(hù)特征;用戶(hù)關(guān)系主要基于用戶(hù)同行以及購(gòu)票關(guān)系生成關(guān)系網(wǎng)絡(luò);廣告特征主要通過(guò)廣告主以及數(shù)據(jù)分析人員標(biāo)注生成特征向量;用戶(hù)針對(duì)廣告的點(diǎn)擊行為生成用戶(hù)與廣告的關(guān)系網(wǎng)絡(luò),針對(duì)構(gòu)建的關(guān)系網(wǎng)絡(luò)采用圖神經(jīng)網(wǎng)絡(luò)算法進(jìn)行預(yù)處理,將自身的特征以及相鄰節(jié)點(diǎn)的特征進(jìn)行融合,生成最終的個(gè)體特征向量表示;最后基于特征處理的用戶(hù)及廣告特征向量進(jìn)行點(diǎn)擊通過(guò)率預(yù)測(cè)。整體結(jié)構(gòu)見(jiàn)圖1。
圖1 整體結(jié)構(gòu)
基于圖神經(jīng)網(wǎng)絡(luò)的特征將個(gè)體特征信息以及個(gè)體的關(guān)系結(jié)果數(shù)據(jù)進(jìn)行有效的融合,通過(guò)聚合個(gè)體特征以及鄰居節(jié)點(diǎn)特征的方式,將多維個(gè)體特征以及個(gè)體關(guān)系嵌入到低維的向量中對(duì)個(gè)體進(jìn)行特征提取,得到中心節(jié)點(diǎn)的特征向量。
(1)個(gè)體特征。
針對(duì)廣告推薦主要采用兩類(lèi)特征:類(lèi)別型特征,數(shù)值型特征。類(lèi)別型特征一般不能直接進(jìn)行預(yù)測(cè)運(yùn)算,通常采用one-hot或者multi-hot向量的方式將類(lèi)別性特征轉(zhuǎn)換成數(shù)值型特征,其中對(duì)數(shù)值型特征進(jìn)行缺失值、異常值、歸一化等處理,將處理后的標(biāo)簽進(jìn)行拼接生成特征向量,基于旅客的出行行為以及與12306平臺(tái)的交互行為產(chǎn)生的數(shù)據(jù)構(gòu)建的用戶(hù)特征以及廣告特征如表1和表2所示。
表1 用戶(hù)特征列
表2 廣告特征列表
續(xù)表2
(2)關(guān)系特征。
關(guān)系特征主要包括三類(lèi):購(gòu)票關(guān)系、同行關(guān)系、交互關(guān)系。關(guān)系特征采用圖學(xué)習(xí)方式可以同時(shí)聚合與目標(biāo)用戶(hù)相關(guān)的鄰居用戶(hù)以及鄰居產(chǎn)品的特征生成目標(biāo)用戶(hù)的特征向量。
購(gòu)票關(guān)系如圖2所示。
圖2 用戶(hù)購(gòu)票關(guān)系
用Gbuying=
同行關(guān)系如圖3所示。
圖3 用戶(hù)同行關(guān)系
用Gpeers=
交互關(guān)系如圖4所示。
圖4 交互關(guān)系
用Gclick=
鐵路12306互聯(lián)網(wǎng)售票系統(tǒng)作為線上唯一的鐵路售票渠道,通過(guò)PC端、手機(jī)端等進(jìn)行票務(wù)交易,在交易過(guò)程中與其他旅客產(chǎn)生了購(gòu)票關(guān)系以及同行關(guān)系,隨著網(wǎng)絡(luò)的發(fā)展以及研究,發(fā)現(xiàn)相對(duì)陌生人,用戶(hù)更愿意接收具有信任關(guān)系的人的建議和推薦,同時(shí)其特征更接近于其有信任關(guān)系的用戶(hù),故特征處理主要是將鄰居節(jié)點(diǎn)的特征與當(dāng)前節(jié)點(diǎn)的特征通過(guò)特征融合生成當(dāng)前節(jié)點(diǎn)的特征向量。
(1)鄰居節(jié)點(diǎn)采樣。
鐵路客運(yùn)用戶(hù)量大,且存在部分異常賬戶(hù),導(dǎo)致個(gè)別節(jié)點(diǎn)同行關(guān)系,購(gòu)票關(guān)系復(fù)雜,每個(gè)節(jié)點(diǎn)的相鄰節(jié)點(diǎn)數(shù)量相差較多,為了提高模型的訓(xùn)練效率,需要針對(duì)鄰居節(jié)點(diǎn)多的用戶(hù)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)進(jìn)行抽樣。假設(shè)相鄰節(jié)點(diǎn)個(gè)數(shù)為N,抽樣規(guī)則如下:
若N≤20,將所有節(jié)點(diǎn)作為關(guān)系網(wǎng)絡(luò)節(jié)點(diǎn);
(2)注意力機(jī)制。
圖神經(jīng)網(wǎng)絡(luò)主要將個(gè)體特征以及關(guān)系網(wǎng)絡(luò)作為入?yún)ⅲ瑢⑵滢D(zhuǎn)換為低維的特征向量,常見(jiàn)的圖神經(jīng)網(wǎng)絡(luò)算法通常采用采樣和聚合構(gòu)建的Inductive learning框架,比如:GraphSAGE[9]。在構(gòu)建購(gòu)票關(guān)系、同行關(guān)系、交互關(guān)系等圖的過(guò)程中用購(gòu)票次數(shù)、同行次數(shù)、點(diǎn)擊次數(shù)等表示節(jié)點(diǎn)之間的關(guān)聯(lián)程度,但是綜合分析相鄰節(jié)點(diǎn)特征相似度,發(fā)現(xiàn)關(guān)系數(shù)據(jù)包含的噪音影響了節(jié)點(diǎn)之間邊的可靠性,同時(shí)相鄰節(jié)點(diǎn)的特征也存在較大的差異。綜合考慮多方面因素,該文主要采用GAT[10](圖注意力網(wǎng)絡(luò))進(jìn)行處理,在圖表示算法中引入“注意力”機(jī)制,從空間上綜合考慮目前節(jié)點(diǎn)與其他節(jié)點(diǎn)的關(guān)系網(wǎng)絡(luò),能夠自適應(yīng)的對(duì)圖中鄰居節(jié)點(diǎn)進(jìn)行聚合并。
注意力機(jī)制的核心思想是:在考慮現(xiàn)有次數(shù)權(quán)重的基礎(chǔ)上,基于相似性對(duì)給定的信息進(jìn)行權(quán)重分配,對(duì)權(quán)重高的信息進(jìn)行重點(diǎn)加工,其定義如下:
Attention(Query,Source)=
(1)
其中,Source表示信息源,通常包含多種信息,用Key-Value的形式進(jìn)行表示,Query表示先驗(yàn)信息或者某種條件,Attentionvalue是在給定Query的情況下,采用注意力機(jī)制從信息源提取到的信息,similarity(Query,Keyi)表示采用向量?jī)?nèi)積的方式
(3)特征向量計(jì)算。
圖注意力層就是將注意力機(jī)制應(yīng)用到圖神經(jīng)網(wǎng)絡(luò)聚合鄰居節(jié)點(diǎn)特征的操作過(guò)程中,其輸入是節(jié)點(diǎn)的個(gè)體特征以及關(guān)系特征,輸出是節(jié)點(diǎn)新的特征向量。
假設(shè)目標(biāo)節(jié)點(diǎn)為V2,其包含多個(gè)鄰居節(jié)點(diǎn)Vi,基于注意力機(jī)制原理,通過(guò)節(jié)點(diǎn)特征相似度計(jì)算可以得到節(jié)點(diǎn)之間的相似度rij,并進(jìn)行SoftMax歸一化處理,生成最終的注意力系數(shù)mij。
其中,α表示節(jié)點(diǎn)相關(guān)度計(jì)算函數(shù),W表示節(jié)點(diǎn)特征維度相互轉(zhuǎn)化的權(quán)重參數(shù)矩陣,L為激活函數(shù)LeakyReLu。
同時(shí)結(jié)合注意力系數(shù),權(quán)重矩陣以及相鄰節(jié)點(diǎn)的特征值進(jìn)行加權(quán)求和(公式3),生成最終的特征向量。
(3)
CTR預(yù)估模型主要包括單層的Wide模塊以及多層的Deep模塊,其中Wide模塊主要提取一維或者二維的低維特征交互信息,使模型具有了較強(qiáng)的“記憶能力”,Deep模塊通過(guò)數(shù)據(jù)集中特征的多次組合,自動(dòng)學(xué)習(xí)高位交互特征,發(fā)掘出特征中潛在的模式,使稀疏的特征向量獲得穩(wěn)定平滑的推薦概率,提高了模型的“泛化能力”[11]。
如圖5所示,該模型主要分為4層:輸入層、Embedding層、多隱層、輸出層。
圖5 Wide&Deep模型
其將Wide部分與Deep層(由Embedding層與多隱層組成)相互組合最終輸入到輸出層。其中Wide部分主要處理系數(shù)特征,Deep部分主要利用神經(jīng)網(wǎng)絡(luò)表達(dá)能力強(qiáng)的特點(diǎn),進(jìn)行特征交叉計(jì)算,挖掘隱藏的數(shù)據(jù)模型,最終在輸出層利用邏輯回歸將Wide層的結(jié)果以及Deep層的結(jié)果進(jìn)行數(shù)據(jù)整合,形成最終的CTR預(yù)估模型。
文中Deep部分輸入主要包括用戶(hù)的特征與經(jīng)過(guò)圖注意力網(wǎng)絡(luò)進(jìn)行Embedding處理的特征向量拼接的全量用戶(hù)特征向量,Wide部分的數(shù)據(jù)包括用戶(hù)與廣告的歷史交互特征以及待曝光的廣告特征,通過(guò)對(duì)有交互的廣告與待曝光廣告特征的交叉積轉(zhuǎn)化,充分發(fā)揮Wide部分“記憶能力”強(qiáng)的優(yōu)勢(shì)。
在廣告平臺(tái)收集了2020年下半年的廣告點(diǎn)擊數(shù)據(jù)以及近三年(2018年-2020年)的用戶(hù)出行數(shù)據(jù),構(gòu)建用戶(hù)個(gè)體特征及關(guān)系網(wǎng)絡(luò),對(duì)樣本數(shù)據(jù)進(jìn)行離線化、缺失值處理、異常值處理等數(shù)據(jù)預(yù)處理及特征選擇以降低模型的計(jì)算難度,最后生成了包括64 925個(gè)用戶(hù)以及6條廣告物料在內(nèi)所生成的72 088條交互信息,151 264條同行關(guān)系以及132 423條購(gòu)票關(guān)系數(shù)據(jù),按照9∶1隨機(jī)生成訓(xùn)練樣本以及測(cè)試樣本。
數(shù)據(jù)主要包括5類(lèi)特征:用戶(hù)個(gè)體特征、廣告物料屬性、購(gòu)票關(guān)系、同行關(guān)系、交互行為。
將預(yù)測(cè)精度、AUC以及對(duì)數(shù)損失函數(shù)作為評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)估。預(yù)測(cè)精度表示真正例除以(真正例+假正例)的和,假正例指的是模型將實(shí)際上是反例的樣本誤判為正例的情況;AUC[12](公式4)用以評(píng)估模型性能問(wèn)題;對(duì)數(shù)損失函數(shù)[13](公式5)計(jì)算預(yù)測(cè)分?jǐn)?shù)與實(shí)際值之間的距離。
(4)
其中,rankinsi表示第i個(gè)樣本的序號(hào),M、N分別表示正樣本和負(fù)樣本的個(gè)數(shù)。
(5)
為了證明Wide&Deep-GR模型的整體性能,分別采用協(xié)同過(guò)濾[14]、FM算法[7]、Wide&Deep模型以及Wide&Deep-GR模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 基于不同模型的預(yù)測(cè)結(jié)果
如圖6所示,在預(yù)測(cè)精度,AUC以及對(duì)數(shù)損失函數(shù)這三個(gè)性能指標(biāo)方面,Wide&Deep模型明顯優(yōu)于協(xié)同過(guò)濾以及FM算法,當(dāng)將用戶(hù)的購(gòu)票關(guān)系、同行關(guān)系以及與廣告的交互關(guān)系網(wǎng)絡(luò)融入Wide&Deep-GR模型的特征模型時(shí),發(fā)現(xiàn)其性能相對(duì)Wide&Deep提升不少,在算法復(fù)雜度方面,由于Wide&Deep-GR模型增加了關(guān)系網(wǎng)絡(luò)的構(gòu)建,基于圖注意力機(jī)制的個(gè)體特征的Embedding,相對(duì)于Wide&Deep模型提高了計(jì)算復(fù)雜度,不適用于在線的廣告CTR預(yù)測(cè),適合用于離線的運(yùn)算。
廣告精準(zhǔn)投放是提升用戶(hù)體驗(yàn)以及平臺(tái)收益的重要技術(shù),深度學(xué)習(xí)以及社交網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用到了CTR預(yù)測(cè)中,并取得了客觀的效果。該文在深入研究深度學(xué)習(xí)模型以及鐵路12306互聯(lián)網(wǎng)售票系統(tǒng)廣告平臺(tái)數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,以Wide&Deep模型為基礎(chǔ),綜合考慮個(gè)體特征以及關(guān)系網(wǎng)絡(luò),利用圖注意力網(wǎng)絡(luò)融合相鄰節(jié)點(diǎn)的特征構(gòu)建完整的個(gè)體特征向量,豐富個(gè)體特征的同時(shí)解決數(shù)據(jù)稀疏性的問(wèn)題,并將其作為CTR評(píng)估模型的輸入,實(shí)現(xiàn)了廣告點(diǎn)擊預(yù)估。最后基于廣告平臺(tái)半年的真實(shí)數(shù)據(jù)集驗(yàn)證了該模型的準(zhǔn)確度。