盧翼翔,耿光剛,延志偉,朱效民,張新常
CAT-RFE:點(diǎn)擊欺詐的集成檢測框架
盧翼翔1,耿光剛1,延志偉2,朱效民3,張新常4
(1. 暨南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,廣東 廣州 510632;2. 中國互聯(lián)網(wǎng)絡(luò)信息中心,北京 100190;3. 山東齊魯大數(shù)據(jù)研究院,山東 濟(jì)南 250001;4. 山東省科學(xué)院,山東 濟(jì)南 250001)
點(diǎn)擊欺詐是近年來最常見的網(wǎng)絡(luò)犯罪手段之一,互聯(lián)網(wǎng)廣告行業(yè)每年都會因點(diǎn)擊欺詐而遭受巨大損失。為了能夠在海量點(diǎn)擊中有效地檢測欺詐點(diǎn)擊,構(gòu)建了多種充分結(jié)合廣告點(diǎn)擊與時(shí)間屬性關(guān)系的特征,并提出了一種點(diǎn)擊欺詐檢測的集成學(xué)習(xí)框架——CAT-RFE集成學(xué)習(xí)框架。CAT-RFE集成學(xué)習(xí)框架包含3個(gè)部分:基分類器、遞歸特征消除(RFE,recursive feature elimination)和voting集成學(xué)習(xí)。其中,將適用于類別特征的梯度提升模型——CatBoost(categorical boosting)作為基分類器;RFE是基于貪心策略的特征選擇方法,可在多組特征中選出較好的特征組合;Voting集成學(xué)習(xí)是采用投票的方式將多個(gè)基分類器的結(jié)果進(jìn)行組合的學(xué)習(xí)方法。該框架通過CatBoost和RFE在特征空間中獲取多組較優(yōu)的特征組合,再在這些特征組合下的訓(xùn)練結(jié)果通過voting進(jìn)行集成,獲得集成的點(diǎn)擊欺詐檢測結(jié)果。該框架采用了相同的基分類器和集成學(xué)習(xí)方法,不僅克服了差異較大的分類器相互制約而導(dǎo)致集成結(jié)果不理想的問題,也克服了RFE在選擇特征時(shí)容易陷入局部最優(yōu)解的問題,具備更好的檢測能力。在實(shí)際互聯(lián)網(wǎng)點(diǎn)擊欺詐數(shù)據(jù)集上的性能評估和對比實(shí)驗(yàn)結(jié)果顯示,CAT-RFE集成學(xué)習(xí)框架的點(diǎn)擊欺詐檢測能力超過了CatBoost模型、CatBoost和RFE組合的模型以及其他機(jī)器學(xué)習(xí)模型,證明該框架具備良好的競爭力。該框架為互聯(lián)網(wǎng)廣告點(diǎn)擊欺詐檢測提供一種可行的解決方案。
點(diǎn)擊欺詐檢測;類別梯度提升;遞歸特征消除;集成學(xué)習(xí)
廣告是互聯(lián)網(wǎng)最主要的商業(yè)模式,已經(jīng)逐步形成互聯(lián)網(wǎng)廣告產(chǎn)業(yè)。近年來,整個(gè)產(chǎn)業(yè)的規(guī)模在持續(xù)快速增長?;ヂ?lián)網(wǎng)用戶打開網(wǎng)頁或者移動手機(jī)應(yīng)用都能看到各式各樣的廣告。廣告中最常見的一種付費(fèi)模式是點(diǎn)擊付費(fèi)(pay per click),即由廣告商(advertiser)提供廣告鏈接,發(fā)布者(publisher)可以在自己的網(wǎng)站或應(yīng)用中發(fā)布該廣告鏈接,以此來賺取廣告商的點(diǎn)擊費(fèi)用[1]。點(diǎn)擊付費(fèi)商業(yè)模式簡單,只通過點(diǎn)擊就能產(chǎn)生收入,且廣告點(diǎn)擊欺詐的懲罰風(fēng)險(xiǎn)相對較低,這讓許多不法發(fā)布者有了可乘之機(jī)[2]。
點(diǎn)擊欺詐是近年來最常見的網(wǎng)絡(luò)犯罪手段之一,互聯(lián)網(wǎng)廣告行業(yè)每年都會因?yàn)辄c(diǎn)擊詐騙而遭受巨大的損失。為了減少廣告商在點(diǎn)擊付費(fèi)模式中點(diǎn)擊欺詐而造成的巨大損失,同時(shí)減少點(diǎn)擊欺詐對網(wǎng)絡(luò)和商業(yè)環(huán)境的不良影響,設(shè)計(jì)一種能夠在海量點(diǎn)擊中有效檢測出欺詐點(diǎn)擊的方法尤為重要。
本文針對廣告點(diǎn)擊欺詐檢測問題,提出多種構(gòu)建特征的方法,并探索一種適用于該問題的CAT-RFE集成學(xué)習(xí)框架。本框架使用CatBoost(categorical boosting)[3]模型與遞歸特征消除(RFE,recursive feature elimination)方法,在構(gòu)建好的特征中選取多組較優(yōu)的特征組合,將CatBoost作為基分類器,對這些特征組合的數(shù)據(jù)訓(xùn)練后進(jìn)行voting集成。
本文提出的集成框架,在特征空間中探索多組較優(yōu)的特征組合,同時(shí)將每組特征組合通過基分類器進(jìn)行集成?;诸惼鲾M采用梯度提升模型,使集成框架在點(diǎn)擊欺詐檢測中盡可能發(fā)揮出最大的優(yōu)勢。與現(xiàn)有工作不同,該框架綜合考慮特征和模型,將特征的選取融入模型中,成為框架中的一部分,結(jié)合多組較優(yōu)的特征組合,避免僅選取局部最優(yōu)特征組合而導(dǎo)致降低檢測精度。同時(shí),該框架結(jié)合當(dāng)前點(diǎn)擊欺詐檢測方面的最優(yōu)的機(jī)器學(xué)習(xí)模型,即對梯度提升模型進(jìn)行集成。為了避免多類基分類器性能的參差不齊而導(dǎo)致無法提升集成模型的檢測能力,該框架對多個(gè)相同的梯度提升模型進(jìn)行集成,以確保集成模型的穩(wěn)定性。
在實(shí)際大規(guī)?;ヂ?lián)網(wǎng)廣告點(diǎn)擊數(shù)據(jù)集上的對比實(shí)驗(yàn)顯示,本文框架優(yōu)于基線模型、CatBoost模型、CatBoost與RFE組合的模型以及其他經(jīng)典機(jī)器學(xué)習(xí)模型,證明了所提框架具備良好的競爭力。
點(diǎn)擊欺詐作為互聯(lián)網(wǎng)廣告面臨的最嚴(yán)重的威脅之一,如何有效和精準(zhǔn)地在海量的廣告點(diǎn)擊中檢測出欺詐點(diǎn)擊成為學(xué)術(shù)界和工業(yè)界廣泛關(guān)注的問題。結(jié)合Gohil等[2]對點(diǎn)擊欺詐檢測研究的觀點(diǎn),將相關(guān)檢測方法分為如下4類。
1) 流量分析:該方法對批量的廣告點(diǎn)擊流量進(jìn)行分析,即根據(jù)每個(gè)用戶的點(diǎn)擊流量或每個(gè)時(shí)間段的點(diǎn)擊流量,找出不同于正常點(diǎn)擊流量的點(diǎn)擊數(shù)據(jù)。例如,Nagaraja等[4]針對時(shí)間序列點(diǎn)擊流量對點(diǎn)擊欺詐行為進(jìn)行檢測。
2) 數(shù)據(jù)挖掘:該方法針對廣告點(diǎn)擊數(shù)據(jù)挖掘出某種欺詐規(guī)則,并根據(jù)該規(guī)則識別未知點(diǎn)擊中的欺詐數(shù)據(jù)。例如,Gabryel[5]使用其改進(jìn)的TF-IDF詞頻統(tǒng)計(jì)方法,對點(diǎn)擊產(chǎn)生的數(shù)據(jù)構(gòu)造出TF-IDF矩陣,并進(jìn)一步使用近鄰分類器檢測欺詐的點(diǎn)擊。
3) 機(jī)器學(xué)習(xí):根據(jù)廣告點(diǎn)擊產(chǎn)生的數(shù)據(jù)構(gòu)建出相應(yīng)的特征,再使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)分類器通過這些特征識別欺詐點(diǎn)擊。例如,Mouawi等[6]利用有些廣告發(fā)布者會誘導(dǎo)用戶點(diǎn)擊感興趣的廣告鏈接的特點(diǎn),構(gòu)造出相應(yīng)的特征訓(xùn)練機(jī)器學(xué)習(xí)分類算法;董亞楠等[7]采用“Fisher分”算法選取重要的用戶行為特征,實(shí)現(xiàn)了在模型精度基本不變的情況下,加快模型的訓(xùn)練和檢測速度;Taneja等[8]將RFE方法與海靈格距離決策樹(HDDT)結(jié)合,用于不平衡數(shù)據(jù)集的檢測;張欣等[9]使用了Boosting-SVM集成模型,解決了SVM在點(diǎn)擊欺詐數(shù)據(jù)集中產(chǎn)生的過擬合現(xiàn)象;有研究者使用隨機(jī)森林模型,說明其檢測精度比SVM和邏輯回歸等模型高[10-11];Perera等[12]使用不同的機(jī)器學(xué)習(xí)模型,構(gòu)造出6種集成學(xué)習(xí)方案,實(shí)驗(yàn)說明在點(diǎn)擊欺詐中集成學(xué)習(xí)模型比單一模型更有效;另外,有不少研究者使用xgboost和LightGBM等梯度提升模型[13-16],取得了比一般機(jī)器學(xué)習(xí)模型更為優(yōu)異的效果;Thejas等結(jié)合級聯(lián)森林和xgboost[17],取得了比單一梯度提升模型更好的效果。
4) 蜜罐技術(shù):廣告商給發(fā)布者批量投放廣告鏈接時(shí),可在其中增加一些“虛假”的廣告鏈接,利用這種鏈接來判斷欺詐的點(diǎn)擊。通常真實(shí)用戶不會點(diǎn)擊“虛假”的廣告鏈接,點(diǎn)擊了這種廣告鏈接的用戶極有可能是軟件或程序模擬的用戶,進(jìn)一步可認(rèn)為該用戶的所有點(diǎn)擊均為欺詐的點(diǎn)擊。例如,Haddadi等[18]將展示給用戶的廣告以一定的概率替換為“虛假”廣告,以此來檢測“虛假”用戶。
綜上所述,流量分析方法利用廣告點(diǎn)擊流量對批量的點(diǎn)擊進(jìn)行分析,雖然流量數(shù)據(jù)獲取方便且檢測方法簡便,但該方法使用的數(shù)據(jù)較為單一,只能涵蓋多數(shù)欺詐點(diǎn)擊的規(guī)律,容易被不法發(fā)布者找到點(diǎn)擊流量的規(guī)律;數(shù)據(jù)挖掘方法提取出的欺詐規(guī)則基本上是欺詐點(diǎn)擊的通用規(guī)則,既無法涵蓋特殊欺詐點(diǎn)擊的特性,也容易被欺詐者規(guī)避;蜜罐技術(shù)利用“虛假”廣告鏈接來分辨欺詐的點(diǎn)擊,該方法易于實(shí)現(xiàn),然而不法發(fā)布者可針對真實(shí)用戶的點(diǎn)擊進(jìn)行分析,辨識真實(shí)的廣告鏈接,從而控制程序只點(diǎn)擊真實(shí)廣告鏈接以逃避檢測。
相較于流量分析、數(shù)據(jù)挖掘和蜜罐技術(shù)3類檢測方法,機(jī)器學(xué)習(xí)方法在點(diǎn)擊欺詐方面具有更好的檢測能力、可適應(yīng)性和魯棒性[2]。機(jī)器學(xué)習(xí)方法不單單根據(jù)一種或少量幾種點(diǎn)擊數(shù)據(jù)來辨認(rèn)欺詐的點(diǎn)擊,而是由多種數(shù)據(jù)構(gòu)建而成的特征數(shù)據(jù),這些特征數(shù)據(jù)由于種類較多,易于涵蓋更多的欺詐點(diǎn)擊特性。由于機(jī)器學(xué)習(xí)模型運(yùn)用的點(diǎn)擊數(shù)據(jù)種類較多,不法發(fā)布者很難找到某些規(guī)律來躲避點(diǎn)擊欺詐檢測。機(jī)器學(xué)習(xí)對于復(fù)雜數(shù)據(jù)的處理能力比其他方法相對較優(yōu),因此檢測能力比其他方法更好。
根據(jù)以上綜述的機(jī)器學(xué)習(xí)方法的文獻(xiàn)可知,有的研究者專注于點(diǎn)擊特征的構(gòu)建和選取,表明了所提特征的有效性,同時(shí)證明了特征的提取或選取是至關(guān)重要的一步;有的研究者則專注于機(jī)器學(xué)習(xí)模型的選取或構(gòu)造,研究結(jié)果證明了集成和梯度提升模型的檢測能力優(yōu)于普通機(jī)器學(xué)習(xí)模型。雖然上述提到的研究工作在提高點(diǎn)擊欺詐檢測能力的方面取得一定的效果,但每種方法都缺少將特征與模型結(jié)合的考慮,使模型很難進(jìn)一步提升檢測精度。此外,雖然在該問題下已存在梯度提升模型的集成模型[17],但現(xiàn)有的模型是集成了多種不同的梯度提升模型,這容易導(dǎo)致各種梯度提升模型之間相互制約,從而達(dá)不到更好的檢測效果。因此,探索一種特征選取與檢測模型結(jié)合的方法,盡可能提高點(diǎn)擊欺詐檢測精度,顯得必要且有意義。
高精度點(diǎn)擊欺詐檢測,需要綜合考慮特征或者模型兩個(gè)層面。本文提出了多類點(diǎn)擊欺詐特征的提取思路,并在此基礎(chǔ)上提出了一個(gè)集成的點(diǎn)擊欺詐檢測框架。本節(jié)描述特征構(gòu)建細(xì)節(jié)和集成框架構(gòu)建步驟。
在常規(guī)的點(diǎn)擊欺詐數(shù)據(jù)集中,存在用戶設(shè)備或網(wǎng)絡(luò)等屬性、發(fā)布者的網(wǎng)站或應(yīng)用屬性以及點(diǎn)擊時(shí)間屬性等,這些屬性大多數(shù)是類別屬性,而連續(xù)屬性較少。
為了盡可能讓檢測模型提取到比較豐富的信息特征,提高檢測精度,本文對點(diǎn)擊欺詐數(shù)據(jù)集中類別屬性和點(diǎn)擊時(shí)間屬性進(jìn)行擴(kuò)展,構(gòu)建出多類通用且合理的特征。本文把構(gòu)建的特征分為5類,以下詳細(xì)描述這5類特征的構(gòu)建思路。
1) 第1類特征:將數(shù)據(jù)集中除點(diǎn)擊時(shí)間屬性外的屬性直接作為特征。
5) 第5類特征:同樣利用點(diǎn)擊時(shí)間屬性值,考慮到“欺詐”的點(diǎn)擊可能與每個(gè)時(shí)間段內(nèi)的樣本數(shù)量相關(guān),因此將每個(gè)時(shí)間段內(nèi)的時(shí)間映射為時(shí)間段內(nèi)的樣本數(shù)量。
為了更好地將特征與模型結(jié)合,本文提出了一種新的檢測廣告點(diǎn)擊欺詐的集成框架,稱為CAT-RFE集成學(xué)習(xí)框架。如圖1所示,CAF-RFE集成學(xué)習(xí)框架主要由基分類器CatBoost、遞歸特征消除和Voting集成學(xué)習(xí)等組成。接下來介紹這3個(gè)組成部分。
圖1 CAT-RFE集成學(xué)習(xí)框架
Figure 1 CAT-RFE integrated learning framework
基分類器CatBoost:CatBoost是由Dorogush等在文獻(xiàn)[3]中提出的一種梯度提升模型,針對現(xiàn)有對類別特征處理的不足,引入了一個(gè)更有效的策略,使該模型能夠很好地處理類別特征,同時(shí)在訓(xùn)練中利用類別特征的優(yōu)勢,減少過擬合,使該模型在類別特征上的精度優(yōu)于現(xiàn)有的梯度提升模型。
遞歸特征消除:RFE是一種基于貪心策略的特征選擇方法,其目的是希望找到一種最佳的特征組合用于模型訓(xùn)練,雖然基于貪心策略的RFE方法可能找不到最優(yōu)特征組合,但隨著每一次將貢獻(xiàn)度最低的特征消除,RFE方法能夠找到貢獻(xiàn)度盡可能高的特征組合,因此,RFE是一種有效的特征選擇方法。RFE方法的步驟簡單,每次用相同的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,訓(xùn)練后將貢獻(xiàn)度最低的特征剔除,再用剩余的特征繼續(xù)訓(xùn)練,最終將交叉驗(yàn)證結(jié)果最好的特征組合作為目標(biāo)特征組合。
Voting集成學(xué)習(xí):Voting是最常見且最簡單的集成學(xué)習(xí)之一,其思想是少數(shù)服從多數(shù),將多個(gè)基分類器獨(dú)立訓(xùn)練,對每個(gè)基分類器的預(yù)測結(jié)果進(jìn)行投票,將票數(shù)多的結(jié)果作為集成學(xué)習(xí)的預(yù)測結(jié)果。Voting集成學(xué)習(xí)存在兩種投票方式,一種是hard voting,另一種是soft voting,前者是統(tǒng)計(jì)每個(gè)基分類器的預(yù)測結(jié)果,把每個(gè)基分類器的結(jié)果加權(quán)平均后作為集成學(xué)習(xí)的預(yù)測結(jié)果,而后者是統(tǒng)計(jì)每個(gè)基分類器的預(yù)測概率,將這些概率的加權(quán)平均值作為集成的預(yù)測概率。
本文框架采用CatBoost作為基分類器是考慮到CatBoost對類別特征的處理具有很好的效果;為了選擇出貢獻(xiàn)度較高的特征組合,CAT-RFE進(jìn)一步采用了RFE方法,將每一輪貢獻(xiàn)度最低的特征剔除;為了彌補(bǔ)RFE方法可能無法找到最優(yōu)特征組合的不足,CAT-RFE使用基分類器CatBoost,對從RFE方法得到的多個(gè)特征組合進(jìn)行訓(xùn)練,并使用voting進(jìn)行集成,從而得到集成預(yù)測結(jié)果。本文框架的算法步驟如下。
本文所使用的數(shù)據(jù)集來源于飛槳“MarTech Challenge點(diǎn)擊反欺詐預(yù)測”任務(wù),該數(shù)據(jù)集由模擬生成,對某些屬性含義進(jìn)行隱藏和脫敏處理。該數(shù)據(jù)集包含兩個(gè)文件,訓(xùn)練集和測試集,訓(xùn)練集中包含50萬次點(diǎn)擊數(shù)據(jù),每個(gè)點(diǎn)擊數(shù)據(jù)包含19個(gè)屬性和1個(gè)標(biāo)簽,測試集中包含15萬次點(diǎn)擊數(shù)據(jù),每個(gè)點(diǎn)擊數(shù)據(jù)僅包含19個(gè)屬性(無標(biāo)簽)。在數(shù)據(jù)集包含的19個(gè)屬性中,其中18個(gè)屬性可作為點(diǎn)擊數(shù)據(jù)的特征(樣本id除外),數(shù)據(jù)集屬性說明如表1所示。訓(xùn)練集的標(biāo)簽有兩種取值(“0”和“1”),其中“0”表示正常的點(diǎn)擊數(shù)據(jù),約占訓(xùn)練集數(shù)據(jù)總數(shù)的52%,“1”表示欺詐的點(diǎn)擊數(shù)據(jù),約占訓(xùn)練集總數(shù)的48%。
該數(shù)據(jù)集的標(biāo)簽類別較為平衡,無須對數(shù)據(jù)進(jìn)行采樣處理。但是數(shù)據(jù)集中包含大量缺失值,同時(shí)存在較多類別屬性的不同取值,這可能是該數(shù)據(jù)集檢測精度不高的原因。到2021年8月,沒有研究結(jié)果能在該數(shù)據(jù)集上達(dá)到89.5%以上的準(zhǔn)確性。
在構(gòu)建檢測模型之前,首先需要進(jìn)行數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理能夠幫助模型更完整地提取數(shù)據(jù)的特征,是提高模型精度的關(guān)鍵步驟之一。在數(shù)據(jù)預(yù)處理時(shí),本文首先需要分析各個(gè)屬性的數(shù)據(jù)類型,區(qū)分每個(gè)屬性是連續(xù)屬性還是類別屬性,這有利于構(gòu)建新特征以及后續(xù)選擇和設(shè)計(jì)檢測模型。
由表1中屬性說明可知,除了“dev_height”“dev_width”“dev_ppi”和“timestamp”這4個(gè)屬性是連續(xù)屬性之外,其余屬性均為類別屬性。對于“dev_height”“dev_width”和“dev_ppi”這3個(gè)屬性,由于其不同取值數(shù)量遠(yuǎn)小于數(shù)據(jù)總量,并且這些屬性值的大小關(guān)系和點(diǎn)擊是否為“欺詐”的相關(guān)性不大,因此可將這3個(gè)屬性視為類別屬性。而對于“timestamp”屬性,雖然時(shí)間是連續(xù)的概念,但考慮到點(diǎn)擊欺詐可能集中在一個(gè)時(shí)間段,而與時(shí)間點(diǎn)的關(guān)系不大,因此在構(gòu)建特征時(shí),可將該屬性離散化。
表1 數(shù)據(jù)集屬性說明
有些類別屬性的取值不能直接作為檢測模型的輸入,需要將屬性值轉(zhuǎn)化為模型能夠識別的數(shù)值,因此可對類別屬性采用數(shù)值編碼,同時(shí)將屬性缺失值視為該屬性的另外一個(gè)類別,將屬性類別編碼為連續(xù)的整數(shù)。
表2 新特征構(gòu)建
互聯(lián)網(wǎng)廣告點(diǎn)擊反欺詐檢測性能評估的常用指標(biāo)是準(zhǔn)確率(accuracy),該指標(biāo)用于評價(jià)檢測模型識別標(biāo)簽準(zhǔn)確性的能力。
其中,TP是實(shí)際標(biāo)簽為正例,預(yù)測為正例的數(shù)量;FP是實(shí)際標(biāo)簽為反例,而預(yù)測為正例的數(shù)量;TN是實(shí)際標(biāo)簽為反例,預(yù)測為反例的數(shù)量;FN是實(shí)際標(biāo)簽為正例,而預(yù)測為反例的數(shù)量。
“MarTech Challenge點(diǎn)擊反欺詐預(yù)測”數(shù)據(jù)集給出了一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊欺詐模型,其在該大型數(shù)據(jù)集上表現(xiàn)出良好性能,本文將該模型作為基線模型,對比新提出的框架的有效性。
基線模型包含輸入層、嵌入層、隱藏層和輸出層。其中,采用嵌入層是由于數(shù)據(jù)集中的屬性基本上是類別屬性,而每兩個(gè)不同的類別屬性值之間的距離無法用單個(gè)數(shù)值衡量,因此將類別屬性值嵌入高維空間中作為單位向量,使每兩個(gè)不同的類別屬性值之間的歐幾里得距離相等。
如圖2所示,基線模型首先對每個(gè)輸入數(shù)據(jù)分別做嵌入操作,每個(gè)嵌入操作分別提取出100維特征數(shù)據(jù);然后由隱藏層分別提取出16維特征數(shù)據(jù);最后將多個(gè)16維特征數(shù)據(jù)拼成一列數(shù)據(jù),再由輸出層輸出分類結(jié)果。
圖2 深度神經(jīng)網(wǎng)絡(luò)模型
Figure 2 Deep neural network model
在應(yīng)用提出的框架之前,先比較CatBoost與其他機(jī)器學(xué)習(xí)模型的檢測性能,以此來證明將CatBoost作為基分類器是最優(yōu)的選擇。為充分比較機(jī)器學(xué)習(xí)分類器的性能,根據(jù)分類模型的類型,選用其他6種分類器:近鄰、邏輯回歸、決策樹、隨機(jī)森林、LightGBM[19]和xgboost[20]。其中,近鄰屬于統(tǒng)計(jì)模型,邏輯回歸屬于線性模型,決策樹屬于樹型模型,隨機(jī)森林屬于樹集成模型,LightGBM、xgboost和CatBoost同屬于樹集成模型中的梯度提升模型。將總共7種分類模型對訓(xùn)練集做十折交叉驗(yàn)證,其中分類器的超參數(shù)除了將CatBoost的“iterations”設(shè)置為200以外,其余全設(shè)為默認(rèn)值。實(shí)驗(yàn)結(jié)果如表3所示,可見CatBoost對該數(shù)據(jù)集的檢測性能最優(yōu),因此選用CatBoost作為基分類器是比較合適的。
表3 不同分類器的實(shí)驗(yàn)結(jié)果
表4 不同特征組合的實(shí)驗(yàn)結(jié)果
表5 不同集成權(quán)重的CAT-RFE結(jié)果
表6分別比較了基線模型、CatBoost、使用遞歸特征消除方法以及本文框架的實(shí)驗(yàn)結(jié)果。其中,第1行是僅使用第一類特征在基線模型下的實(shí)驗(yàn)結(jié)果;第2行是僅使用第一類特征在CatBoost模型下的實(shí)驗(yàn)結(jié)果;第3行是構(gòu)建新特征后,使用所有特征在CatBoost模型下的實(shí)驗(yàn)結(jié)果;第4行是運(yùn)用RFE方法在所有特征中選擇交叉驗(yàn)證均值最高的特征組合,然后將該特征組合應(yīng)用于CatBoost模型的實(shí)驗(yàn)結(jié)果;第5行是使用所有特征在CAT-RFE集成學(xué)習(xí)框架下的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,新構(gòu)建的特征在CatBoost模型下精度有所提高,證明新構(gòu)建的特征是有效的。同時(shí),單純使用RFE方法選取的特征組合未必是最優(yōu)的特征組合,本文框架的表現(xiàn)優(yōu)于基線模型以及不使用和僅使用RFE的CatBoost模型,與基線深度神經(jīng)網(wǎng)絡(luò)模型相比在測試集上提升了1.35%的準(zhǔn)確率。本文框架使用基分類器將多個(gè)特征組合進(jìn)行訓(xùn)練再集成,基分類器選擇了多個(gè)相同的梯度提升模型,避免了多種及模型因性能差異大而導(dǎo)致的不穩(wěn)定問題,在互聯(lián)網(wǎng)廣告點(diǎn)擊欺詐檢測方面具備更優(yōu)的辨識能力。
表6 模型結(jié)果對比
針對互聯(lián)網(wǎng)廣告點(diǎn)擊欺詐檢測,現(xiàn)有的集成模型是將不同類型的多個(gè)基分類器進(jìn)行融合,但由于各個(gè)模型的檢測能力差異較大,往往相互制約,很難組合成一個(gè)檢測能力更好的模型。本文提出了CAT-RFE集成學(xué)習(xí)框架和一些關(guān)于點(diǎn)擊欺詐的特征構(gòu)建方法,框架不僅將特征與模型緊密結(jié)合,而且集成了多個(gè)相同的梯度提升模型,使框架更加魯棒。所提出的框架在實(shí)際大規(guī)模點(diǎn)擊欺詐檢測中表現(xiàn)出良好的效果,在“MarTech Challenge點(diǎn)擊反欺詐預(yù)測”大型數(shù)據(jù)集上取得了比基線模型、常見統(tǒng)計(jì)檢測模型和僅使用RFE方法選擇特征的模型更高的準(zhǔn)確率。在未來的工作中,將嘗試改進(jìn)RFE方法或考慮其他特征選取方法,以降低特征選擇的時(shí)間復(fù)雜度,并進(jìn)一步研究對基線模型進(jìn)行直接優(yōu)化,構(gòu)造更適合于點(diǎn)擊欺詐的深度學(xué)習(xí)模型。
[1] BORGI M, DESSAI P, MALIK V, et al. Advertisement click fraud detection system: a survey[J]. International Journal of Engineering Research & Technology (IJERT), 2021, 10(5): 553-560.
[2] GOHIL N, MENIYA A D. A survey on online advertising and click fraud detection[J]. Nayanaba Gohil Department of Information Technology Shantilal Shah Engineering, 2020.
[3] DOROGUSH A V, ERSHOV V, GULIN A. CatBoost: gradient boosting with categorical features support[J]. arXiv preprint arXiv:1810.11363, 2018.
[4] NAGARAJA S, SHAH R. Clicktok: click fraud detection using traffic analysis[C]//Proceedings of the 12th Conference on Security and Privacy in Wireless and Mobile Networks. 2019: 105-116.
[5] GABRYEL M. Data analysis algorithm for click fraud recognition[C]//International Conference on Information and Software Technologies. 2018: 437-446.
[6] MOUAWI R, AWAD M, CHEHAB A, et al. Towards a machine learning approach for detecting click fraud in mobile advertizing[C]//2018 International Conference on Innovations in Information Technology (IIT). 2018: 88-92.
[7] 董亞楠, 劉學(xué)軍, 李斌. 一種基于用戶行為特征選擇的點(diǎn)擊欺詐檢測方法[J]. 計(jì)算機(jī)科學(xué), 2016, 43(10): 145-149.
DONG Y, LIU X, LI B. Click fraud detection method based on user behavior feature selection[J]. Computer Science, 2016, 43(10): 145-149.
[8] TANEJA M, GARG K, PURWAR A, et al. Prediction of click frauds in mobile advertising[C]//2015 Eighth International Conference on Contemporary Computing (IC3). 2015: 162-166.
[9] 張欣, 劉學(xué)軍, 李斌, 等. 一種網(wǎng)絡(luò)廣告點(diǎn)擊欺詐檢測的SVM集成方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2018, 39(5): 951-956.
ZHANG X, LIU X J, LI B, et al. Application of SVM ensemble method to click fraud detection[J]. Journal of Chinese Computer Systems, 2018, 39(5): 951-956.
[10] BERRAR D. Random forests for the detection of click fraud in online mobile advertising[C]//Proceedings of the 1st International Workshop on Fraud Detection in Mobile Advertising. 2012: 1-10.
[11] SHAOHUI D, QIU G W, MAI H, et al. Customer transaction fraud detection using random forest[C]//2021 IEEE International Conference on Consumer Electronics and Computer Engineering (ICCECE). 2021: 144-147.
[12] PERERA K S, NEUPANE B, FAISAL M A, et al. A novel ensemble learning-based approach for click fraud detection in mobile advertising[M]//Mining Intelligence and Knowledge Exploration. 2013: 370-382.
[13] GOHIL N P, MENIYA A D. Click Ad fraud detection using xgboost gradient boosting algorithm[C]//International Conference on Computing Science, Communication and Security. 2021: 67-81.
[14] VIRUTHIKA B, DAS S S, KUMAR E M, et al. Detection of advertisement click fraud using machine learning[J]. International Journal of Advanced Science and Technology, 2020, 29(5): 3238-3245.
[15] MINASTIREANU E A, MESNITA G. Light GBM machine learning algorithm to online click fraud detection[J]. J Inform Assur Cybersecur, 2019, (2019): 263928.
[16] ZHANG Y, TONG J, WANG Z, et al. Customer transaction fraud detection using Xgboost model[C]//2020 International Conference on Computer Engineering and Application (ICCEA). 2020: 554-558.
[17] THEJAS G S, DHEESHJITH S, IYENGAR S S, et al. A hybrid and effective learning approach for Click Fraud detection[J]. Machine Learning with Applications, 2021, 3: 100016.
[18] HADDADI H. Fighting online click-fraud using bluff ads[J]. ACM SIGCOMM Computer Communication Review, 2010, 40(2): 21-25.
[19] KE G, MENG Q, FINLEY T, et al. Lightgbm: a highly efficient gradient boosting decision tree[J]. Advances in neural information processing systems, 2017, 30: 3146-3154.
[20] CHEN T, HE T, BENESTY M, et al. Xgboost: extreme gradient boosting[J]. R Package Version 0.4-2, 2015, 1(4): 1-4.
CAT-RFE: ensemble detection framework for click fraud
LU Yixiang1,GENG Guanggang1,YAN Zhiwei2, ZHUXiaomin3, ZHANG Xinchang4
1. College of Cyber Security, Jinan University, Guangzhou 510632, China 2. China Internet Network Information Center, Beijing 100190, China 3. Shandong Institute of Big Data,Jinan 250001, China 4. Shandong Academy of Sciences,Jinan 250001, China
Click fraud is one of the most common methods of cybercrime in recent years, and the Internet advertising industry suffers huge losses every year because of click fraud. In order to effectively detect fraudulent clicks within massive clicks, a variety of features that fully combine the relationship between advertising clicks and time attributes were constructed. Besides, an ensemble learning framework for click fraud detection was proposed, namely CAT-RFE ensemble learning framework. The CAT-RFE ensemble learning framework consisted of three parts: base classifier, recursive feature elimination (RFE) and voting ensemble learning. Among them, the gradient boosting model suitable for category features-CatBoost was used as the base classifier. RFE was a feature selection method based on greedy strategy, which can select a better feature combination from multiple sets of features. Voting ensemble learning was a learning method that combined the results of multiple base classifiers by voting. The framework obtained multiple sets of optimal feature combinations in the feature space through CatBoost and RFE, and then integrated the training results under these feature combinations through voting to obtain integrated click fraud detection results. The framework adopted the same base classifier and ensemble learning method, which not only overcame the problem of unsatisfactory integrated results due to the mutual constraints of different classifiers, but also overcame the tendency of RFE to fall into a local optimal solution when selecting features, so that it had better detection ability. The performance evaluation and comparative experimental results on the actual Internet click fraud dataset show that the click fraud detection ability of the CAT-RFE ensemble learning framework exceeds that of the CatBoost method, the combined method of CatBoost and RFE, and other machine learning methods, proving that the framework has good competitiveness. The proposed framework provides a feasible solution for Internet advertising click fraud detection.
click fraud detection, CatBoost, recursive feature elimination, ensemble learning
TP393
A
10.11959/j.issn.2096?109x.2022065
2021?09?23;
2022?01?05
耿光剛,gggeng@jnu.edu.cn
國家自然科學(xué)基金(92067108);廣東省自然科學(xué)基金(2021A1515011314)
The National Natural Science Foundation of China (92067108), The Natural Science Foundation of Guangdong Province (2021A1515011314)
盧翼翔, 耿光剛, 延志偉, 等. CAT-RFE:點(diǎn)擊欺詐的集成檢測框架[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2022, 8(5): 158-166.
Format: LU Y X, GENG G G, YAN Z W, et al. CAT-RFE: ensemble detection framework for click fraud[J]. Chinese Journal of Network and Information Security, 2022, 8(5): 158-166.
盧翼翔(1995?),男,廣東潮州人,暨南大學(xué)碩士生,主要研究方向?yàn)榻y(tǒng)計(jì)機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)空間安全。
耿光剛(1980?),男,山東泰安人,博士,暨南大學(xué)教授,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、大數(shù)據(jù)分析和互聯(lián)網(wǎng)基礎(chǔ)資源安全。
延志偉(1985?),男,山西興縣人,博士,中國互聯(lián)網(wǎng)絡(luò)信息中心研究員,主要研究方向?yàn)?IPv6 移動性管理、BGP安全機(jī)制、信息中心網(wǎng)絡(luò)架構(gòu)。
朱效民(1982?),男,山東萊蕪人,博士,山東齊魯大數(shù)據(jù)研究院副研究員,主要研究方向?yàn)楦咝阅苡?jì)算、大數(shù)據(jù)分析。
張新常(1975?),男,山東新泰人,博士,山東省科學(xué)院教授,主要研究方向?yàn)橹悄芫W(wǎng)絡(luò)、網(wǎng)絡(luò)架構(gòu)與協(xié)議,工業(yè)互聯(lián)網(wǎng)。