基于Catboost算法的優(yōu)惠券個(gè)性化投放

2018-12-18 11:09廣東工業(yè)大學(xué)劉嘉穗

電子世界 2018年23期

廣東工業(yè)大學(xué) 劉嘉穗

優(yōu)惠券投放是O2O消費(fèi)模式的一種重要營(yíng)銷(xiāo)手段，但隨機(jī)投放會(huì)給大多數(shù)用戶帶來(lái)無(wú)意義的攪擾，并且還會(huì)增加商家業(yè)務(wù)的營(yíng)銷(xiāo)成本。因此，本文對(duì)真實(shí)的用戶歷史行為信息進(jìn)行挖掘，并基于Catboost算法對(duì)用戶未來(lái)是否會(huì)核銷(xiāo)優(yōu)惠券進(jìn)行預(yù)測(cè)，進(jìn)而個(gè)性化向用戶投放優(yōu)惠券。Catboost是一種新型的梯度提升樹(shù)算法，相較于傳統(tǒng)算法，它具有更高的準(zhǔn)確度，因此，可以更加準(zhǔn)確地預(yù)測(cè)用戶將來(lái)的消費(fèi)模式，進(jìn)而為優(yōu)惠券的個(gè)性化投放提供一種更為可靠的決策依據(jù)。

1.概述

在線上平臺(tái)消費(fèi)的過(guò)程中，人們會(huì)留下如瀏覽、搜索、點(diǎn)擊、收藏、評(píng)論等一系列行為特征指標(biāo)，并最終會(huì)產(chǎn)生購(gòu)買(mǎi)與否的消費(fèi)行為結(jié)果。國(guó)外著名電商巨頭亞馬遜，通過(guò)對(duì)用戶線上的這一系列行為特征和行為結(jié)果進(jìn)行挖掘分析，得到用戶的喜好和購(gòu)買(mǎi)規(guī)律，預(yù)測(cè)用戶的消費(fèi)行為，以此為基礎(chǔ)，構(gòu)建推薦系統(tǒng)對(duì)用戶進(jìn)行個(gè)性化推薦。據(jù)調(diào)研，其推薦轉(zhuǎn)化率高達(dá)60%（Linden,G.,Smith,B.,York,J.,2003.Amazon.com recommendations:Item-to-item collaborative filtering.Internet Computing,IEEE 7,76-80）。國(guó)外視頻網(wǎng)站Netflix（Amatriain X,Basilico J.Netflix recommendations:beyond the 5 stars(part I)[J].Netflix Tech Blog,2012,6）和社交平臺(tái)Facebook（唐穎.巴克萊卡:Facebook廣告效果頗佳[J].國(guó)際品牌觀察,2012(8):110-111）也都基于自己平臺(tái)上的用戶行為日志，打造個(gè)性化商品推薦和廣告投放服務(wù)，在進(jìn)一步增加公司利潤(rùn)的同時(shí)，也有效地提升了用戶體驗(yàn)和用戶粘性，實(shí)現(xiàn)用戶、商家共贏。

許多學(xué)者也結(jié)合機(jī)器學(xué)習(xí)方法對(duì)推薦系統(tǒng)進(jìn)行研究，以進(jìn)一步提升推薦效果。朱奕健等人以隨機(jī)森林為模型，基于電信業(yè)務(wù)數(shù)據(jù)，構(gòu)建電信運(yùn)營(yíng)商外呼推薦系統(tǒng)，有效提高了外呼用戶的接受率（朱奕健,張正卿,黃一清,自瑞瑞,嚴(yán)建峰.基于隨機(jī)森林模型的電信運(yùn)營(yíng)商外呼推薦系統(tǒng)[J].計(jì)算機(jī)科學(xué),2016(S2)）。He X等（HE X,PAN J,JIN O,et al.Practical Lessons from Predicting Clicks on Ads at Facebook[C]//Eighth International Workshop on Data Mining for Online Advertising.ACM,2014:1-9）將梯度提升樹(shù)（GBDT）和邏輯回歸（LR）相結(jié)合，通過(guò)GBDT對(duì)特征進(jìn)行非線性映射，并用LR進(jìn)行訓(xùn)練，以此提升廣告的點(diǎn)擊率預(yù)估，為廣告的個(gè)性化投放提供決策依據(jù)。O2O消費(fèi)模式自然與數(shù)以?xún)|計(jì)的消費(fèi)者相關(guān)，商戶平臺(tái)記錄著海量的用戶行為日志。本文通過(guò)分析用戶的歷史交互日志，從用戶、商戶、優(yōu)惠券等多方面構(gòu)造特征，并引入新型的梯度提升樹(shù)算法Catboost進(jìn)行訓(xùn)練，預(yù)測(cè)用戶將來(lái)是否會(huì)核銷(xiāo)優(yōu)惠券。實(shí)驗(yàn)表明，相較于傳統(tǒng)算法，Catboost具有更高的預(yù)測(cè)準(zhǔn)確度，為優(yōu)惠券的個(gè)性化投放提供了可靠的決策依據(jù)。

2.數(shù)據(jù)處理

2.1 數(shù)據(jù)描述

本文采用阿里巴巴天池大數(shù)據(jù)平臺(tái)的開(kāi)放數(shù)據(jù)集，包含了用戶、商戶和優(yōu)惠券三者在2016年1月1日至2016年6月30日的真實(shí)交互行為（https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.1000 73.0.0.36ed6fc1dn1mQN&dataId=59），每條消費(fèi)記錄包含了用戶、商戶、優(yōu)惠券、優(yōu)惠率、用戶與商戶的距離、優(yōu)惠券領(lǐng)取日期以及消費(fèi)日期共7個(gè)字段。用戶的行為結(jié)果分為“使用優(yōu)惠券進(jìn)行消費(fèi)（正樣本）”、“沒(méi)有領(lǐng)取優(yōu)惠券進(jìn)行消費(fèi)（普通消費(fèi)）”以及“領(lǐng)取了優(yōu)惠券但沒(méi)有進(jìn)行消費(fèi)（負(fù)樣本）”。通過(guò)挖掘歷史行為記錄，對(duì)用戶在未來(lái)15天內(nèi)是否會(huì)核銷(xiāo)優(yōu)惠券進(jìn)行預(yù)測(cè)。

2.2 特征構(gòu)造

原始數(shù)據(jù)包含的信息較少，不足以表征用戶的消費(fèi)行為習(xí)慣，同時(shí)原始數(shù)據(jù)也包含了大量的缺失值以及各種非數(shù)值型數(shù)據(jù)，不能直接用于模型的訓(xùn)練。為此，我們對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)歸納，構(gòu)造特征如表1所示。

表1 各類(lèi)特征描述

表1分別包含用戶、商戶、優(yōu)惠券、用戶-商戶四個(gè)維度的特征。用戶特征包括用戶的總消費(fèi)次數(shù)、優(yōu)惠券的領(lǐng)取和使用次數(shù)以及優(yōu)惠券領(lǐng)取和使用的時(shí)間間隔統(tǒng)計(jì)等，反映的是用戶在此期間的消費(fèi)行為表現(xiàn)。同樣，商店和消費(fèi)券特征也僅反映商店和消費(fèi)券自身的受歡迎程度。用戶-商店屬于交叉特征，反映的是用戶對(duì)商店的喜歡程度或是消費(fèi)的可能性。

3.算法描述

化我們的損失函數(shù)并得到最終的強(qiáng)學(xué)習(xí)器，算法流程如圖1所示，訓(xùn)練集為，損失函數(shù)，以及迭代次數(shù)M。

由上述算法流程我們可以很清楚地發(fā)現(xiàn)GBDT就是在函數(shù)空間中的梯度下降。我們首先求得損失函數(shù)關(guān)于F(x)的負(fù)梯度，隨后訓(xùn)練基學(xué)習(xí)器去擬合負(fù)梯度并得到最優(yōu)步長(zhǎng)，最后將各步得到的基學(xué)習(xí)器相加，也即是不斷地減去梯度，進(jìn)而得到最終的強(qiáng)學(xué)習(xí)器FM(x)。

3.1 GBDT

梯度提升決策樹(shù)（GBDT）（Jerome H Friedman.2001.Greedy function approximation:a gradient boosting machine.Annals of statistics(2001)1189-1232）是由Friedman提出的基于boosting框架的集成學(xué)習(xí)方法，它認(rèn)為boosting在一些適當(dāng)?shù)膿p失函數(shù)中是一種優(yōu)化算法。它的核心思想類(lèi)似于梯度下降，通過(guò)在函數(shù)空間中迭代地選取基學(xué)習(xí)器（通常是決策樹(shù)）來(lái)指向損失函數(shù)的負(fù)梯度方向，進(jìn)而優(yōu)

圖1 GBDT算法流程

3.2 Catboost

Catboost（A.V.Dorogush,A.Gulin,G.Gusev,N.Kazeev,L.Ostroumova Prokhorenkova,and A.Vorobev.Fighting biases with dynamic boosting.arXiv preprint arXiv:1706.09516,2017）是Gradient Boosting的一種新型實(shí)現(xiàn)。正如上一節(jié)的算法流程所示，在傳統(tǒng)的GBDT的每一步迭代中，它都是基于相同的數(shù)據(jù)集求得損失函數(shù)對(duì)于當(dāng)前模型的梯度，并基于該梯度來(lái)訓(xùn)練得到基學(xué)習(xí)器，但這會(huì)導(dǎo)致逐點(diǎn)梯度估計(jì)偏差，從而使得最終學(xué)習(xí)到的模型過(guò)擬合。Catboost通過(guò)采用Ordered Boosting的方式對(duì)經(jīng)典算法中梯度估計(jì)方式進(jìn)行改變，進(jìn)而獲得對(duì)梯度的無(wú)偏估計(jì)，以減輕梯度估計(jì)偏差的影響，提高模型的泛化能力，Ordered Boosting的算法流程如圖2所示。

圖2 Ordered Boosting流程

由上述流程可知，為了得到無(wú)偏梯度估計(jì)，Catboost對(duì)每一個(gè)樣本xi都會(huì)訓(xùn)練一個(gè)單獨(dú)的模型Mi，模型Mi由使用不包含樣本xi的訓(xùn)練集訓(xùn)練得到。我們使用Mi來(lái)得到關(guān)于樣本的梯度估計(jì)，并使用該梯度來(lái)訓(xùn)練基學(xué)習(xí)器并得到最終的模型。

3.3 評(píng)判指標(biāo)

對(duì)于顧客是否會(huì)在指定時(shí)間內(nèi)核銷(xiāo)優(yōu)惠券，我們將其轉(zhuǎn)換為一二分類(lèi)問(wèn)題進(jìn)行處理，并且我們重點(diǎn)關(guān)注模型的泛化性能力，所以我們采用ROC曲線下面積AUC來(lái)作為評(píng)判模型的指標(biāo)。我們基于模型的預(yù)測(cè)結(jié)果對(duì)樣本進(jìn)行排序，計(jì)算得到“真正例率”(True Positive Rate,TPR)和“假正例率”(False Positive Rate,FPR)并分別作為縱軸和橫軸從而得到ROC曲線，最終得到曲線下面積AUC。具體公式如下：

其中TP為正確預(yù)測(cè)的正樣本數(shù)，F(xiàn)P錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù)，TN為正確預(yù)測(cè)的負(fù)樣本數(shù)，F(xiàn)N為錯(cuò)誤預(yù)測(cè)的正樣本數(shù)。

4.實(shí)驗(yàn)結(jié)果

我們從時(shí)間維度上對(duì)原始數(shù)據(jù)進(jìn)行滑窗劃分，以連續(xù)4個(gè)月作為一個(gè)窗口，一個(gè)月作為間隔，將前三個(gè)月作為特征數(shù)據(jù)，后一個(gè)月作為標(biāo)簽數(shù)據(jù)，以此將原始數(shù)據(jù)分為3個(gè)數(shù)據(jù)集。我們使用前兩個(gè)數(shù)據(jù)集訓(xùn)練模型，用第三個(gè)數(shù)據(jù)集來(lái)測(cè)試模型，得到模型的AUC并和傳統(tǒng)的GBDT和另一種著名實(shí)現(xiàn)Xgboost（T.Chen and C.Guestrin.Xgboost:A scalable tree boosting system.In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,pages 785-794.ACM,2016）進(jìn)行對(duì)比，ROC曲線和AUC結(jié)果如圖3和表2所示。

表2 AUC結(jié)果對(duì)比

圖3 ROC曲線

如結(jié)果所示，Catboost算法的AUC值都高于其它兩種算法，相較于其它兩種算法，Catboost具有更高的準(zhǔn)確度和更強(qiáng)的泛化能力。

5.結(jié)語(yǔ)

本文采用新型梯度提升決策樹(shù)Catboost算法，并基于真實(shí)的客戶歷史行為信息構(gòu)造用戶消費(fèi)模型，預(yù)測(cè)用戶是否會(huì)在指定時(shí)間內(nèi)核銷(xiāo)優(yōu)惠券。實(shí)驗(yàn)結(jié)果表明，Catboost具有更高的準(zhǔn)確度和更好的的泛化能力，從而能更加準(zhǔn)確地預(yù)測(cè)用戶將來(lái)的消費(fèi)模式，進(jìn)而為優(yōu)惠券的個(gè)性化投放提供一種更為可靠的決策依據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡