国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Catboost算法的優(yōu)惠券個(gè)性化投放

2018-12-18 11:09廣東工業(yè)大學(xué)劉嘉穗
電子世界 2018年23期
關(guān)鍵詞:優(yōu)惠券梯度個(gè)性化

廣東工業(yè)大學(xué) 劉嘉穗

優(yōu)惠券投放是O2O消費(fèi)模式的一種重要營(yíng)銷(xiāo)手段,但隨機(jī)投放會(huì)給大多數(shù)用戶帶來(lái)無(wú)意義的攪擾,并且還會(huì)增加商家業(yè)務(wù)的營(yíng)銷(xiāo)成本。因此,本文對(duì)真實(shí)的用戶歷史行為信息進(jìn)行挖掘,并基于Catboost算法對(duì)用戶未來(lái)是否會(huì)核銷(xiāo)優(yōu)惠券進(jìn)行預(yù)測(cè),進(jìn)而個(gè)性化向用戶投放優(yōu)惠券。Catboost是一種新型的梯度提升樹(shù)算法,相較于傳統(tǒng)算法,它具有更高的準(zhǔn)確度,因此,可以更加準(zhǔn)確地預(yù)測(cè)用戶將來(lái)的消費(fèi)模式,進(jìn)而為優(yōu)惠券的個(gè)性化投放提供一種更為可靠的決策依據(jù)。

1.概述

在線上平臺(tái)消費(fèi)的過(guò)程中,人們會(huì)留下如瀏覽、搜索、點(diǎn)擊、收藏、評(píng)論等一系列行為特征指標(biāo),并最終會(huì)產(chǎn)生購(gòu)買(mǎi)與否的消費(fèi)行為結(jié)果。國(guó)外著名電商巨頭亞馬遜,通過(guò)對(duì)用戶線上的這一系列行為特征和行為結(jié)果進(jìn)行挖掘分析,得到用戶的喜好和購(gòu)買(mǎi)規(guī)律,預(yù)測(cè)用戶的消費(fèi)行為,以此為基礎(chǔ),構(gòu)建推薦系統(tǒng)對(duì)用戶進(jìn)行個(gè)性化推薦。據(jù)調(diào)研,其推薦轉(zhuǎn)化率高達(dá)60%(Linden,G.,Smith,B.,York,J.,2003.Amazon.com recommendations:Item-to-item collaborative filtering.Internet Computing,IEEE 7,76-80)。國(guó)外視頻網(wǎng)站Netflix(Amatriain X,Basilico J.Netflix recommendations:beyond the 5 stars(part I)[J].Netflix Tech Blog,2012,6)和社交平臺(tái)Facebook(唐穎.巴克萊卡:Facebook廣告效果頗佳[J].國(guó)際品牌觀察,2012(8):110-111)也都基于自己平臺(tái)上的用戶行為日志,打造個(gè)性化商品推薦和廣告投放服務(wù),在進(jìn)一步增加公司利潤(rùn)的同時(shí),也有效地提升了用戶體驗(yàn)和用戶粘性,實(shí)現(xiàn)用戶、商家共贏。

許多學(xué)者也結(jié)合機(jī)器學(xué)習(xí)方法對(duì)推薦系統(tǒng)進(jìn)行研究,以進(jìn)一步提升推薦效果。朱奕健等人以隨機(jī)森林為模型,基于電信業(yè)務(wù)數(shù)據(jù),構(gòu)建電信運(yùn)營(yíng)商外呼推薦系統(tǒng),有效提高了外呼用戶的接受率(朱奕健,張正卿,黃一清,自瑞瑞,嚴(yán)建峰.基于隨機(jī)森林模型的電信運(yùn)營(yíng)商外呼推薦系統(tǒng)[J].計(jì)算機(jī)科學(xué),2016(S2))。He X等(HE X,PAN J,JIN O,et al.Practical Lessons from Predicting Clicks on Ads at Facebook[C]//Eighth International Workshop on Data Mining for Online Advertising.ACM,2014:1-9)將梯度提升樹(shù)(GBDT)和邏輯回歸(LR)相結(jié)合,通過(guò)GBDT對(duì)特征進(jìn)行非線性映射,并用LR進(jìn)行訓(xùn)練,以此提升廣告的點(diǎn)擊率預(yù)估,為廣告的個(gè)性化投放提供決策依據(jù)。O2O消費(fèi)模式自然與數(shù)以?xún)|計(jì)的消費(fèi)者相關(guān),商戶平臺(tái)記錄著海量的用戶行為日志。本文通過(guò)分析用戶的歷史交互日志,從用戶、商戶、優(yōu)惠券等多方面構(gòu)造特征,并引入新型的梯度提升樹(shù)算法Catboost進(jìn)行訓(xùn)練,預(yù)測(cè)用戶將來(lái)是否會(huì)核銷(xiāo)優(yōu)惠券。實(shí)驗(yàn)表明,相較于傳統(tǒng)算法,Catboost具有更高的預(yù)測(cè)準(zhǔn)確度,為優(yōu)惠券的個(gè)性化投放提供了可靠的決策依據(jù)。

2.數(shù)據(jù)處理

2.1 數(shù)據(jù)描述

本文采用阿里巴巴天池大數(shù)據(jù)平臺(tái)的開(kāi)放數(shù)據(jù)集,包含了用戶、商戶和優(yōu)惠券三者在2016年1月1日至2016年6月30日的真實(shí)交互行為(https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.1000 73.0.0.36ed6fc1dn1mQN&dataId=59),每條消費(fèi)記錄包含了用戶、商戶、優(yōu)惠券、優(yōu)惠率、用戶與商戶的距離、優(yōu)惠券領(lǐng)取日期以及消費(fèi)日期共7個(gè)字段。用戶的行為結(jié)果分為“使用優(yōu)惠券進(jìn)行消費(fèi)(正樣本)”、“沒(méi)有領(lǐng)取優(yōu)惠券進(jìn)行消費(fèi)(普通消費(fèi))”以及“領(lǐng)取了優(yōu)惠券但沒(méi)有進(jìn)行消費(fèi)(負(fù)樣本)”。通過(guò)挖掘歷史行為記錄,對(duì)用戶在未來(lái)15天內(nèi)是否會(huì)核銷(xiāo)優(yōu)惠券進(jìn)行預(yù)測(cè)。

2.2 特征構(gòu)造

原始數(shù)據(jù)包含的信息較少,不足以表征用戶的消費(fèi)行為習(xí)慣,同時(shí)原始數(shù)據(jù)也包含了大量的缺失值以及各種非數(shù)值型數(shù)據(jù),不能直接用于模型的訓(xùn)練。為此,我們對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)歸納,構(gòu)造特征如表1所示。

表1 各類(lèi)特征描述

表1分別包含用戶、商戶、優(yōu)惠券、用戶-商戶四個(gè)維度的特征。用戶特征包括用戶的總消費(fèi)次數(shù)、優(yōu)惠券的領(lǐng)取和使用次數(shù)以及優(yōu)惠券領(lǐng)取和使用的時(shí)間間隔統(tǒng)計(jì)等,反映的是用戶在此期間的消費(fèi)行為表現(xiàn)。同樣,商店和消費(fèi)券特征也僅反映商店和消費(fèi)券自身的受歡迎程度。用戶-商店屬于交叉特征,反映的是用戶對(duì)商店的喜歡程度或是消費(fèi)的可能性。

3.算法描述

化我們的損失函數(shù)并得到最終的強(qiáng)學(xué)習(xí)器,算法流程如圖1所示,訓(xùn)練集為,損失函數(shù),以及迭代次數(shù)M。

由上述算法流程我們可以很清楚地發(fā)現(xiàn)GBDT就是在函數(shù)空間中的梯度下降。我們首先求得損失函數(shù)關(guān)于F(x)的負(fù)梯度,隨后訓(xùn)練基學(xué)習(xí)器去擬合負(fù)梯度并得到最優(yōu)步長(zhǎng),最后將各步得到的基學(xué)習(xí)器相加,也即是不斷地減去梯度,進(jìn)而得到最終的強(qiáng)學(xué)習(xí)器FM(x)。

3.1 GBDT

梯度提升決策樹(shù)(GBDT)(Jerome H Friedman.2001.Greedy function approximation:a gradient boosting machine.Annals of statistics(2001)1189-1232)是由Friedman提出的基于boosting框架的集成學(xué)習(xí)方法,它認(rèn)為boosting在一些適當(dāng)?shù)膿p失函數(shù)中是一種優(yōu)化算法。它的核心思想類(lèi)似于梯度下降,通過(guò)在函數(shù)空間中迭代地選取基學(xué)習(xí)器(通常是決策樹(shù))來(lái)指向損失函數(shù)的負(fù)梯度方向,進(jìn)而優(yōu)

圖1 GBDT算法流程

3.2 Catboost

Catboost(A.V.Dorogush,A.Gulin,G.Gusev,N.Kazeev,L.Ostroumova Prokhorenkova,and A.Vorobev.Fighting biases with dynamic boosting.arXiv preprint arXiv:1706.09516,2017)是Gradient Boosting的一種新型實(shí)現(xiàn)。正如上一節(jié)的算法流程所示,在傳統(tǒng)的GBDT的每一步迭代中,它都是基于相同的數(shù)據(jù)集求得損失函數(shù)對(duì)于當(dāng)前模型的梯度,并基于該梯度來(lái)訓(xùn)練得到基學(xué)習(xí)器,但這會(huì)導(dǎo)致逐點(diǎn)梯度估計(jì)偏差,從而使得最終學(xué)習(xí)到的模型過(guò)擬合。Catboost通過(guò)采用Ordered Boosting的方式對(duì)經(jīng)典算法中梯度估計(jì)方式進(jìn)行改變,進(jìn)而獲得對(duì)梯度的無(wú)偏估計(jì),以減輕梯度估計(jì)偏差的影響,提高模型的泛化能力,Ordered Boosting的算法流程如圖2所示。

圖2 Ordered Boosting流程

由上述流程可知,為了得到無(wú)偏梯度估計(jì),Catboost對(duì)每一個(gè)樣本xi都會(huì)訓(xùn)練一個(gè)單獨(dú)的模型Mi,模型Mi由使用不包含樣本xi的訓(xùn)練集訓(xùn)練得到。我們使用Mi來(lái)得到關(guān)于樣本的梯度估計(jì),并使用該梯度來(lái)訓(xùn)練基學(xué)習(xí)器并得到最終的模型。

3.3 評(píng)判指標(biāo)

對(duì)于顧客是否會(huì)在指定時(shí)間內(nèi)核銷(xiāo)優(yōu)惠券,我們將其轉(zhuǎn)換為一二分類(lèi)問(wèn)題進(jìn)行處理,并且我們重點(diǎn)關(guān)注模型的泛化性能力,所以我們采用ROC曲線下面積AUC來(lái)作為評(píng)判模型的指標(biāo)。我們基于模型的預(yù)測(cè)結(jié)果對(duì)樣本進(jìn)行排序,計(jì)算得到“真正例率”(True Positive Rate,TPR)和“假正例率”(False Positive Rate,FPR)并分別作為縱軸和橫軸從而得到ROC曲線,最終得到曲線下面積AUC。具體公式如下:

其中TP為正確預(yù)測(cè)的正樣本數(shù),F(xiàn)P錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù),TN為正確預(yù)測(cè)的負(fù)樣本數(shù),F(xiàn)N為錯(cuò)誤預(yù)測(cè)的正樣本數(shù)。

4.實(shí)驗(yàn)結(jié)果

我們從時(shí)間維度上對(duì)原始數(shù)據(jù)進(jìn)行滑窗劃分,以連續(xù)4個(gè)月作為一個(gè)窗口,一個(gè)月作為間隔,將前三個(gè)月作為特征數(shù)據(jù),后一個(gè)月作為標(biāo)簽數(shù)據(jù),以此將原始數(shù)據(jù)分為3個(gè)數(shù)據(jù)集。我們使用前兩個(gè)數(shù)據(jù)集訓(xùn)練模型,用第三個(gè)數(shù)據(jù)集來(lái)測(cè)試模型,得到模型的AUC并和傳統(tǒng)的GBDT和另一種著名實(shí)現(xiàn)Xgboost(T.Chen and C.Guestrin.Xgboost:A scalable tree boosting system.In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,pages 785-794.ACM,2016)進(jìn)行對(duì)比,ROC曲線和AUC結(jié)果如圖3和表2所示。

表2 AUC結(jié)果對(duì)比

圖3 ROC曲線

如結(jié)果所示,Catboost算法的AUC值都高于其它兩種算法,相較于其它兩種算法,Catboost具有更高的準(zhǔn)確度和更強(qiáng)的泛化能力。

5.結(jié)語(yǔ)

本文采用新型梯度提升決策樹(shù)Catboost算法,并基于真實(shí)的客戶歷史行為信息構(gòu)造用戶消費(fèi)模型,預(yù)測(cè)用戶是否會(huì)在指定時(shí)間內(nèi)核銷(xiāo)優(yōu)惠券。實(shí)驗(yàn)結(jié)果表明,Catboost具有更高的準(zhǔn)確度和更好的的泛化能力,從而能更加準(zhǔn)確地預(yù)測(cè)用戶將來(lái)的消費(fèi)模式,進(jìn)而為優(yōu)惠券的個(gè)性化投放提供一種更為可靠的決策依據(jù)。

猜你喜歡
優(yōu)惠券梯度個(gè)性化
一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
淘寶直播優(yōu)惠券怎么設(shè)置
一種自適應(yīng)Dai-Liao共軛梯度法
巧用優(yōu)惠券
堅(jiān)持個(gè)性化的寫(xiě)作
一類(lèi)扭積形式的梯度近Ricci孤立子
新聞的個(gè)性化寫(xiě)作
上汽大通:C2B個(gè)性化定制未來(lái)
基于地理定向的移動(dòng)優(yōu)惠券策略
滿足群眾的個(gè)性化需求
白水县| 临洮县| 安溪县| 霍邱县| 清徐县| 海原县| 微山县| 阿坝县| 伊吾县| 天津市| 方正县| 湖南省| 揭西县| 额敏县| 文安县| 偏关县| 介休市| 乌兰察布市| 昆山市| 游戏| 剑川县| 沅江市| 星子县| 丽水市| 枣强县| 贵定县| 朝阳县| 遵义市| 镶黄旗| 罗江县| 贺兰县| 额济纳旗| 三亚市| 大宁县| 龙南县| 洛宁县| 县级市| 毕节市| 甘肃省| 周口市| 平阳县|