卞天宇 張昌兵 李琛霖
摘? ?要:文章以研究隱式反饋數(shù)據(jù)中識(shí)別用戶購(gòu)買行為為中心,應(yīng)用特征工程和Lightgbm算法進(jìn)行消費(fèi)者購(gòu)買行為研究,挖掘在線購(gòu)物行為數(shù)據(jù)背后的深層次關(guān)系,從用戶的行為軌跡,分析用戶的行為特征、偏好與興趣,從而了解顧客的購(gòu)物需求,最終達(dá)到提升電商平臺(tái)的購(gòu)買預(yù)測(cè)效果的目的。
關(guān)鍵詞:隱式反饋;購(gòu)買預(yù)測(cè);特征工程;Lightgbm算法
1? ? 問題的提出
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們步入信息過載時(shí)代。為了解決用戶搜尋有效信息需求以及提高商家的營(yíng)銷能力,電商平臺(tái)需要挖掘用戶行為以此向客戶推送個(gè)性化商品提高購(gòu)買轉(zhuǎn)化率。隱式反饋基于用戶使用APP時(shí)留下的自然行為,比如點(diǎn)擊、加入購(gòu)物車、購(gòu)買等行為,從用戶行為中“揣摩”喜好。隱式反饋的優(yōu)勢(shì)不僅限于數(shù)據(jù)收集效率,對(duì)用戶行為的深度挖掘可以提高平臺(tái)收入,準(zhǔn)確定位用戶需求,基于用戶行為的特征提取以及模型構(gòu)建可以提高購(gòu)買預(yù)測(cè)準(zhǔn)確率,減少用戶搜索時(shí)間,從而減少用戶流失。
近年來,一些學(xué)者正嘗試將機(jī)器學(xué)習(xí)算法和顧客購(gòu)物行為數(shù)據(jù)結(jié)合起來構(gòu)建預(yù)測(cè)模型。相關(guān)研究有:胡東波等[1]使用Decision tree算法對(duì)電子商務(wù)消費(fèi)者調(diào)查問卷進(jìn)行挖掘。張少帥[2]使用聚類克隆馬爾科夫模型對(duì)電子商務(wù)用戶的購(gòu)買行為進(jìn)行預(yù)測(cè)。楊瓊等[3]使用樸素貝葉斯對(duì)滿足特定條件的顧客購(gòu)買行為進(jìn)行預(yù)測(cè)。Silahtaroglu G等[4]使用了神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)消費(fèi)者是否會(huì)購(gòu)買購(gòu)物車?yán)锏纳唐贰I鲜鑫墨I(xiàn)在特征構(gòu)造上沒有重視構(gòu)造基于原始特征的組合和交叉特征,在模型方面仍處于對(duì)傳統(tǒng)樹模型的改進(jìn)階段。本文將以消費(fèi)者購(gòu)買行為為研究中心,通過特征工程和將Lightgbm算法應(yīng)用于對(duì)隱式反饋數(shù)據(jù)中購(gòu)買行為的識(shí)別,發(fā)現(xiàn)用戶的行為特征,了解顧客的需求,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,以期提升電商平臺(tái)的購(gòu)買預(yù)測(cè)效果。
2? ? Lightgbm算法的相關(guān)理論
2016年中國(guó)學(xué)者陳天奇設(shè)計(jì)Xgboost算法模型在眾多機(jī)器學(xué)習(xí)任務(wù)和國(guó)際重大數(shù)據(jù)競(jìng)賽取得了優(yōu)異成績(jī),2017年,Lightgbm作為微軟亞洲研究院開源的模型,則是在Xgboost上進(jìn)一步改進(jìn),而這兩者都是基于GBDT梯度提升決策樹這一經(jīng)典模型衍變而來的。
GBDT具有訓(xùn)練效果好、不易過擬合等優(yōu)點(diǎn),在工業(yè)界有著較廣泛的應(yīng)用,常被用于點(diǎn)擊率的預(yù)測(cè)、搜索排序等任務(wù)。
Xgboost較傳統(tǒng)的GBDT算法的優(yōu)勢(shì)在于:傳統(tǒng)的GBDT只利用了一階的導(dǎo)數(shù)信息,而Xgboost對(duì)損失函數(shù)進(jìn)行了二階的泰勒展開,求得模型最優(yōu)解的效率更高。
Lighgbm中的決策樹子模型是采用葉子分裂方法分裂節(jié)點(diǎn)的,因此,計(jì)算代價(jià)比較小,也正是因?yàn)檫x擇了這種分裂方式,需要控制樹的深度和每個(gè)葉子節(jié)點(diǎn)的最小數(shù)據(jù)量,從而避免過擬合現(xiàn)象的發(fā)生。
由于本文隱式反饋數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)稀疏、后期構(gòu)造的特征維度大且許多特征存在缺失值等諸多劣勢(shì),而Lighgbm的數(shù)據(jù)并行和投票并行恰好可以解決上述問題。
由于樣本嚴(yán)重失衡,正負(fù)樣本比達(dá)1∶67,所以本次實(shí)驗(yàn)中模型的效果評(píng)估采用F1指標(biāo),F(xiàn)1指標(biāo)實(shí)際上是預(yù)測(cè)準(zhǔn)確率和召回率的調(diào)和平均數(shù)。
3? ? 模型檢驗(yàn)
3.1? 數(shù)據(jù)來源
本文數(shù)據(jù)集來源于阿里AI天池社區(qū),包含了2017年11月25日至2017年12月3日,約100萬隨機(jī)用戶的所有行為。即數(shù)據(jù)集的每一行表示一條用戶行為,由用戶ID、商品ID、商品類目ID、行為類型和時(shí)間戳組成,并以逗號(hào)分隔。
3.2? 數(shù)據(jù)處理
從原始數(shù)據(jù)1 000 000萬用戶中隨機(jī)抽取9 688個(gè)用戶, 通過數(shù)據(jù)觀察可發(fā)現(xiàn)部分用戶在2017年11月25日至2017年12月3日只有瀏覽行為,沒有購(gòu)買行為,這類用戶疑似刷單用戶。部分用戶瀏覽、收藏、加購(gòu)物車記錄均為0,但是卻有購(gòu)買記錄,這類用戶疑似刷單用戶。剔除這兩類用戶及這兩類用戶的所有行為后,還剩下9 076個(gè)用戶及所產(chǎn)生的956 287條行為。
3.3? 數(shù)據(jù)分析
通過數(shù)據(jù)可視化探索,可以發(fā)現(xiàn)重要規(guī)律。圖1為購(gòu)買轉(zhuǎn)化率在距考察日(12月3日)時(shí)間上的分布。
基于圖1數(shù)據(jù)探索,將重點(diǎn)關(guān)注考察日前3日的用戶行為及他們加購(gòu)購(gòu)物車的行為,為了加快訓(xùn)練速度,訓(xùn)練集最終只保留3日內(nèi)有交互信息的用戶和商品。所以,實(shí)驗(yàn)將12月3日的購(gòu)買記錄作為測(cè)試集,12月2日當(dāng)日的數(shù)據(jù)作為驗(yàn)證集,將11月29日至12月1日作為訓(xùn)練集并構(gòu)建特征,然后用12月2日的購(gòu)買記錄來標(biāo)記訓(xùn)練集并用于調(diào)節(jié)訓(xùn)練集模型效果,最終訓(xùn)練好模型后,將11月29日至12月2日的數(shù)據(jù)合并構(gòu)建特征,然后一起放入模型,并將模型預(yù)測(cè)結(jié)果與測(cè)試集進(jìn)行比對(duì)。
3.4? 特征工程及數(shù)據(jù)結(jié)構(gòu)
隱式反饋的原始數(shù)據(jù)未經(jīng)過特征提取這一重要步驟,基本學(xué)習(xí)不到任何信息,更何況用戶對(duì)商品的喜好信息。所以,本次實(shí)驗(yàn)構(gòu)造了6個(gè)特征群,分別是U基礎(chǔ)特征群、I基礎(chǔ)特征群、C基礎(chǔ)特征群、U_I交叉特征群、U_C交叉特征群和I_C交叉特征群,總計(jì)為510個(gè)特征。
部分特征舉例:U_51為用戶在據(jù)觀察日一日內(nèi)加購(gòu)物車的購(gòu)買轉(zhuǎn)化率,該轉(zhuǎn)化率越高,在一定程度上說明該用戶的購(gòu)買能力就越強(qiáng)。
U_I_37為用戶在據(jù)觀察日一日內(nèi)對(duì)該商品的交互次數(shù)占該用戶當(dāng)日總交互次數(shù)的比例,占比越高,在一定程度上反映了該用戶對(duì)該商品關(guān)注是大于其他商品的。
3.5? 模型檢驗(yàn)
將處理好的數(shù)據(jù)送進(jìn)Lightgbm模型中去,經(jīng)過參數(shù)調(diào)節(jié),在最終的測(cè)試集上F1得分為6.79,同時(shí)選取了跟Lightgbm原理相似的兩個(gè)經(jīng)典機(jī)器學(xué)習(xí)模型作為對(duì)比,xgboost和GBDT在測(cè)試集上F1得分分別為:6.32和5.96,可以看出Lightgbm在3個(gè)模型中效果最好,同時(shí)訓(xùn)練耗時(shí)也可以接受,不失為一個(gè)不錯(cuò)的結(jié)果。
4? ? 結(jié)語
實(shí)驗(yàn)在對(duì)原始隱式反饋數(shù)據(jù)做了大量的特征工程的基礎(chǔ)上,Lightgbm算法能很好地運(yùn)用于電商隱式反饋數(shù)據(jù)的購(gòu)買預(yù)測(cè),并且性能優(yōu)異。本研究成果可以為電商平臺(tái)處理隱式反饋數(shù)據(jù)和進(jìn)行購(gòu)買預(yù)測(cè)提供一定有價(jià)值的參考。本課題有待進(jìn)一步深入研究的領(lǐng)域主要有:(1)特征提取完全依賴人工,除工作量巨大外,盡管構(gòu)建了大量豐富的特征,但有時(shí)難免出錯(cuò)或遺漏,如能引入一些自動(dòng)化特征提取方法,可以解決這個(gè)問題。(2)最終的預(yù)測(cè)結(jié)果僅使用了單一模型,如能使用模型融合的方法,可以克服單一模型的缺陷。
[參考文獻(xiàn)]
[1]胡東波,肖璇,周錦.基于數(shù)據(jù)挖掘的移動(dòng)電子商務(wù)用戶群體特征分析[J].科技管理研究,2013(9):222-226.
[2]張少帥,唐莉莉,鄭署琳.預(yù)測(cè)模型在購(gòu)物網(wǎng)站中的應(yīng)用[J].現(xiàn)代計(jì)算機(jī),2013(6):40-42.
[3]楊瓊,唐振平,陳建華,等.基于模糊樸素貝葉斯方法的客戶消費(fèi)行為預(yù)測(cè)研究[J].湖南科技學(xué)院學(xué)報(bào),2013(12):122-127.
[4]SILAHTAROGLU G,DONERTASLI H.Analysis and prediction of E-customers behavior by mining clickstream data[C]. Canifornia:International Conference on Big Data. IEEE,2015.