李伊林 段海龍 林振榮
1(江西省水利科學(xué)研究院 江西 南昌 330029) 2(南昌大學(xué)信息工程學(xué)院 江西 南昌 330031)
隨著電子商務(wù)的快速發(fā)展,電商平臺(tái)每天會(huì)產(chǎn)生海量的用戶瀏覽、購(gòu)買、商品評(píng)價(jià)等用戶行為數(shù)據(jù)。如果電子商務(wù)平臺(tái)能夠從海量的用戶行為數(shù)據(jù)中挖掘用戶潛在的意圖,就能夠?yàn)橛脩籼峁└觽€(gè)性化的服務(wù)和更加精準(zhǔn)的營(yíng)銷活動(dòng)。
國(guó)內(nèi)外的大部分學(xué)者對(duì)于用戶行為預(yù)測(cè)的研究主要都是基于客戶的歷史行為數(shù)據(jù),在對(duì)購(gòu)買行為預(yù)測(cè)的研究中,葛紹林等[1]構(gòu)建了基于深度森林的預(yù)測(cè)模型對(duì)用戶購(gòu)買行為進(jìn)行預(yù)測(cè)。張鵬翼等[2]利用機(jī)器學(xué)習(xí)中的分類模型,結(jié)合C&R決策樹和(Logistics)邏輯回歸模型,利用電子商務(wù)平臺(tái)消費(fèi)者數(shù)據(jù)進(jìn)行消費(fèi)行為預(yù)測(cè)。用戶購(gòu)買行為預(yù)測(cè)的復(fù)雜性使得單一的算法容易對(duì)用戶購(gòu)買行為預(yù)測(cè)陷入過(guò)擬合,為此許多學(xué)者提出了多模型融合的方法來(lái)解決這一問(wèn)題。祝歆等[3]、劉瀟蔓[4]分別應(yīng)用Logistic回歸、支持向量機(jī)、這兩者的融合方法搭建了購(gòu)買預(yù)測(cè)模型,證明融合算法的精確程度高于單一算法,并指出嘗試其他算法以及融合算法是未來(lái)的研究方向。李旭陽(yáng)等[5]結(jié)合LSTM算法預(yù)測(cè)的時(shí)序性提出了一種基于LSTM與隨機(jī)森林相結(jié)合的預(yù)測(cè)模型,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)融合模型在準(zhǔn)確率和召回率上均比單一隨機(jī)森林模型更高。
綜上本文提出基于XGBoost融合模型對(duì)用戶購(gòu)買行為進(jìn)行預(yù)測(cè)。融合模型利用LSTM、XGBoost、LR算法從不同角度對(duì)用戶行為進(jìn)行預(yù)測(cè),然后用XGBoost算法擬合各個(gè)算法的預(yù)測(cè)結(jié)果作為最終的預(yù)測(cè)結(jié)果。
用戶網(wǎng)絡(luò)購(gòu)物行為數(shù)據(jù)存在的最大的問(wèn)題就是數(shù)據(jù)分布不均衡,用戶購(gòu)買的過(guò)程中存在大量的用戶點(diǎn)擊、瀏覽、加購(gòu)物車等數(shù)據(jù),但是用戶的下單數(shù)據(jù)的比例卻很少[6]。為了提升不均衡數(shù)據(jù)的建模效果,提高少數(shù)類樣本分類精確度,可通過(guò)算法層面和數(shù)據(jù)層面進(jìn)行數(shù)據(jù)均衡化處理,即設(shè)計(jì)學(xué)習(xí)算法或改進(jìn)學(xué)習(xí)算法提升其對(duì)少數(shù)類樣本的識(shí)別率,或者利用欠采樣、過(guò)采樣或兩者結(jié)合的方法降低數(shù)據(jù)集的不均衡度。
隨機(jī)采樣是當(dāng)前解決類別不平衡問(wèn)題最簡(jiǎn)單和應(yīng)用最廣泛的采樣技術(shù),隨機(jī)欠采樣方法通過(guò)隨機(jī)的刪除適量的多數(shù)類樣本數(shù)據(jù)以達(dá)到平衡數(shù)據(jù)集的效果[7-8],但是隨機(jī)刪除負(fù)多數(shù)類樣本可能會(huì)刪除到一些典型的樣本,使得模型預(yù)測(cè)精度下降。隨機(jī)欠采樣數(shù)據(jù)平衡方法偽碼描述如算法1所示。
算法1隨機(jī)欠采樣算法
輸入:訓(xùn)練集S,正負(fù)樣本比率Sr。
輸出:數(shù)據(jù)平衡后的數(shù)據(jù)集。
P=S+,N=S-
//從樣本集S提取出正樣本與負(fù)樣本數(shù)據(jù)
//分別放入樣本數(shù)據(jù)集P、N
while len(P)/len(N)>Sr:
//循環(huán)從負(fù)樣本集刪除樣本,
//直到達(dá)到設(shè)定的平衡率
Rondomifrom(0,len(N))
//隨機(jī)生成負(fù)樣本的下標(biāo)i
DeleteN[i]
//刪除下表i的負(fù)樣本
end
S=P+N
//合并正負(fù)樣本數(shù)據(jù)集
針對(duì)隨機(jī)欠采樣數(shù)據(jù)平衡方法造成數(shù)據(jù)信息丟失的問(wèn)題,本文在隨機(jī)欠采樣方法的基礎(chǔ)上提出了基于K-means算法[9]的改進(jìn)隨機(jī)欠采樣方法。改進(jìn)的隨機(jī)欠采樣數(shù)據(jù)平衡方法的流程如圖1所示。
圖1 改進(jìn)欠采樣方法流程
改進(jìn)的欠采樣數(shù)據(jù)平衡方法是在隨機(jī)欠采樣平衡方法加入K-Means算法對(duì)多數(shù)類樣本數(shù)據(jù)進(jìn)行聚類,首先運(yùn)用K-Means算法將多數(shù)類樣本劃分為多個(gè)簇類,然后利用隨機(jī)欠采樣方法從各個(gè)不同的簇類中選取一定比例的樣本加入新的樣本集,最后將新的樣本集與少數(shù)類樣本集合。
K-Means算法的初始化聚類中心對(duì)最終的聚類結(jié)果影響很大[10],傳統(tǒng)的K-Means算法初始化聚類中心是在數(shù)據(jù)集中隨機(jī)選取數(shù)據(jù)對(duì)象作為聚類中心,如果在初始化聚類中心時(shí)選擇的中心樣本的距離很近的話會(huì)導(dǎo)致K-Means算法難以收斂?;谶@種思想本文對(duì)傳統(tǒng)K-Means算法初始化聚類中心的過(guò)程進(jìn)行了改進(jìn),在初始化聚類中心點(diǎn)時(shí)使得這些聚類中心盡可能分散。改進(jìn)初始化聚類中心的具體流程如下:
1) 獲得聚類數(shù)k和數(shù)據(jù)樣本總數(shù)s,將數(shù)據(jù)集全部加入聚類中心候選數(shù)據(jù)集中。
2) 隨機(jī)地從聚類中心候選數(shù)據(jù)集中選擇一個(gè)數(shù)據(jù)作為一個(gè)聚類中心,并計(jì)算所有數(shù)據(jù)樣本與該聚類中心的歐氏距離,然后將距離最近的前s/k條樣本數(shù)據(jù)移出聚類中心候選數(shù)據(jù)集。
3) 重復(fù)步驟2)直到獲得k個(gè)聚類中心點(diǎn)。
極限梯度提升算法(eXtreme Gradient Boosting,XGBoost)是由Chen等[11]提出的一種規(guī)模較大的算法。當(dāng)XGBoost使用樹算法作為基分類器時(shí),它就是在GBDT算法的基礎(chǔ)上做了一些改進(jìn)。XGBoost算法對(duì)每棵樹進(jìn)行了預(yù)剪枝,傳統(tǒng)GBDT只用損失函數(shù)的一階導(dǎo)數(shù)信息進(jìn)行優(yōu)化,XGBoost算法對(duì)損失函數(shù)進(jìn)行了二階泰勒展開,同時(shí)用到了一、二階導(dǎo)數(shù)信息,相當(dāng)于使用牛頓法優(yōu)化損失函數(shù)[12-14]。
XGBoost算法采用加法模型的方式訓(xùn)練模型,每次新增的基模型都是在上一個(gè)基模型的基礎(chǔ)上訓(xùn)練得到的。
(1)
(2)
XGBoost算法在損失函數(shù)里引入了正則項(xiàng),提升了單棵樹的泛化能力。式(3)給出了損失函數(shù)的計(jì)算方法,損失函數(shù)包含預(yù)測(cè)結(jié)果的誤差評(píng)估和正則項(xiàng),正則項(xiàng)是樹的復(fù)雜度之和,用于控制模型的復(fù)雜度。
(3)
正則項(xiàng)的展開形式如式(4)所示,參數(shù)T表示葉子節(jié)點(diǎn)的個(gè)數(shù),參數(shù)w表示葉子節(jié)點(diǎn)的預(yù)測(cè)值。通過(guò)參數(shù)γ可以對(duì)葉子節(jié)點(diǎn)的數(shù)量進(jìn)行限制,參數(shù)λ可以調(diào)節(jié)葉子節(jié)點(diǎn)的預(yù)測(cè)值大小防止出現(xiàn)預(yù)測(cè)值過(guò)大的情況,通過(guò)這兩個(gè)參數(shù)可以有效地防止過(guò)擬合。
(4)
基于預(yù)測(cè)模型的預(yù)測(cè)特點(diǎn),融合模型的基學(xué)習(xí)器使用LSTM算法、XGBoost算法、邏輯回歸算法,融合模型中基學(xué)習(xí)器算法與不同類別的預(yù)測(cè)算法能夠結(jié)合各類算法的優(yōu)勢(shì)提高融合預(yù)測(cè)模型的泛化能力。融合模型的構(gòu)造過(guò)程描述如下:
(1) 運(yùn)用改進(jìn)的過(guò)采樣平衡方法處理數(shù)據(jù)集的正負(fù)樣本不平衡問(wèn)題,得到數(shù)據(jù)集D。
(2) 將訓(xùn)練數(shù)據(jù)集D平均地劃分成2份數(shù)據(jù)集D1、D2。
(3) 用訓(xùn)練數(shù)據(jù)集D1分別訓(xùn)練LSTM模型、XGBoost預(yù)測(cè)模型、LR預(yù)測(cè)模型作為融合模型的基學(xué)習(xí)器。
(4) 將訓(xùn)練數(shù)據(jù)集D2輸入到各個(gè)基學(xué)習(xí)器獲得模型的預(yù)測(cè)結(jié)果,并將預(yù)測(cè)結(jié)果加入到數(shù)據(jù)集D2的特征屬性中。
(5) 用訓(xùn)練集D2訓(xùn)練XGBoost模型作為元學(xué)習(xí)器,完成融合模型的訓(xùn)練。
融合模型構(gòu)建流程如圖2所示。
圖2 融合模型構(gòu)建流程
本文的實(shí)驗(yàn)數(shù)據(jù)是JData數(shù)據(jù)挖掘大賽提供的京東商城真實(shí)的在線交易數(shù)據(jù)。數(shù)據(jù)集給出2016年2月1日到2016年4月15日的線上交易數(shù)據(jù)。數(shù)據(jù)集包含用戶基本信息、商品基本信息、用戶對(duì)商品的評(píng)價(jià)信息、用戶對(duì)商品的交互信息,其中備注說(shuō)明為“脫敏”的字段的具體信息是做了信息隱藏等處理后的內(nèi)容,以免用戶等具體信息泄露。數(shù)據(jù)集的具體信息如表1-表4所示。
表1 用戶基本信息
表2 商品基本信息
表3 商品評(píng)論數(shù)據(jù)
表4 用戶行為數(shù)據(jù)
對(duì)用戶商品交互行為分析發(fā)現(xiàn)用戶的點(diǎn)擊行為非常大,結(jié)合電子商務(wù)用戶行為研究可以認(rèn)為點(diǎn)擊行為對(duì)于購(gòu)買行為的影響非常低可以忽略不計(jì)。對(duì)于瀏覽行為非常大卻沒(méi)有購(gòu)買行為的用戶可以認(rèn)定為爬蟲用戶,這類用戶主要是為了獲取商城的商品數(shù)據(jù),這類數(shù)據(jù)對(duì)預(yù)測(cè)模型的訓(xùn)練會(huì)產(chǎn)生很大影響,所以需要將這類用戶的行為數(shù)據(jù)去除。本文對(duì)原始數(shù)據(jù)的清洗過(guò)程如下:
(1) 特征數(shù)據(jù)缺失用-1填充。
(2) 數(shù)值化特征值,對(duì)原始數(shù)據(jù)中的用戶屬性的性別進(jìn)行數(shù)值化。
(3) 對(duì)特征值進(jìn)行獨(dú)熱編碼,本文對(duì)用戶的行為數(shù)據(jù)(如加購(gòu)物車、瀏覽商品、購(gòu)買商品)進(jìn)行獨(dú)熱編碼處理。
(4) 刪除異常數(shù)據(jù),異常數(shù)據(jù)主要來(lái)自于一些基本上沒(méi)有記錄的用戶,還有一些就是特別活躍但卻沒(méi)有任何購(gòu)買記錄的爬蟲用戶的相關(guān)數(shù)據(jù)。如果將這些值放入到訓(xùn)練集的話會(huì)嚴(yán)重影響模型的精度,所以將這些異常數(shù)據(jù)刪掉。
經(jīng)過(guò)特征提取與特征選擇后,本文最后所用到的預(yù)測(cè)特征體系由用戶特征群、商品特征群、商品類別特征群、用戶-商品特征群構(gòu)成。本文選取的特征情況如下:
(1) 用戶特征群。用戶特征群由用戶的基本特征和用戶的衍生特征構(gòu)成。用戶的基本特征包括:用戶的等級(jí);用戶購(gòu)買商品的種類數(shù);用戶購(gòu)買商品的品牌、類別數(shù)。用戶的衍生特征包括:用戶對(duì)商品的四種交互行為(瀏覽、收藏、加購(gòu)物車、關(guān)注行為)的購(gòu)買轉(zhuǎn)化率;用戶的購(gòu)買活躍度(用戶購(gòu)買商品的總次數(shù)與購(gòu)買商品的實(shí)際天數(shù)的比值);用戶購(gòu)買活躍度在所有用戶中的排名。
(2) 商品特征群。商品特征群由商品的基本特征和商品的衍生特征構(gòu)成。商品基本特征包括:商品的類別、品牌等各類屬性;購(gòu)買該種商品的人數(shù)。商品的衍生特征包括: 商品的四種交互行為(關(guān)注、收藏、加購(gòu)物車)的購(gòu)買轉(zhuǎn)化率;商品的購(gòu)買人數(shù)在該商品所屬品類的排名;商品的購(gòu)買轉(zhuǎn)化率在該商品所屬類別的排名;商品的四種交互行為的趨勢(shì)(商品預(yù)測(cè)日期前1天的四種交互行為的數(shù)量與日平均交互行為數(shù)量的比值)。
(3) 商品類別特征群。商品類別特征群包括:不同的商品類別包含的商品的數(shù)量;不同的商品類別購(gòu)買的總?cè)藬?shù)。
(4) 用戶-商品特征群。用戶-商品特征群包括:預(yù)測(cè)日期前,該用戶對(duì)該商品的四種交互行為數(shù);預(yù)測(cè)日前第1天、第2天、第3天,該用戶對(duì)該商品四種交互行為數(shù);預(yù)測(cè)日前5天、前7天、前9天、前11天,該用戶對(duì)該商品四種交互行為數(shù)。
對(duì)于數(shù)據(jù)類別不平衡的預(yù)測(cè)存在正樣本數(shù)量稀少、樣本分布較為稀疏的情況,這種情況下預(yù)測(cè)模型會(huì)偏向識(shí)別負(fù)樣本而正樣本很難識(shí)別到,在實(shí)際應(yīng)用中正樣本的識(shí)別具有更高的價(jià)值。為了更清楚地看到正樣本的預(yù)測(cè)效果,本文采用混淆矩陣、召回率等來(lái)評(píng)價(jià)數(shù)據(jù)不平衡的分類問(wèn)題[15]。表5給出了二分類問(wèn)題的混淆矩陣。
表5 混淆矩陣
針對(duì)本文的預(yù)測(cè)情況的解釋:定義U-S(U:user_id用戶id,S:sku_id商品id)表示用戶和商品的對(duì)應(yīng)關(guān)系,模型預(yù)測(cè)的輸出結(jié)果就是U-S對(duì),U-S值為1表示用戶購(gòu)買該商品,U-S值為0表示用戶不購(gòu)買該商品。TP是指模型預(yù)測(cè)為購(gòu)買情況且實(shí)際也購(gòu)買了的U-S的數(shù)量,F(xiàn)P是指模型預(yù)測(cè)為會(huì)產(chǎn)生購(gòu)買而實(shí)際沒(méi)有購(gòu)買的U-S數(shù)量,TN是指模型預(yù)測(cè)為不會(huì)產(chǎn)生購(gòu)買而實(shí)際上產(chǎn)生購(gòu)買的U-S數(shù)量,F(xiàn)N是指模型預(yù)測(cè)為不會(huì)產(chǎn)生購(gòu)買實(shí)際上也沒(méi)產(chǎn)生購(gòu)買的U-S數(shù)量。
本文主要關(guān)注的是購(gòu)買行為預(yù)測(cè)的效果不需要知道未購(gòu)買行為的預(yù)測(cè)效果,所以預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)有購(gòu)買行為預(yù)測(cè)的精確率(precision)、召回率(recall)。精確率就是模型預(yù)測(cè)的所有U-S值為1的正確率,這體現(xiàn)了模型對(duì)正樣本預(yù)測(cè)的準(zhǔn)確率。召回率是指預(yù)測(cè)對(duì)的U-S占所有的實(shí)際U-S結(jié)果的比率,這體現(xiàn)模型預(yù)測(cè)正確的U-S對(duì)在所有的實(shí)際U-S結(jié)果的命中率。精確率和召回率的數(shù)學(xué)公式表示如下:
(5)
為了更好地評(píng)價(jià)模型,本文選用F1值作為模型的評(píng)價(jià)指標(biāo),F(xiàn)1值計(jì)算方法如下:
(6)
實(shí)驗(yàn)所用的XGBoost預(yù)測(cè)模型是基于Python的XGBoost類庫(kù)構(gòu)建的。LSTM預(yù)測(cè)模型是基于Keras神經(jīng)網(wǎng)絡(luò)庫(kù)和Scikit-learn機(jī)器學(xué)習(xí)庫(kù)構(gòu)建,LR預(yù)測(cè)模型是基于Scikit-learn機(jī)器學(xué)習(xí)庫(kù)構(gòu)建的。通過(guò)不同參數(shù)組合的方式,對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行了比較最終確定了模型主要的參數(shù)。
(1) XGBoost模型。eta=0.01,n_estimators=700,max_depth=4,min_child_weight=3,gamma=0.3,subsample=0.9,colsample_bytree=0.8,即在模型參數(shù)調(diào)優(yōu)的模型學(xué)習(xí)步長(zhǎng)為0.03,決策樹的數(shù)量為700個(gè),樹的最大深度為4,最小葉子權(quán)重為3,正則項(xiàng)系數(shù)gamma為0.3,訓(xùn)練樣本數(shù)據(jù)的采樣比例為0.9,樣本特征的采樣比例為0.8。
(2) LSTM模型。LSTM預(yù)測(cè)模型是堆疊式LSTM架構(gòu),第一層LSTM的units=200,第二層LSTM的units=50,全連接層輸出維度1,激活函數(shù)使用tanh,損失函數(shù)使用mse,優(yōu)化器選用adam。
(3) LR模型。penalty=L2、C=0.5、solver=liblinear、max_iter=100、class_weight=balance,即模型的正則化方式為L(zhǎng)2,懲罰系數(shù)0.5,使用了坐標(biāo)軸下降法來(lái)迭代優(yōu)化損失函數(shù),模型迭代訓(xùn)練100次,由模型計(jì)算不同類別樣本的權(quán)重。
通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)集的分析發(fā)現(xiàn)訓(xùn)練集的正負(fù)樣本比例存在嚴(yán)重失衡,為了更好地訓(xùn)練預(yù)測(cè)模型本文提出數(shù)據(jù)平衡策略處理訓(xùn)練數(shù)據(jù)集。在數(shù)據(jù)劃分后對(duì)訓(xùn)練數(shù)據(jù)集的分析中發(fā)現(xiàn)未加入數(shù)據(jù)平衡策略的原始數(shù)據(jù)樣本數(shù)據(jù)的正負(fù)樣本比達(dá)到0.002 9,訓(xùn)練集正負(fù)樣本嚴(yán)重失衡,為此本文利用欠采樣平衡方法對(duì)數(shù)據(jù)進(jìn)行平衡發(fā)現(xiàn)正負(fù)樣本比為0.05時(shí)模型預(yù)測(cè)效果較好。表6給出了XGBoost預(yù)測(cè)模型、LSTM預(yù)測(cè)模型和LR預(yù)測(cè)模型在欠采樣平衡方法下的預(yù)測(cè)效果。對(duì)比各個(gè)模型在欠采樣數(shù)據(jù)平衡方法下的預(yù)測(cè)效果,XGBoost模型的預(yù)測(cè)F1值要明顯高于其他兩種預(yù)測(cè)算法,就單一預(yù)測(cè)模型來(lái)說(shuō)XGBoost對(duì)于用戶購(gòu)買行為預(yù)測(cè)是一個(gè)很好的選擇。
表6 欠采樣平衡方法下各模型預(yù)測(cè)效果
為了測(cè)試不同的k值對(duì)基于K-Means算法的欠采樣數(shù)據(jù)平衡方法的影響,對(duì)比了不同k值基于K-Means算法的欠采樣平衡方法下各個(gè)模型的預(yù)測(cè)效果,圖3顯示了各個(gè)模型在不同k值的基于K-Means算法的欠采樣平衡方法的預(yù)測(cè)F1值。
圖3 不同k值的改進(jìn)隨機(jī)欠采樣方法下模型的預(yù)測(cè)效果
可以看出在隨機(jī)欠采樣平衡方法中加入K-Means算法后數(shù)據(jù)平衡效果有了明顯的提高。對(duì)比XGBoost預(yù)測(cè)模型、LSTM預(yù)測(cè)模型和LR預(yù)測(cè)模型在不同k值基于K-Means算法的改進(jìn)欠采樣平衡方法的F1值,k值為30時(shí)各個(gè)模型的預(yù)測(cè)F1值都比較高。表7給出加入k值為30的改進(jìn)欠采樣平衡方法后各個(gè)模型的預(yù)測(cè)效果。
表7 加入數(shù)據(jù)平衡算法模型預(yù)測(cè)效果
如圖4所示,在改進(jìn)欠采樣數(shù)據(jù)平衡方法下各個(gè)模型的預(yù)測(cè)效果相較于隨機(jī)欠采樣數(shù)據(jù)平衡方法下的預(yù)測(cè)效果都有了明顯的提升,其中LSTM預(yù)測(cè)模型預(yù)測(cè)F1值增長(zhǎng)了48%,XGBoost預(yù)測(cè)模型預(yù)測(cè)F1值增長(zhǎng)17%,LR預(yù)測(cè)模型預(yù)測(cè)F1值增長(zhǎng)40%。在改進(jìn)隨機(jī)欠采樣據(jù)平衡方法后LR預(yù)測(cè)模型和LSTM預(yù)測(cè)模型的預(yù)測(cè)效果提升較大。
圖4 是否加入平衡方法各個(gè)模型預(yù)測(cè)F1值
為了提高預(yù)測(cè)模型對(duì)用戶購(gòu)買行為預(yù)測(cè)的準(zhǔn)確率。本文結(jié)合XGBoost在過(guò)擬合處理、訓(xùn)練速度方面的優(yōu)勢(shì)和LSTM算法處理時(shí)序性問(wèn)題的優(yōu)勢(shì),通過(guò)集成方法將多種算法組合起來(lái)進(jìn)行預(yù)測(cè)。圖5展示了融合預(yù)測(cè)模型與各個(gè)單一預(yù)測(cè)模型的預(yù)測(cè)效果,融合模型相對(duì)于單一的預(yù)測(cè)模型預(yù)測(cè)效果有很大的提升,融合模型F1值相對(duì)于預(yù)測(cè)效果最好的XGBoost預(yù)測(cè)模型提升了9%。
圖5 融合模型與單一模型預(yù)測(cè)效果對(duì)比
為了進(jìn)一步比較各個(gè)模型的穩(wěn)定性,本文將測(cè)試數(shù)據(jù)集的5個(gè)預(yù)測(cè)周期的數(shù)據(jù)劃分出5份測(cè)試數(shù)據(jù)集分別測(cè)試各個(gè)預(yù)測(cè)模型,預(yù)測(cè)結(jié)果如圖6所示。單一預(yù)測(cè)模型預(yù)測(cè)效果最好的是XGBoost預(yù)測(cè)模型,XGBoost預(yù)測(cè)模型對(duì)各個(gè)測(cè)試集的預(yù)測(cè)F1值要高于LSTM預(yù)測(cè)模型和LR預(yù)測(cè)模型,但是XGBoost預(yù)測(cè)模型對(duì)不同測(cè)試集的預(yù)測(cè)F1值差別較大。對(duì)比XGBoost預(yù)測(cè)模型的預(yù)測(cè)效果,基于XGBoost的融合模型的預(yù)測(cè)效果和預(yù)測(cè)的穩(wěn)定性都要優(yōu)于單一的XGBoost預(yù)測(cè)模型。
圖6 各個(gè)模型的預(yù)測(cè)F1值
對(duì)用戶行為數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)用戶行為數(shù)據(jù)存在不平衡問(wèn)題,正負(fù)樣本的嚴(yán)重失衡會(huì)對(duì)模型的預(yù)測(cè)效果造成嚴(yán)重影響,對(duì)此針對(duì)數(shù)據(jù)的嚴(yán)重失衡問(wèn)題提出基于K-Means算法的欠采樣平衡方法,有效地解決了數(shù)據(jù)集的正負(fù)樣本嚴(yán)重失衡的情況。
本文對(duì)LR算法、LSTM算法、XGBoost算法進(jìn)行分析,比較了各個(gè)預(yù)測(cè)算法的特點(diǎn),利用Stacking集成方法將這些算法進(jìn)行融合獲得融合預(yù)測(cè)模型算法。最后利用京東大數(shù)據(jù)提供的公開數(shù)據(jù)集設(shè)計(jì)了相關(guān)實(shí)驗(yàn),從模型預(yù)測(cè)準(zhǔn)確率、性能等各項(xiàng)指標(biāo)評(píng)估了各個(gè)算法模型。實(shí)驗(yàn)表明模型基于XGBoost融合預(yù)測(cè)模型在預(yù)測(cè)穩(wěn)定性和預(yù)測(cè)效果方面要明顯優(yōu)于傳統(tǒng)的單一機(jī)器學(xué)習(xí)模型。