數(shù)據(jù)平衡與模型融合的用戶購(gòu)買行為預(yù)測(cè)

2022-10-10 09:25李伊林段海龍林振榮

計(jì)算機(jī)應(yīng)用與軟件 2022年9期

李伊林段海龍林振榮

1(江西省水利科學(xué)研究院江西南昌 330029) 2(南昌大學(xué)信息工程學(xué)院江西南昌 330031)

0 引言

隨著電子商務(wù)的快速發(fā)展，電商平臺(tái)每天會(huì)產(chǎn)生海量的用戶瀏覽、購(gòu)買、商品評(píng)價(jià)等用戶行為數(shù)據(jù)。如果電子商務(wù)平臺(tái)能夠從海量的用戶行為數(shù)據(jù)中挖掘用戶潛在的意圖，就能夠?yàn)橛脩籼峁└觽€(gè)性化的服務(wù)和更加精準(zhǔn)的營(yíng)銷活動(dòng)。

國(guó)內(nèi)外的大部分學(xué)者對(duì)于用戶行為預(yù)測(cè)的研究主要都是基于客戶的歷史行為數(shù)據(jù)，在對(duì)購(gòu)買行為預(yù)測(cè)的研究中，葛紹林等[1]構(gòu)建了基于深度森林的預(yù)測(cè)模型對(duì)用戶購(gòu)買行為進(jìn)行預(yù)測(cè)。張鵬翼等[2]利用機(jī)器學(xué)習(xí)中的分類模型，結(jié)合C&R決策樹和(Logistics)邏輯回歸模型，利用電子商務(wù)平臺(tái)消費(fèi)者數(shù)據(jù)進(jìn)行消費(fèi)行為預(yù)測(cè)。用戶購(gòu)買行為預(yù)測(cè)的復(fù)雜性使得單一的算法容易對(duì)用戶購(gòu)買行為預(yù)測(cè)陷入過(guò)擬合，為此許多學(xué)者提出了多模型融合的方法來(lái)解決這一問(wèn)題。祝歆等[3]、劉瀟蔓[4]分別應(yīng)用Logistic回歸、支持向量機(jī)、這兩者的融合方法搭建了購(gòu)買預(yù)測(cè)模型，證明融合算法的精確程度高于單一算法，并指出嘗試其他算法以及融合算法是未來(lái)的研究方向。李旭陽(yáng)等[5]結(jié)合LSTM算法預(yù)測(cè)的時(shí)序性提出了一種基于LSTM與隨機(jī)森林相結(jié)合的預(yù)測(cè)模型，通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)融合模型在準(zhǔn)確率和召回率上均比單一隨機(jī)森林模型更高。

綜上本文提出基于XGBoost融合模型對(duì)用戶購(gòu)買行為進(jìn)行預(yù)測(cè)。融合模型利用LSTM、XGBoost、LR算法從不同角度對(duì)用戶行為進(jìn)行預(yù)測(cè)，然后用XGBoost算法擬合各個(gè)算法的預(yù)測(cè)結(jié)果作為最終的預(yù)測(cè)結(jié)果。

1 改進(jìn)的欠采樣方法

用戶網(wǎng)絡(luò)購(gòu)物行為數(shù)據(jù)存在的最大的問(wèn)題就是數(shù)據(jù)分布不均衡，用戶購(gòu)買的過(guò)程中存在大量的用戶點(diǎn)擊、瀏覽、加購(gòu)物車等數(shù)據(jù)，但是用戶的下單數(shù)據(jù)的比例卻很少[6]。為了提升不均衡數(shù)據(jù)的建模效果，提高少數(shù)類樣本分類精確度，可通過(guò)算法層面和數(shù)據(jù)層面進(jìn)行數(shù)據(jù)均衡化處理，即設(shè)計(jì)學(xué)習(xí)算法或改進(jìn)學(xué)習(xí)算法提升其對(duì)少數(shù)類樣本的識(shí)別率，或者利用欠采樣、過(guò)采樣或兩者結(jié)合的方法降低數(shù)據(jù)集的不均衡度。

隨機(jī)采樣是當(dāng)前解決類別不平衡問(wèn)題最簡(jiǎn)單和應(yīng)用最廣泛的采樣技術(shù)，隨機(jī)欠采樣方法通過(guò)隨機(jī)的刪除適量的多數(shù)類樣本數(shù)據(jù)以達(dá)到平衡數(shù)據(jù)集的效果[7-8]，但是隨機(jī)刪除負(fù)多數(shù)類樣本可能會(huì)刪除到一些典型的樣本，使得模型預(yù)測(cè)精度下降。隨機(jī)欠采樣數(shù)據(jù)平衡方法偽碼描述如算法1所示。

算法1隨機(jī)欠采樣算法

輸入：訓(xùn)練集S，正負(fù)樣本比率Sr。

輸出：數(shù)據(jù)平衡后的數(shù)據(jù)集。

P=S+,N=S-

//從樣本集S提取出正樣本與負(fù)樣本數(shù)據(jù)

//分別放入樣本數(shù)據(jù)集P、N

while len(P)/len(N)>Sr：

//循環(huán)從負(fù)樣本集刪除樣本，

//直到達(dá)到設(shè)定的平衡率

Rondomifrom(0,len(N))

//隨機(jī)生成負(fù)樣本的下標(biāo)i

DeleteN[i]

//刪除下表i的負(fù)樣本

end

S=P+N

//合并正負(fù)樣本數(shù)據(jù)集

針對(duì)隨機(jī)欠采樣數(shù)據(jù)平衡方法造成數(shù)據(jù)信息丟失的問(wèn)題，本文在隨機(jī)欠采樣方法的基礎(chǔ)上提出了基于K-means算法[9]的改進(jìn)隨機(jī)欠采樣方法。改進(jìn)的隨機(jī)欠采樣數(shù)據(jù)平衡方法的流程如圖1所示。

圖1 改進(jìn)欠采樣方法流程

改進(jìn)的欠采樣數(shù)據(jù)平衡方法是在隨機(jī)欠采樣平衡方法加入K-Means算法對(duì)多數(shù)類樣本數(shù)據(jù)進(jìn)行聚類，首先運(yùn)用K-Means算法將多數(shù)類樣本劃分為多個(gè)簇類，然后利用隨機(jī)欠采樣方法從各個(gè)不同的簇類中選取一定比例的樣本加入新的樣本集，最后將新的樣本集與少數(shù)類樣本集合。

K-Means算法的初始化聚類中心對(duì)最終的聚類結(jié)果影響很大[10]，傳統(tǒng)的K-Means算法初始化聚類中心是在數(shù)據(jù)集中隨機(jī)選取數(shù)據(jù)對(duì)象作為聚類中心，如果在初始化聚類中心時(shí)選擇的中心樣本的距離很近的話會(huì)導(dǎo)致K-Means算法難以收斂?；谶@種思想本文對(duì)傳統(tǒng)K-Means算法初始化聚類中心的過(guò)程進(jìn)行了改進(jìn)，在初始化聚類中心點(diǎn)時(shí)使得這些聚類中心盡可能分散。改進(jìn)初始化聚類中心的具體流程如下：

1) 獲得聚類數(shù)k和數(shù)據(jù)樣本總數(shù)s，將數(shù)據(jù)集全部加入聚類中心候選數(shù)據(jù)集中。

2) 隨機(jī)地從聚類中心候選數(shù)據(jù)集中選擇一個(gè)數(shù)據(jù)作為一個(gè)聚類中心，并計(jì)算所有數(shù)據(jù)樣本與該聚類中心的歐氏距離，然后將距離最近的前s/k條樣本數(shù)據(jù)移出聚類中心候選數(shù)據(jù)集。

3) 重復(fù)步驟2)直到獲得k個(gè)聚類中心點(diǎn)。

2 用戶購(gòu)買行為預(yù)測(cè)模型

2.1 極限梯度提升算法

極限梯度提升算法(eXtreme Gradient Boosting，XGBoost)是由Chen等[11]提出的一種規(guī)模較大的算法。當(dāng)XGBoost使用樹算法作為基分類器時(shí)，它就是在GBDT算法的基礎(chǔ)上做了一些改進(jìn)。XGBoost算法對(duì)每棵樹進(jìn)行了預(yù)剪枝，傳統(tǒng)GBDT只用損失函數(shù)的一階導(dǎo)數(shù)信息進(jìn)行優(yōu)化，XGBoost算法對(duì)損失函數(shù)進(jìn)行了二階泰勒展開，同時(shí)用到了一、二階導(dǎo)數(shù)信息，相當(dāng)于使用牛頓法優(yōu)化損失函數(shù)[12-14]。

XGBoost算法采用加法模型的方式訓(xùn)練模型，每次新增的基模型都是在上一個(gè)基模型的基礎(chǔ)上訓(xùn)練得到的。

(1)

(2)

XGBoost算法在損失函數(shù)里引入了正則項(xiàng)，提升了單棵樹的泛化能力。式(3)給出了損失函數(shù)的計(jì)算方法，損失函數(shù)包含預(yù)測(cè)結(jié)果的誤差評(píng)估和正則項(xiàng)，正則項(xiàng)是樹的復(fù)雜度之和，用于控制模型的復(fù)雜度。

(3)

正則項(xiàng)的展開形式如式(4)所示，參數(shù)T表示葉子節(jié)點(diǎn)的個(gè)數(shù)，參數(shù)w表示葉子節(jié)點(diǎn)的預(yù)測(cè)值。通過(guò)參數(shù)γ可以對(duì)葉子節(jié)點(diǎn)的數(shù)量進(jìn)行限制，參數(shù)λ可以調(diào)節(jié)葉子節(jié)點(diǎn)的預(yù)測(cè)值大小防止出現(xiàn)預(yù)測(cè)值過(guò)大的情況，通過(guò)這兩個(gè)參數(shù)可以有效地防止過(guò)擬合。

(4)

2.2 融合預(yù)測(cè)模型構(gòu)建

基于預(yù)測(cè)模型的預(yù)測(cè)特點(diǎn)，融合模型的基學(xué)習(xí)器使用LSTM算法、XGBoost算法、邏輯回歸算法，融合模型中基學(xué)習(xí)器算法與不同類別的預(yù)測(cè)算法能夠結(jié)合各類算法的優(yōu)勢(shì)提高融合預(yù)測(cè)模型的泛化能力。融合模型的構(gòu)造過(guò)程描述如下：

(1) 運(yùn)用改進(jìn)的過(guò)采樣平衡方法處理數(shù)據(jù)集的正負(fù)樣本不平衡問(wèn)題，得到數(shù)據(jù)集D。

(2) 將訓(xùn)練數(shù)據(jù)集D平均地劃分成2份數(shù)據(jù)集D1、D2。

(3) 用訓(xùn)練數(shù)據(jù)集D1分別訓(xùn)練LSTM模型、XGBoost預(yù)測(cè)模型、LR預(yù)測(cè)模型作為融合模型的基學(xué)習(xí)器。

(4) 將訓(xùn)練數(shù)據(jù)集D2輸入到各個(gè)基學(xué)習(xí)器獲得模型的預(yù)測(cè)結(jié)果，并將預(yù)測(cè)結(jié)果加入到數(shù)據(jù)集D2的特征屬性中。

(5) 用訓(xùn)練集D2訓(xùn)練XGBoost模型作為元學(xué)習(xí)器，完成融合模型的訓(xùn)練。

融合模型構(gòu)建流程如圖2所示。

圖2 融合模型構(gòu)建流程

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)介紹

本文的實(shí)驗(yàn)數(shù)據(jù)是JData數(shù)據(jù)挖掘大賽提供的京東商城真實(shí)的在線交易數(shù)據(jù)。數(shù)據(jù)集給出2016年2月1日到2016年4月15日的線上交易數(shù)據(jù)。數(shù)據(jù)集包含用戶基本信息、商品基本信息、用戶對(duì)商品的評(píng)價(jià)信息、用戶對(duì)商品的交互信息，其中備注說(shuō)明為“脫敏”的字段的具體信息是做了信息隱藏等處理后的內(nèi)容，以免用戶等具體信息泄露。數(shù)據(jù)集的具體信息如表1-表4所示。

表1 用戶基本信息

表2 商品基本信息

表3 商品評(píng)論數(shù)據(jù)

表4 用戶行為數(shù)據(jù)

3.2 數(shù)據(jù)清洗

對(duì)用戶商品交互行為分析發(fā)現(xiàn)用戶的點(diǎn)擊行為非常大，結(jié)合電子商務(wù)用戶行為研究可以認(rèn)為點(diǎn)擊行為對(duì)于購(gòu)買行為的影響非常低可以忽略不計(jì)。對(duì)于瀏覽行為非常大卻沒(méi)有購(gòu)買行為的用戶可以認(rèn)定為爬蟲用戶，這類用戶主要是為了獲取商城的商品數(shù)據(jù)，這類數(shù)據(jù)對(duì)預(yù)測(cè)模型的訓(xùn)練會(huì)產(chǎn)生很大影響，所以需要將這類用戶的行為數(shù)據(jù)去除。本文對(duì)原始數(shù)據(jù)的清洗過(guò)程如下：

(1) 特征數(shù)據(jù)缺失用-1填充。

(2) 數(shù)值化特征值，對(duì)原始數(shù)據(jù)中的用戶屬性的性別進(jìn)行數(shù)值化。

(3) 對(duì)特征值進(jìn)行獨(dú)熱編碼，本文對(duì)用戶的行為數(shù)據(jù)(如加購(gòu)物車、瀏覽商品、購(gòu)買商品)進(jìn)行獨(dú)熱編碼處理。

(4) 刪除異常數(shù)據(jù)，異常數(shù)據(jù)主要來(lái)自于一些基本上沒(méi)有記錄的用戶，還有一些就是特別活躍但卻沒(méi)有任何購(gòu)買記錄的爬蟲用戶的相關(guān)數(shù)據(jù)。如果將這些值放入到訓(xùn)練集的話會(huì)嚴(yán)重影響模型的精度，所以將這些異常數(shù)據(jù)刪掉。

3.3 特征提取

經(jīng)過(guò)特征提取與特征選擇后，本文最后所用到的預(yù)測(cè)特征體系由用戶特征群、商品特征群、商品類別特征群、用戶-商品特征群構(gòu)成。本文選取的特征情況如下：

(1) 用戶特征群。用戶特征群由用戶的基本特征和用戶的衍生特征構(gòu)成。用戶的基本特征包括：用戶的等級(jí)；用戶購(gòu)買商品的種類數(shù)；用戶購(gòu)買商品的品牌、類別數(shù)。用戶的衍生特征包括：用戶對(duì)商品的四種交互行為(瀏覽、收藏、加購(gòu)物車、關(guān)注行為)的購(gòu)買轉(zhuǎn)化率；用戶的購(gòu)買活躍度(用戶購(gòu)買商品的總次數(shù)與購(gòu)買商品的實(shí)際天數(shù)的比值)；用戶購(gòu)買活躍度在所有用戶中的排名。

(2) 商品特征群。商品特征群由商品的基本特征和商品的衍生特征構(gòu)成。商品基本特征包括：商品的類別、品牌等各類屬性；購(gòu)買該種商品的人數(shù)。商品的衍生特征包括：商品的四種交互行為(關(guān)注、收藏、加購(gòu)物車)的購(gòu)買轉(zhuǎn)化率；商品的購(gòu)買人數(shù)在該商品所屬品類的排名；商品的購(gòu)買轉(zhuǎn)化率在該商品所屬類別的排名；商品的四種交互行為的趨勢(shì)(商品預(yù)測(cè)日期前1天的四種交互行為的數(shù)量與日平均交互行為數(shù)量的比值)。

(3) 商品類別特征群。商品類別特征群包括：不同的商品類別包含的商品的數(shù)量；不同的商品類別購(gòu)買的總?cè)藬?shù)。

(4) 用戶-商品特征群。用戶-商品特征群包括：預(yù)測(cè)日期前，該用戶對(duì)該商品的四種交互行為數(shù)；預(yù)測(cè)日前第1天、第2天、第3天，該用戶對(duì)該商品四種交互行為數(shù)；預(yù)測(cè)日前5天、前7天、前9天、前11天，該用戶對(duì)該商品四種交互行為數(shù)。

3.4 模型評(píng)價(jià)指標(biāo)

對(duì)于數(shù)據(jù)類別不平衡的預(yù)測(cè)存在正樣本數(shù)量稀少、樣本分布較為稀疏的情況，這種情況下預(yù)測(cè)模型會(huì)偏向識(shí)別負(fù)樣本而正樣本很難識(shí)別到，在實(shí)際應(yīng)用中正樣本的識(shí)別具有更高的價(jià)值。為了更清楚地看到正樣本的預(yù)測(cè)效果，本文采用混淆矩陣、召回率等來(lái)評(píng)價(jià)數(shù)據(jù)不平衡的分類問(wèn)題[15]。表5給出了二分類問(wèn)題的混淆矩陣。

表5 混淆矩陣

針對(duì)本文的預(yù)測(cè)情況的解釋：定義U-S(U：user_id用戶id，S：sku_id商品id)表示用戶和商品的對(duì)應(yīng)關(guān)系，模型預(yù)測(cè)的輸出結(jié)果就是U-S對(duì)，U-S值為1表示用戶購(gòu)買該商品，U-S值為0表示用戶不購(gòu)買該商品。TP是指模型預(yù)測(cè)為購(gòu)買情況且實(shí)際也購(gòu)買了的U-S的數(shù)量，F(xiàn)P是指模型預(yù)測(cè)為會(huì)產(chǎn)生購(gòu)買而實(shí)際沒(méi)有購(gòu)買的U-S數(shù)量，TN是指模型預(yù)測(cè)為不會(huì)產(chǎn)生購(gòu)買而實(shí)際上產(chǎn)生購(gòu)買的U-S數(shù)量，F(xiàn)N是指模型預(yù)測(cè)為不會(huì)產(chǎn)生購(gòu)買實(shí)際上也沒(méi)產(chǎn)生購(gòu)買的U-S數(shù)量。

本文主要關(guān)注的是購(gòu)買行為預(yù)測(cè)的效果不需要知道未購(gòu)買行為的預(yù)測(cè)效果，所以預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)有購(gòu)買行為預(yù)測(cè)的精確率(precision)、召回率(recall)。精確率就是模型預(yù)測(cè)的所有U-S值為1的正確率，這體現(xiàn)了模型對(duì)正樣本預(yù)測(cè)的準(zhǔn)確率。召回率是指預(yù)測(cè)對(duì)的U-S占所有的實(shí)際U-S結(jié)果的比率，這體現(xiàn)模型預(yù)測(cè)正確的U-S對(duì)在所有的實(shí)際U-S結(jié)果的命中率。精確率和召回率的數(shù)學(xué)公式表示如下：

(5)

為了更好地評(píng)價(jià)模型，本文選用F1值作為模型的評(píng)價(jià)指標(biāo)，F(xiàn)1值計(jì)算方法如下：

(6)

3.5 模型參數(shù)設(shè)置

實(shí)驗(yàn)所用的XGBoost預(yù)測(cè)模型是基于Python的XGBoost類庫(kù)構(gòu)建的。LSTM預(yù)測(cè)模型是基于Keras神經(jīng)網(wǎng)絡(luò)庫(kù)和Scikit-learn機(jī)器學(xué)習(xí)庫(kù)構(gòu)建，LR預(yù)測(cè)模型是基于Scikit-learn機(jī)器學(xué)習(xí)庫(kù)構(gòu)建的。通過(guò)不同參數(shù)組合的方式，對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行了比較最終確定了模型主要的參數(shù)。

(1) XGBoost模型。eta=0.01，n_estimators=700，max_depth=4，min_child_weight=3，gamma=0.3，subsample=0.9，colsample_bytree=0.8，即在模型參數(shù)調(diào)優(yōu)的模型學(xué)習(xí)步長(zhǎng)為0.03，決策樹的數(shù)量為700個(gè)，樹的最大深度為4，最小葉子權(quán)重為3，正則項(xiàng)系數(shù)gamma為0.3，訓(xùn)練樣本數(shù)據(jù)的采樣比例為0.9，樣本特征的采樣比例為0.8。

(2) LSTM模型。LSTM預(yù)測(cè)模型是堆疊式LSTM架構(gòu)，第一層LSTM的units=200，第二層LSTM的units=50，全連接層輸出維度1,激活函數(shù)使用tanh，損失函數(shù)使用mse，優(yōu)化器選用adam。

(3) LR模型。penalty=L2、C=0.5、solver=liblinear、max_iter=100、class_weight=balance，即模型的正則化方式為L(zhǎng)2，懲罰系數(shù)0.5，使用了坐標(biāo)軸下降法來(lái)迭代優(yōu)化損失函數(shù)，模型迭代訓(xùn)練100次，由模型計(jì)算不同類別樣本的權(quán)重。

3.6 實(shí)驗(yàn)結(jié)果分析

通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)集的分析發(fā)現(xiàn)訓(xùn)練集的正負(fù)樣本比例存在嚴(yán)重失衡，為了更好地訓(xùn)練預(yù)測(cè)模型本文提出數(shù)據(jù)平衡策略處理訓(xùn)練數(shù)據(jù)集。在數(shù)據(jù)劃分后對(duì)訓(xùn)練數(shù)據(jù)集的分析中發(fā)現(xiàn)未加入數(shù)據(jù)平衡策略的原始數(shù)據(jù)樣本數(shù)據(jù)的正負(fù)樣本比達(dá)到0.002 9，訓(xùn)練集正負(fù)樣本嚴(yán)重失衡，為此本文利用欠采樣平衡方法對(duì)數(shù)據(jù)進(jìn)行平衡發(fā)現(xiàn)正負(fù)樣本比為0.05時(shí)模型預(yù)測(cè)效果較好。表6給出了XGBoost預(yù)測(cè)模型、LSTM預(yù)測(cè)模型和LR預(yù)測(cè)模型在欠采樣平衡方法下的預(yù)測(cè)效果。對(duì)比各個(gè)模型在欠采樣數(shù)據(jù)平衡方法下的預(yù)測(cè)效果，XGBoost模型的預(yù)測(cè)F1值要明顯高于其他兩種預(yù)測(cè)算法，就單一預(yù)測(cè)模型來(lái)說(shuō)XGBoost對(duì)于用戶購(gòu)買行為預(yù)測(cè)是一個(gè)很好的選擇。

表6 欠采樣平衡方法下各模型預(yù)測(cè)效果

為了測(cè)試不同的k值對(duì)基于K-Means算法的欠采樣數(shù)據(jù)平衡方法的影響，對(duì)比了不同k值基于K-Means算法的欠采樣平衡方法下各個(gè)模型的預(yù)測(cè)效果，圖3顯示了各個(gè)模型在不同k值的基于K-Means算法的欠采樣平衡方法的預(yù)測(cè)F1值。

圖3 不同k值的改進(jìn)隨機(jī)欠采樣方法下模型的預(yù)測(cè)效果

可以看出在隨機(jī)欠采樣平衡方法中加入K-Means算法后數(shù)據(jù)平衡效果有了明顯的提高。對(duì)比XGBoost預(yù)測(cè)模型、LSTM預(yù)測(cè)模型和LR預(yù)測(cè)模型在不同k值基于K-Means算法的改進(jìn)欠采樣平衡方法的F1值，k值為30時(shí)各個(gè)模型的預(yù)測(cè)F1值都比較高。表7給出加入k值為30的改進(jìn)欠采樣平衡方法后各個(gè)模型的預(yù)測(cè)效果。

表7 加入數(shù)據(jù)平衡算法模型預(yù)測(cè)效果

如圖4所示，在改進(jìn)欠采樣數(shù)據(jù)平衡方法下各個(gè)模型的預(yù)測(cè)效果相較于隨機(jī)欠采樣數(shù)據(jù)平衡方法下的預(yù)測(cè)效果都有了明顯的提升，其中LSTM預(yù)測(cè)模型預(yù)測(cè)F1值增長(zhǎng)了48%，XGBoost預(yù)測(cè)模型預(yù)測(cè)F1值增長(zhǎng)17%，LR預(yù)測(cè)模型預(yù)測(cè)F1值增長(zhǎng)40%。在改進(jìn)隨機(jī)欠采樣據(jù)平衡方法后LR預(yù)測(cè)模型和LSTM預(yù)測(cè)模型的預(yù)測(cè)效果提升較大。

圖4 是否加入平衡方法各個(gè)模型預(yù)測(cè)F1值

為了提高預(yù)測(cè)模型對(duì)用戶購(gòu)買行為預(yù)測(cè)的準(zhǔn)確率。本文結(jié)合XGBoost在過(guò)擬合處理、訓(xùn)練速度方面的優(yōu)勢(shì)和LSTM算法處理時(shí)序性問(wèn)題的優(yōu)勢(shì)，通過(guò)集成方法將多種算法組合起來(lái)進(jìn)行預(yù)測(cè)。圖5展示了融合預(yù)測(cè)模型與各個(gè)單一預(yù)測(cè)模型的預(yù)測(cè)效果，融合模型相對(duì)于單一的預(yù)測(cè)模型預(yù)測(cè)效果有很大的提升，融合模型F1值相對(duì)于預(yù)測(cè)效果最好的XGBoost預(yù)測(cè)模型提升了9%。

圖5 融合模型與單一模型預(yù)測(cè)效果對(duì)比

為了進(jìn)一步比較各個(gè)模型的穩(wěn)定性，本文將測(cè)試數(shù)據(jù)集的5個(gè)預(yù)測(cè)周期的數(shù)據(jù)劃分出5份測(cè)試數(shù)據(jù)集分別測(cè)試各個(gè)預(yù)測(cè)模型，預(yù)測(cè)結(jié)果如圖6所示。單一預(yù)測(cè)模型預(yù)測(cè)效果最好的是XGBoost預(yù)測(cè)模型，XGBoost預(yù)測(cè)模型對(duì)各個(gè)測(cè)試集的預(yù)測(cè)F1值要高于LSTM預(yù)測(cè)模型和LR預(yù)測(cè)模型，但是XGBoost預(yù)測(cè)模型對(duì)不同測(cè)試集的預(yù)測(cè)F1值差別較大。對(duì)比XGBoost預(yù)測(cè)模型的預(yù)測(cè)效果，基于XGBoost的融合模型的預(yù)測(cè)效果和預(yù)測(cè)的穩(wěn)定性都要優(yōu)于單一的XGBoost預(yù)測(cè)模型。

圖6 各個(gè)模型的預(yù)測(cè)F1值

4 結(jié) 語(yǔ)

對(duì)用戶行為數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)用戶行為數(shù)據(jù)存在不平衡問(wèn)題，正負(fù)樣本的嚴(yán)重失衡會(huì)對(duì)模型的預(yù)測(cè)效果造成嚴(yán)重影響，對(duì)此針對(duì)數(shù)據(jù)的嚴(yán)重失衡問(wèn)題提出基于K-Means算法的欠采樣平衡方法，有效地解決了數(shù)據(jù)集的正負(fù)樣本嚴(yán)重失衡的情況。

本文對(duì)LR算法、LSTM算法、XGBoost算法進(jìn)行分析，比較了各個(gè)預(yù)測(cè)算法的特點(diǎn)，利用Stacking集成方法將這些算法進(jìn)行融合獲得融合預(yù)測(cè)模型算法。最后利用京東大數(shù)據(jù)提供的公開數(shù)據(jù)集設(shè)計(jì)了相關(guān)實(shí)驗(yàn)，從模型預(yù)測(cè)準(zhǔn)確率、性能等各項(xiàng)指標(biāo)評(píng)估了各個(gè)算法模型。實(shí)驗(yàn)表明模型基于XGBoost融合預(yù)測(cè)模型在預(yù)測(cè)穩(wěn)定性和預(yù)測(cè)效果方面要明顯優(yōu)于傳統(tǒng)的單一機(jī)器學(xué)習(xí)模型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡