国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于lightGBM的聯(lián)通話費購?fù)扑]系統(tǒng)研究

2021-08-27 06:10韓哲馬震
中國新通信 2021年12期
關(guān)鍵詞:推薦系統(tǒng)

韓哲 馬震

【摘要】? ? 聯(lián)通話費購是聯(lián)通在線為聯(lián)通用戶提供的專屬權(quán)益電商平臺,可以使用話費支付、第三方支付充值話費、購買各類權(quán)益。本文實現(xiàn)了在聯(lián)通話費購平臺搭建基于lightGBM算法的推薦系統(tǒng)。通過分析用戶行為,構(gòu)建用戶、商品的動態(tài)特征,用協(xié)同過濾召回的基礎(chǔ)上,利用lightGBM算法做精準(zhǔn)排序,預(yù)測用戶對于商品的購買率。經(jīng)過實際驗證表明,推薦的召回率達到82.3%,下單轉(zhuǎn)化率為30.9%,有效提高了用戶的點擊付費轉(zhuǎn)化。

【關(guān)鍵詞】? ? 推薦系統(tǒng)? ? lightGBM? ? 特征工程? ? 集成學(xué)習(xí)

一、項目背景

聯(lián)通話費購商城是中國聯(lián)通提供的新型通信賬戶消費業(yè)務(wù),是聯(lián)通用戶購買多種會員權(quán)益的專屬商城。為用戶提供話費計費和第三方支付等多種支付方式。實現(xiàn)用戶一站式購買音樂、視頻、小說、教育、娛樂等眾多互聯(lián)網(wǎng)會員權(quán)益及知識付費類數(shù)字商品,現(xiàn)有自營會員產(chǎn)品話費購、尊享黃金會員以及自營虛擬貨幣話費券。目前,話費購商城涵蓋影視會員、出行、音樂、知識付費、社交、工具等八大產(chǎn)品類80款會員權(quán)益,近400余款商品。本文通過為話費購搭建推薦系統(tǒng),智能化運營用戶,實現(xiàn)千人千面,提高商品的曝光、點擊與轉(zhuǎn)化。

推薦系統(tǒng)的核心在于推薦算法,目前主流的推薦算法分為基于用戶、基于內(nèi)容、基于標(biāo)簽的推薦[1][2]。比較經(jīng)典的協(xié)同過濾算法可解釋性強,但個性化比較差。Xgboost等集成的樹模型[3][4][5]具有訓(xùn)練速度快,預(yù)測精度比較高的優(yōu)點,但容易過擬合,且容易受到正負樣本不均衡的影響。本文采用協(xié)同過濾召回,lightGBM算法[6]排序的方法,通過前期埋點獲取用戶真實的點擊、瀏覽、下單數(shù)據(jù),并進行可視化分析。利用協(xié)同過濾算法召回半年內(nèi)的消費用戶,劃分訓(xùn)練集和測試集,根據(jù)用戶是否在指定時間段內(nèi)下單區(qū)分正負樣本,構(gòu)造用戶基礎(chǔ)特征和消費行為特征,基于lightGBM算法建模,預(yù)測用戶對于全部商品的購買概率。最終采用瀑布流的形式在推薦專區(qū)按照用戶的預(yù)測購買率對商品進行排序展示。

如圖1為話費購?fù)扑]系統(tǒng)的框架圖,用戶在頁面的點擊、瀏覽、購買數(shù)據(jù)經(jīng)過批處理后保存到集群中。經(jīng)過推薦算法的召回、排序、過濾三個階段,為用戶計算推薦商品及得分,并將推薦結(jié)果保存到hbase中,供前端調(diào)用。最后將推薦結(jié)果以“猜你喜歡”專區(qū)上線并評估效果,根據(jù)用戶的點擊、訂購等反饋豐富正負樣本,迭代優(yōu)化模型。

二、相關(guān)算法

本文用到的算法是基于物品的協(xié)同過濾和lightGBM算法。

2.1協(xié)同過濾

通過前期的數(shù)據(jù)分析,話費購的商品數(shù)量不多,用戶的行為比較集中,大部分用戶會重復(fù)訂購之前訂購過的商品,所以采用基于商品的協(xié)同過濾算法(item-based collaborative filtering, itemCF)做用戶召回。itemCF是基于用戶的行為數(shù)據(jù)計算商品之間的相似度,維護商品相似度矩陣,相似度的計算方式如公式(1)所示[7],其中N(u)表示用戶有過行為的商品集合。然后根據(jù)用戶點擊或訂購過的商品,計算與其相似度高的商品作為推薦商品。

算法優(yōu)勢:可解釋性強,適用于商品少的情況,商品都有機會被推薦出來。缺點:容易受到熱門商品的影響。

2.2 lightGBM

lightGBM(Light Gradient Boosting Machine, lightGBM)[6]是微軟研發(fā)的高效實現(xiàn)GBDT的開源框架,具有訓(xùn)練速度快、精度高的優(yōu)點。通過直方圖算法將連續(xù)特征值離散化,采用按葉子生長的leaf-wise算法,并使用單邊梯度采樣GOSS(Gradient-based One-Side Sampling),采用大梯度樣本和隨機挑選的小梯度樣本計算信息增益,劃分節(jié)點,保證準(zhǔn)確性的同時減少計算冗余的計算成本。使用互斥特征綁定EFB(Exclusive Feature Bundling)將不同時為零的互斥特征進行捆綁,合成新特征,減少特征數(shù)量,通過歸集為圖著色問題,使用貪心算法求解。

算法優(yōu)勢:更快的訓(xùn)練速度、更低的內(nèi)存占用率、并行計算,且支持類別特征。缺點:容易過擬合,需要通過限制樹的深度等方法增加泛化能力。

三、建模過程

本文所采用的數(shù)據(jù)為聯(lián)通話費購真實的用戶行為數(shù)據(jù),所用數(shù)據(jù)表包括曝光表、點擊表、瀏覽表、下單表,及商品表。采用2020.9.27-2021.3.27共6個月的數(shù)據(jù),字段包括用戶id、商品id、專區(qū)id、用戶行為(點擊、瀏覽、下單)、操作時間、下單金額、瀏覽時長、是否為包月商品、是否首次訂購等。以公眾號商城的數(shù)據(jù)試驗,召回的數(shù)據(jù)集中用戶-商品的組合數(shù)為973476。采用協(xié)同過濾算法為用戶召回商品。選取有過點擊、瀏覽、下單行為的用戶及對應(yīng)商品劃分lightGBM模型的訓(xùn)練集和測試集,進行排序。

3.1數(shù)據(jù)處理與可視化

3.1.1數(shù)據(jù)預(yù)處理

數(shù)據(jù)處理與分析是模型構(gòu)建的第一步,本文主要做了以下幾種數(shù)據(jù)處理:

1. 剔除話費購會員、話費券,并根據(jù)運營策略過濾部分活動商品,避免前臺頁面展示重復(fù)。

2.剔除空值、異常值,處理字段類型,對于有空值的字段讀取到dataframe時,會自動處理為浮點型,所以先剔除空值再將品牌id等字段轉(zhuǎn)為整型;并將操作時間轉(zhuǎn)為datetime64[ns]。

3. 關(guān)聯(lián)子商品表、品牌表、專區(qū)表,過濾下架商品及活動商品,形成最終的商品詳情表。并對曝光表、點擊表、瀏覽表、下單表,關(guān)聯(lián)商品詳情表。

4.補充瀏覽數(shù)據(jù),話費購的商品入口比較多,埋點采集及數(shù)據(jù)存儲過程中,可能會遺漏部分瀏覽數(shù)據(jù),根據(jù)用戶-商品的下單情況,補充遺漏的瀏覽數(shù)據(jù)。其中,根據(jù)商品的平均每用戶的瀏覽次數(shù)補充瀏覽條數(shù),根據(jù)商品的每用戶平均瀏覽時長補充瀏覽時長,根據(jù)支付時間補充瀏覽時間。

3.1.2可視化分析

基于以上數(shù)據(jù)分析了話費購的用戶畫像、用戶的購買偏好分布、熱銷商品分布以及用戶消費分布,以下是分析的部分結(jié)果:

1.熱銷商品分布

如圖2可以看出,商品的銷售分布符合長尾理論,熱銷商品集中在前10種,用戶的消費特征比較單一。

2.用戶消費分布

如圖3,98%的用戶只訂購5種以下的品牌,66%的用戶重復(fù)訂購率高于50%,說明大部分用戶會選擇購買之前訂購過的商品。

3.2特征工程

本文分別針對用戶、商品、用戶-商品構(gòu)造特征。結(jié)合缺失率、相關(guān)性、特征重要性等方法篩選特征,共構(gòu)造38種特征。

3.3建模

首先對數(shù)據(jù)集按照時間劃分為訓(xùn)練集和測試集,選擇1.27-2.25一個月的瀏覽、下單數(shù)據(jù)作為訓(xùn)練集,選擇2.26-3.25一個月的下單數(shù)據(jù)作為標(biāo)簽集,在標(biāo)簽集中下單的用戶-商品作為訓(xùn)練集的正樣本,其余為負樣本,正負樣本比為1:1.88。測試集選擇2.1-2.27一個月的數(shù)據(jù),根據(jù)2.28-3.27一個月的下單數(shù)據(jù)作為正樣本,正負樣本比為1:1.63。

分別對訓(xùn)練集和測試集構(gòu)造以上特征,采用5折交叉驗證,對訓(xùn)練集建模,采用lightGBM的具體參數(shù)如下:

利用協(xié)同過濾算法為每個用戶召回商品,結(jié)合lightGBM的整體建模過程如下:

四、結(jié)果評估

基于lightGBM算法的預(yù)測,采用傳統(tǒng)的準(zhǔn)召率評價測試集效果,和邏輯回歸對比效果如表3所示:

結(jié)合協(xié)同過濾算法,以真實數(shù)據(jù)評估效果,用戶的覆蓋率為85.2%,推薦專區(qū)Top10的召回率為82.3%,其中召回率的定義如公式(2)所示,T(u)表示用戶真實訂購的商品集合,R(u)表示推薦的商品列表。對比推薦專區(qū)上線之前,整體的下單轉(zhuǎn)化率提升4%。且推薦專區(qū)的下單轉(zhuǎn)化率遠高于其他專區(qū),如圖5所示。

五、結(jié)束語

本文采用基于商品的協(xié)同過濾算法召回,以lightGBM算法排序,并結(jié)合運營策略過濾部分商品,完成基于話費購的整套推薦系統(tǒng)的搭建。模型每日更新,將推薦結(jié)果存儲到hbase中,開發(fā)接口供前端調(diào)用展示,接口異常率為1.6%。實際效果證明,推薦專區(qū)的上線有效提高了用戶的下單轉(zhuǎn)化率,且Top10的推薦商品能覆蓋大多數(shù)用戶的購買需求,具有重要的現(xiàn)實意義。

參? 考? 文? 獻

[1]朱揚勇, 孫婧. 推薦系統(tǒng)研究進展[J]. 計算機科學(xué)與探索, 2015, 9(5):513-525.

[2] Almutairi F M , Sidiropoulos N D , Karypis G . Context-aware recommendation-based learning analytics using tensor and coupled matrix factorization[J]. IEEE Journal of Selected Topics in Signal Processing, 2017,11(5):729-741

[3] Friedman J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001,29(5):1189-1232.

[4] Chen T. Guestrin C. XGboost: A Scalable Tree Boosting System[C]//Proc of ACM Sigkdd? International Conference on Knowledge Discovery & Data Mining. 2016:785-794

[5] Chen T, He T, Benesty M. XGboost: Extreme Gradient Boosting[J]. 2016,5(9):222-208.

[6] Ke G L, Meng Q, Finley T, et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree[C]//Advances in Neural Information Processing Systems. 2017: 3146-3154.

[7]項亮. 推薦系統(tǒng)實踐[M]. 人民郵電出版社, 2012.

猜你喜歡
推薦系統(tǒng)
數(shù)據(jù)挖掘在選課推薦中的研究
基于用戶偏好的信任網(wǎng)絡(luò)隨機游走推薦模型
基于個性化的協(xié)同過濾圖書推薦算法研究
個性化推薦系統(tǒng)關(guān)鍵算法探討
淺談Mahout在個性化推薦系統(tǒng)中的應(yīng)用
關(guān)于協(xié)同過濾推薦算法的研究文獻綜述
一種基于自適應(yīng)近鄰選擇的協(xié)同過濾推薦算法
UGC標(biāo)簽推薦系統(tǒng)的一種新的標(biāo)簽清理方法
網(wǎng)上商品推薦系統(tǒng)設(shè)計研究
基于Mahout分布式協(xié)同過濾推薦算法分析與實現(xiàn)
汶上县| 台江县| 玉山县| 平顶山市| 拉萨市| 饶河县| 军事| 东兴市| 黄浦区| 沐川县| 双柏县| 专栏| 山东省| 浠水县| 沅陵县| 成都市| 余庆县| 巴楚县| 景宁| 宜兰市| 罗城| 丹棱县| 丁青县| 罗平县| 冷水江市| 兴业县| 稷山县| 北流市| 海林市| 海原县| 广丰县| 浪卡子县| 德化县| 南充市| 温宿县| 庐江县| 巴青县| 城固县| 遵义县| 巴塘县| 武穴市|