国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

云服務(wù)網(wǎng)站用戶復(fù)訪行為預(yù)測(cè)模型研究

2022-06-16 08:34:58危婷張宏海藺小麗張蕾蕾王妍賈金峰
關(guān)鍵詞:樣本預(yù)測(cè)用戶

危婷,張宏海,藺小麗,張蕾蕾,王妍,賈金峰

中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100083

引 言

與一般的電商網(wǎng)站類似,用戶在利用科技云網(wǎng)站進(jìn)行瀏覽、下載、操作以及購(gòu)買資源服務(wù)時(shí)會(huì)產(chǎn)生海量的數(shù)據(jù),從這些海量的數(shù)據(jù)中可以挖掘出用戶行為的潛在價(jià)值,并對(duì)用戶未來(lái)訪問和購(gòu)買行為進(jìn)行預(yù)測(cè)。對(duì)于可能復(fù)訪或復(fù)購(gòu)的用戶,結(jié)合其前期訪問偏好進(jìn)行精準(zhǔn)的推薦并制定個(gè)性化的運(yùn)營(yíng)策略,這有利于優(yōu)化用戶購(gòu)買體驗(yàn),實(shí)現(xiàn)忠誠(chéng)用戶留存、新用戶增加和潛在用戶的挖掘,促進(jìn)平臺(tái)的可持續(xù)發(fā)展。

用戶瀏覽、訪問、操作資源服務(wù)的行為數(shù)據(jù)以日志文件的形式存儲(chǔ)在后臺(tái)服務(wù)器。如何高效地利用這些在線行為數(shù)據(jù)分析用戶偏好,預(yù)測(cè)用戶復(fù)訪或者復(fù)購(gòu)行為是非常有意義的。

在電商環(huán)境下對(duì)用戶行為的預(yù)測(cè)主要包括用戶購(gòu)買行為、點(diǎn)擊行為和活躍度的預(yù)測(cè)等,關(guān)注最多的主要是購(gòu)買行為預(yù)測(cè),因?yàn)檫@一行為直接為電商帶來(lái)收益。用戶的購(gòu)買行為與點(diǎn)擊行為、活躍度是高度相關(guān)的,而這些因素極大地反映了用戶的復(fù)訪概率。由于復(fù)訪的用戶發(fā)生購(gòu)買行為的概率比較高,本文主要通過研究預(yù)測(cè)用戶的復(fù)訪行為來(lái)反映用戶的購(gòu)買意愿。

1 相關(guān)工作

傳統(tǒng)的購(gòu)買行為預(yù)測(cè)模型主要有 SMC 模型、RFM 模型和 BG/NBD 模型。多數(shù)研究都是基于這些模型的改進(jìn)。其中,RFM 模型是從市場(chǎng)營(yíng)銷領(lǐng)域延伸而來(lái),少量研究將其應(yīng)用在其他領(lǐng)域進(jìn)行用戶分類,如通信和電商領(lǐng)域[1-2]。大數(shù)據(jù)、機(jī)器學(xué)習(xí)興起之后,大量學(xué)者結(jié)合機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等算法構(gòu)建模型,以提升模型的預(yù)測(cè)準(zhǔn)確性。Silahtaroglu G 等人從用戶點(diǎn)擊數(shù)據(jù)中提取信息,使用決策樹和多層神經(jīng)網(wǎng)絡(luò)構(gòu)建消費(fèi)者購(gòu)買行為預(yù)測(cè)模型[3]。J Qiu 等人從商品角度出發(fā),通過分析商品之間的關(guān)聯(lián),建立候選商品集,通過用戶對(duì)商品特征的偏好訓(xùn)練模型COREL,預(yù)測(cè)用戶可能購(gòu)買的商品集。這一模型可以直接應(yīng)用于商品推薦[4]。周成驥等人基于交互行為數(shù)據(jù),提出一種基于時(shí)序的數(shù)據(jù)預(yù)處理方法和基于 SSP 特征選擇方法,并構(gòu)建Bagging 和XGBoost 混合模型提升模型的預(yù)測(cè)精確度[5]。顧海斌等人從數(shù)學(xué)角度、貝葉斯方法和神經(jīng)網(wǎng)絡(luò)對(duì)用戶消費(fèi)行為建模[6]。李美其等人基于大眾點(diǎn)評(píng)網(wǎng)的用戶數(shù)據(jù),構(gòu)建Pareto/NBD 預(yù)測(cè)模型,并通過引入?yún)f(xié)變量改進(jìn)預(yù)測(cè)效果[7]。

用戶的購(gòu)買行為,不論是直接購(gòu)買,還是重復(fù)購(gòu)買,產(chǎn)生購(gòu)買行為決策一般經(jīng)過需求識(shí)別、信息搜索、選擇評(píng)估。正是因?yàn)橐陨线@些過程,用戶大多數(shù)是重復(fù)購(gòu)買,而重復(fù)購(gòu)買行為的影響因素融合了多種領(lǐng)域的知識(shí)[8],包括主觀的[9-10]和客觀的,形象的和抽象的。由于影響因素本身的復(fù)雜性,研究者的角度也復(fù)雜多樣,如感知服務(wù)質(zhì)量理論[11]、感知價(jià)值理論[12]、感知價(jià)值成本理論[13]、消費(fèi)者主管決策等。

重復(fù)購(gòu)買行為的一個(gè)關(guān)鍵前提是對(duì)網(wǎng)站的重復(fù)訪問。如果用戶對(duì)商品感興趣,購(gòu)買意愿大,重復(fù)訪問網(wǎng)站了解商品的次數(shù)就會(huì)多,所以如果用戶復(fù)訪概率大,復(fù)購(gòu)的概率也比較大。因此本文強(qiáng)調(diào)對(duì)用戶復(fù)訪行為的預(yù)測(cè)。以上研究大多采用的用戶行為數(shù)據(jù)包括用戶加購(gòu)物車、購(gòu)買和購(gòu)后評(píng)價(jià),以期望用更加全面的用戶行為數(shù)據(jù)獲得更為準(zhǔn)確的預(yù)測(cè)。本文認(rèn)為復(fù)訪行為預(yù)測(cè)不需要太多用戶行為類型。用戶在購(gòu)買興趣商品之前,包括加購(gòu)物車之前,會(huì)有大量的點(diǎn)擊和瀏覽商品詳情頁(yè)的行為,本文在后續(xù)的特征構(gòu)建和模型構(gòu)建過程中,只考慮點(diǎn)擊和瀏覽行為,并分析基于這些行為特征構(gòu)建模型的準(zhǔn)確性。

2 預(yù)測(cè)模型

2.1 數(shù)據(jù)集介紹

為了獲取用戶準(zhǔn)確、實(shí)時(shí)的行為信息,在科技云門戶多個(gè)服務(wù)器節(jié)點(diǎn)上部署了數(shù)據(jù)采集腳本。采集的數(shù)據(jù)涵蓋了用戶瀏覽數(shù)據(jù)、用戶屬性數(shù)據(jù)、用戶行為數(shù)據(jù)、訪問深度數(shù)據(jù)等,如表1所示。數(shù)據(jù)采集頻率設(shè)置為5 秒,按照其所記錄的信息分類存于30 個(gè)數(shù)據(jù)庫(kù)表,涉及280 多個(gè)字段和若干個(gè)擴(kuò)展字段。所采集的數(shù)據(jù)全部來(lái)源于真實(shí)的對(duì)外提供服務(wù)的科技云門戶,且數(shù)據(jù)能夠完整記錄一次訪問的所有瀏覽操作軌跡。數(shù)據(jù)記錄的信息實(shí)時(shí)、全面,能夠真實(shí)地反映用戶的行為特點(diǎn)。

表1 用戶訪問數(shù)據(jù)解析表Table 1 Data of users visiting

本文采用的數(shù)據(jù)時(shí)間跨度為2018年8月到2019年9月,共13 個(gè)月。數(shù)據(jù)涉及3,786 個(gè)不同的用戶ID,包括38,468 次完整的訪問。

令數(shù)據(jù)集表示為D,訓(xùn)練集表示為S,測(cè)試集表示為T。將2018年8月至2019年6月的樣本數(shù)據(jù)以每?jī)蓚€(gè)月為一個(gè)單元設(shè)為一個(gè)數(shù)據(jù)集D。每一個(gè)數(shù)據(jù)集隨機(jī)選70%的樣本用戶為S,30%的樣本用戶為T。用后兩個(gè)月用戶的return 行為來(lái)標(biāo)記前兩個(gè)月的樣本數(shù)據(jù),如圖1所示。最后將測(cè)試結(jié)果進(jìn)行平均。本文的兩個(gè)模型均按上述方式利用數(shù)據(jù)集。

圖1 訓(xùn)練集與測(cè)試集Fig.1 Training set and test set

2.2 多元邏輯回歸算法預(yù)測(cè)模型

邏輯回歸模型簡(jiǎn)單卻又有豐富的變化,是最經(jīng)典的分類預(yù)測(cè)模型,是本文采用的模型之一。本文的目標(biāo)是要根據(jù)用戶訪問行為的特征來(lái)預(yù)測(cè)用戶return 的概率,以此預(yù)測(cè)用戶的回訪行為。

根據(jù)采集到數(shù)據(jù)的特點(diǎn),定義用戶訪問行為具有以下5 個(gè)屬性,分別是:visit days since last(距離上次訪問的天數(shù)),visit counts(訪問次數(shù)),visit total actions(訪問操作數(shù)),visit total time(訪問停留時(shí)間),visit pages(訪問頁(yè)面數(shù))。

多元線性回歸試圖學(xué)得一個(gè)模型以盡可能學(xué)得實(shí)值輸出:

y也寫成向量形式:

則有:

對(duì)求導(dǎo)得到:

對(duì)此模型再利用logistic 函數(shù)進(jìn)行變換,即可得到多維向量邏輯回歸模型。此模型對(duì)分類的可能性進(jìn)行建模,不需要事先假設(shè)數(shù)據(jù)分布,可以避免假設(shè)分布不準(zhǔn)確帶來(lái)的問題。此外,它不僅可以預(yù)測(cè)類別,還可以得到近似概率預(yù)測(cè),對(duì)于需要利用概率輔助決策的任務(wù)有很大用處。例如,我們可以預(yù)測(cè)科技云用戶復(fù)訪或者回購(gòu)的概率。

2.3 XGBoost 預(yù)測(cè)模型

決策樹是機(jī)器學(xué)習(xí)領(lǐng)域最為重要的分類模型,在提高模型的準(zhǔn)確率上有巨大威力的XGBoost 也是基于樹模型的。XGBoost 模型中的基學(xué)習(xí)器除了可以是線性分類器,也可以是 CART 樹,對(duì)于數(shù)據(jù)中類別特征或連續(xù)特征的處理要求不高且效果較好。這也是本文采用的第二個(gè)模型。

XGBoost 預(yù)測(cè)模型如下:

是基學(xué)習(xí)器。目標(biāo)函數(shù)為損失函數(shù)再增加一個(gè)正則項(xiàng),如下:

正則項(xiàng)由L1 正則項(xiàng)和L2 正則項(xiàng)組成。T 表示葉子節(jié)點(diǎn)的個(gè)數(shù),為第i 個(gè)葉子節(jié)點(diǎn)的權(quán)重。

損失函數(shù)對(duì)求偏導(dǎo),令導(dǎo)數(shù)為0,求得:

為了防止訓(xùn)練出的 XGBoost 模型過擬合數(shù)據(jù),需要找到最佳的切分:

IL和IR表示分裂后形成的兩撥樣本。有了節(jié)點(diǎn)分裂的依據(jù),就可以在基學(xué)習(xí)器中生成樹的結(jié)構(gòu)。

3 模型預(yù)測(cè)結(jié)果對(duì)比

我們將如下 對(duì)樣本進(jìn)行標(biāo)記,由圖1,對(duì)前2個(gè)月訪問網(wǎng)站的用戶,記錄他們?cè)诤? 個(gè)月是否再次訪問網(wǎng)站。如果訪問了,記錄為“1”,如果沒有訪問,記錄為“0”。對(duì)數(shù)據(jù)樣本進(jìn)行清洗處理,尋找缺失值。由于缺失值對(duì)模型的影響較大,對(duì)于缺失率比較大的特征,進(jìn)行刪除。使用基于Scikit-learn(針對(duì)Python 語(yǔ)言的免費(fèi)機(jī)器學(xué)習(xí)算法庫(kù))接口的分類模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,并對(duì)模型進(jìn)行評(píng)估。

經(jīng)過調(diào)參,獲得XGBoost 與LR 模型的ROC 曲線(Receiver Operating Characteristic Curve曲線,即“受試者工作特征曲線”,在正負(fù)樣本數(shù)量不均衡的場(chǎng)景下,ROC 曲線是一個(gè)能穩(wěn)定反映模型好壞的指標(biāo)),如圖2、圖3所示。XGBoost 模型參數(shù)調(diào)優(yōu),首先按照默認(rèn)值選擇學(xué)習(xí)速率learning rate 和決策樹數(shù)目,接著對(duì)max_depth 和 min_weight 這兩項(xiàng)參數(shù)進(jìn)行調(diào)優(yōu),使得AUC 值盡可能大,最后降低學(xué)習(xí)速率和增加決策樹數(shù)目。

圖2 XGBoost 模型的ROC 曲線Fig.2 ROC curve of XGBoost

圖3 LR 模型的ROC 曲線Fig.3 ROC curve of LR

表2是模型對(duì)應(yīng)的評(píng)價(jià)指標(biāo)。從圖中可知,LR模型的擬合度較高,AUC(Area under roc Curve 指ROC 曲線下的面積大小,介于0.1 和1 之間,AUC作為數(shù)值可以直觀地評(píng)價(jià)模型的好壞)達(dá)到84%,且LR 模型對(duì)樣本分類預(yù)測(cè)正確的比例accuracy 比XGBoost 模型高,為95%,LR 模型對(duì)正例的預(yù)測(cè)能力precision 也比XGBoost 模型高,約為75%。可見在本文的數(shù)據(jù)場(chǎng)景下,XGBoost 模型對(duì)反例的預(yù)測(cè)能力更好。對(duì)于云服務(wù)網(wǎng)站的運(yùn)營(yíng)來(lái)說(shuō),更加關(guān)注正例,即那些預(yù)測(cè)到下個(gè)月復(fù)訪的用戶,這些用戶是忠誠(chéng)度高的用戶群體[14],可以針對(duì)這些群體制定個(gè)性化的運(yùn)營(yíng)策略。使用何種評(píng)價(jià)指標(biāo),取決于應(yīng)用場(chǎng)景及分析人員的關(guān)注點(diǎn),不同評(píng)價(jià)指標(biāo)之間側(cè)重反映的信息不同。

表2 模型指標(biāo)對(duì)比Table 2 Indicator of models

4 結(jié)論與展望

本文以真實(shí)的網(wǎng)站數(shù)據(jù)為驅(qū)動(dòng),對(duì)科技云門戶用戶的復(fù)訪行為進(jìn)行預(yù)測(cè)研究。與其他相關(guān)研究中利用大量購(gòu)物和評(píng)價(jià)數(shù)據(jù)不同,本文僅以商品添加入購(gòu)物車之前大量的點(diǎn)擊和瀏覽商品行為構(gòu)建特征,并采用經(jīng)典的LR 模型和在提高模型的準(zhǔn)確率上有巨大威力的XGBoost 模型對(duì)科技云用戶的行為數(shù)據(jù)進(jìn)行訓(xùn)練。通過對(duì)比發(fā)現(xiàn),LR 模型在模型擬合度、預(yù)測(cè)樣本分類準(zhǔn)確率、正例的預(yù)測(cè)能力上都優(yōu)于XGBoost 模型。

本文采用真實(shí)的網(wǎng)站數(shù)據(jù),其復(fù)訪用戶標(biāo)簽數(shù)要少于不復(fù)訪用戶,這個(gè)數(shù)據(jù)特點(diǎn),導(dǎo)致XGBoost模型的擬合度和預(yù)測(cè)能力不如LR 模型。但如果數(shù)據(jù)特點(diǎn)變化,結(jié)果也可能發(fā)生變化,因此下一階段可結(jié)合數(shù)據(jù)階段性的特點(diǎn),采用模型融合的方法來(lái)解決單一模型可能的數(shù)據(jù)敏感問題,以實(shí)現(xiàn)對(duì)復(fù)訪用戶更準(zhǔn)確的預(yù)測(cè),以便進(jìn)行更加精準(zhǔn)的營(yíng)銷,提高用戶留存率,提升網(wǎng)站運(yùn)營(yíng)收益。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

猜你喜歡
樣本預(yù)測(cè)用戶
無(wú)可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
推動(dòng)醫(yī)改的“直銷樣本”
不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
鹿邑县| 澄江县| 扶余县| 固安县| 新余市| 康马县| 邯郸县| 晋宁县| 德保县| 东丰县| 丰城市| 秦皇岛市| 安塞县| 永春县| 东丽区| 肥东县| 德钦县| 新龙县| 张北县| 义乌市| 中牟县| 瑞安市| 汝城县| 江津市| 山丹县| 仁布县| 康定县| 福州市| 辽源市| 和田县| 文成县| 蓬溪县| 芜湖市| 壤塘县| 泉州市| 连州市| 区。| 磴口县| 惠安县| 扶沟县| 昌宁县|