国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高維時(shí)序特征補(bǔ)充的直播行業(yè)用戶流失預(yù)測(cè)模型

2022-12-09 09:12鄭桂钖
科技與創(chuàng)新 2022年23期
關(guān)鍵詞:高維時(shí)序建模

鄭桂钖,徐 寬

(1.華南理工大學(xué)工商管理學(xué)院,廣東 廣州 510000;2.中國(guó)科學(xué)技術(shù)大學(xué)大數(shù)據(jù)學(xué)院,安徽 合肥 230000)

1 研究背景

隨著科技經(jīng)濟(jì)不斷進(jìn)步,市場(chǎng)全球化的進(jìn)程繼續(xù)深入,消費(fèi)者的選擇也越來(lái)越多,面對(duì)愈發(fā)激烈的市場(chǎng)競(jìng)爭(zhēng),各行各業(yè)愈發(fā)重視用戶這一可謂“根基”的資源,且相較于保留老用戶,新用戶的獲取成本通常要成倍地高于前者[1]。因而用戶流失預(yù)警對(duì)企業(yè)而言重要性不言而喻。提高用戶流失的預(yù)測(cè)精度,有助于構(gòu)建用戶流失預(yù)警體系,讓實(shí)現(xiàn)對(duì)不同用戶的挽留、轉(zhuǎn)化、精準(zhǔn)營(yíng)銷成為可能,從而提高企業(yè)的收益。

國(guó)內(nèi)外學(xué)者在用戶流失(Customer Churn)問(wèn)題上主要集中在電信、金融行業(yè)。隨著移動(dòng)互聯(lián)網(wǎng)的興起,近些年來(lái)也有學(xué)者關(guān)注在線電商、游戲、社交等行業(yè)。早期用戶流失研究致力于通過(guò)實(shí)證研究尋找影響用戶流失的因素上,目前主要的研究工作都是圍繞用戶行為數(shù)據(jù)進(jìn)行建模、分析,以總結(jié)用戶流失行為的規(guī)律,或者對(duì)用戶流失行為進(jìn)行預(yù)測(cè),即用戶流失預(yù)測(cè)。在這個(gè)問(wèn)題上,各領(lǐng)域各行業(yè)的研究大概可以分為2個(gè)方向:①將預(yù)測(cè)用戶的流失時(shí)間,基于用戶生命周期對(duì)用戶剩余的生存期進(jìn)行一個(gè)預(yù)測(cè),這種方向大多結(jié)合生存分析進(jìn)行研究[2];②將用戶流失視為一個(gè)流失(Churn)與非流失(Non-Churn)這樣一種二分類的問(wèn)題,這也是絕大多數(shù)研究的方向。

目前的用戶流失預(yù)測(cè)模型中,除了行業(yè)的選擇外,主要差異集中在流失的定義、特征的選擇及具體模型的選擇。

在電信、金融、保險(xiǎn)等偏合約性質(zhì)的行業(yè)用戶的定義較為簡(jiǎn)潔,在這些行業(yè)中用戶離開(kāi)一個(gè)服務(wù)提供商到另一個(gè)服務(wù)提供商的行為即被稱為用戶流失[3];但在電商、游戲、社交等互聯(lián)網(wǎng)相關(guān)的非合約性質(zhì)的行業(yè)中用戶的流失沒(méi)有一個(gè)明確的公認(rèn)標(biāo)準(zhǔn),最常見(jiàn)的是以最長(zhǎng)連續(xù)無(wú)有效活躍天數(shù)(假設(shè)為T(mén),下稱閾值)作為判斷標(biāo)準(zhǔn),當(dāng)用戶連續(xù)不登陸天數(shù)大于T時(shí)則認(rèn)為用戶流失[4],通常而言閾值T與產(chǎn)品的用戶黏性呈負(fù)相關(guān)關(guān)系,同時(shí)這種樸素的方法也受企業(yè)管理層對(duì)于用戶流失敏感性的影響。

特征選擇普遍是基于相關(guān)領(lǐng)域知識(shí)的,如前面提到有部分學(xué)者著重研究影響用戶流失的因素,通常選擇可描述流失相關(guān)因素及用戶行為指標(biāo)來(lái)構(gòu)建特征;此外,也有一些學(xué)者結(jié)合其他社科領(lǐng)域的知識(shí),如考慮同個(gè)社交網(wǎng)絡(luò)中用戶間的相互影響來(lái)對(duì)特征進(jìn)行補(bǔ)充[5]。時(shí)間序列中往往包含了許多動(dòng)態(tài)信息,但過(guò)去的研究往往只是對(duì)時(shí)間序列進(jìn)行等距測(cè)量或聚類,并簡(jiǎn)單地視為離散特征輸入[6],而鮮有考慮到深入挖掘時(shí)間序列的信息。

針對(duì)于將用戶流失預(yù)測(cè)作為二分類問(wèn)題的研究在建模算法上選擇多種多樣,從算法原理上大致可以分為以決策樹(shù)、貝葉斯、邏輯回歸為代表的基于傳統(tǒng)統(tǒng)計(jì)學(xué)算法,以支持向量機(jī)、隱馬爾可夫?yàn)榇淼幕诮y(tǒng)計(jì)學(xué)習(xí)理論算法,基于啟發(fā)式學(xué)習(xí)的預(yù)測(cè)算法,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法及目前最熱門(mén)的基于集成學(xué)習(xí)的算法。不同的方法各有特點(diǎn),在不同的研究中表現(xiàn)也有所不同,但通常來(lái)說(shuō)神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)算法表現(xiàn)會(huì)更優(yōu)[7]。

綜上所述,目前用戶流失預(yù)測(cè)研究大部分集中在電信、金融、保險(xiǎn)等合約關(guān)系明確的領(lǐng)域,而對(duì)互聯(lián)網(wǎng)行業(yè)的研究相對(duì)較少,尤其是直播行業(yè),若能較好地針對(duì)體量巨大的互聯(lián)網(wǎng)行業(yè)用戶進(jìn)行準(zhǔn)確的流失預(yù)測(cè),將帶來(lái)十分可觀的經(jīng)濟(jì)效益。針對(duì)以往研究中粗糙的流失定義及缺乏對(duì)時(shí)間序列信息的挖掘問(wèn)題,本文將從數(shù)據(jù)表現(xiàn)出發(fā)對(duì)用戶流失進(jìn)行更細(xì)粒度的指標(biāo)量化和定義,同時(shí)對(duì)時(shí)間序列這一重要信息進(jìn)行深入挖掘,對(duì)互聯(lián)網(wǎng)直播行業(yè)用戶進(jìn)行流失預(yù)測(cè),最后探究不同算法模型下與基于領(lǐng)域知識(shí)的模型在流失預(yù)測(cè)效果的差異。

2 理論與方法

2.1 時(shí)間序列特征

通過(guò)對(duì)時(shí)間序列進(jìn)行特征提取,再將提取后的特征用以模型訓(xùn)練是解決機(jī)器學(xué)習(xí)中時(shí)序相關(guān)問(wèn)題的常見(jiàn)做法。如何從時(shí)間序列中提取有效特征也是一個(gè)熱門(mén)的研究領(lǐng)域,早期學(xué)者們通常會(huì)提取與序列分布相關(guān)的基本特征,如最大值、最小值、偏度、峰度等[8]。除此之外,在不同應(yīng)用領(lǐng)域下也提出了針對(duì)性的帶領(lǐng)域知識(shí)的特征抽取算法,如基于小波特征來(lái)監(jiān)測(cè)齒輪震動(dòng)以診斷機(jī)器故障[9],通過(guò)提取擬合指數(shù)函數(shù)的參數(shù)來(lái)估計(jì)軸承的剩余壽命[10]等。在后期,F(xiàn)ULCHER等[11]提出了(Highly Comparative Time-series Analysis,HCTSA)框架并開(kāi)發(fā)了HCTSA工具箱,其原理是利用龐大的科學(xué)工作語(yǔ)料庫(kù),集成天體物理學(xué)、金融、數(shù)學(xué)、工業(yè)應(yīng)用等各個(gè)領(lǐng)域的特征生成算法,構(gòu)建出時(shí)間序列的數(shù)千個(gè)特征,包括數(shù)據(jù)值的分布信息(如高斯性,離群值的性質(zhì))、自相關(guān)結(jié)構(gòu)(如功率譜度量)、平穩(wěn)性(性質(zhì)如何隨時(shí)間變化,如一階差分)、熵和時(shí)間可預(yù)測(cè)性的信息理論度量、線性和非線性模型對(duì)數(shù)據(jù)的擬合狀況等,并使用線性分類器進(jìn)行特征選擇,以求全面地量化和理解時(shí)間序列蘊(yùn)含的有效信息。文獻(xiàn)[12]也證明了在許多標(biāo)準(zhǔn)數(shù)據(jù)集上,基于HCTSA時(shí)間序列特征建模的方法在分類任務(wù)上表現(xiàn)優(yōu)于傳統(tǒng)的基于時(shí)間序列相似度方法。

受FULCHER和JONES等的啟發(fā),2016年CHRIST等[13]在HCTSA的基礎(chǔ)上,提出了基于可擴(kuò)展假設(shè)檢驗(yàn)的時(shí)間序列特征提取(Feature Extraction on basisof Scalable Hypothesis tests,F(xiàn)RESH)算法框架。FRESH將特征抽取算法精簡(jiǎn)至63種,在不同參數(shù)下計(jì)算后共計(jì)得到794個(gè)特征;另外,F(xiàn)RESH使用基于假設(shè)檢驗(yàn)的方法進(jìn)行特征選擇。2018年CHRIST等[14]也基于Python完成了對(duì)應(yīng)軟件包TSFRESH的實(shí)現(xiàn),在特征提取與過(guò)濾算法上實(shí)現(xiàn)高度并行,同時(shí)也兼容了常見(jiàn)的機(jī)器學(xué)習(xí)框架,如scikit-learn,numpy等,便于直接應(yīng)用到實(shí)際生產(chǎn)研究中。同時(shí),在UCR標(biāo)準(zhǔn)時(shí)間序列分類數(shù)據(jù)集上的評(píng)估結(jié)果表明,F(xiàn)RESH方法在預(yù)測(cè)精度和計(jì)算開(kāi)銷上相較于經(jīng)典的基于時(shí)間序列相似度方法及特征篩選算法均有一定優(yōu)勢(shì)[13]。

2.2 算法原理

本文涉及的機(jī)器學(xué)習(xí)算法的原理如表1所示。

表1 算法概要

3 實(shí)例分析

3.1 數(shù)據(jù)來(lái)源

本文使用的數(shù)據(jù)來(lái)自國(guó)內(nèi)某移動(dòng)互聯(lián)網(wǎng)研發(fā)公司的一款海外直播APP,以2020-10-01的某大區(qū)直播活躍用戶于2020-09-18—2020-10-01共14 d內(nèi)的各類行為及個(gè)人基本信息數(shù)據(jù)為基礎(chǔ),對(duì)這部分用戶進(jìn)行流失預(yù)測(cè)。其中,活躍用戶定義位用戶當(dāng)天在直播房間內(nèi)總時(shí)長(zhǎng)不低于3 min,太少的時(shí)長(zhǎng)有可能是因?yàn)橛脩魞H僅為了簽到或誤操作,并不包含有效行為信息。出于信息完整性及實(shí)際考慮,數(shù)據(jù)中剔除了注冊(cè)日期少于14 d的用戶,一方面這部分用戶在過(guò)去周期內(nèi)的數(shù)據(jù)不完整;另一方面注冊(cè)少于14 d的用戶大體上算是新用戶,他們的行為規(guī)律相比于已經(jīng)長(zhǎng)注冊(cè)時(shí)間用戶而言不夠穩(wěn)定,同時(shí)存在大量的用戶注冊(cè)后短時(shí)間內(nèi)便流失,這些用戶往往非APP的目標(biāo)用戶,他們的流失也并非企業(yè)關(guān)心的。

最終數(shù)據(jù)集中共包括219 910個(gè)用戶,其中有45 099名用戶被標(biāo)記為流失用戶,占比20.51%。

3.2 問(wèn)題描述

用戶流失預(yù)測(cè)的本質(zhì)就是利用用戶過(guò)去一段時(shí)間的行為特征等信息,從而來(lái)預(yù)測(cè)用戶在未來(lái)一段時(shí)間是否會(huì)流失。因此從大層面上看,首先需要對(duì)用戶流失做出合適的定義,接著選擇相應(yīng)的特征信息用以最后的建模預(yù)測(cè)。

而從時(shí)間維度上看,整個(gè)流失預(yù)警過(guò)程可以分為以下3個(gè)窗口:首先是行為觀察窗口,在該窗口內(nèi)對(duì)用戶的特征進(jìn)行收集,并在窗口末尾用以模型訓(xùn)練;從而來(lái)預(yù)測(cè)用戶在未來(lái)的一段時(shí)間內(nèi)是否流失,也即進(jìn)入了流失預(yù)測(cè)窗口;最后是流失判別窗口,該窗口可以觀察在預(yù)測(cè)窗口中定義為流失的用戶是否真正流失,從而來(lái)輔助流失定義。用戶流失預(yù)警過(guò)程如圖1所示。

圖1 用戶流失預(yù)警過(guò)程

3.3 特征構(gòu)建

在模型特征信息選擇上分別構(gòu)建2組特征,一組主要由用戶的行為特征及個(gè)人特征屬性組成,也是絕大多數(shù)研究所使用的,稱為常規(guī)特征;另一組為對(duì)用戶TW1的時(shí)長(zhǎng)時(shí)間序列進(jìn)行提取后的特征,稱為高維時(shí)間序列特征。

3.3.1 常規(guī)特征

常規(guī)特征主要由以下4部分信息組成:①用戶活躍相關(guān)信息,包括活躍/上麥的天數(shù)及總時(shí)長(zhǎng)、平均時(shí)長(zhǎng),進(jìn)房次數(shù)等;②用戶營(yíng)收相關(guān)信息,包括送禮/收禮人數(shù)、次數(shù)、金額,最大充值金額,背包禮物余額等;③用戶社交相關(guān)信息,包括發(fā)送IM消息數(shù)量、關(guān)注主播數(shù)、好友數(shù)、被關(guān)注數(shù)等;④用戶個(gè)人畫(huà)像信息,包括國(guó)家、年齡、性別、注冊(cè)至今天數(shù)、是否有過(guò)充值/消費(fèi)行為等。

從直觀上來(lái)說(shuō),用戶在TW1內(nèi)的行為是對(duì)其行為特征最好的刻畫(huà),但考慮到不同用戶對(duì)于APP的黏性及所處生命周期階段不同,因此將用戶的歷史行為信息也納入特征中,最終常規(guī)特征共包含41維特征。

3.3.2 高維時(shí)序特征

通過(guò)TSFRESH框架提取了用戶在TW1內(nèi)的每日活躍時(shí)長(zhǎng)序列的794個(gè)特征,主要包括以下幾個(gè)部分:①時(shí)間序列值分布的基本統(tǒng)計(jì)信息,包括分布、散度、高斯性值、離群值屬性等;②線性相關(guān)性,包括自相關(guān)性、功率譜特征等;③平穩(wěn)性,包括StatAv、滑動(dòng)窗口測(cè)量、預(yù)測(cè)誤差等;④信息論與復(fù)雜性度量,包括自互信息、近似熵、Lempel-Ziv復(fù)雜度等;⑤線性和非線性模型擬合,包括自回歸移動(dòng)平均(ARMA)、高斯過(guò)程和廣義自回歸條件異方差(GARCH)模型的擬合優(yōu)度、估計(jì)和參數(shù)值等。

3.4 數(shù)據(jù)預(yù)處理及特征工程

數(shù)據(jù)質(zhì)量及特征工程的好壞會(huì)顯著影響建模結(jié)果的準(zhǔn)確和有效性,也是研究的可靠性保障,其主要包含以下工作。

3.4.1 異常值、缺失值處理

將超過(guò)正常使用所能達(dá)到的數(shù)據(jù)定義為異常數(shù)據(jù),如異常心跳上報(bào)的時(shí)長(zhǎng)數(shù)據(jù)及觸發(fā)相應(yīng)風(fēng)控策略的營(yíng)收數(shù)據(jù)等。經(jīng)過(guò)統(tǒng)計(jì),存在異常數(shù)據(jù)的用戶占比低于0.01%,故將這部分用戶直接剔除。而在缺失值上,最高缺失特征缺失值占比為0.29%,分別使用眾數(shù)、均值對(duì)離散及連續(xù)變量進(jìn)行缺失值填充。

3.4.2 特征篩選

特征篩選目標(biāo)是盡可能在不引起重要信息丟失的前提下去除掉冗余甚至無(wú)關(guān)特征,保留與預(yù)測(cè)目標(biāo)相關(guān)的特征。使用費(fèi)舍爾精確檢驗(yàn)(Fisher'sexact test)[15]及曼-惠特尼U驗(yàn)(Mann-Whitney U test)對(duì)二分類特征及數(shù)值特征進(jìn)行假設(shè)檢驗(yàn)篩選;針對(duì)高維時(shí)序特征,使用Benjamini-Yekutieli方法[16]控制多次假設(shè)檢驗(yàn)的錯(cuò)誤發(fā)現(xiàn)率FDR(False Discovery Rate)。顯著性水平α均取0.05。經(jīng)過(guò)篩選后,常規(guī)特征保留39維,高維時(shí)序特征保留326維。

3.4.3 數(shù)據(jù)標(biāo)準(zhǔn)化

實(shí)驗(yàn)中所使用的KNN是基于歐氏距離的算法,在計(jì)算過(guò)程中必須消除特征量綱的影響;同時(shí),對(duì)于使用梯度下降來(lái)優(yōu)化的算法,如SVM、BP、LSTM,歸一化有助于加快收斂,因而在這些模型訓(xùn)練前,將對(duì)連續(xù)特征進(jìn)行z-score標(biāo)準(zhǔn)化處理,同時(shí)在離散特征上采用獨(dú)熱編碼。

3.5 實(shí)驗(yàn)設(shè)計(jì)

上文中提到,過(guò)去研究中具體用于流失預(yù)測(cè)建模的算法繁多,從大方向上主要可以分為傳統(tǒng)統(tǒng)計(jì)學(xué)、統(tǒng)計(jì)學(xué)習(xí)理論、啟發(fā)式、神經(jīng)網(wǎng)絡(luò)及集成學(xué)習(xí)5類。面對(duì)各式各樣的算法選擇,實(shí)驗(yàn)的第一部分將基于常規(guī)特征,選擇各類算法中的主要代表模型來(lái)進(jìn)行建模,探究不同模型的表現(xiàn),同時(shí)也將得到的最優(yōu)模型作為后續(xù)實(shí)驗(yàn)?zāi)P蛥⒄盏腷aseline基準(zhǔn)模型;同時(shí),針對(duì)過(guò)去研究中對(duì)時(shí)序特征缺乏考慮的問(wèn)題,實(shí)驗(yàn)的第二部分先使用高維時(shí)序特征進(jìn)行建模,再將常規(guī)特征與高維時(shí)序特征進(jìn)行融合建模,觀察高維時(shí)序特征是否有助于提升模型表現(xiàn)。特征建模簡(jiǎn)要流程如圖2所示。

模型構(gòu)建的具體過(guò)程如圖3所示,首先用特征工程的方法對(duì)初始數(shù)據(jù)集進(jìn)行預(yù)處理,然后將清洗好的數(shù)據(jù)集按7∶3的比例隨機(jī)拆分為訓(xùn)練集與測(cè)試集。訓(xùn)練集用以模型訓(xùn)練,以準(zhǔn)確率為目標(biāo)使用對(duì)半網(wǎng)格搜索(Halving Grid Search)[17]或貝葉斯優(yōu)化(Bayesian Optimization)[18]選擇最優(yōu)參數(shù),并進(jìn)行5折交叉驗(yàn)證。確定最優(yōu)參數(shù)后使用完整訓(xùn)練集進(jìn)行模型訓(xùn)練,而后在測(cè)試集上進(jìn)行預(yù)測(cè)得到預(yù)測(cè)結(jié)果,并使用準(zhǔn)確率(Accuracy)、召回率(Recall)、F1值(F1-score)及AUC值全面地評(píng)估模型效果。

圖2 特征建模簡(jiǎn)要流程

圖3 流失預(yù)測(cè)模型構(gòu)建過(guò)程

3.6 實(shí)驗(yàn)結(jié)果

3.6.1 基于常規(guī)特征建模

從算法使用頻率、趨勢(shì)及數(shù)據(jù)特性出發(fā),在這部分實(shí)驗(yàn)中,以決策樹(shù)DT、最近鄰算法KNN作為傳統(tǒng)統(tǒng)計(jì)學(xué)算法的代表,以支持向量機(jī)SVM作為統(tǒng)計(jì)學(xué)習(xí)理論算法代表,以粒子群遺傳混合算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)作為啟發(fā)式算法與神經(jīng)網(wǎng)絡(luò)的代表,并選擇隨機(jī)森林RF和XGBoost作為Bagging和Boosting等集成算法的代表。實(shí)驗(yàn)預(yù)測(cè)結(jié)果如表2所示。

表2 基于常規(guī)特征建模的模型預(yù)測(cè)結(jié)果

從表2中可以看到,集成學(xué)習(xí)算法總體表現(xiàn)最優(yōu),基于Bagging集成學(xué)習(xí)的隨機(jī)森林算法在準(zhǔn)確率、F1值及AUC值取得最高得分,而基于Boosting集成學(xué)習(xí)的XGBoost在召回率上有最佳得分。此外,基于統(tǒng)計(jì)學(xué)習(xí)方法的SVM表現(xiàn)最優(yōu),經(jīng)過(guò)PSO-GA改進(jìn)后的神經(jīng)網(wǎng)絡(luò)次之,改進(jìn)后的神經(jīng)網(wǎng)絡(luò)也相較改進(jìn)前在正例樣本表現(xiàn)上更優(yōu),有更高的覆蓋率和F1值,而基于傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)的決策樹(shù)及K近鄰算法表現(xiàn)較差。因此,選擇基于常規(guī)特征進(jìn)行建模的隨機(jī)森林模型作為后續(xù)實(shí)驗(yàn)參照的基準(zhǔn)模型。同時(shí)由于集成學(xué)習(xí)算法的出色表現(xiàn),后續(xù)建模也更傾向使用集成學(xué)習(xí)算法。

3.6.2 基于時(shí)序及融合特征建模

這部分實(shí)驗(yàn)首先使用HCTSA方法提取出的時(shí)序特征進(jìn)行建模,模型算法選擇使用在前面表現(xiàn)較好的隨機(jī)森林及XGBoost;然后將時(shí)序特征與常規(guī)特征進(jìn)行融合,使用融合后的特征進(jìn)一步對(duì)模型進(jìn)行訓(xùn)練,觀察模型在3組特征下的表現(xiàn)情況,如表3、表4所示。

為了讓實(shí)驗(yàn)結(jié)果更加直觀可視化,將實(shí)驗(yàn)結(jié)果以圖4的方式呈現(xiàn)出來(lái)。從圖4中可以看出,無(wú)論是隨機(jī)森林還是XGBoost,基于常規(guī)特征建模的模型表現(xiàn)比基于高維時(shí)序特征建模的表現(xiàn)更好,這也意味著比起只考慮時(shí)間相關(guān)特征的高維時(shí)序特征,包含了如營(yíng)收、社交及用戶畫(huà)像等多樣化且更全面的常規(guī)特征在預(yù)測(cè)中有著不可忽視的作用;另一方面,基于融合特征建模的模型在各個(gè)指標(biāo)的表現(xiàn)均優(yōu)于在常規(guī)特征基礎(chǔ)上建模的模型,尤其在召回率及F1值上有顯著提高。相較于常規(guī)特征建模,2個(gè)模型在召回率上分別提升了5.98%及6.83%,在F1值上分別提升了2.39%及3.42%,這說(shuō)明模型不僅整體預(yù)測(cè)精確度更佳,同時(shí)也提升了對(duì)于正例樣本的捕捉能力,即對(duì)流失用戶的判別能力,這也恰恰是流失預(yù)警模型最為需要和關(guān)注的。這也體現(xiàn)出高維時(shí)序特征的優(yōu)勢(shì),其全面的信息彌補(bǔ)了常規(guī)特征中對(duì)時(shí)序缺乏深入挖掘的不足;同時(shí),常規(guī)特征中考慮特征更加多樣全面也補(bǔ)充了特征來(lái)源,將2種特征融合互為補(bǔ)充后模型得以進(jìn)一步優(yōu)化提升。

表3 基于時(shí)序及融合特征的隨機(jī)森林結(jié)果

表4 基于時(shí)序及融合特征的XGBoost結(jié)果

圖4 模型的準(zhǔn)確率、召回率、F1值和AUC對(duì)比圖

4 總結(jié)

本文使用某直播APP真實(shí)的業(yè)務(wù)數(shù)據(jù)對(duì)用戶進(jìn)行流失預(yù)測(cè)。首先基于過(guò)去研究中常涉及的常規(guī)特征,選擇常見(jiàn)的算法進(jìn)行預(yù)測(cè)對(duì)比,包括基于傳統(tǒng)統(tǒng)計(jì)學(xué)的KNN、統(tǒng)計(jì)學(xué)習(xí)方法SVM、啟發(fā)式優(yōu)化神經(jīng)網(wǎng)絡(luò)PSO-GA-BP、集成學(xué)習(xí)算法RF、XGBoost等,得出集成學(xué)習(xí)算法總體表現(xiàn)最優(yōu)的結(jié)論。然后從用戶過(guò)去的活躍時(shí)長(zhǎng)序列中提取高維時(shí)序特征,與常規(guī)特征進(jìn)行融合,用于集成學(xué)習(xí)算法訓(xùn)練。數(shù)據(jù)結(jié)果表明,基于融合特征方法能夠使模型得到進(jìn)一步的優(yōu)化提升。

本文在時(shí)序特征的提取上只考慮了用戶時(shí)長(zhǎng)這一時(shí)間序列,未來(lái)可進(jìn)一步考慮對(duì)更多序列進(jìn)行特征提取以獲取更多信息,如用戶操作序列等。同時(shí),預(yù)測(cè)流失用戶的最終目的是提前判別用戶狀態(tài),進(jìn)而采取一定手段留住用戶,探索如何更有針對(duì)性地將預(yù)測(cè)結(jié)果與客戶挽留措施相結(jié)合也是非常有價(jià)值的方向,尤其在用戶價(jià)值評(píng)定及具體挽留成本方面,目前研究仍較匱乏,對(duì)用戶進(jìn)行全面合理的價(jià)值評(píng)定及采用適當(dāng)?shù)某杀具M(jìn)行高效促活,將有助于提升企業(yè)的切實(shí)收益。

猜你喜歡
高維時(shí)序建模
顧及多種弛豫模型的GNSS坐標(biāo)時(shí)序分析軟件GTSA
基于相關(guān)子空間的高維離群數(shù)據(jù)檢測(cè)算法
清明
基于GEE平臺(tái)與Sentinel-NDVI時(shí)序數(shù)據(jù)江漢平原種植模式提取
基于FLUENT的下?lián)舯┝魅S風(fēng)場(chǎng)建模
雙冗余網(wǎng)絡(luò)高維離散數(shù)據(jù)特征檢測(cè)方法研究
你不能把整個(gè)春天都搬到冬天來(lái)
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法
求距求值方程建模