国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度森林在用戶購(gòu)買預(yù)測(cè)中的應(yīng)用

2023-02-17 01:54:24付紅玉
關(guān)鍵詞:級(jí)聯(lián)森林深度

付紅玉 賀 紅

(山東大學(xué)機(jī)電與信息工程學(xué)院 山東 威海 264200)

0 引 言

1990年至1993年,電子商務(wù)的概念被引入中國(guó),經(jīng)過(guò)20多年的發(fā)展,中國(guó)電商上市公司數(shù)、交易規(guī)模、網(wǎng)民規(guī)模、網(wǎng)購(gòu)用戶規(guī)模等持續(xù)攀升。電子商務(wù)平臺(tái)商品繁多,在為用戶提供產(chǎn)品和服務(wù)的同時(shí),加大了用戶在海量數(shù)據(jù)中快速、準(zhǔn)確地找到符合用戶偏好的產(chǎn)品的難度[1]。而且,隨著電商領(lǐng)域發(fā)展到一定規(guī)模,流量的快速增長(zhǎng)最終會(huì)停止,提高流量轉(zhuǎn)換率將成為一個(gè)電商企業(yè)保持長(zhǎng)期、穩(wěn)定發(fā)展的決定性因素[2]。基于此,電商服務(wù)技術(shù)得以快速發(fā)展,各大電商平臺(tái)逐步由應(yīng)用支撐向服務(wù)支撐邁進(jìn)。

由于電商獨(dú)特的平臺(tái)優(yōu)勢(shì),在活躍的購(gòu)買行為下,潛藏了更多的用戶行為數(shù)據(jù),如用戶的瀏覽、點(diǎn)擊、關(guān)注行為及反映用戶偏好的評(píng)論行為等。這些行為數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),其特點(diǎn)是數(shù)據(jù)量大、多樣性強(qiáng)、價(jià)值大且密度低,符合大數(shù)據(jù)的特點(diǎn),被稱為電商大數(shù)據(jù)[3]。電商大數(shù)據(jù)帶來(lái)了信息過(guò)載的問(wèn)題,基于電商大數(shù)據(jù)的個(gè)性化推薦系統(tǒng),可以整合多源異構(gòu)數(shù)據(jù),實(shí)時(shí)、準(zhǔn)確地向用戶推薦符合其意愿的產(chǎn)品,既能提高用戶購(gòu)物體驗(yàn),又能提高電商平臺(tái)轉(zhuǎn)換率,進(jìn)而提升企業(yè)競(jìng)爭(zhēng)力,是有效解決信息過(guò)載問(wèn)題的有效方案[4]。預(yù)測(cè)是推薦的基礎(chǔ),“用戶購(gòu)買行為預(yù)測(cè)”作為商品推薦系統(tǒng)研究的重點(diǎn)問(wèn)題之一,近幾年來(lái)發(fā)展迅速。目前研究多集中于集成學(xué)習(xí)算法,多數(shù)學(xué)者旨在通過(guò)算法改進(jìn)和模型融合等手段,提高用戶復(fù)購(gòu)預(yù)測(cè)準(zhǔn)確率。本文從兩方面對(duì)用戶購(gòu)買預(yù)測(cè)模型進(jìn)行改進(jìn):(1) 引入時(shí)間滑動(dòng)窗口技術(shù)和窗口權(quán)重遞減設(shè)置,從數(shù)量特征、時(shí)序特征等五方面構(gòu)建全面的訓(xùn)練特征。(2) 基于深度森林算法框架,引入隨機(jī)森林、XGBoost等多種集成算法搭建多層異源集成算法模型,預(yù)測(cè)用戶購(gòu)買行為。

1 相關(guān)工作

推薦系統(tǒng)的定義由Resnick于1997年首次提出,已走過(guò)20多年的發(fā)展之路,目前傳統(tǒng)的推薦算法主要有協(xié)同過(guò)濾推薦、基于內(nèi)容的推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于知識(shí)的推薦和混合推薦5種分類[5]。在不同的應(yīng)用領(lǐng)域,傳統(tǒng)推薦算法存在很多問(wèn)題,學(xué)者們從多角度考慮,提出了一系列改進(jìn)的推薦算法。基于用戶的協(xié)同過(guò)濾和基于物品的協(xié)同過(guò)濾算法[6]對(duì)用戶-商品評(píng)分依賴性強(qiáng),在用戶和商品數(shù)量不穩(wěn)定的領(lǐng)域推薦效果較差。Deshpande等[7]提出了一種基于模型的推薦算法,通過(guò)引入不同項(xiàng)目間相似性計(jì)算得到的算法模型比傳統(tǒng)的推薦算法快兩個(gè)數(shù)量級(jí),且表現(xiàn)出更高質(zhì)量的推薦效果。針對(duì)數(shù)據(jù)稀疏情況下推薦質(zhì)量不佳的問(wèn)題,岳希等[8]從評(píng)分空缺填補(bǔ)、考慮共同評(píng)分項(xiàng)數(shù)量等方面進(jìn)行優(yōu)化,提出了一種針對(duì)稀疏數(shù)據(jù)的推薦算法,且隨著數(shù)據(jù)稀疏度增大,模型效果更加明顯。

推薦算法逐漸走向成熟,預(yù)測(cè)作為推薦的基礎(chǔ)也成為國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)。在預(yù)測(cè)問(wèn)題的研究中,電商平臺(tái)借助技術(shù)手段深入挖掘并分析用戶的歷史行為,發(fā)現(xiàn)用戶行為特征、偏好和購(gòu)買規(guī)律,在現(xiàn)有數(shù)據(jù)基礎(chǔ)上,預(yù)測(cè)用戶未來(lái)購(gòu)買行為,以實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,優(yōu)化平臺(tái)購(gòu)買服務(wù),提高平臺(tái)運(yùn)行效率[9]。同時(shí),精確的預(yù)測(cè)算法有助于平臺(tái)獲取老用戶的保有價(jià)值、新用戶的提升價(jià)值以及潛在用戶的挖掘價(jià)值,進(jìn)一步提高平臺(tái)轉(zhuǎn)化率[10]。在特征工程方面,李俊卿等[11]強(qiáng)調(diào)輸入特征向量的選擇是建立預(yù)測(cè)模型關(guān)鍵的一步,他提出了一種基于隨機(jī)森林篩選預(yù)測(cè)模型輸入向量的方法,通過(guò)降低模型復(fù)雜度,加快模型預(yù)測(cè)速度的同時(shí)提高了預(yù)測(cè)的精度。在模型搭建方面,Zhao等[12]在2014年使用機(jī)器學(xué)習(xí)和降維(SVD)方法,利用天貓—特定特征數(shù)據(jù)預(yù)測(cè)用戶購(gòu)買行為,得到了很好的效果。Martínez等[13]使用Logistic Lasso、extreme learning machine和gradient tree boost分別搭建預(yù)測(cè)模型,預(yù)測(cè)用戶在未來(lái)一個(gè)月的購(gòu)買行為,實(shí)驗(yàn)結(jié)果表明梯度提升樹預(yù)測(cè)效果最佳,這是集成學(xué)習(xí)在數(shù)值預(yù)測(cè)問(wèn)題中的新探索。

近年來(lái),深度學(xué)習(xí)算法很流行。它們由逐層神經(jīng)網(wǎng)絡(luò)構(gòu)成,具有很強(qiáng)的表示學(xué)習(xí)能力,在各領(lǐng)域預(yù)測(cè)問(wèn)題研究中取得顯著的成果[14]。但深度學(xué)習(xí)模型參數(shù)較多,訓(xùn)練時(shí)間長(zhǎng)。南京大學(xué)周志華教授于2017年首次提出深度森林的概念[15],同時(shí)提出了一種以隨機(jī)森林為基分類器的多粒度級(jí)聯(lián)森林(multi-Grained Cascade forest,gcForest)深度樹集成方法。該框架提出至今,已被應(yīng)用于多個(gè)領(lǐng)域。Hu等[16]基于深度森林算法框架,搭建了一個(gè)既保留深度學(xué)習(xí)的特征表示能力,又考慮召回率和模型訓(xùn)練時(shí)間等其他評(píng)價(jià)指標(biāo)的新模型,新模型取得了比集成學(xué)習(xí)算法更優(yōu)異的表現(xiàn)。葛紹林等[17]提出了一種基于深度森林的用戶購(gòu)買行為預(yù)測(cè)模型,在阿里平臺(tái)真實(shí)數(shù)據(jù)集上構(gòu)建用戶行為特征,輸入模型預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明深度森林模型在降低時(shí)間開銷的同時(shí)提高了預(yù)測(cè)準(zhǔn)確率。

綜上所示,這些技術(shù)只是簡(jiǎn)單地從特征提取或模型選擇單方面進(jìn)行改進(jìn)。特征提取時(shí)未考慮數(shù)據(jù)間的時(shí)序關(guān)系,特征構(gòu)建不夠全面。模型選擇單一,未考慮多樣性對(duì)模型整體建設(shè)的重要性。本文通過(guò)對(duì)真實(shí)數(shù)據(jù)集進(jìn)行可視化操作,針對(duì)數(shù)據(jù)集稀疏性特點(diǎn),有針對(duì)性地從五方面提取重要特征。電商平臺(tái)數(shù)據(jù)更新頻繁,對(duì)模型訓(xùn)練效率要求高,基于多種集成學(xué)習(xí)算法,提出了基于深度森林模型的用戶購(gòu)買行為預(yù)測(cè)模型,在本文特征集上進(jìn)行訓(xùn)練,能得到很好的預(yù)測(cè)表現(xiàn)。深度森林是一個(gè)深度樹集成方法,具有比深度神經(jīng)網(wǎng)絡(luò)少得多的超參數(shù),可以避免大規(guī)模的參數(shù)擬合來(lái)節(jié)省時(shí)間,在許多與深度神經(jīng)網(wǎng)絡(luò)競(jìng)爭(zhēng)的領(lǐng)域表現(xiàn)出了出色的分類性能[18-19]。模型中的超參數(shù)有較強(qiáng)的魯棒性,在近乎完全一樣的超參數(shù)設(shè)置下,對(duì)不同領(lǐng)域不同數(shù)據(jù)的分類任務(wù)都能取得不錯(cuò)的分類效果。

2 預(yù)測(cè)模型

2.1 問(wèn)題場(chǎng)景

在電商平臺(tái)中,用戶對(duì)日用品的購(gòu)買具有一定規(guī)律性,在購(gòu)買某品類物品時(shí),會(huì)先瀏覽該品類的不同商品,在挑選和比較商品的過(guò)程中,會(huì)產(chǎn)生一系列的操作行為,如本文數(shù)據(jù)集中的瀏覽、關(guān)注行為等。不同用戶擁有不同的購(gòu)物習(xí)慣,部分用戶要達(dá)到一定瀏覽次數(shù)才會(huì)產(chǎn)生購(gòu)買行為,也有用戶習(xí)慣先關(guān)注心儀物品,日后從關(guān)注列表進(jìn)行購(gòu)買。

2.2 特征構(gòu)建

在預(yù)測(cè)問(wèn)題的研究中,決定最終預(yù)測(cè)結(jié)果好壞的,是特征的構(gòu)建和模型的選擇。在某種程度上,特征構(gòu)建的重要性甚至超過(guò)了模型的選擇。本文在原始數(shù)據(jù)集基礎(chǔ)上,從五個(gè)方面提取特征,從瀏覽—購(gòu)買、關(guān)注—購(gòu)買、購(gòu)買—評(píng)論三個(gè)角度來(lái)擴(kuò)展特征。同時(shí),引入時(shí)間滑動(dòng)窗口技術(shù),構(gòu)建動(dòng)態(tài)時(shí)序序列,主要工作流程如圖1所示。

圖1 基于時(shí)間滑窗的特征構(gòu)建流程圖

(1) 基本特征。包括用戶性別、年齡、級(jí)別,商品的價(jià)格、參數(shù)等基本特征共7個(gè)。

(1)

(2)

式中:Δtu,i=tu,i-tu,i-1表示[A,B]窗口內(nèi),第i次購(gòu)買和第i-1次購(gòu)買之間的時(shí)間差,以天為單位。權(quán)重wi:

(3)

(4)

(5)

用戶瀏覽、關(guān)注和評(píng)論行為的數(shù)量特征和時(shí)序特征的提取與上述一致。

(4) 組合特征。在以上已提取特征的基礎(chǔ)上,進(jìn)行關(guān)聯(lián)特征的組合。將數(shù)量特征(12個(gè))與時(shí)序特征(4個(gè))分別組合,構(gòu)建用戶活躍度指數(shù)特征,生成12×4=48個(gè)新特征xactive1:

(6)

(5) 時(shí)間滑動(dòng)窗口特征。以上構(gòu)建的83個(gè)特征的是在單時(shí)間窗口內(nèi)進(jìn)行的特征提取,本文初步設(shè)定的窗口個(gè)數(shù)為3個(gè),窗口權(quán)重按由近及遠(yuǎn)依次設(shè)定為w1=2,w2=1.5,w3=1。至此,本節(jié)一共得到83×3=249個(gè)特征。

2.3 深度森林算法

深度森林算法的產(chǎn)生基于兩個(gè)目的:一方面,增強(qiáng)輸入特征的差異性;另一方面,增強(qiáng)模型對(duì)特征的處理能力。前者通過(guò)多粒度掃描模塊實(shí)現(xiàn),后者通過(guò)多層級(jí)聯(lián)森林模塊實(shí)現(xiàn)。

圖2為多粒度掃描過(guò)程,多粒度掃描其實(shí)是引用了類似卷積神經(jīng)網(wǎng)絡(luò)滑動(dòng)窗口的技術(shù),目前主要針對(duì)輸入的一維時(shí)序序列和二維圖像數(shù)據(jù)進(jìn)行掃描和特征提取。本文分類任務(wù)是將輸入的一維時(shí)序數(shù)據(jù)分為兩類,在掃描一維時(shí)序特征時(shí),假設(shè)輸入特征向量為300維,采樣窗口設(shè)定為100維,通過(guò)逐步滑窗采樣,最終掃描產(chǎn)生201個(gè)子樣本(默認(rèn)采樣步長(zhǎng)為1,所以子樣本數(shù)=(300-100)/1+1=201)。將子樣本分別輸入森林A和森林B中進(jìn)行訓(xùn)練,每個(gè)樣本輸出一個(gè)2維的概率特征向量,原始輸入的300維特征向量經(jīng)多粒度掃描后最終生成804維類特征向量,將所有向量連接起來(lái)作為級(jí)聯(lián)森林的輸入特征向量。

圖2 多粒度掃描過(guò)程

圖3 級(jí)聯(lián)森林結(jié)構(gòu)的圖示

多粒度掃描的特征輸入級(jí)聯(lián)森林模塊,經(jīng)過(guò)層層學(xué)習(xí)最終得到訓(xùn)練的學(xué)習(xí)模型和預(yù)測(cè)結(jié)果。本文提取的原始數(shù)據(jù)為一維時(shí)序數(shù)據(jù),輸入的特征向量為249維。特征的提取基于用戶歷史行為數(shù)據(jù),特征間具有很強(qiáng)的時(shí)序關(guān)系,故在多粒度掃描模塊,我們?cè)O(shè)計(jì)3個(gè)滑動(dòng)窗口分別進(jìn)行特征提取,滑動(dòng)窗口維度分別為50維、100維、150維,滑動(dòng)步長(zhǎng)均為1?;趃cForest的用戶復(fù)購(gòu)預(yù)測(cè)模型整體結(jié)構(gòu)如圖4所示。

圖4 用戶復(fù)購(gòu)預(yù)測(cè)模型整體結(jié)構(gòu)圖示

其輸入是特征工程模塊提取的原始樣本集(其中一行樣本數(shù)據(jù)由基本特征、數(shù)量特征和時(shí)序特征等5類特征構(gòu)成的數(shù)據(jù)和標(biāo)簽組成),經(jīng)多粒度掃描模塊后,共提取特征1 800維,作為級(jí)聯(lián)森林第一級(jí)的輸入,第一級(jí)訓(xùn)練后產(chǎn)生4×2=8維增強(qiáng)特征,加上1 800維粒度掃描得到的特征向量,形成1 808維變換特征向量作為第二級(jí)的輸入。以此類推,完成整個(gè)級(jí)聯(lián)森林的模型訓(xùn)練,重復(fù)以上過(guò)程直到模型性能收斂。算法1是深度森林模型的詳細(xì)算法描述。

算法1深度森林算法描述

Input:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xn,yn)}

測(cè)試集T={(xn+1,yn+1),(xn+2,yn+2),…,(xm,ym)}

深度森林最大層數(shù)M

Process

D0=多粒度掃描(D)

fori in Mdo

用訓(xùn)練集D訓(xùn)練得到2個(gè)隨機(jī)森林和2個(gè)完全隨機(jī)森林,兩者結(jié)合構(gòu)成級(jí)聯(lián)森林的第i層;

計(jì)算測(cè)試集T在當(dāng)前層的模型上的預(yù)測(cè)準(zhǔn)確率pi

ifpi-pi-1<0(i>0)do

訓(xùn)練終止,輸出深度森林模型。

end

else

得到級(jí)聯(lián)森林第i層輸出的二維類向量Y,與Di-1(i>0)中的特征進(jìn)行拼接,得到下一層森林的輸入Di+1

endif

ifi

訓(xùn)練終止,輸出深度森林模型

end

else

跳轉(zhuǎn)至for循環(huán)

endif

endfor

Output:深度森林模型

3 實(shí)驗(yàn)分析

本實(shí)驗(yàn)基于京東平臺(tái)2017年大數(shù)據(jù)算法比賽提供的真實(shí)數(shù)據(jù)集,為京東商城在2016年5月1日至2017年4月30日期間,9萬(wàn)多名用戶對(duì)近4 000多個(gè)日用品的瀏覽、關(guān)注、購(gòu)買和評(píng)論行為。

3.1 數(shù)據(jù)處理

數(shù)據(jù)集中包括兩個(gè)特殊的時(shí)間段:雙十一期間和6·18期間,據(jù)統(tǒng)計(jì),京東2019年雙十一當(dāng)天日活躍用戶數(shù)(DAU)達(dá)4 786萬(wàn),為平時(shí)日活躍用戶數(shù)的幾十倍,故對(duì)雙十一和6·18期間的用戶行為參考平日數(shù)據(jù)進(jìn)行均衡化處理;特征矩陣中每一條樣本由user_id唯一標(biāo)識(shí),該屬性不能刻畫樣本自身的分布規(guī)律,屬無(wú)關(guān)屬性,應(yīng)刪除;構(gòu)建數(shù)量特征時(shí),存在少量用戶只有用戶描述,無(wú)任何行為數(shù)據(jù),將該類用戶信息刪除,不參與訓(xùn)練;原始數(shù)據(jù)集正負(fù)樣本不均衡(16 774個(gè)負(fù)樣本和48 718個(gè)正樣本),本文使用SMOTE技術(shù)[20]生成23 824個(gè)新的負(fù)樣本得到正負(fù)樣本比為1.2 ∶1的均衡數(shù)據(jù)集。

訓(xùn)練集構(gòu)建時(shí)間范圍為2016年9月1日—2017年3月31日,其中2016年9月1日—2017年2月28日為特征提取時(shí)間范圍,由三個(gè)時(shí)間滑動(dòng)窗口共同提取特征,2017年3月份的用戶購(gòu)買行為作為標(biāo)簽(0代表無(wú)購(gòu)買行為,1代表至少有一次購(gòu)買行為)。同理,測(cè)試集在2016年10月1日—2017年3月31日區(qū)間內(nèi)提取特征,以2017年4月份的購(gòu)買行為作為標(biāo)簽進(jìn)行預(yù)測(cè)評(píng)估。

3.2 評(píng)估指標(biāo)

本文實(shí)驗(yàn)采用5個(gè)標(biāo)準(zhǔn)的評(píng)估指標(biāo):準(zhǔn)確率(Accuracy)、查準(zhǔn)率(Precious)、查全率(Recall)、F1和AUC(Area Under Curve)。準(zhǔn)確率指的是正確預(yù)測(cè)的樣本數(shù)占總預(yù)測(cè)樣本數(shù)的比值,它不考慮預(yù)測(cè)的樣本是正例還是反例。查準(zhǔn)率指正確預(yù)測(cè)的正樣本數(shù)占所有預(yù)測(cè)為正樣本的數(shù)量的比值,查準(zhǔn)率越高,證明對(duì)有購(gòu)買行為預(yù)測(cè)越準(zhǔn)確,推薦算法越精準(zhǔn)。查全率指正確預(yù)測(cè)的正樣本數(shù)占真實(shí)正樣本總數(shù)的比值。查準(zhǔn)率和查全率是相互作用的兩個(gè)指標(biāo),一個(gè)指標(biāo)的增加會(huì)導(dǎo)致另一指標(biāo)的下降,因此,選用F1作為衡量模型整體性的指標(biāo)。AUC被定義為ROC曲線下的面積,其取值區(qū)間為[0,1],AUC值可以很直觀地評(píng)估模型表現(xiàn),值越接近1表示模型分類效果越好。

評(píng)估指標(biāo)表示如式(7)-式(10)所示。

(7)

(8)

(9)

(10)

3.3 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)平臺(tái)基于Python語(yǔ)言搭建,實(shí)驗(yàn)硬件環(huán)境為英特爾i7- 7700 CPU @ 3.60 GHz處理器,8 GB內(nèi)存,操作系統(tǒng)為Windows 10專業(yè)版,實(shí)驗(yàn)的主要配置如表1所示。

表1 實(shí)驗(yàn)配置表

4 實(shí)驗(yàn)結(jié)果及分析

深度森林模型中森林的構(gòu)建是模型建立的核心,而決策樹的構(gòu)建是森林的核心,因此森林中決策樹的數(shù)量和深度會(huì)直接影響模型的訓(xùn)練效率和分類效果。深度森林可以級(jí)聯(lián)多種模型,多樣性對(duì)模型的設(shè)計(jì)尤為關(guān)鍵[21],因此,本文嘗試級(jí)聯(lián)邏輯回歸(LR)、隨機(jī)森林(RF)、極端隨機(jī)樹(ET)、梯度提升樹(XGB)中多種森林模型,并通過(guò)實(shí)驗(yàn)確定模型種類和超參數(shù)。

如圖5(a)所示,各個(gè)森林模型整體均呈現(xiàn)隨n_estimate參數(shù)增大準(zhǔn)確率先增加后趨向平穩(wěn)的趨勢(shì)。其中,RF和XGB模型預(yù)測(cè)準(zhǔn)確率相當(dāng)。由于n_estimate參數(shù)的增加會(huì)帶來(lái)時(shí)間上的開銷,圖5(b)對(duì)模型訓(xùn)練時(shí)間進(jìn)行對(duì)比,可以明顯看出,n_estimate參數(shù)越大,模型的訓(xùn)練時(shí)間越長(zhǎng)。

(a) 準(zhǔn)確率評(píng)估表現(xiàn)

(b) 訓(xùn)練時(shí)間評(píng)估表現(xiàn)圖5 n_estimators參數(shù)不同設(shè)置下模型表現(xiàn)

此外,我們對(duì)各模型隨參數(shù)maxdepth的變化情況進(jìn)行對(duì)比。圖6(a)可知,隨著maxdepth參數(shù)的增大,模型準(zhǔn)確率不但沒(méi)有提高,反而有所降低。在圖6(b)中,對(duì)于RF和ET模型而言,maxdepth參數(shù)的增大沒(méi)有帶來(lái)時(shí)間上的開銷,但XGB模型隨maxdepth參數(shù)的增大,運(yùn)行時(shí)間增加非常明顯。

(a) 準(zhǔn)確率指標(biāo)評(píng)估

(b) 訓(xùn)練時(shí)間上的表現(xiàn)圖6 maxdepth參數(shù)不同設(shè)置下模型的表現(xiàn)

通過(guò)綜合分析圖5、圖6中模型表現(xiàn),對(duì)以上三個(gè)模型的超參數(shù)進(jìn)行設(shè)置(表2)。

表2 級(jí)聯(lián)森林中各模型參數(shù)設(shè)置

以上提到的三種模型在分類表現(xiàn)上各有優(yōu)勢(shì):RF模型的方差和偏差都比較低,因而在實(shí)驗(yàn)中擁有最高的準(zhǔn)確率和最快的訓(xùn)練效率;ET模型的方差相對(duì)RF進(jìn)一步減少,偏差有所增大,分類準(zhǔn)確率稍有下降;XGBoost(表3中簡(jiǎn)稱:XGB)作為梯度提升集成學(xué)習(xí)算法的典型代表,擁有非常高的準(zhǔn)確率,只是時(shí)間開銷比較大。級(jí)聯(lián)模型的多樣性直接影響分類效果,本文通過(guò)級(jí)聯(lián)以上多個(gè)模型,得到多種級(jí)聯(lián)森林的實(shí)驗(yàn)結(jié)果(表3)。

表3 多種級(jí)聯(lián)森林分類預(yù)測(cè)評(píng)估

通過(guò)對(duì)模型表現(xiàn)進(jìn)行多方面對(duì)比,綜合考慮模型準(zhǔn)確率和運(yùn)行時(shí)間等評(píng)估指標(biāo),我們選擇RF、ET和XGB三種模型組成深度森林的級(jí)聯(lián)森林模塊。

為突出深度森林算法的優(yōu)勢(shì),基于以上數(shù)據(jù)集,本文引入傳統(tǒng)機(jī)器學(xué)習(xí)算法:邏輯回歸(LR)、支持向量機(jī)(SVM)、決策樹(Decision Tree,DT)、深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)和集成算法隨機(jī)森林(Random Forest,RF)、XGBoost進(jìn)行預(yù)測(cè)和對(duì)比,各算法的部分超參數(shù)設(shè)置在表4中列出。表5列出了模型在各個(gè)指標(biāo)上的表現(xiàn)情況,其中每個(gè)評(píng)估指標(biāo)上表現(xiàn)最好的算法使用黑體加粗標(biāo)識(shí)。

表4 本文所用機(jī)器學(xué)習(xí)算法超參數(shù)設(shè)置表

表5 各模型在不同指標(biāo)上的表現(xiàn)

可以看出,深度森林模型在預(yù)測(cè)用戶復(fù)購(gòu)行為上的表現(xiàn)比傳統(tǒng)機(jī)器學(xué)習(xí)算法更好,與深度卷積神經(jīng)網(wǎng)絡(luò)相比,雖然模型在預(yù)測(cè)準(zhǔn)確率上優(yōu)勢(shì)不明顯,但深度森林模型的訓(xùn)練時(shí)間僅為深度卷積神經(jīng)網(wǎng)絡(luò)的1/20,隨著數(shù)據(jù)量的增加,模型訓(xùn)練時(shí)間差距可能會(huì)更加明顯。對(duì)電商平臺(tái)應(yīng)用場(chǎng)景而言,這是非常重要的評(píng)估標(biāo)準(zhǔn)。

5 結(jié) 語(yǔ)

本文將深度森林算法應(yīng)用于真實(shí)數(shù)據(jù)集下用戶購(gòu)買行為預(yù)測(cè)中,同時(shí)引入時(shí)間滑動(dòng)窗口技術(shù)和窗口權(quán)重遞減設(shè)置,經(jīng)數(shù)據(jù)分析、特征提取、缺失值剔除及數(shù)據(jù)平衡化等處理后得到用于訓(xùn)練的特征數(shù)據(jù)。后從模型多樣性的角度出發(fā),構(gòu)建由多個(gè)集成學(xué)習(xí)算法組成的深度森林模型。電商平臺(tái)真實(shí)場(chǎng)景下,數(shù)據(jù)量更大,數(shù)據(jù)更新更快,因此本文模型還有更進(jìn)一步改進(jìn)和提升的空間。

猜你喜歡
級(jí)聯(lián)森林深度
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
哈Q森林
級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
電子制作(2016年15期)2017-01-15 13:39:09
哈Q森林
哈Q森林
基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
哈Q森林
荆门市| 平果县| 盘山县| 天长市| 普格县| 比如县| 延长县| 云南省| 得荣县| 新邵县| 新泰市| 肥西县| 扎囊县| 黄平县| 南和县| 永州市| 万全县| 庐江县| 河池市| 伊金霍洛旗| 清水河县| 伊吾县| 东阿县| 吴忠市| 林州市| 老河口市| 宣威市| 澄江县| 秭归县| 富顺县| 清水县| 巧家县| 建平县| 城口县| 滕州市| 开化县| 和林格尔县| 湟中县| 锦州市| 石首市| 潮安县|