陳靜靜
(阿里巴巴集團控股有限公司 浙江省杭州市 311121)
在電子商務(wù)時代背景下,互聯(lián)網(wǎng)與物聯(lián)網(wǎng)得到了廣泛地普及,越來越多的人習(xí)慣在網(wǎng)上進行購物,在此背景下,更好地了解用戶的購物偏好,成為了電商為用戶提供精準(zhǔn)服務(wù)、提升自身經(jīng)濟效益的重要舉措。現(xiàn)階段,為了更好地滿足電商的發(fā)展需要,以異源集成算法為基礎(chǔ),對用戶的購買行為加以分析,成為了一項極為必要的舉措。
電子商務(wù)在中國發(fā)展二十余年,中國的電子商務(wù)占全球互聯(lián)網(wǎng)零售總額的50%以上,但并沒有止步于此,目前中國電子商務(wù)的發(fā)展速度仍快于其他地區(qū)。電商上市公司數(shù)量不斷增加,電商平臺商品種類越發(fā)豐富,切實滿足了人們的產(chǎn)品消費需要,這一情況的出現(xiàn)很可能增大用戶商品購買的倦怠感,進而降低商品的成交率?,F(xiàn)階段,為切實解決上述問題,電商平臺方面可以通過合理應(yīng)用異源集成算法,對用戶購買行為數(shù)據(jù)進行調(diào)查分析,對用戶的購買習(xí)慣進行合理預(yù)測,并借助平臺,自動為用戶推薦符合用戶使用需要的商品的方式,進一步加快用戶搜尋所需商品的速度,在提升用戶購物體驗的同時,提高了電商平臺的商品轉(zhuǎn)化率,從而為電商企業(yè)長期穩(wěn)定發(fā)展提供有效的支持。
對于當(dāng)前的電商行業(yè)來說,預(yù)測是為用戶提供商品推薦的基礎(chǔ)。近年來,隨著信息技術(shù)的飛速發(fā)展,電商平臺可以應(yīng)用異源集成算法對用戶的歷史購買行為進行挖掘與分析,找出用戶的購買行為特征、消費偏好,總結(jié)用戶的行為發(fā)生規(guī)律,并以此為基礎(chǔ)對用戶未來的購買行為加以預(yù)測,為商品的精準(zhǔn)推送、營銷提供可靠的依據(jù),從而達到切實提升平臺服務(wù)質(zhì)量的目的。
在當(dāng)前的用戶購買行為預(yù)測分析過程中,機器學(xué)習(xí)算法理論得到了廣泛的應(yīng)用,并且相較于用戶購物行為預(yù)測算法,機器學(xué)習(xí)算法可以有效提升用戶購物行為預(yù)測的準(zhǔn)確度。
2.1.1 邏輯回歸
2.1.2 支持向量機
表1: 2017 年12 月-2021 年12 月我國網(wǎng)購用戶規(guī)模及使用情況
2.1.3 隨機森林
隨機森林算法是一種以決策樹作為基本單元的算法,在實際應(yīng)用過程中,利用集成學(xué)的思想對多個相互不存在關(guān)聯(lián)性的樹進行集成,在新樣本進入隨機森林時,每棵樹都會與樣本進行比對,并應(yīng)用集合策略對最終結(jié)果加以預(yù)測。現(xiàn)階段,隨機森林算法較為常用的場景包括判斷用戶是否存在購買行為、用戶下次購買商品的日期歸屬等。在隨機森林算法構(gòu)建時,首先要以原始訓(xùn)練樣本集N 誒基礎(chǔ),利用自助法,隨機從N 中有放回的選取n 個樣本,并將這n 個樣本做成一個新的訓(xùn)練集;其次,從樣本所有特征中隨機選取K 個特征值,并以決策樹學(xué)習(xí)算法為基礎(chǔ),從K 中計算、選擇出最優(yōu)化分特征,使之行為新的決策樹;最后,重復(fù)上述兩個步驟m 次,生成由m 棵決策樹構(gòu)成的隨機森林。
2.1.4 梯度提升決策樹
2.1.5 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)作為一種深度學(xué)習(xí)算,是由深度卷積計算以及具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)共同組成的,在實際應(yīng)用過程中,這一算法區(qū)別于輸入層與隱藏層全連接的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法,可以通過引入卷積層與池化層的方式,實現(xiàn)特征的自我選擇,同時該卷積神經(jīng)網(wǎng)絡(luò)可以通過局部連接的神經(jīng)元、下采樣技術(shù)、權(quán)值共享技術(shù)簡化網(wǎng)絡(luò)系統(tǒng),提升算法訓(xùn)練的性能。
2.1.6 深度森林2017 年,深度森林這一概念被首次提出,同時提出了以隨機森林微積分類器的多粒度級聯(lián)森林深度樹集成方法,并且這一算法與一些和深度神經(jīng)網(wǎng)絡(luò)競爭的領(lǐng)域表現(xiàn)出了較強的分類性能。在實際應(yīng)用過程中,深度森林算法的成功離不開神經(jīng)網(wǎng)絡(luò)逐層處理、內(nèi)部變化存在特征、復(fù)雜度足夠這三大特點。
2.2.1 數(shù)據(jù)介紹
對于電商平臺來說,用戶購買行為數(shù)據(jù)預(yù)測的真實性、數(shù)據(jù)量的大小與預(yù)測評估模型質(zhì)量之間存在著直接的聯(lián)系,真實的數(shù)據(jù)集可以有效提升模型的質(zhì)量,強化模型的說服力,并且在模型構(gòu)建過程中獲取的數(shù)據(jù)量與模型的穩(wěn)定性之間存在著正比例關(guān)系。本文在進行用戶購買行為數(shù)據(jù)預(yù)測模型設(shè)計時,以京東平臺的真實用戶歷史行為數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)集,該數(shù)據(jù)集可以被分成商品基本信息表,用戶基本信息表,用戶行為表,用戶訂單表,評論分?jǐn)?shù)數(shù)據(jù)表這五個數(shù)據(jù)表,并且在進行平臺模型構(gòu)建過程中,為避免用戶隱私的泄露,可以用User_ID 表示用戶標(biāo)識、sku_ID 表示商品標(biāo)識、用o_ID 表示下單標(biāo)識。
2.2.2 數(shù)據(jù)分析
對用戶的購買行為進行分析,可以發(fā)現(xiàn)在電商平臺挑選貨品時,大部分用戶會先使用平臺的搜索功能,找出與自身所需購買的商品,并瀏覽平臺頁面上展示出的不同品牌、不同規(guī)格、不同價格的商品,然后對商品的性價比加以比較,同時,在商品比較挑選的過程中,用戶會產(chǎn)生諸如將商品加入購物車、瀏覽商品用戶評價等一系列的操作行為。對當(dāng)前電商平臺用戶行為進行收集比較后可以發(fā)現(xiàn),用戶的采購習(xí)慣之間存在著一定的差異性,比方說,部分用戶要達到一定的瀏覽次數(shù)后才會產(chǎn)生購買行為,也有部分用戶習(xí)慣先對心儀物品進行關(guān)注,然后在關(guān)注列表中對這些商品進行進一步的分析與購買。在當(dāng)前的用戶購買行為預(yù)測過程中,可以通過可視化分析的方式對用戶的購買習(xí)慣進行收集與整理,從中挖掘出用戶的購買規(guī)律與購買偏好,從而使用戶購買行為預(yù)測模型的構(gòu)建更有針對性,也更全面。若用購買行為的稀疏度表示用戶在過去一年內(nèi)的購買次數(shù);用戶的活躍度以及行為的重密度表示用戶瀏覽行為的發(fā)生次數(shù),那么在某段時間內(nèi),京東平臺上購買次數(shù)在六次以內(nèi)的用戶數(shù)占比接近70%,用戶瀏覽關(guān)注行為在60次以內(nèi)的用戶數(shù)超過了七萬人,用戶占比超過了70%,上述數(shù)據(jù)表示,當(dāng)前大部分電商平臺用戶瀏覽、關(guān)注、購買的歷史行為數(shù)相對較少,數(shù)據(jù)集在整體上表現(xiàn)較為稀疏。同時用戶對牙膏、牙刷、衛(wèi)生紙等日用品類的商品購買行為存在一定的規(guī)律性,從理論上講,一個用戶兩次購買行為的時間差,大多在某一時間范圍內(nèi),對用戶購買同類商品的持續(xù)規(guī)律進行準(zhǔn)確分析,計算出用戶購買該類商品的間隔時間,可以為后續(xù)產(chǎn)品的推送、銷售工作的順利推進提供有效的支持。同樣對某段時間內(nèi)京東平臺上用戶購買行為的平均時間間隔進行分析可以發(fā)現(xiàn),若用戶瀏覽或關(guān)注某商品的時長小于20d,那么用戶購買行為出現(xiàn)的可能性相對較高,若關(guān)注或瀏覽的時長在30-90d 內(nèi),那么用戶購買該商品的可能性與時間長短之間呈反比例關(guān)系。通過對用戶購買行為的時間數(shù)據(jù)進行橫向?qū)Ρ确治龊?,可以確定當(dāng)前電商平臺的時間滑動窗口可以設(shè)置為三個,其大小分別為30 天,90 天與180 天,并且窗口的權(quán)重依次遞減,分別設(shè)置為2、1.5 與1。
2.2.3 數(shù)據(jù)處理
完成用戶購買行為數(shù)據(jù)集的采集后,為進一步提升用戶采購行為預(yù)測模型的準(zhǔn)確度,需要對數(shù)據(jù)進行去除唯一屬性、數(shù)據(jù)去重、樣本均衡化、缺失值處理,從而得到一個更為準(zhǔn)確的特征數(shù)據(jù)集。在數(shù)據(jù)集處理完成后,需要對其中的正負(fù)樣本進行統(tǒng)計,在數(shù)據(jù)層面可以通過采樣技術(shù)達到數(shù)據(jù)的類別平衡,現(xiàn)階段較為常用的數(shù)據(jù)采樣方法為SMOTE 采樣法,這一方法在實際使用過程中可以通過生成新的負(fù)樣本數(shù)對數(shù)據(jù)集加以平衡。
在完成數(shù)據(jù)特征提取工作后,可以進入用戶購買行為預(yù)測模型的構(gòu)建與實驗階段。
2.3.1 實驗準(zhǔn)備
為保證模型搭建的可靠性,應(yīng)當(dāng)在正式構(gòu)建模型前,對其評估指標(biāo)加以確認(rèn),然后在明確數(shù)據(jù)提取特征的基礎(chǔ)上,選定合適的訓(xùn)練集與測試集的劃分方法。
2.3.2 深度森林模型
相較于其他模型構(gòu)建方式,深入森林算法可以利用多粒度掃描模塊進一步增強輸入特征的差異性,同時,由于深度神經(jīng)網(wǎng)絡(luò)有著較強的處理特征關(guān)系的能力,在深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)下,深度森林模型在構(gòu)建應(yīng)用過程中,可以以多粒度掃描結(jié)構(gòu)為基礎(chǔ),對原始輸入數(shù)據(jù)特征進行轉(zhuǎn)換,以便實現(xiàn)進一步提升級聯(lián)森林特征提取工作質(zhì)量、提高初始特征表達能力的目的。同時受到深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,表征學(xué)習(xí)需要對原始特征進行逐層處理的影響,深度森林采用級聯(lián)結(jié)構(gòu),實現(xiàn)表中學(xué)習(xí)功能的完工。在實際應(yīng)用過程中,首先,每一層級聯(lián)結(jié)構(gòu)在工作前,都需要先接收并處理前一層聯(lián)機結(jié)構(gòu)輸出的特征數(shù)據(jù),然后對本層數(shù)據(jù)進行處理,將綜合處理結(jié)果輸入到下一層。其次,該級聯(lián)結(jié)構(gòu)的每一集都是由若干個隨機森林組成,每個森林又有若干個決策樹集成而成,因此當(dāng)前的級聯(lián)森林結(jié)果可以被看作是集成的集成。
2.3.3 復(fù)購預(yù)測模型
在完成用戶購買行為預(yù)測分析模型的初步構(gòu)建后,可以通過對用戶復(fù)購行為進行預(yù)測的方式,進一步提升用戶網(wǎng)購行為預(yù)測的準(zhǔn)確性。在開展深入森林構(gòu)建工作的過程中,模型構(gòu)建是森林構(gòu)建的核心。而森林的建立離不開決策樹的支持,而構(gòu)成森林的決策的質(zhì)量與數(shù)量會對模型的訓(xùn)練效果與分類效果產(chǎn)生直接的影響?,F(xiàn)階段在購進深度森林模型時,可以聯(lián)合多種模型、從多個角度對用戶的購買行為進行預(yù)測分析,以便為后續(xù)級聯(lián)模型種類與超參數(shù)的設(shè)定提供有效的支持。經(jīng)過對上述京東某段時間內(nèi)用戶網(wǎng)購行為進行數(shù)據(jù)分析后,可以發(fā)現(xiàn)各森林模型整體均呈現(xiàn)新增加后續(xù)平穩(wěn)的發(fā)展趨勢,同時在對模型的超參數(shù)進行設(shè)置時,不同的模型所選取的超參數(shù)也應(yīng)有所不同。
2.3.4 實驗分析
在完成用戶購買行為預(yù)測模型的初步搭建以及超參數(shù)值的確定工作后,可以通過實驗分析的方式,多角度的對模型的表現(xiàn)情況進行分析,調(diào)整預(yù)測模型帶入的參數(shù)值,為后續(xù)實驗的開展提供最優(yōu)的預(yù)測模型。具體來說,本文搭建的用戶購買行為預(yù)測分析平臺為以Python 語言為基礎(chǔ),實驗硬件環(huán)境為8g 內(nèi)存的英特爾i7-770cpu@3.60 兆赫茲,系統(tǒng)的處理器為Win 10 專業(yè)版。為更好地了解該用戶購買行為預(yù)測分析模型的使用效果,可以通過引入傳統(tǒng)機器算法,并將兩者的邏輯回歸情況,支持向量機情況,決策數(shù),深度卷積神經(jīng)網(wǎng)絡(luò)集成算法隨機森林等內(nèi)容進行預(yù)測與比對。通過比對后可以發(fā)現(xiàn),深度森林模型在用戶復(fù)購行為預(yù)測上有著較好的效果,但相較于深度卷積神經(jīng)網(wǎng)絡(luò),深度森林模型優(yōu)勢并不明顯,但這一情況的存在并不影響深度森林模式,在電商平臺應(yīng)用場景下仍存在著較高的應(yīng)用優(yōu)勢。
為實現(xiàn)用戶一段時間內(nèi)購買行為發(fā)生的時間范圍的準(zhǔn)確預(yù)測,可以在完成用戶購買行為細(xì)粒度預(yù)測后,以Stacking學(xué)習(xí)法思想為基礎(chǔ),搭建更為精準(zhǔn)的集成學(xué)習(xí)法框架,為預(yù)測工作的順利推進提供有效的支持。
2.4.1 Stacking 模型的介紹
Stacking 是一種多層異源集成框架,兩層Stacking 算法是這一模型中應(yīng)用頻率較高的算法模型。對兩層Stacking 模型進行分析后可以發(fā)現(xiàn),多個不同類型的基學(xué)習(xí)機器共同組成了該模型的第一層,在這一模型的實際應(yīng)用過程中,訓(xùn)練時可以先向第一層輸入原始數(shù)據(jù)集,第一層基學(xué)習(xí)器會將自身訓(xùn)練得到的一次訓(xùn)練結(jié)果傳到第二層,由第二層模型對一次訓(xùn)練結(jié)果進行二次訓(xùn)練處理,在兩次訓(xùn)練工作完成后,將會得到最終的訓(xùn)練結(jié)果。Stacking 模型集中了對多個不同模型的優(yōu)點,相較于相互獨立的預(yù)測模型,這種多層異源集成模型非線性表達能力更為強大,在數(shù)據(jù)處理過程中,可以有效降低泛化誤差的出現(xiàn)概率。
2.4.2 模型選擇
在實際的用戶購買行為預(yù)測體系構(gòu)建過程中,為降低模型的構(gòu)建難度,可以先試用較為簡單的SVM、決策樹模型等傳統(tǒng)機器學(xué)習(xí)模型,但對這些模型的分析結(jié)果進行整合研究后可以發(fā)現(xiàn),這些模型的輸入特征的利用率偏低,使得得到的模型存在欠擬合的問題。面對這一情況,可以應(yīng)用CBDT、XGBoosts 等主流集成學(xué)習(xí)框架,使模型的非線性表達能力得到有效的增強,需要注意的是,由于集成學(xué)習(xí)模型由多棵決策樹共同組成,在進行分析時,每棵樹都需要在節(jié)點分裂時掃描所有數(shù)據(jù)的計算分裂增益,并從中選出分裂正義最大的特征,并對其進行分裂處理,這使得決策模型在應(yīng)用過程中需要對大量數(shù)據(jù)進行多次情景處理,這在一定程度上增大了模型使用過程中的資源消耗、延長了數(shù)據(jù)處理的時間、降低了模型的收斂速度?,F(xiàn)階段,為切實解決上述問題,在構(gòu)建模型的過程中,可以將LightGBM 集成學(xué)習(xí)算法引入其中,在進一步提升訓(xùn)練速度的基礎(chǔ)上,有效降低了模型在數(shù)據(jù)分析時消耗的內(nèi)存,這一情況的出現(xiàn)使得該模型的長期使用過程中,即便后期數(shù)據(jù)量持續(xù)增大,但仍能維持著較高穩(wěn)定性。需要注意的是,在以異源集成算法為基礎(chǔ),分析用戶購買行為時,為進一步提升集成方法的準(zhǔn)確性,推動基礎(chǔ)學(xué)習(xí)器的多樣化發(fā)展,成為了一項極為必要的工作。現(xiàn)階段,在模型構(gòu)建過程中,為進一步提升基礎(chǔ)學(xué)習(xí)器的多樣性,可以將基于Bagging 的隨機森林算法引入模型體系搭建過程中,使LightGBM 與隨機森林算法模型共同組成Stacking 集成算法的第一層,通過這種方式,可以有效提升Stacking 模型的基礎(chǔ)學(xué)習(xí)器種類,并且通過對這些基礎(chǔ)學(xué)習(xí)器進行整合處理的方式,可以有效避免因模型較為單一而出現(xiàn)較為明顯偏向性的問題,進一步提升預(yù)測結(jié)果的可靠性。
2.4.3 算法描述
在進行模型構(gòu)建過程中,可以先輸入249 維特征向量數(shù)據(jù),并將這一數(shù)據(jù)作為輸入數(shù)據(jù)直接輸入到模型的第一層中,在模型構(gòu)建過程中,Stacking 算法框架第一層有3 個基于決策樹的模型,其中一個為隨機森林模型,另兩個為LightGBM 模型,這兩個模型的超參數(shù)設(shè)計不同,這種多樣化的模型構(gòu)建方式,有效提升了模型的數(shù)據(jù)分析準(zhǔn)確度。在模型工作時,模型可以得到輸出結(jié)果Di,再對上述三個模型得到的輸出結(jié)果進行拼接處理,則可以得到第一層的最終輸出D’,然后將D’輸入到第二層模型中,由第二層模型對輸出權(quán)重進行計算,從而達到得出最終輸出結(jié)果的目的。
2.4.4 日期預(yù)測評價函數(shù)
總而言之,在互聯(lián)網(wǎng)技術(shù)飛速發(fā)展的背景下,人們的網(wǎng)購行為越發(fā)頻繁,這一情況的出現(xiàn)增加了人們網(wǎng)購的信息數(shù)據(jù),基于異源集成算法,對這些數(shù)據(jù)進行細(xì)致地分析,可以使電商方面更好地了解用戶的購物需要,更好地滿足用戶的購物行為需求,從而為電商產(chǎn)品轉(zhuǎn)化率以及自身市場競爭力的提升,提供有效的支持。