国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種融合歷史均值與提升樹的客流量預(yù)測模型

2019-04-19 05:24:58白智遠溫從威楊錦浩
計算機技術(shù)與發(fā)展 2019年4期
關(guān)鍵詞:客流量均值銷量

白智遠,溫從威,楊錦浩,陳 智,呂 品

(上海電機學(xué)院 電子信息學(xué)院,上海 201306)

0 引 言

移動定位服務(wù)的發(fā)展使得互聯(lián)網(wǎng)商家“線上線下”的交易數(shù)據(jù)急劇增長[1-4]。分析這些數(shù)據(jù)中隱藏的用戶交易習(xí)慣和傾向性[5-6]對優(yōu)化商家的運營具有重要作用。近來年,出現(xiàn)了許多關(guān)于移動定位服務(wù)預(yù)測的研究。例如,付全興等[7]使用邏輯回歸和支持向量機,以4個月的電商數(shù)據(jù)為研究對象,預(yù)測用戶的購買行為;陳傳波等[8]把平滑加權(quán)的思想應(yīng)用于實時模型預(yù)測,通過提取包含有趨勢的特征來提高預(yù)測模型的精確度;張昊等[9]利用XGBoost(extreme gradient boost)算法[10]實現(xiàn)了商品推薦中的用戶購買行為預(yù)測。他們將決策樹[11]、隨機森林[12]作為基線對比方法,研究發(fā)現(xiàn)變量的重要性對模型的構(gòu)建有較大影響。

文中借鑒上述研究的思想,提出了歷史均值與提升樹融合的互聯(lián)網(wǎng)商家客流量預(yù)測模型。該模型的本質(zhì)是提升樹模型與歷史均值模型,按照計算公式所求出的權(quán)重系數(shù),按照一定比例而融合的加權(quán)和,不僅考慮了如何提高模型的預(yù)測精度,而且還考慮了客流量的預(yù)測與時間的依賴關(guān)系。并且對不同模型的預(yù)測結(jié)果做出了對比分析。最后,將融合了歷史均值與提升樹的客流量預(yù)測模型所得到的結(jié)果與傳統(tǒng)的零售業(yè)結(jié)合,粗略進行了分析,對商家今后的運營提出了一些實質(zhì)性的建議。

1 數(shù)據(jù)預(yù)處理

1.1 數(shù)據(jù)描述

文中使用的數(shù)據(jù)來自天池大數(shù)據(jù)平臺,共包含某年7月1日至次年10月31日的商家完整行為數(shù)據(jù),分為“商家特征”數(shù)據(jù)、“用戶支付行為”數(shù)據(jù)和“用戶瀏覽行為”數(shù)據(jù)。商家特征反映了商家的熱度,評分高以及評論好的商家,是提高用戶購買力的因素之一,除此之外,門店的等級、菜品的豐富程度也作為商家的考量之一。它的數(shù)據(jù)共包含7個屬性:商家ID、店鋪所在地、人均消費、評分、評論數(shù)、門店等級以及食品分類名稱;用戶支付行為特征反映了用戶的支付習(xí)慣方式,包含3個屬性:用戶ID、商家ID和用戶的支付時間;用戶瀏覽行為則反映了用戶的購買習(xí)慣,如果用戶經(jīng)常訪問同一個商家,結(jié)合其他兩個特征可以推斷出用戶所喜愛的商品種類、個人口味等信息,包含3個屬性:用戶ID、商家ID和用戶瀏覽商家的時間。

1.2 數(shù)據(jù)預(yù)處理方法

由于直接使用原始數(shù)據(jù)訓(xùn)練模型不僅會產(chǎn)生誤差,還會耗費大量的計算資源,因此,對原始數(shù)據(jù)集進行了預(yù)處理,將原始數(shù)據(jù)中存在的異常值進行剔除、去重、歸一化等處理。一方面,由于商家從入駐口碑平臺到銷售量增加存在一定的啟動時間,并且可能出現(xiàn)某段時間銷量中斷的現(xiàn)象,因此,商家開業(yè)前7天的數(shù)據(jù)以及銷量中斷前后3天的數(shù)據(jù)不作為訓(xùn)練數(shù)據(jù);另一方面,由于原始數(shù)據(jù)中存在短時間內(nèi)單個用戶大量購買的情況,為消除這種異常消費對預(yù)測的影響,采用了基于規(guī)則的方法對原始數(shù)據(jù)進行歸一化;另外,原始數(shù)據(jù)中還存在一些特殊時間節(jié)點和難以預(yù)計的大幅波動,如大型節(jié)假日(如中秋節(jié)、國慶節(jié)等)、停業(yè)、商家開展促銷活動時單個用戶大量購買的情況。對于這些基于規(guī)則的方法難以處理的異常值,文中采用了模型預(yù)訓(xùn)練方法,即采用欠擬合算法對模型預(yù)訓(xùn)練,清除原始數(shù)據(jù)中殘差為10%和25%的數(shù)據(jù)。由于預(yù)測目標(biāo)是商家的日銷量,因此預(yù)處理后用于訓(xùn)練的數(shù)據(jù)是按小時統(tǒng)計的商家的總銷量。

此外,為提高模型預(yù)測的準(zhǔn)確性,實驗中還采集了全國各省市的天氣數(shù)據(jù)以及節(jié)假日天氣數(shù)據(jù)作為原始數(shù)據(jù)的補充。在額外采集的氣溫、濕度、氣壓等數(shù)據(jù)中,根據(jù)經(jīng)驗,將天氣狀況簡單轉(zhuǎn)換為降水指數(shù)和天晴指數(shù)兩個指標(biāo)。由于人體對于氣象參數(shù)的感受不成線性關(guān)系,故生成人體舒適度指數(shù)(comfort index of human body,SSD)作為模型訓(xùn)練的一個重要特征。最終,模型訓(xùn)練與預(yù)測使用的特征與標(biāo)簽如表1所示。

表1 模型訓(xùn)練與預(yù)測使用的特征

2 歷史均值與提升樹融合的客流量預(yù)測

2.1 XGBoost的基本思想

XGBoost是一種極限提升樹的機器學(xué)習(xí)方法,具有良好的擴展性,以及計算速度快、模型表現(xiàn)好等特點。對于數(shù)據(jù)集D={(xi,yi)},提升樹方法的核心是最小化式1所示的正則化目標(biāo)函數(shù)。

(1)

一般,對上述目標(biāo)函數(shù)進行二階泰勒展開(如式2),然后進行優(yōu)化。

(2)

假設(shè)樹結(jié)構(gòu)q(x)已知,并且Ij={i|q(xi)=j}為葉節(jié)點j的樣本集合,可得葉節(jié)點j的最優(yōu)權(quán)重:

(3)

最后,采用貪心算法,從某一葉子開始,反復(fù)向樹中添加分支。假設(shè)IL和IR是分割后左右節(jié)點的實例集合。令I(lǐng)=IL∪IR,則分裂后的損失可由式4計算。

(4)

與傳統(tǒng)的GBDT模型對比,XGBoost還支持線性分類器,并且加入正則化因子,用于控制模型的復(fù)雜度。正則項里包含了樹的葉子節(jié)點個數(shù)等信息,它降低了模型的方差,使學(xué)習(xí)出來的模型更加簡單,防止過擬合,這也是XGBoost優(yōu)于傳統(tǒng)GBDT的一個特性。

2.2 歷史均值模型的基本思想

歷史均值模型是以預(yù)測日為基準(zhǔn),求出預(yù)測日之前到某一天的平均客流量、銷量增量等信息,再以權(quán)重系數(shù)作為融合的比例,預(yù)測未來14天的客流量。

2.3 融合方法

為獲得精確度高的客流量預(yù)測模型,文中采用了二個階段的訓(xùn)練方法。第一次階段的訓(xùn)練中,使用了XGBoost與GBDT(gradient boosting decision tree)模型。模型訓(xùn)練的參數(shù)如表2和表3所示。每一種模型分別使用了2組參數(shù)進行訓(xùn)練,總共獲得4個模型。

表2 XGBoost算法的不同參數(shù)

表3 GBDT算法的不同參數(shù)

為了減小預(yù)測誤差,調(diào)整XGBoost與GBDT算法中樹的深度、學(xué)習(xí)率以及迭代次數(shù)的參數(shù),在XGBoost算法的1號模型中,一般情況下,學(xué)習(xí)率的值默認(rèn)為0.1,而樹的最大深度默認(rèn)為3。但是,對于不同的問題,理想的學(xué)習(xí)率有時會在一些特定的區(qū)間范圍之間波動。樹的深度越大,則對數(shù)據(jù)的擬合程度越高。因此,文中在確定XGBoost算法的2號模型的學(xué)習(xí)率以及樹的最大深度時,引入XGBoost算法中內(nèi)置的cv函數(shù),cv函數(shù)在每一輪迭代中使用交叉驗證,根據(jù)算法參數(shù)的調(diào)整,返回理想的決策樹數(shù)量。因此,通過cv函數(shù)較為精確的計算,將2號模型的學(xué)習(xí)率調(diào)至0.03,樹的最大深度為5。

第二階段的訓(xùn)練使用了歷史均值模型。歷史均值模型以預(yù)測日為基準(zhǔn),首先求出預(yù)測日之前的21天的銷量平均值,得到每天的平均銷量;其次,以周為單位,統(tǒng)計每周的銷量的中位數(shù)和平均值,通過線性擬合得到每周的銷量增量;最后,將每天的均值銷量與每周的銷量增量疊加,以此預(yù)測未來兩周的銷量。該模型把過去21天的歷史銷量的相關(guān)度矩陣作為輸入;將未來兩周的銷量和歷史均值模型與第一階段的模型融合的權(quán)重系數(shù)作為輸出。均值模型的融合比例最大為0.75。融合的權(quán)重系數(shù)計算如下:

(5)

由此,將XGBoost、GBDT和歷史均值模型得到的過去三周的平均銷量和銷量值,分別代入式5,可求出相應(yīng)的權(quán)重系數(shù)為:0.47,0.34,0.19。最終,將訓(xùn)練得到的2組XGBoost模型和2組GBDT的不同結(jié)果分別與歷史均值模型按0.47,0.34,0.19的比例融合,得到預(yù)測未來14天的客流量。

3 實驗分析

3.1 實驗設(shè)置

該實驗采用的硬件為Inter(R) Core(TM) i5-5200U CPU @ 2.20 GHz。軟件環(huán)境中操作系統(tǒng)為Windows 7,開發(fā)環(huán)境為Python3.6。原始數(shù)據(jù)為2.13 GB,預(yù)處理后的數(shù)據(jù)為220 MB。為判斷XGBoost方法預(yù)測的有效性,實驗中引入了時間序列加權(quán)回歸的算法作為基線對比方法[8]。

3.2 預(yù)測結(jié)果對比分析

由于時間序列反映了實體屬性在時間順序上的特征[13],因此,實現(xiàn)了時間序列加權(quán)回歸算法,分析2種算法的預(yù)測結(jié)果后,得到的前500位互聯(lián)網(wǎng)商家在未來14天的客流量發(fā)展趨勢,如圖1和圖2所示。

圖1 歷史均值與提升樹融合模型預(yù)測

分析客流量發(fā)展趨勢可知:

(1)與瀏覽動作相關(guān)的變量對模型的貢獻程度最大,這是因為瀏覽是用戶交互的最主要方式,其信息豐富程度遠高于其他特征;

(2)部分商家可能所經(jīng)營的商品評價較高,顧客的返回率使得部分商家的客流量穩(wěn)步上升;

(3)大部分的商家十四天總客流量已經(jīng)突破了5 000,少量甚至達到了約25 000的級別。這極有可能是商家近期的某種促銷活動所導(dǎo)致的。比如通過平臺派發(fā)不同程度的優(yōu)惠券、現(xiàn)金紅包、買滿一定金額優(yōu)惠等活動。但如何調(diào)整自己的運營策略,吸引到更多的客流量顯得至關(guān)重要。

圖2 時間序列加權(quán)回歸模型預(yù)測

3.3 性能分析

通過優(yōu)化算法參數(shù),采用測試集樣本對建模結(jié)果進行評測[14],算法運行結(jié)果和精度測試如表4所示。

表4 歷史均值與提升樹融合模型精度測試

實驗中利用XGBoost自定義的評價函數(shù)對提出的模型進行了性能評估。調(diào)用評價函數(shù)時,傳入驗證集和驗證集上的預(yù)測值作為函數(shù)參數(shù),返回一個浮點類型的評估值fevalerror。fevalerror的值越大,模型預(yù)測精度越低。反之,fevalerror的值越小,模型預(yù)測精度越高。結(jié)果表明,隨著訓(xùn)練集樣本大小的增加,運算時間增加,fevalerror值逐漸減小,精度上卻逐漸增加。由此,歷史均值與提升樹的融合模型具有預(yù)測精度較高、運算速度較快的優(yōu)勢。

4 結(jié)束語

將歷史均值模型與提升樹方法進行了融合,對互聯(lián)網(wǎng)商家的線上線下的真實用戶數(shù)據(jù)進行了特征提取和建模預(yù)測。并將提出的模型與時間序列加權(quán)回歸進行了預(yù)測結(jié)果與性能比較。實驗結(jié)果表明,融合歷史均值模型與提升樹模型的方法能有效實現(xiàn)互聯(lián)網(wǎng)商家客流量的預(yù)測。在互聯(lián)網(wǎng)高速發(fā)展的今天,對比傳統(tǒng)的零售行業(yè),互聯(lián)網(wǎng)商家的營銷對用戶消費給予了更多的關(guān)注,在產(chǎn)品詳情頁的介紹、客服服務(wù)、便捷的移動支付等方面都致力于為用戶帶來更好的消費體驗。通過這次客流量預(yù)測模型的構(gòu)建和對用戶數(shù)據(jù)進行的挖掘,商家利用互聯(lián)網(wǎng)這一渠道,能夠更好地與用戶及時溝通,了解用戶感受,使互聯(lián)網(wǎng)商家與用戶建立了信任關(guān)系,吸引到更多忠實的用戶。這對互聯(lián)網(wǎng)商家的運營決策、降低成本、改善用戶體驗有著重要的現(xiàn)實意義。

猜你喜歡
客流量均值銷量
同比增長130%!劍指3萬噸銷量,豐華黃顙料迎來大爆發(fā)
盤點2018年車企銷量
汽車觀察(2019年2期)2019-03-15 06:00:12
基于嵌入式系統(tǒng)的商場客流量統(tǒng)計算法
均值不等式失效時的解決方法
均值與方差在生活中的應(yīng)用
上汽通用172萬銷量下的陰影
家用汽車(2016年4期)2016-02-28 02:23:37
基于AFC數(shù)據(jù)的城軌站間客流量分布預(yù)測
關(guān)于均值有界變差函數(shù)的重要不等式
對偶均值積分的Marcus-Lopes不等式
從客流量推算公交出行PA矩陣的方法
卓尼县| 德江县| 嘉峪关市| 吴忠市| 冕宁县| 汉川市| 泸水县| 巨鹿县| 惠安县| 凯里市| 海原县| 莱阳市| 濮阳市| 罗田县| 永兴县| 犍为县| 瓮安县| 毕节市| 民权县| 宁化县| 高淳县| 探索| 改则县| 亚东县| 仪陇县| 城口县| 长治县| 石棉县| 常山县| 永宁县| 韶关市| 彩票| 武城县| 台中县| 阿鲁科尔沁旗| 东乌珠穆沁旗| 黄平县| 遵义县| 镇远县| 丹棱县| 凤山县|