曾建新 劉佩鑫 王廷波 許瑞琦
[摘 要]消費(fèi)需求因地理環(huán)境不同而不同,即使同一個(gè)消費(fèi)者,在不同的地理環(huán)境,其卷煙的消費(fèi)習(xí)慣也會(huì)不同,這個(gè)差異是客觀環(huán)境驅(qū)動(dòng)的。因此,卷煙的進(jìn)貨數(shù)據(jù)是環(huán)境消費(fèi)的表現(xiàn)。消費(fèi)環(huán)境是驅(qū)動(dòng)卷煙銷售的真實(shí)原因,文章從零售終端周圍的環(huán)境出發(fā),將BP神經(jīng)網(wǎng)絡(luò)和LSTM相結(jié)合,構(gòu)建新的二級(jí)預(yù)測(cè)模型(BP-LSTM模型),創(chuàng)新性地應(yīng)用于煙草行業(yè),并將POI數(shù)據(jù)(Point Of Information)作為模型的增加輸入?yún)?shù);二級(jí)預(yù)測(cè)模型對(duì)零售戶的POI數(shù)據(jù)、進(jìn)貨數(shù)量、屬性特征等信息進(jìn)行解析,探索一種新的卷煙進(jìn)貨數(shù)據(jù)預(yù)測(cè)模型,并結(jié)合實(shí)踐證明卷煙購進(jìn)量預(yù)測(cè)的可行性和可靠性。
[關(guān)鍵詞]BP神經(jīng)網(wǎng)絡(luò);LSTM算法;POI數(shù)據(jù);環(huán)境特征;進(jìn)貨量
[DOI]10.13939/j.cnki.zgsc.2021.17.063
目前,卷煙的主要投放方式為按檔位投放、按價(jià)位段投放。而按檔位投放,其屬于同檔同策,很難滿足零售戶個(gè)性需求。因此,將卷煙投放策略利益訴求與零售戶個(gè)性需求結(jié)合是市場(chǎng)所需要的,可見對(duì)零售終端卷煙產(chǎn)品的進(jìn)貨量進(jìn)行預(yù)測(cè),一直是一個(gè)十分重要的問題。如何依據(jù)零售終端的多維度信息預(yù)測(cè)其對(duì)卷煙產(chǎn)品的進(jìn)貨量,已經(jīng)成為煙草工業(yè)企業(yè)急需深入研究的課題之一。
1 算法模型的應(yīng)用研究分析現(xiàn)狀
隨著城市化進(jìn)程的加快,POI(Point Of Information,信息點(diǎn))數(shù)據(jù)得到廣泛應(yīng)用。王維禮[1]基于POI數(shù)據(jù)分析對(duì)地鐵站周邊商業(yè)活力興趣點(diǎn)進(jìn)行分類,研究了地鐵站和周邊商業(yè)空間活力之間的規(guī)律。陳浩[2]等人基于POI數(shù)據(jù)挖掘卷煙消費(fèi)者購買地點(diǎn)及時(shí)段偏好,證明了POI數(shù)據(jù)對(duì)卷煙消費(fèi)者有影響。
趙麗萍[3]基于BP神經(jīng)網(wǎng)絡(luò)技術(shù),對(duì)時(shí)尚服裝銷量預(yù)測(cè)方法進(jìn)行研究。李冰珂[4]對(duì)BP神經(jīng)網(wǎng)絡(luò)在機(jī)票銷售量預(yù)測(cè)進(jìn)行了改進(jìn)研究,提出自適應(yīng)和聲算法(HS)與遺傳算法(GA)的混合優(yōu)化算法(GA_HS)對(duì)BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值這兩個(gè)參數(shù)進(jìn)行優(yōu)化。
從卷煙行業(yè)的銷量預(yù)測(cè)模型來看,單宇翔[5]等人利用時(shí)間序列分析、H-P濾波分析相結(jié)合的模型對(duì)卷煙批發(fā)銷售總量和銷售總金額進(jìn)行預(yù)測(cè)。梁武超[6]等人通過馬爾科夫模型,對(duì)中國(guó)高端卷煙產(chǎn)品銷量進(jìn)行了研究。仲東亭和張玥[7]把實(shí)際誤差看作一組序列,進(jìn)行逼近模擬,作為一個(gè)單獨(dú)量加入最終結(jié)果,提高了預(yù)測(cè)的精度,誤差增維分析。
2 本研究工作的創(chuàng)新點(diǎn)
隨著煙草行業(yè)的快速發(fā)展,傳統(tǒng)的單級(jí)結(jié)構(gòu)、低維度數(shù)據(jù)來預(yù)測(cè)卷煙購進(jìn)量的方法需要進(jìn)一步優(yōu)化。本研究的創(chuàng)新主要表現(xiàn)為以下方面。
2.1 輸入?yún)?shù)優(yōu)化
數(shù)據(jù)是預(yù)測(cè)結(jié)果的重要影響因素。在以往的研究中,輸入模型的數(shù)據(jù)主要是煙草零售客戶歷史進(jìn)貨數(shù)據(jù),未考慮市場(chǎng)環(huán)境的變化。為了分析客觀消費(fèi)環(huán)境對(duì)卷煙購進(jìn)量的影響,把零售客戶周圍的POI數(shù)據(jù)作為模型輸入?yún)?shù)的一部分,輸入到模型中。
2.2 模型應(yīng)用創(chuàng)新
基于POI數(shù)據(jù)的BP-LSTM模型,首次應(yīng)用于煙草零售客戶的卷煙購進(jìn)量預(yù)測(cè),BP模型將獲取的終端客戶特征屬性、環(huán)境屬性等生成高維度特征,LSTM模型進(jìn)行回歸模型的預(yù)測(cè),兩個(gè)模型相結(jié)合的方式明顯提高了零售終端卷煙進(jìn)貨量的預(yù)測(cè)精度。模型工作原理見圖1。
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。LSTM(Long Short-Term Memory,即長(zhǎng)短期記憶網(wǎng)絡(luò))是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決一般的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長(zhǎng)期依賴問題而專門設(shè)計(jì)出來的,所有的RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问健1狙芯坎捎玫亩?jí)模型是對(duì)兩個(gè)模型相互作用的過程進(jìn)行優(yōu)化,得到最優(yōu)的模型權(quán)重,使預(yù)測(cè)進(jìn)貨量與實(shí)際的進(jìn)貨量接近。
3 模型應(yīng)用與驗(yàn)證
3.1 數(shù)據(jù)來源
本文使用的樣本主要包含零售終端的基本信息,如:零售客戶煙草證號(hào)、檔位信息、主導(dǎo)環(huán)境因子、功能區(qū)、往期的進(jìn)貨量和投放策略。影響零售戶每期進(jìn)貨量的因素除檔位信息、主導(dǎo)環(huán)境因子、功能區(qū)和投放策略外,還有消費(fèi)者經(jīng)濟(jì)收入水平、消費(fèi)能力變化、卷煙零售價(jià)格、社會(huì)庫存等信息。為量化這些指標(biāo),本文使用前八期的進(jìn)貨量、平均進(jìn)貨量和前八期購買的次數(shù)等特征量。本文使用的模型是深度學(xué)習(xí)算法,模型自身能提取數(shù)據(jù)特征。因?yàn)楫惓V档奶幚頃?huì)對(duì)數(shù)據(jù)特征衍生的結(jié)果帶來影響,所以首先進(jìn)行數(shù)據(jù)特征的衍生,然后進(jìn)行數(shù)據(jù)異常值和缺失值處理。
3.2 數(shù)據(jù)處理
數(shù)據(jù)預(yù)處理過程分為三個(gè)過程:一是特征衍生;二是異常值缺失值處理;三是文本數(shù)據(jù)處理。
數(shù)據(jù)特征的衍生過程中,根據(jù)不同產(chǎn)品每個(gè)月的投放次數(shù)不同,將數(shù)據(jù)特征的衍生分成兩類:一類是每月至少投放四期,根據(jù)進(jìn)貨量和投放策略衍生出前八期的進(jìn)貨量和投放策略和其他變量;另一類是每月至多投放三期,根據(jù)進(jìn)貨量和投放策略衍生出前四期的進(jìn)貨量、投放策略和其他變量。
在異常值處理中選擇修正異常數(shù)據(jù),如進(jìn)貨量大于投放策略的信息,修正為進(jìn)貨量等于投放策略。在缺失值處理過程中采用了向上填充、向下填充、均值填充和零值填充等多種方法。
3.3 模型搭建
本模型將BP算法較強(qiáng)的整體非線性映射能力和LSTM算法善于分析輸入信息之間的整體邏輯序列以及信息序列彼此間的復(fù)雜的時(shí)間關(guān)聯(lián)性建立連接。然后把BP算法輸出的煙草特征數(shù)據(jù),進(jìn)行高斯核函數(shù)升維處理,當(dāng)數(shù)據(jù)集不是線性可分的時(shí)候,需要利用到核函數(shù)將數(shù)據(jù)集映射到高維空間。當(dāng)模型把數(shù)據(jù)升高維度后,可以很好地處理線性不可分問題,再進(jìn)行LSTM算法的輸出。
3.4 模型的評(píng)價(jià)指標(biāo)
在回歸模型的評(píng)價(jià)中,使用的準(zhǔn)則大多是 SSE(誤差平方和),R-square(決定系數(shù)),Adjusted R-square等以下幾個(gè)評(píng)價(jià)指標(biāo):
SSE具體公式:
SSE=∑(Yactual-Ypredict)2(1)
同樣的數(shù)據(jù)集的情況下,SSE越小,誤差越小,模型效果越好
R-square具體公式:
R2=1-(Yactual-Ypredict)2(yactual-y_mean)2(2)
分母理解為原始數(shù)據(jù)的離散程度,分子為預(yù)測(cè)數(shù)據(jù)和原始數(shù)據(jù)的誤差,兩者相除可以消除原始數(shù)據(jù)離散程度的影響
“決定系數(shù)”是通過數(shù)據(jù)的變化來表征一個(gè)擬合的好壞。理論上取值范圍(-∞,1], 正常取值范圍為[0 1]——實(shí)際操作中通常會(huì)選擇擬合較好的曲線計(jì)算R2,因此很少出現(xiàn)-∞。越接近1,表明方程的變量對(duì)y的解釋能力越強(qiáng),這個(gè)模型對(duì)數(shù)據(jù)擬合的也較好,越接近0,表明模型擬合的越差經(jīng)驗(yàn)值大于0.4, 擬合效果好。
Adjusted R-square具體公式:
R2adjusted=1-(1-R2)(n-1)n-p-1(3)
式(3)中,n為樣本數(shù)量,p為特征數(shù)量。
3.5 應(yīng)用實(shí)例
3.5.1 數(shù)據(jù)來源及展示使用
(1)環(huán)境特征數(shù)據(jù)。本文使用某市高德公開API接口獲取的150萬余條POI數(shù)據(jù)作為環(huán)境數(shù)據(jù)輸入,其內(nèi)容格式如表1所示。
(2)投放策略數(shù)據(jù)。使用某市某品規(guī)2019年11月到2020年4月零售戶的購進(jìn)明細(xì)作為進(jìn)貨數(shù)據(jù)輸入,其內(nèi)容格式如表2所示。
使用某市某品規(guī)2019年11月到2020年4月煙草公司每個(gè)周期制定的投放量作為投放策略輸入,其內(nèi)容格式如表3所示。
(3)零售戶特征數(shù)據(jù)。本文使用某市近期有進(jìn)貨行為的零售戶作為預(yù)測(cè)個(gè)體,其屬性特征數(shù)據(jù)如表4所示。
3.5.2 數(shù)據(jù)處理及特征衍生
(1)主導(dǎo)環(huán)境因子、功能區(qū)等離散型分類數(shù)據(jù)進(jìn)行One_hot處理;(2)對(duì)進(jìn)貨特征數(shù)據(jù)等連續(xù)型數(shù)據(jù)進(jìn)行特征衍生,衍生規(guī)則(部分)如表5所示。
3.5.3 模型訓(xùn)練及結(jié)果分析
試點(diǎn)品規(guī)從2019年11月到2020年4月數(shù)據(jù)作為樣本進(jìn)行模型訓(xùn)練和預(yù)測(cè)。根據(jù)預(yù)測(cè)時(shí)間節(jié)點(diǎn)將數(shù)據(jù)集分開,預(yù)測(cè)時(shí)間節(jié)點(diǎn)之前的數(shù)據(jù)作為訓(xùn)練集,預(yù)測(cè)節(jié)點(diǎn)的數(shù)據(jù)作為測(cè)試集。如果預(yù)測(cè)節(jié)點(diǎn)沒有在數(shù)據(jù)集中,則認(rèn)為預(yù)測(cè)2020年5月第一期的數(shù)據(jù),使用的訓(xùn)練集是80%的樣本集,預(yù)測(cè)的數(shù)據(jù)是近8期有過購買行為的零售戶的數(shù)據(jù)。在選擇數(shù)據(jù)集之后將數(shù)據(jù)特征放入搭建的模型中進(jìn)行訓(xùn)練和預(yù)測(cè)。得到結(jié)果如表6所示。
不管是從模型精度、SSE系數(shù),還是Adjusted R-square,都可以看出BP算法結(jié)合LSTM模型的二級(jí)預(yù)測(cè)模型在預(yù)測(cè)過程中有著比較好的表現(xiàn)。其中精度平均能達(dá)到80%以上,且Adjusted R-square系數(shù)遠(yuǎn)大于0.4(優(yōu)秀模型的指標(biāo))達(dá)到了0.6075的高分。
4 結(jié)論
本文通過對(duì)當(dāng)前零售客戶卷煙購進(jìn)量預(yù)測(cè)存在問題的分析,創(chuàng)新性地將基于BP神經(jīng)網(wǎng)絡(luò)和LSTM相結(jié)合的二級(jí)預(yù)測(cè)模型與卷煙預(yù)測(cè)相結(jié)合,并將POI作為模型輸入?yún)?shù)的增加項(xiàng)。通過消費(fèi)環(huán)境數(shù)據(jù)、終端動(dòng)銷數(shù)據(jù)、零售客戶特征數(shù)據(jù)在BP算法進(jìn)行特征增維。將增維的特征,傳遞給LSTM模型,通過反向的Loss優(yōu)化方法,使模型的輸出結(jié)果與真實(shí)結(jié)果一致。
模型對(duì)某市的試點(diǎn)品規(guī)進(jìn)行了測(cè)試。通過測(cè)試數(shù)據(jù)結(jié)果可以看出,基于BP神經(jīng)網(wǎng)絡(luò)和LSTM的預(yù)測(cè)模型在預(yù)測(cè)零售客戶卷煙購進(jìn)量的問題上有很好的表現(xiàn),模型可以指導(dǎo)煙草工業(yè)企業(yè)進(jìn)行零售客戶需求預(yù)測(cè)和精準(zhǔn)營(yíng)銷工作。
參考文獻(xiàn):
[1]王維禮,白云慶,盧景德.基于興趣點(diǎn)(POI)數(shù)據(jù)的地鐵站周邊商業(yè)空間活力分級(jí)與耦合性研究——以天津市中心城區(qū)為例[J].城市,2019(5).
[2]陳浩,王詩航,顧祖毅,等.基于POI數(shù)據(jù)的卷煙消費(fèi)者行為研究[J].科技和產(chǎn)業(yè),2019,19(1):79-83,88.
[3]趙麗萍.基于BP神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)時(shí)尚服裝銷量預(yù)測(cè)的應(yīng)用方法研究[D].上海:上海交通大學(xué),2009.
[4]李冰珂.改進(jìn)BP神經(jīng)網(wǎng)絡(luò)在機(jī)票銷售量預(yù)測(cè)中的研究[D].哈爾濱:東北林業(yè)大學(xué),2019.
[5]單宇翔,郁鋼,陸海良,等.基于組合分析模型的市場(chǎng)銷量預(yù)測(cè)——以卷煙廠為例[J].中國(guó)商論,2019(2):10-11.
[6]梁武超,顧幼瑾,段寧東.基于Markov模型的中國(guó)高端卷煙產(chǎn)品銷量預(yù)測(cè)研究[J].價(jià)值工程,2012(29):145-147.
[7]仲東亭,張玥.BP神經(jīng)網(wǎng)絡(luò)對(duì)煙草銷售量預(yù)測(cè)方法的改進(jìn)研究[J].工業(yè)技術(shù)經(jīng)濟(jì), 2007, 26(9):115-118.
[8]于波, 丁源. 改進(jìn)BP神經(jīng)網(wǎng)絡(luò)在鐵路客運(yùn)量預(yù)測(cè)中的應(yīng)用[J].鐵道經(jīng)濟(jì)研究, 2012(3):43-47.
[9]楊朝強(qiáng),蔣衛(wèi)麗,邵黨國(guó).基于LSTM模型的電影票房預(yù)測(cè)算法[J].數(shù)據(jù)通信, 2019(5):34-37.
[作者簡(jiǎn)介]曾建新(1970—),云南玉溪人,碩士,高級(jí)工程師,研究方向:卷煙大數(shù)據(jù)營(yíng)銷;劉佩鑫(1973—),云南昆明人,本科,中級(jí)工程師,研究方向:卷煙大數(shù)據(jù)營(yíng)銷;王廷波(1978—),云南玉溪人,本科,中級(jí)工程師,研究方向:卷煙大數(shù)據(jù)營(yíng)銷;通訊作者:許瑞琦(1987—),云南昆明人,碩士,中級(jí)工程師,研究方向:卷煙大數(shù)據(jù)營(yíng)銷。