汪斯凱 劉吉華
(湖北大學(xué)商學(xué)院,湖北 武漢 430062)
從新型冠狀病毒爆發(fā)的2019年開(kāi)始,疫情在全球范圍內(nèi)不斷反復(fù),對(duì)消費(fèi)者的購(gòu)買(mǎi)意愿產(chǎn)生了嚴(yán)重影響。以汽車(chē)行業(yè)為例,從網(wǎng)站 “汽車(chē)之家”的統(tǒng)計(jì)數(shù)據(jù)得出,2022年5月全國(guó)汽車(chē)銷(xiāo)量為133.8萬(wàn)輛,相比于2021年5月的全國(guó)汽車(chē)銷(xiāo)量同比下降21.7%,2022年1-5月全國(guó)汽車(chē)?yán)塾?jì)銷(xiāo)量為731.3萬(wàn)輛,同比下降17.3%。由此可見(jiàn),我國(guó)汽車(chē)行業(yè)面臨著比較惡劣的市場(chǎng)經(jīng)濟(jì)形勢(shì)。而新能源汽車(chē)僅占2022年5月的市場(chǎng)份額的19.7%,相比于傳統(tǒng)的燃油汽車(chē)更是困難重重。所以為減輕汽車(chē)行業(yè)供應(yīng)鏈的各個(gè)階段的壓力,做出精準(zhǔn)的市場(chǎng)需求預(yù)測(cè),更有助于供應(yīng)鏈上游下游各廠商提前做好充足準(zhǔn)備,合理分配好資源,按需生產(chǎn),降低庫(kù)存,減少庫(kù)存成本,從源頭上節(jié)約成本開(kāi)銷(xiāo),提高整體收益。
而對(duì)于近幾年才逐漸擴(kuò)大銷(xiāo)量,并占據(jù)了一定市場(chǎng)份額的新能源汽車(chē)其銷(xiāo)售購(gòu)買(mǎi)數(shù)據(jù)具有以下特點(diǎn):消費(fèi)者特征較為年輕、歷史銷(xiāo)售數(shù)據(jù)時(shí)間跨度較短、銷(xiāo)售數(shù)據(jù)量較小等等[1]。目前年輕的消費(fèi)者群體的普遍購(gòu)買(mǎi)行為都會(huì)基于目前的大量網(wǎng)絡(luò)信息進(jìn)行考慮之后再進(jìn)行決策購(gòu)買(mǎi),而且本國(guó)的大部分網(wǎng)絡(luò)搜索數(shù)據(jù)研究基本上都來(lái)源于百度指數(shù),雖然將網(wǎng)絡(luò)搜索數(shù)據(jù)納入研究特征是一個(gè)不錯(cuò)的選擇,但是百度指數(shù)就目前本國(guó)市場(chǎng)上大部分的新能源汽車(chē)的搜索數(shù)據(jù)基本上都沒(méi)有收錄,所以本文仍以傳統(tǒng)的歷史銷(xiāo)售數(shù)據(jù)進(jìn)行汽車(chē)銷(xiāo)量的預(yù)測(cè),將純電動(dòng)的新能源汽車(chē)作為研究對(duì)象,結(jié)合LSTM(長(zhǎng)短期循環(huán)神經(jīng)網(wǎng)絡(luò))和時(shí)間序列分析的SARIMA進(jìn)行擬合預(yù)測(cè),探究問(wèn)題如下:如何構(gòu)建LSTM模型和 SARIMA模型對(duì)汽車(chē)銷(xiāo)量進(jìn)行預(yù)測(cè)??jī)赡P蛯?duì)數(shù)據(jù)的擬合效果有什么差異?是否能通過(guò)改進(jìn)分析方法來(lái)提高對(duì)汽車(chē)銷(xiāo)量預(yù)測(cè)的精度和準(zhǔn)確性?
汽車(chē)銷(xiāo)售預(yù)測(cè)研究有著很長(zhǎng)時(shí)間的發(fā)展,眾多學(xué)者都為該領(lǐng)域獻(xiàn)力許多,并在理論和實(shí)際應(yīng)用上取得了重大的突破。其中,經(jīng)典統(tǒng)計(jì)學(xué)方法已經(jīng)發(fā)展了很長(zhǎng)時(shí)間,理論也非常成熟,在各種實(shí)際問(wèn)題上得到了廣泛的應(yīng)用。然而,由于數(shù)據(jù)采集成本高、樣本數(shù)量有限以及傳統(tǒng)預(yù)測(cè)方法本身存在一些缺陷等原因,使得其適用范圍受到限制。因此,如何提高汽車(chē)銷(xiāo)量預(yù)測(cè)模型的準(zhǔn)確性成為一個(gè)重要研究課題。
近幾年來(lái),隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù)的逐漸興起,越來(lái)越多的學(xué)者也開(kāi)始將這些技術(shù)應(yīng)用到汽車(chē)銷(xiāo)量預(yù)測(cè)中[2]。如:謝亞南提出了基于結(jié)構(gòu)關(guān)系識(shí)別的汽車(chē)銷(xiāo)量預(yù)測(cè)方法[3];丁銳等人提出的基于SARIMA和LSTM組合預(yù)測(cè)模型[4];陳科秀等人提出的基于ARIMA的新能源汽車(chē)銷(xiāo)量預(yù)測(cè)模型[5];劉吉華等人基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了汽車(chē)銷(xiāo)量預(yù)測(cè)模型[6];崔東佳等人將網(wǎng)絡(luò)搜索數(shù)據(jù)正式的帶入汽車(chē)銷(xiāo)量預(yù)測(cè)[7]等。
在汽車(chē)銷(xiāo)量的預(yù)測(cè)問(wèn)題中,大部分學(xué)者都將時(shí)間跨度較大、市場(chǎng)份額較高的燃油汽車(chē)作為研究對(duì)象,對(duì)比于燃油汽車(chē),新能源汽車(chē)的銷(xiāo)量預(yù)測(cè)有著極大的困難:
第一、運(yùn)用大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)等一系列技術(shù)手段進(jìn)行銷(xiāo)量等一系列生產(chǎn)經(jīng)營(yíng)活動(dòng)的預(yù)測(cè)需要大量的數(shù)據(jù)支撐,而新能源汽車(chē)作為近幾年發(fā)展起來(lái)的行業(yè),并沒(méi)有大量的數(shù)據(jù)能夠很好的進(jìn)行模型的擬合和訓(xùn)練;第二、新能源汽車(chē)作為面向未來(lái)的綠色環(huán)保產(chǎn)業(yè),需要設(shè)計(jì)高科技等一系列元素作為看點(diǎn)吸引消費(fèi)者,這種類(lèi)型的產(chǎn)品基本都具有生命周期段、迭代快速等特點(diǎn),導(dǎo)致新能源汽車(chē)的歷史數(shù)據(jù)并不能很長(zhǎng);第三、新能源產(chǎn)業(yè)作為國(guó)家重點(diǎn)關(guān)注對(duì)象,政府也出臺(tái)了很多有關(guān)新能源汽車(chē)的政策,對(duì)汽車(chē)的銷(xiāo)量也有比較大的影響;第四、目前全球疫情不斷反復(fù),也導(dǎo)致消費(fèi)者的購(gòu)買(mǎi)欲望明顯降低,對(duì)銷(xiāo)量的預(yù)測(cè)有重大的影響。
本文在神經(jīng)網(wǎng)絡(luò)的有關(guān)知識(shí)的基礎(chǔ)上,提出了針對(duì)純電新能源汽車(chē)的基于LSTM的汽車(chē)銷(xiāo)量預(yù)測(cè)模型,通過(guò)與SARIMA的預(yù)測(cè)模型的對(duì)比,試圖找出高精度的新能源汽車(chē)的預(yù)測(cè)模型。
SARIMA (Seasonal Autoregressive Integrated Moving Average)是在ARIMA模型的基礎(chǔ)上,進(jìn)行了改進(jìn)。現(xiàn)實(shí)生活中,經(jīng)濟(jì)類(lèi)數(shù)據(jù)常常存在周期性,需要加入季節(jié)性調(diào)整項(xiàng),消除原始數(shù)據(jù)的周期,而汽車(chē)歷史銷(xiāo)售數(shù)據(jù)就具有很強(qiáng)的季節(jié)性,所以用該模型非常合適。
設(shè)Xt={x1,…,xt,…,xn}為時(shí)間序列數(shù)據(jù),xt為t時(shí)刻的觀測(cè)值,記B為延遲算子,表示如下:
SARIMA模型和其他的時(shí)間序列模型一樣,其的建立需要平穩(wěn)非白噪聲時(shí)間序列數(shù)據(jù),通常先對(duì)數(shù)據(jù)進(jìn)行差分,定義差分算子見(jiàn) (2)。部分情況下,經(jīng)過(guò)一階差分仍然無(wú)法轉(zhuǎn)換為平穩(wěn)序列,則需進(jìn)行多次差分,則d階差分表示為公式 (3)。
SARIMA模型由自相關(guān)部分和移動(dòng)平均部分組成,經(jīng)過(guò)差分后的序列可以探究其各部分的函數(shù)形式。假設(shè)φi代表自回歸系數(shù),則p階自回歸模型形式見(jiàn) (4)。引入p階自回歸算子Φ(B)[8],則p階自回歸模型見(jiàn) (6)。
由誤差及其不同滯后期構(gòu)建,主要擬合除變量之外的其他無(wú)法觀測(cè)的噪聲因素。移動(dòng)平均模型的模型形式見(jiàn) (7)。定義q階移動(dòng)平均算子 Θ (B),則q階移動(dòng)平均模型見(jiàn) (9)。
ARIMA(p,d,q)模型可以在對(duì)原序列進(jìn)行d階差分后,用自回歸部分和移動(dòng)平均部分表示,表達(dá)式見(jiàn) (10)。
令P表示季節(jié)性自回歸階數(shù),Q表示季節(jié)性移動(dòng)平均階數(shù),D為季節(jié)差分階數(shù),記S為原始序列的季節(jié)周期,引入季節(jié)性自回歸算子ΦS(Β),季節(jié)性移動(dòng)平均算子ΘS(B),則SARIMA模型的形式如下 (11):
時(shí)間序列模型如SARIMA模型的求解一般包括四步:數(shù)據(jù)處理、模式識(shí)別、模型檢驗(yàn)、預(yù)測(cè)。而其中最需要注意的模型構(gòu)建方法就是數(shù)據(jù)處理和模式識(shí)別。
在構(gòu)建SARIMA模型之前,需要的對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)處理,判斷數(shù)據(jù)是否平穩(wěn)且是否為白噪聲。判斷是否平穩(wěn)所使用的方法一般是由畫(huà)圖確認(rèn)和通過(guò)ADF(單位根檢驗(yàn))來(lái)判斷滯后階數(shù)和確認(rèn)該數(shù)據(jù)是否平穩(wěn),若該數(shù)據(jù)不平穩(wěn)則需進(jìn)行差分,進(jìn)而轉(zhuǎn)換為平穩(wěn)序列;而判斷是否為白噪聲的方法一般通過(guò)純隨機(jī)數(shù)序列檢驗(yàn)來(lái)判斷其各個(gè)滯后階數(shù)的P值是否小于0.05,純隨機(jī)數(shù)序列檢驗(yàn)的原假設(shè)為純隨機(jī)數(shù)序列,P值小于0.05則拒接原假設(shè),認(rèn)為該數(shù)據(jù)為非純隨機(jī)數(shù)序列。
在處理好數(shù)據(jù)之后,就需要進(jìn)行模式識(shí)別,判定如何構(gòu)建模型。主要有兩種方法,圖示法和數(shù)值法。圖示法通過(guò)觀察平穩(wěn)序列的自相關(guān)圖ACF和偏自相關(guān)圖PACF定階;數(shù)值法主要通過(guò)信息準(zhǔn)則AIC、SBC等確定階數(shù)[9]。也有學(xué)者將兩者結(jié)合,先通過(guò)圖示法大致確定階數(shù)范圍,然后循環(huán)階數(shù)選擇信息準(zhǔn)則最小時(shí)的階數(shù)組合[10]。
LSTM (Long Short Term Memory),全稱(chēng)長(zhǎng)短期循環(huán)神經(jīng)網(wǎng)絡(luò),是RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的一種特殊模型,是由Hochreiter等人提出,被 Alex Graves進(jìn)行了改良和推廣[11]。LSTM之所以被廣泛使用,是因?yàn)槠淇梢越鉀Q長(zhǎng)期的信息依賴(lài)問(wèn)題,這是不能被解決的在其他神經(jīng)網(wǎng)絡(luò)模型中。
LSTM也具有類(lèi)似于RNN的鏈狀結(jié)構(gòu),但擁有著與標(biāo)準(zhǔn)RNN所不同的重復(fù)模塊結(jié)構(gòu)。其中并沒(méi)有單一的神經(jīng)網(wǎng)絡(luò)層,取而代之的是由四個(gè)激活函數(shù)所組成的神經(jīng)網(wǎng)絡(luò)層,以一種非常特殊的方式相互作用,如圖1所示。
圖1:LSTM中的由四個(gè)交互的神經(jīng)網(wǎng)絡(luò)層組成的重復(fù)模塊
1、LSTM的核心思想
LSTM運(yùn)行的關(guān)鍵是單元狀態(tài) (cell state)。是 LSTM可以解決長(zhǎng)期依賴(lài)關(guān)系的重要構(gòu)思。它直接沿著整個(gè)鏈條運(yùn)行,在重復(fù)模塊運(yùn)行過(guò)程中,只通過(guò)線性交互進(jìn)行一些微小的改變。從上一模塊傳進(jìn)來(lái)的信息Ct-1沿整條線路進(jìn)行細(xì)微的改變,輸出信息Ct到下一個(gè)模塊。
LSTM中能夠?qū)卧獱顟B(tài)進(jìn)行增刪改的關(guān)鍵結(jié)構(gòu)被稱(chēng)為“門(mén)”,是LSTM的核心概念,其可以精準(zhǔn)的控制信息的通過(guò)量。它主要由激活函數(shù)Sigmoid的神經(jīng)網(wǎng)絡(luò)層和逐點(diǎn)乘法計(jì)算構(gòu)成。
LSTM具有三個(gè)門(mén),分別為 “遺忘門(mén)”、“輸入門(mén)”和 “輸出門(mén)”,三個(gè)門(mén)共同對(duì)單元狀態(tài)進(jìn)行增刪改的信息量操作,用來(lái)確定輸入數(shù)據(jù)的輸出量和保持量。
2、遺忘門(mén)
LSTM運(yùn)行過(guò)程中的第一步是通過(guò) “遺忘門(mén)”控制什么信息從細(xì)胞狀態(tài)中刪除,該門(mén)會(huì)讀取數(shù)據(jù)ht-1和xt,通過(guò)激活函數(shù)Sigmoid將一個(gè)零到一之間的數(shù)值傳遞給重復(fù)模塊中的初始細(xì)胞狀態(tài)Ct-1[12]。函數(shù)表達(dá)式為 (12)。
3、輸入門(mén)
第二步則是通過(guò) “輸入門(mén)”控制需要對(duì)細(xì)胞狀態(tài)進(jìn)行更新的信息量。這一步分為兩部分。首先,通過(guò) “輸入門(mén)”進(jìn)行計(jì)算確定需要更新it數(shù)量的信息,函數(shù)表達(dá)式為 (13)。然后,再通過(guò)一個(gè)tanh激活函數(shù)創(chuàng)建一個(gè)新候選值的向量t,決定輸入數(shù)據(jù)中有那些需要更新到細(xì)胞狀態(tài)中,函數(shù)表達(dá)式為(14)。在下一步中,LSTM 對(duì)it和t進(jìn)行向量乘法,將通過(guò)兩個(gè)值的乘法計(jì)算對(duì)單元狀態(tài)進(jìn)行更新。
4、更新單元狀態(tài)
在進(jìn)行了前面的 “遺忘門(mén)”和 “輸入門(mén)”操作后,LSTM就會(huì)更新舊的單元狀態(tài)Ct-1,創(chuàng)建并形成新的單元狀態(tài)Ct。過(guò)程是將舊單元狀態(tài)Ct-1乘以ft,“遺忘”之前決定要?jiǎng)h除的信息。然后加上 “輸入門(mén)”需要添加到單元狀態(tài)中的信息 (it*t),函數(shù)表達(dá)式為 (15),這就是新的候選值,根據(jù) LSTM決定更新每個(gè)單元狀態(tài)值的程度進(jìn)行縮放。
5、輸出門(mén)
最后,LSTM通過(guò) “輸入門(mén)”對(duì)需要輸出的信息進(jìn)行控制?!拜斎腴T(mén)”對(duì)已經(jīng)更新的細(xì)胞狀態(tài)經(jīng)過(guò)篩選的之后的到的信息。和前面幾乎相似,首先,通過(guò)sigmoid激活函數(shù),得到需要選擇值為ot的單元狀態(tài),函數(shù)表達(dá)式為 (16),該值決定了需要從細(xì)胞狀態(tài)中輸出多少信息。然后,對(duì)細(xì)胞株那臺(tái)進(jìn)行tanh函數(shù)的運(yùn)算,將其數(shù)據(jù)轉(zhuǎn)換成-1到1之間,加速了模型的擬合速度,并將其乘以ot得到輸出的信息,函數(shù)表達(dá)式為(17)。
綜上所述,LSTM模型能夠很好的處理?yè)碛虚L(zhǎng)期依賴(lài)關(guān)系的關(guān)鍵核心就是,該模型有一個(gè)可以持續(xù)更新的單元狀態(tài)Ct,于此同時(shí),還有可以不斷輸出的ht。
通過(guò)對(duì)不同學(xué)者做出的文獻(xiàn)成果的反復(fù)研究,本文綜合消費(fèi)者購(gòu)買(mǎi)行為模式,提出了如圖2所示的LSTM模型的汽車(chē)銷(xiāo)量預(yù)測(cè)模型[13],共有4部分,分別為:純電新能源車(chē)型的選取、數(shù)據(jù)的采集與預(yù)處理、LSTM模型、預(yù)測(cè)結(jié)果分析。
圖2:LSTM汽車(chē)銷(xiāo)量預(yù)測(cè)模型圖
“搜狐汽車(chē)網(wǎng)”作為中國(guó)汽車(chē)網(wǎng)站中信息最快、最全的網(wǎng)站被很多學(xué)者都用來(lái)作為可靠的數(shù)據(jù)來(lái)源網(wǎng)站。本文對(duì)其網(wǎng)站中的車(chē)型銷(xiāo)量排行榜中的687個(gè)車(chē)型進(jìn)行篩選,將時(shí)間長(zhǎng)度小于三年的車(chē)型去除,從剩余的391個(gè)車(chē)型挑選出純電動(dòng)的車(chē)型有36個(gè),例如:“吉利帝豪EV”、“長(zhǎng)安CS15”、“寶駿E100”、“比亞迪宋EV”、“東風(fēng)風(fēng)神E70”、“云度π1”、“蔚來(lái)汽車(chē)es6”、“蔚來(lái)汽車(chē)es8” 等。
車(chē)型的選取對(duì)后序?qū)嶒?yàn)的進(jìn)行和模型預(yù)測(cè)結(jié)果的準(zhǔn)確度的影響極大,所以本文對(duì)剩余的36個(gè)車(chē)型的歷史數(shù)據(jù)進(jìn)行逐一對(duì)比查看,將其車(chē)型歷史銷(xiāo)量中數(shù)據(jù)空缺長(zhǎng)度較大、數(shù)據(jù)結(jié)構(gòu)不穩(wěn)定和明顯有誤的車(chē)型排除,最后篩選出了以下6個(gè)車(chē)型:“云度π1”、“小鵬汽車(chē) G3”、“蔚來(lái)汽車(chē) ES8”、“比亞迪唐EV”、“廣汽埃安Aion S”、“蔚來(lái)汽車(chē)ES6”。就查看其六個(gè)車(chē)型的歷史銷(xiāo)量數(shù)據(jù)特點(diǎn)來(lái)看,該六個(gè)車(chē)型的銷(xiāo)量數(shù)據(jù)都比較小,每個(gè)月的銷(xiāo)售數(shù)據(jù)基本上都沒(méi)有超過(guò)1萬(wàn);新浪汽車(chē)網(wǎng)的銷(xiāo)量精度為 (萬(wàn)輛/月),導(dǎo)致新能源汽車(chē)銷(xiāo)量的力度較低;并且新能源汽車(chē)的銷(xiāo)售時(shí)間維度的長(zhǎng)度都普遍較短。
1、汽車(chē)銷(xiāo)售數(shù)據(jù)
數(shù)據(jù)獲取與預(yù)處理是建模分析的基礎(chǔ),高質(zhì)量的數(shù)據(jù)以及精準(zhǔn)的預(yù)處理可以顯著提高模型精度,提高預(yù)測(cè)效果。該六個(gè)車(chē)型覆蓋的品牌比較多,車(chē)型比較豐富,基本上可以迎合消費(fèi)者的消費(fèi)習(xí)慣,且生產(chǎn)周期相對(duì)較長(zhǎng),數(shù)據(jù)量比較充足,適合作為研究對(duì)象。
本文對(duì)該六個(gè)車(chē)型的汽車(chē)各自進(jìn)行銷(xiāo)量預(yù)測(cè),將 “搜狐汽車(chē)網(wǎng)”作為汽車(chē)銷(xiāo)售的歷史數(shù)據(jù)的來(lái)源,通過(guò)Python語(yǔ)言編寫(xiě)爬蟲(chóng)腳本,對(duì)搜狐汽車(chē)網(wǎng)上的這六個(gè)新能源汽車(chē)的車(chē)型和其每個(gè)月的汽車(chē)銷(xiāo)量進(jìn)行抓取。圖3為該六個(gè)車(chē)型的月度汽車(chē)銷(xiāo)量,從圖中可以看出其數(shù)據(jù)具有很強(qiáng)的季節(jié)性,在不同的季節(jié),銷(xiāo)量波動(dòng)比較相似;并且在2019年前后,受疫情的影響,銷(xiāo)量波動(dòng)比較顯著。
圖3:六個(gè)新能源車(chē)型月度銷(xiāo)量圖 (萬(wàn)輛/月)
2、數(shù)據(jù)集的劃分
在將數(shù)據(jù)帶入到模型中進(jìn)行擬合之前,需要對(duì)數(shù)據(jù)集進(jìn)劃分。因?yàn)長(zhǎng)STM模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),數(shù)據(jù)集的設(shè)定有一定的規(guī)范,考慮到消費(fèi)者在進(jìn)行購(gòu)車(chē)消費(fèi)之前的決策時(shí)間較長(zhǎng),本文將初始的基礎(chǔ)序列長(zhǎng)度設(shè)置為12月,對(duì)接下來(lái)的1月進(jìn)行預(yù)測(cè)的模型對(duì)歷史銷(xiāo)售數(shù)據(jù)集進(jìn)行重構(gòu)。以汽車(chē) “云度Π1”為例,其全部歷史銷(xiāo)量數(shù)據(jù)為52條一維數(shù)據(jù),對(duì)數(shù)據(jù)集按照滑動(dòng)窗口的方式進(jìn)行重構(gòu)之后,數(shù)據(jù)集變成了41條由13組一維數(shù)據(jù)組成的數(shù)據(jù)集。之后再對(duì)每個(gè)數(shù)據(jù)集進(jìn)行拆分,將20%的數(shù)據(jù)集作為測(cè)試集和驗(yàn)證集,剩余的80%作為訓(xùn)練集。當(dāng)然,在進(jìn)行數(shù)據(jù)集劃分之前需要對(duì)全部六個(gè)車(chē)型的歷史銷(xiāo)量數(shù)據(jù)進(jìn)行空缺值填充,本文采用8鄰域的K-means填充,使數(shù)據(jù)更接近于原始數(shù)據(jù)。
3、LSTM模型的構(gòu)建和訓(xùn)練
LSTM模型在輸入層方面和其他的神經(jīng)網(wǎng)絡(luò)模型一樣是輸入數(shù)據(jù)集組成的特征向量矩陣,通過(guò)模型內(nèi)部的 “輸入門(mén)”,“遺忘門(mén)”,“輸出門(mén)”,通過(guò)多層的循環(huán),對(duì)數(shù)據(jù)進(jìn)行擬合,最終通過(guò)優(yōu)化函數(shù)不斷地調(diào)整參數(shù),使最終模型的損失降到最低。本文對(duì)該模型采用的損失函數(shù)為平均絕對(duì)誤差 (MAE),本文通過(guò)調(diào)整LSTM模型的可控參數(shù),目的是將誤差值將到最低。
(1)初始模型
目前,基于LSTM的汽車(chē)銷(xiāo)量預(yù)測(cè)模型,眾多學(xué)者也都沒(méi)有比較泛用的模型,而且在模型的參數(shù)的設(shè)定上也沒(méi)有統(tǒng)一的規(guī)定,一般都基于研究者的經(jīng)驗(yàn)判斷。由于新能源車(chē)型的歷史銷(xiāo)量數(shù)據(jù)量都比較少,過(guò)高的循環(huán)和更深的神經(jīng)網(wǎng)絡(luò)層數(shù)會(huì)導(dǎo)致數(shù)據(jù)更快地過(guò)擬合,不易被發(fā)現(xiàn),而簡(jiǎn)單的循環(huán)層數(shù)和深度會(huì)導(dǎo)致訓(xùn)練次數(shù)過(guò)多,給機(jī)器造成比較大壓力且耗時(shí)較多。所以本文就將所有車(chē)型的初始模型設(shè)定為單層的神經(jīng)網(wǎng)絡(luò)層,輸入層節(jié)點(diǎn)為16,訓(xùn)練完后直接進(jìn)行單值輸出,編譯模型的優(yōu)化函數(shù)為Adam,采用MAE(平均絕對(duì)誤差)作為模型的損失函數(shù),模型進(jìn)行訓(xùn)練是每次訓(xùn)練的數(shù)據(jù)量為32,總共訓(xùn)練120輪,用測(cè)試集進(jìn)行數(shù)據(jù)的驗(yàn)證。
(2)模型訓(xùn)練
對(duì)六個(gè)車(chē)型用初始模型進(jìn)行訓(xùn)練擬合后的預(yù)測(cè)值Αt與真實(shí)值Ft進(jìn)行計(jì)算MAPE如表1。眾多有關(guān)時(shí)間序列的研究對(duì)模型的評(píng)判標(biāo)準(zhǔn)為MAPE(平均絕對(duì)百分比誤差),其公式如(18)。從幾次訓(xùn)練的結(jié)果可以看見(jiàn)少數(shù)幾個(gè)車(chē)型如 “廣汽埃安Aion S”,“蔚來(lái)汽車(chē)ES6”等車(chē)型的預(yù)測(cè)結(jié)果還行,其余車(chē)型的預(yù)測(cè)值和真實(shí)值的差值比較大,所以需要對(duì)這些車(chē)型的預(yù)測(cè)模型進(jìn)行參數(shù)的調(diào)整。
表1:各車(chē)型的初始模型預(yù)測(cè)的誤差表
因?yàn)檎w數(shù)據(jù)并不復(fù)雜且數(shù)據(jù)量較小,本文對(duì)于LSTM模型的主要參數(shù)如:輸入層節(jié)點(diǎn)數(shù)、模型的層數(shù)、進(jìn)行擬合時(shí)的每次訓(xùn)練的數(shù)據(jù)量的大小 (batch_size)和每輪訓(xùn)練的擬合次數(shù) (epochs)等進(jìn)行調(diào)整。通過(guò)實(shí)驗(yàn)的不斷調(diào)整,本文發(fā)現(xiàn)模型的節(jié)點(diǎn)數(shù)、模型的層數(shù)和每輪訓(xùn)練的擬合次數(shù)基本呈負(fù)相關(guān),模型的節(jié)點(diǎn)數(shù)和層數(shù)決定了模型的復(fù)雜程度,更復(fù)雜的模型對(duì)數(shù)據(jù)的擬合越快越準(zhǔn),但是對(duì)于較小、較簡(jiǎn)單的數(shù)據(jù)來(lái)說(shuō)會(huì)導(dǎo)致擬合情況不易被察覺(jué),相應(yīng)的擬合次數(shù)需要降低,以車(chē)型蔚來(lái)汽車(chē)ES8為例,測(cè)試實(shí)驗(yàn)結(jié)果如表2。而每次訓(xùn)練數(shù)據(jù)量的大小很大程度上決定了擬合數(shù)據(jù)的平滑度,越大會(huì)使誤差降低的比較平緩,但對(duì)于少量數(shù)據(jù)而言,取過(guò)大的數(shù)據(jù)量會(huì)導(dǎo)致訓(xùn)練時(shí)根本取不到響應(yīng)的數(shù)據(jù)量而使擬合結(jié)果變差,對(duì)其調(diào)整的結(jié)果如圖4。
表2:參數(shù)改變和擬合狀態(tài)的關(guān)系測(cè)試情況表
圖4:不同數(shù)據(jù)量大小的預(yù)測(cè)圖像
結(jié)合以上經(jīng)驗(yàn),本文對(duì)所有的車(chē)型分別調(diào)整參數(shù)重新進(jìn)行了訓(xùn)練,尋找最優(yōu)的預(yù)測(cè)模型,通過(guò)實(shí)驗(yàn)得知,增加模型的層數(shù)對(duì)于本實(shí)驗(yàn)數(shù)據(jù)并不能提高模型的預(yù)測(cè)效果,所以將所有的預(yù)測(cè)模型設(shè)為單層并進(jìn)行測(cè)試,各車(chē)型的訓(xùn)練結(jié)果如表3,對(duì)測(cè)試集用該模型進(jìn)行預(yù)測(cè)所得預(yù)測(cè)值于真實(shí)值對(duì)照畫(huà)散點(diǎn)圖如圖5。
表3:六個(gè)車(chē)型的預(yù)測(cè)模型參數(shù)與預(yù)測(cè)誤差表
圖5:六個(gè)車(chē)型的預(yù)測(cè)值與真實(shí)值的散點(diǎn)圖對(duì)比
通過(guò)上述實(shí)驗(yàn),本文通過(guò)調(diào)整參數(shù)確定了六個(gè)車(chē)型的較優(yōu)預(yù)測(cè)模型,對(duì)比初始模型MAPE有比較明顯的下降,大部分車(chē)型的MAPE基本都下降了10%~30%。接下來(lái)需要對(duì)數(shù)據(jù)集的劃分進(jìn)行優(yōu)化,在眾多學(xué)者的預(yù)測(cè)模型中,很大部分學(xué)者都將基礎(chǔ)序列長(zhǎng)度設(shè)置為短期、中長(zhǎng)期和長(zhǎng)期等時(shí)間段對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),但大多都為經(jīng)驗(yàn)所致。本文將以上述模型帶入循環(huán)中,將基礎(chǔ)序列長(zhǎng)度設(shè)為4月到24月,測(cè)試各個(gè)車(chē)型的預(yù)測(cè)結(jié)果和設(shè)置的基礎(chǔ)序列長(zhǎng)度的關(guān)系,尋找最優(yōu)的基礎(chǔ)序列長(zhǎng)度。
本文分別對(duì)4到24月進(jìn)行模型的擬合,每次進(jìn)行3輪,共5次,最后取均值,查看最終的MAPE的大小來(lái)判斷該模型對(duì)該基礎(chǔ)序列長(zhǎng)度的預(yù)測(cè)程度的好壞,實(shí)驗(yàn)數(shù)據(jù)如表4。
表4:六個(gè)車(chē)型在不同基礎(chǔ)序列長(zhǎng)度下預(yù)測(cè)下一個(gè)月的MAPE表
經(jīng)過(guò)測(cè)試可以看出每個(gè)車(chē)型的歷史銷(xiāo)量數(shù)據(jù)所匹配的基礎(chǔ)序列長(zhǎng)度大不相同,但基本上都是基礎(chǔ)序列長(zhǎng)度越長(zhǎng),模型的預(yù)測(cè)精度越高。結(jié)合均值,當(dāng)基礎(chǔ)序列長(zhǎng)度為19月時(shí),上述六個(gè)車(chē)型的預(yù)測(cè)模型相對(duì)精準(zhǔn)。
綜上所述,可以得到用LSTM模型分別對(duì)六個(gè)車(chē)型的近四個(gè)月銷(xiāo)售量進(jìn)行預(yù)測(cè)的較優(yōu)預(yù)測(cè)結(jié)果如表5。
表5:LSTM模型對(duì)六個(gè)車(chē)型近四個(gè)月預(yù)測(cè)結(jié)果的MAPE表
對(duì)于已經(jīng)處理好的六個(gè)純電新能源車(chē)型的歷史銷(xiāo)量數(shù)據(jù)很容易建立相應(yīng)的預(yù)測(cè)模型,本文構(gòu)建的基于SARIMA模型的汽車(chē)銷(xiāo)量模型的模型圖如下,其主要步驟為SARIMA模型的訓(xùn)練和預(yù)測(cè)結(jié)果的分析,如圖6所示。
圖6:基于SARIMA的汽車(chē)銷(xiāo)量預(yù)測(cè)模型
在構(gòu)建SARIMA模型之前,最重要的就是檢驗(yàn)數(shù)據(jù)是否平穩(wěn)且是否為白噪聲[14]。該步驟決定了處理的數(shù)據(jù)是否可以進(jìn)行SARIMA模型的構(gòu)建。對(duì)每個(gè)車(chē)型的銷(xiāo)售數(shù)據(jù)進(jìn)行單位根檢驗(yàn)和純隨機(jī)數(shù)檢驗(yàn),將數(shù)據(jù)均轉(zhuǎn)換為平穩(wěn)序列且非隨機(jī)數(shù)序列,各車(chē)型銷(xiāo)量數(shù)據(jù)的檢驗(yàn)結(jié)果如表6。為簡(jiǎn)化表格,將六種車(chē)型 “云度π1”、“小鵬汽車(chē)G3”、“蔚來(lái)汽車(chē)ES8”、“比亞迪唐EV”、“廣汽埃安Aion S”、“蔚來(lái)汽車(chē)ES6”依次編為車(chē)型一到六。
表6:不同車(chē)型銷(xiāo)量數(shù)據(jù)的檢驗(yàn)結(jié)果表
建模需要的平穩(wěn)非隨機(jī)數(shù)據(jù)處理好之后的重要步驟就是確定模型的滯后期。主要有兩種方法,圖示法和數(shù)值法。本文選擇的方法就是直接通過(guò)數(shù)值法來(lái)確定模型的滯后期,去除主觀因素對(duì)實(shí)驗(yàn)準(zhǔn)確度對(duì)實(shí)驗(yàn)造成的影響。通過(guò)循環(huán)p、q值的大小,通過(guò)信息準(zhǔn)則找出最優(yōu)模型組合。
確定了每個(gè)車(chē)型的最優(yōu)模型之后,本文用每個(gè)車(chē)型的最優(yōu)模型對(duì)最近四個(gè)月進(jìn)行預(yù)測(cè),求出每個(gè)月的MAPE來(lái)查看模型對(duì)該月銷(xiāo)售量的預(yù)測(cè)精度的好壞,如表7所示,可以看出模型對(duì)總體的預(yù)測(cè)水平比較好,MAPE水平都比較低除了個(gè)別車(chē)型的個(gè)別月份的擬合效果不太理想。該模型對(duì)云度π1、蔚來(lái)汽車(chē)ES8和廣汽埃安Aion S這三種車(chē)型的預(yù)測(cè)精度較高,對(duì)于其他的的車(chē)型的預(yù)測(cè)對(duì)于真實(shí)值的損失比較大。
表7:SARIMA模型對(duì)六個(gè)車(chē)型近四個(gè)月預(yù)測(cè)結(jié)果的MAPE表
綜合上述實(shí)驗(yàn),對(duì)各個(gè)車(chē)型單獨(dú)建模形成的模型都大不相同,并且不能推廣到一般情況。所以,在上述實(shí)驗(yàn)的基礎(chǔ)上,結(jié)合遷移學(xué)習(xí)的思想,本文提出一個(gè)基于遷移學(xué)習(xí)的LSTM模型[15],模型圖如圖7所示,其主要步驟為數(shù)據(jù)處理、泛化模型的構(gòu)建、特化模型的訓(xùn)練和預(yù)測(cè)結(jié)果分析。
圖7:基于遷移學(xué)習(xí)的LSTM汽車(chē)銷(xiāo)量預(yù)測(cè)模型
遷移學(xué)習(xí)主要是指將已知的或易知的領(lǐng)域推廣到未知的或比較困難的領(lǐng)域的一種重要的學(xué)習(xí)思想[15]。目前應(yīng)用的場(chǎng)景很多,例如在機(jī)器學(xué)習(xí)領(lǐng)域,多數(shù)學(xué)者在實(shí)際研究過(guò)程中會(huì)把一些已知的模型推廣應(yīng)用于不能或者難于構(gòu)建模型的問(wèn)題[16]。
本文將全部車(chē)型的數(shù)據(jù)集連接進(jìn)行第一次訓(xùn)練,通過(guò)LSTM的模型構(gòu)建方法,設(shè)置初始模型,帶入數(shù)據(jù)集進(jìn)行參數(shù)的一系列調(diào)整和訓(xùn)練,最終確定了最優(yōu)的LSTM模型為單層模型,基礎(chǔ)序列長(zhǎng)度為19月,預(yù)測(cè)下 1月,輸入層 8節(jié)點(diǎn),batch_size為256,epochs為150次,訓(xùn)練出來(lái)的最終預(yù)測(cè)結(jié)果:MAE:0.043,MAPE:0.313。預(yù)測(cè)值與真實(shí)值構(gòu)成的散點(diǎn)圖如圖8。
圖8:全部車(chē)型LSTM模型的預(yù)測(cè)值與真實(shí)值散點(diǎn)圖
接著將上述模型保存,再分別對(duì)每個(gè)車(chē)型的銷(xiāo)量數(shù)據(jù)進(jìn)行單獨(dú)訓(xùn)練優(yōu)化,使模型可以對(duì)每個(gè)車(chē)型具有針對(duì)性。用經(jīng)過(guò)再次優(yōu)化后的模型對(duì)近四個(gè)月進(jìn)行預(yù)測(cè)得表8。對(duì)照上述表5可知,使用遷移學(xué)習(xí)的LSTM模型和對(duì)每個(gè)車(chē)型分別建模的LSTM模型兩者的精度差別不大,但是遷移學(xué)習(xí)的LSTM模型更具有廣泛性,可以對(duì)其他數(shù)據(jù)量較小的新純電新能源汽車(chē)的銷(xiāo)售量進(jìn)行預(yù)測(cè)。
表8:LSTM遷移模型對(duì)六個(gè)車(chē)型近四個(gè)月預(yù)測(cè)結(jié)果的MAPE表
本文通過(guò)對(duì)消費(fèi)者的購(gòu)車(chē)行為進(jìn)行分析,提出了基于LSTM模型、基于SARIMA模型和基于遷移學(xué)習(xí)的LSTM的三種汽車(chē)銷(xiāo)量預(yù)測(cè)模型,經(jīng)過(guò)一系列調(diào)整與訓(xùn)練,將三模型最優(yōu)的MAPE進(jìn)行比較得表9。從表中可以看出六個(gè)車(chē)型用三種模型進(jìn)行預(yù)測(cè)的精度相差不大,分車(chē)型的LSTM模型和遷移學(xué)習(xí)的LSTM模型兩模型的預(yù)測(cè)精度差別也相近,除了小鵬汽車(chē)G3一種車(chē)型的MAPE差值達(dá)到60%,其余的幾種車(chē)型在兩種模型中的MAPE波動(dòng)在10%~20%之間,屬于正常范圍。
表9:三種模型預(yù)測(cè)結(jié)果的MAPE表
對(duì)比上述三個(gè)模型對(duì)近四個(gè)月的預(yù)測(cè)結(jié)果的MAPE均值表10如下。在總體的汽車(chē)銷(xiāo)量預(yù)測(cè)上SARIMA模型比LSTM模型較好,但差距并不大。對(duì)比使用遷移學(xué)習(xí)的LSTM模型進(jìn)行預(yù)測(cè)的結(jié)果精度與單獨(dú)對(duì)每個(gè)車(chē)型用LSTM模型進(jìn)行預(yù)測(cè)的結(jié)果精度,兩者的精度相近,無(wú)差別,說(shuō)明在電動(dòng)新能源汽車(chē)的這幾個(gè)車(chē)型中,它們的數(shù)據(jù)結(jié)構(gòu)具有一定的相似性,對(duì)于歷史數(shù)據(jù)的波動(dòng)也具有一定的相關(guān)性。但在上述實(shí)驗(yàn)中,三個(gè)模型對(duì)小鵬汽車(chē)G3 2022年2月的預(yù)測(cè)精度都發(fā)生了突變,考慮到其他的可能因素,本文將該車(chē)型去除重新計(jì)算均值發(fā)現(xiàn)三種模型的預(yù)測(cè)精度都差不多,同表10。
表10:三種模型預(yù)測(cè)誤差表
所以,通過(guò)該實(shí)驗(yàn)為新能源汽車(chē)的銷(xiāo)量預(yù)測(cè)提供了一個(gè)可靠的模型。在對(duì)新能源汽車(chē)銷(xiāo)售數(shù)據(jù)進(jìn)行預(yù)測(cè),當(dāng)車(chē)型的數(shù)據(jù)有所缺失或數(shù)據(jù)量較小時(shí)可以用相類(lèi)似的新能源汽車(chē)進(jìn)行訓(xùn)練建模,再對(duì)該車(chē)型進(jìn)行建模預(yù)測(cè),同樣可以得到高精度的預(yù)測(cè)結(jié)果。
本文應(yīng)用遷移學(xué)習(xí)模型對(duì)近來(lái)占據(jù)新能源汽車(chē)銷(xiāo)售榜頭的車(chē)型 “五菱宏光MINIEV”的銷(xiāo)量進(jìn)行建模預(yù)測(cè)。其歷史銷(xiāo)售數(shù)據(jù)截至2022年3月止只有21條,數(shù)據(jù)量不足兩年,用常規(guī)建模方法很難對(duì)其進(jìn)行精準(zhǔn)預(yù)測(cè)。對(duì)比常規(guī)的LSTM模型和用遷移學(xué)習(xí)的LSTM模型的預(yù)測(cè)結(jié)果得表 11。發(fā)現(xiàn)遷移學(xué)習(xí)的LSTM模型有較好的預(yù)測(cè)精度,且MAPE值比較穩(wěn)定,而用常規(guī)的LSTM模型對(duì)其進(jìn)行預(yù)測(cè),MAPE值不穩(wěn)定。
表11:兩種模型對(duì)五菱宏光MINIEV預(yù)測(cè)的MAPE均值對(duì)比表
本文對(duì)純電新能源汽車(chē)的銷(xiāo)量預(yù)測(cè)提出了三種模型,針對(duì)每個(gè)車(chē)型的LSTM模型和SARIMA模型和基于遷移學(xué)習(xí)的LSTM模型。前兩個(gè)模型對(duì)于不同的車(chē)型,兩模型預(yù)測(cè)結(jié)果的好壞不一致,不能確定哪個(gè)模型更優(yōu),且兩模型都過(guò)特殊只能對(duì)單個(gè)車(chē)型進(jìn)行精準(zhǔn)預(yù)測(cè);而第三種基于遷移學(xué)習(xí)的LSTM模型具有泛用性可以對(duì)大部分純電新能源汽車(chē)進(jìn)行銷(xiāo)量預(yù)測(cè),且其預(yù)測(cè)結(jié)果與對(duì)車(chē)型單獨(dú)進(jìn)行預(yù)測(cè)的結(jié)果的MAPE值并無(wú)差別,根據(jù)表10的 MAPE值可知,遷移學(xué)習(xí)的 LSTM模型的MAPE值為0.26,精度達(dá)到74%。
本文雖然提出了遷移學(xué)習(xí)的汽車(chē)銷(xiāo)量預(yù)測(cè)模型,對(duì)汽車(chē)銷(xiāo)量預(yù)測(cè)的研究有一定的作用,但對(duì)于本次實(shí)驗(yàn)仍有很多不足:一是由于實(shí)驗(yàn)設(shè)備算力有限,并不能將所有的所涉及到的所有參數(shù)進(jìn)行統(tǒng)一調(diào)整,未進(jìn)行更多參數(shù)的選擇進(jìn)而改進(jìn)模型;二是本文并沒(méi)有將更多的因素,如:政策因素、疫情因素、網(wǎng)絡(luò)搜索數(shù)據(jù)、網(wǎng)絡(luò)評(píng)論情感等包含到模型預(yù)測(cè)當(dāng)中。