謝鑫鑫, 朱從坤
(蘇州科技大學(xué) 土木工程學(xué)院,江蘇 蘇州215011)
在社會(huì)倡導(dǎo)綠色出行,國(guó)內(nèi)公共交通系統(tǒng)不斷完善的背景下,基本型乘用汽車(chē)銷(xiāo)量目前呈現(xiàn)慢增長(zhǎng)趨勢(shì)。 同時(shí),基本型乘用型汽車(chē)銷(xiāo)售量受宏觀(guān)經(jīng)濟(jì)環(huán)境、消費(fèi)政策、消費(fèi)者收入水平等因素的影響較大,具有非線(xiàn)性和波動(dòng)大的特點(diǎn),這就要求汽車(chē)生產(chǎn)企業(yè)能較精準(zhǔn)地預(yù)測(cè)未來(lái)汽車(chē)銷(xiāo)量,從而為企業(yè)的材料采購(gòu)、生產(chǎn)和營(yíng)銷(xiāo)策略等的決策提供指導(dǎo)依據(jù)[1]。 時(shí)間序列是指將某一個(gè)統(tǒng)計(jì)指標(biāo)或現(xiàn)象在不同時(shí)間上的各個(gè)數(shù)值,按時(shí)間先后順序排列而形成的序列[2]。 由于國(guó)內(nèi)基本型乘用汽車(chē)銷(xiāo)量月度數(shù)據(jù)呈現(xiàn)的明顯非線(xiàn)性、非平穩(wěn)性,其可以看作為以月份為刻度,當(dāng)月銷(xiāo)量為統(tǒng)計(jì)值的時(shí)間序列。 因此研究汽車(chē)銷(xiāo)量月度數(shù)據(jù)形成的時(shí)間序列,并且建立時(shí)間序列預(yù)測(cè)模型,可以預(yù)測(cè)未來(lái)基本型乘用型汽車(chē)銷(xiāo)售量。
預(yù)測(cè)時(shí)間序列的算法模型大體可分為線(xiàn)性回歸模型、神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型和自回歸差分移動(dòng)平均模型等等[3]。 線(xiàn)性回歸模型可以對(duì)波動(dòng)較平穩(wěn)且有規(guī)律的時(shí)間序列進(jìn)行很好的預(yù)測(cè),但當(dāng)時(shí)間粒度較小,或者歷史數(shù)據(jù)具有較大波動(dòng)性時(shí),預(yù)測(cè)精度會(huì)大大降低,因此該模型適用于序列波動(dòng)情況小,預(yù)測(cè)時(shí)間粒度較大的研究對(duì)象;神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)精度高,但容易陷入局部最優(yōu)值,且穩(wěn)定性差,收斂速度水平較低,網(wǎng)絡(luò)泛化能力較弱,需要收集大量類(lèi)型數(shù)據(jù)來(lái)標(biāo)定輸入層和各隱藏層的參數(shù),應(yīng)用復(fù)雜;支持向量機(jī)性能受核函數(shù)影響大,且參數(shù)選取具有一定隨意性,建模計(jì)算復(fù)雜,不利于在生產(chǎn)實(shí)際中的運(yùn)用普及;自回歸差分移動(dòng)平均模型(ARIMA)對(duì)于波動(dòng)性較小的且有規(guī)律的時(shí)間序列具有較高的預(yù)測(cè)精度,且應(yīng)用方法簡(jiǎn)單,無(wú)需大量參數(shù)標(biāo)定,適用于普遍類(lèi)型的時(shí)間序列預(yù)測(cè)中[4-6]。 汽車(chē)銷(xiāo)量月度數(shù)據(jù)呈現(xiàn)明顯非線(xiàn)性、非平穩(wěn)性特點(diǎn),所以若將該復(fù)雜時(shí)間序列分解為若干平穩(wěn)時(shí)間序列,而后運(yùn)用ARIMA 方法預(yù)測(cè)平穩(wěn)時(shí)間序列,則可使得汽車(chē)銷(xiāo)量預(yù)測(cè)方法變得簡(jiǎn)便易使用。
本研究引入經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD),將復(fù)雜時(shí)間序列分解為若干平穩(wěn)時(shí)間序列。 經(jīng)驗(yàn)?zāi)B(tài)分解最早是N. E. Huang 等于1998 年提出的一種處理分析非線(xiàn)性、非平穩(wěn)復(fù)雜信號(hào)的方法,即將復(fù)雜信號(hào)分解為若干平穩(wěn)序列[7]。 自EMD 提出以來(lái),已廣泛應(yīng)用于故障分析、地球物理學(xué)、結(jié)構(gòu)分析等領(lǐng)域[8-9]。 目前也有越來(lái)越多的學(xué)者將EMD 與其他預(yù)測(cè)算法結(jié)合,將原始的復(fù)雜序列平穩(wěn)化,以適應(yīng)不同預(yù)測(cè)對(duì)象,提高預(yù)測(cè)精度。 劉慧婷等將EMD 與多層反饋神經(jīng)網(wǎng)絡(luò)相結(jié)合,將股票價(jià)格波動(dòng)時(shí)間序列平穩(wěn)化,從而應(yīng)用于股票預(yù)測(cè)中的模擬匹配[10];Xun Zhang 等將EEMD 分別與FNN 和SVM 相結(jié)合,預(yù)測(cè)石油價(jià)格復(fù)雜變化,預(yù)測(cè)效果良好[11];任國(guó)成等同樣運(yùn)用EMD 方法將非線(xiàn)性的電力負(fù)荷時(shí)間序列平穩(wěn)化,并結(jié)合LSTM 算法預(yù)測(cè)短期電力負(fù)荷[12];李棟和李曉龍則以EMD 法組合其他預(yù)測(cè)模型,分別預(yù)測(cè)了地區(qū)降水量和航空客流量,預(yù)測(cè)精度較好[13-14]。 綜上所述,可將非線(xiàn)性、非平穩(wěn)性的時(shí)間序列通過(guò)經(jīng)驗(yàn)?zāi)B(tài)分解后可得到若干較平穩(wěn)序列,而后結(jié)合其他預(yù)測(cè)算法對(duì)平穩(wěn)序列進(jìn)行預(yù)測(cè),探求預(yù)測(cè)效果。
因此本文將運(yùn)用經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)法對(duì)汽車(chē)月度銷(xiāo)量時(shí)間序列進(jìn)行平穩(wěn)化分解。 首先通過(guò)對(duì)銷(xiāo)量月度歷史時(shí)間序列進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,得到若干平穩(wěn)本征模函數(shù)IMFn和一個(gè)殘差趨勢(shì)項(xiàng)R;其次將各分量重組為高、低頻序列和趨勢(shì)項(xiàng)序列,分別運(yùn)用ARIMA 預(yù)測(cè);而后將各分量預(yù)測(cè)結(jié)果匯總為最終預(yù)測(cè)數(shù)據(jù),并與實(shí)際值對(duì)比。
經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)是對(duì)數(shù)據(jù)時(shí)間序列或信號(hào)序列的平穩(wěn)化處理,僅僅依據(jù)數(shù)據(jù)自身的時(shí)間尺度特征進(jìn)行原始信號(hào)的分解,把復(fù)雜信號(hào)分解成若干個(gè)本征模態(tài)函數(shù)IMF 以及一個(gè)殘差趨勢(shì)項(xiàng)R。 各分解出的本征模函數(shù)較原始信號(hào)變得相對(duì)平穩(wěn),且包含了原信號(hào)不同的尺度特征;殘差趨勢(shì)項(xiàng)平緩,表達(dá)了原信號(hào)的總體變化趨勢(shì)。 EMD 分解基本方法如下:
步驟(1)設(shè)原始信號(hào)序列為x(t),找出序列中所有極大值點(diǎn)和極小值點(diǎn),并用三次樣條插值法分別擬合成原序列的上包絡(luò)線(xiàn)μ+(t)和下包絡(luò)線(xiàn)μ-(t),并取兩者均值為m1(t),公式如下
步驟(2)將均值m1(t)從原始序列x(t)中減去,得到新的序列f1(t),公式如下
若f1(t)不滿(mǎn)足本征模函數(shù)的確認(rèn)要求,則將f1(t)作為新的原始序列x1(t),重復(fù)上述步驟(1)和(2),直至得到的某個(gè)fk(t)滿(mǎn)足預(yù)設(shè)的本征模函數(shù)要求。 滿(mǎn)足本征模函數(shù)要求的兩個(gè)條件為:該函數(shù)fk(t)的極值點(diǎn)數(shù)目和過(guò)零點(diǎn)數(shù)目至多相差1;由局部極大值點(diǎn)和局部極小值點(diǎn)構(gòu)成的兩條包絡(luò)線(xiàn)平均值趨近于零。
步驟(3)令得到的第一個(gè)滿(mǎn)足本征模函數(shù)要求的fk(t)記為IMF1,將IMF1從原始序列x(t)中扣除得到新的序列r1(t),作為新的信號(hào)序列,重復(fù)步驟(1)和(2),直至得到的某個(gè)rn(t)為單調(diào)函數(shù)或簡(jiǎn)單的趨勢(shì)曲線(xiàn),將其作為殘差趨勢(shì)序列R。 最終,原始序列可以表達(dá)為若干個(gè)IMF 分量和一個(gè)殘差趨勢(shì)序列rn(t),即
本文涉及的國(guó)內(nèi)基本型乘用汽車(chē)(轎車(chē))的當(dāng)期銷(xiāo)售量月度數(shù)據(jù)來(lái)源于中經(jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫(kù)。2000 年1 月至2019 年12 月,共240 個(gè)月當(dāng)期銷(xiāo)量為研究樣本,如圖1 中原始序列所示。 其中以2000 年1 月至2019 年6 月共234 個(gè)月的月度銷(xiāo)量數(shù)據(jù)為訓(xùn)練樣本,以2019 年7 月至2019 年12 月共6 個(gè)月的月度銷(xiāo)量數(shù)據(jù)為測(cè)試樣本,用于評(píng)價(jià)本文預(yù)測(cè)方法的準(zhǔn)確性。
圖1 銷(xiāo)量原始序列與殘差序列曲線(xiàn)
利用經(jīng)驗(yàn)?zāi)B(tài)分解方法對(duì)前234 個(gè)汽車(chē)銷(xiāo)量月度數(shù)據(jù)進(jìn)行處理,從而得到原始序列中不同時(shí)間尺度上的變化特征。 基于MATLAB 平臺(tái),分解原始序列后,得到6 個(gè)IMF 分量以及1 個(gè)殘差趨勢(shì)項(xiàng)R。 如圖1 和圖2 所示,各IMF 分量波動(dòng)頻率依次逐漸減小,較原始序列明顯平穩(wěn),殘差趨勢(shì)項(xiàng)R 表達(dá)了原始序列的總體趨勢(shì)。
圖2 EMD 分解結(jié)果
表1 給出了各IMF 分量和殘差序列R 與原始序列的皮爾森相關(guān)系數(shù)、肯德?tīng)柡椭C系數(shù)以及方差。 皮爾森相關(guān)系數(shù)π 是用來(lái)反應(yīng)兩個(gè)變量線(xiàn)性相關(guān)強(qiáng)弱程度的統(tǒng)計(jì)量,π 可由(Xi,Yi) 樣本點(diǎn)的標(biāo)準(zhǔn)分?jǐn)?shù)均值估計(jì),其值介于-1 到1 之間,絕對(duì)值越大表明相關(guān)性越強(qiáng),計(jì)算方法如式(4)所示[16]。 肯達(dá)爾和諧系數(shù)是計(jì)算多個(gè)等級(jí)變量相關(guān)程度的一種方法[17],肯德?tīng)柡椭C系數(shù)的取值范圍在-1 到1 之間,當(dāng)W 為1 時(shí),表示兩個(gè)隨機(jī)變量擁有一致的等級(jí)相關(guān)性;當(dāng)W 為-1 時(shí),表示兩個(gè)隨機(jī)變量擁有完全相反的等級(jí)相關(guān)性;當(dāng)W 為0 時(shí),表示兩個(gè)隨機(jī)變量是相互獨(dú)立的,肯德?tīng)柡椭C系數(shù)W 計(jì)算方法如式(5)所示。
式中,NCP(number of concordant pairs)為和諧觀(guān)察值對(duì),NDCP(number of disconcordant pairs)為非和諧觀(guān)察值對(duì)。 序列X、Y,其元素個(gè)數(shù)均為n,兩個(gè)序列取的第i(1≤i≤n)個(gè)值分別用Xi、Yi表示,若Xi>Xj且Yi>Yj(或Xi<Xj且Yi<Yj),則為和諧觀(guān)察值對(duì),其余情況為非和諧觀(guān)察值對(duì)。
由表1 可知,殘差序列R 的皮爾森相關(guān)系數(shù)和肯德?tīng)柡椭C系數(shù)分別為0.963 和0.796,可見(jiàn)殘差序列與原始序列相關(guān)性最大,表達(dá)了原始序列的主要趨勢(shì)特征;分量IMF1~I(xiàn)MF3的相關(guān)系數(shù)總體大于IMF4~I(xiàn)MF6,但都遠(yuǎn)小于殘差序列的相關(guān)系數(shù),即各分量表達(dá)了原始序列的次要特征。
方差大小反應(yīng)了序列的波動(dòng)情況, 即變量偏離期望值的程度, 殘差序列方差占比原始序列方差為95.69%,反應(yīng)了原始序列的總體波動(dòng)情況;IMF1~I(xiàn)MF6分量的方差貢獻(xiàn)率較小,表現(xiàn)為原始序列曲線(xiàn)在殘差趨勢(shì)曲線(xiàn)附近震蕩,如圖1 所示。 由于在篩選本征模函數(shù)IMF 時(shí),應(yīng)用了三次樣條插值法分別擬合原序列的上包絡(luò)線(xiàn)和下包絡(luò)線(xiàn), 因此, 導(dǎo)致篩選出的殘差序列R 與IMF1~I(xiàn)MF6的方差占原始序列方差之比的和為101.64%,略大于100%,是經(jīng)驗(yàn)?zāi)B(tài)分解結(jié)果產(chǎn)生的不可避免的誤差。
表1 各分量相關(guān)統(tǒng)計(jì)結(jié)果
原始序列通過(guò)經(jīng)驗(yàn)?zāi)B(tài)分解后,得到6 個(gè)本征模函數(shù)和1 個(gè)殘差序列趨勢(shì)項(xiàng)。 首先,分解出本征模函數(shù)時(shí),采用的三次樣條插值法和終止條件,會(huì)使得重構(gòu)成的原始序列與實(shí)際原始序列之間存在一定分解誤差;其次,若每個(gè)IMF 分量,運(yùn)用相關(guān)預(yù)測(cè)模型預(yù)測(cè),然后將各分量的預(yù)測(cè)結(jié)果累加為最終預(yù)測(cè)結(jié)果,則會(huì)放大誤差。 因此應(yīng)通過(guò)對(duì)各本征模函數(shù)合理分組,形成高頻序列、低頻序列和趨勢(shì)序列后,再分別運(yùn)用相關(guān)模型預(yù)測(cè),可降低累積誤差。
通過(guò)對(duì)表1 的相關(guān)系數(shù)和方差占比的分析,以IMF1~I(xiàn)MF3累加得高頻序列,IMF4~I(xiàn)MF6累加得低頻序列,殘差序列R 為趨勢(shì)序列。 表2 為高、低頻序列和趨勢(shì)項(xiàng)序列的各相關(guān)系數(shù)以及方差占比情況,可見(jiàn)高頻序列在皮爾森相關(guān)系數(shù)、肯德?tīng)柡椭C系數(shù)比原有各分量明顯提高,表明重組后的高頻序列較分量IMF1~I(xiàn)MF3與原始序列有更高的相關(guān)性。 低頻序列的皮爾森相關(guān)系數(shù)、肯德?tīng)柡椭C系數(shù)較原有各分量無(wú)明顯提高,表示重組后的低頻序列反映了與原始序列較弱的相關(guān)性。
表2 高、低頻序列及趨勢(shì)項(xiàng)序列相關(guān)統(tǒng)計(jì)結(jié)果
將原始序列EMD 分解后的本征模函數(shù)進(jìn)行高、低頻序列和趨勢(shì)項(xiàng)序列分組后,基于SPSS 平臺(tái),采用差分自回歸移動(dòng)平均模型(ARIMA)預(yù)測(cè)。 對(duì)于高頻序列,其偏自相關(guān)系數(shù)1 階截尾,自相關(guān)系數(shù)4 階截尾,季節(jié)性一階差分序列自相關(guān)系1 階截尾,可以建立ARIMA(1,0,4)(0,1,1)模型;對(duì)于低頻序列,其三階差分序列偏自相關(guān)系數(shù)4 階截尾, 季節(jié)性一階差分序列偏自相關(guān)系數(shù)和自相關(guān)系數(shù)均1 階截尾, 可以建立ARIMA(4,3,0)(1,1,1)模型;對(duì)于殘差趨勢(shì)項(xiàng)R,其四階差分序列偏自相關(guān)系數(shù)1 階截尾,可以建立ARIMA(1,4,0)模型。
預(yù)測(cè)結(jié)果如圖3 所示和表3 所列,曲線(xiàn)EMD-ARIMA 為將高、低頻序列以及趨勢(shì)項(xiàng)序列預(yù)測(cè)結(jié)果累加得到最終預(yù)測(cè)結(jié)果; 曲線(xiàn)ARIMA 為原始數(shù)據(jù)直接運(yùn)用ARIMA 預(yù)測(cè)的結(jié)果; 曲線(xiàn)EMD-D-ARIMA 為將各IMF 分量與趨勢(shì)項(xiàng)序列分別運(yùn)用ARIMA 預(yù)測(cè)的最終累加預(yù)測(cè)結(jié)果。
圖3 預(yù)測(cè)結(jié)果曲線(xiàn)
表3 預(yù)測(cè)結(jié)果
本文利用平均絕對(duì)百分比誤差(MAPE)、平均絕對(duì)誤差(MAD)和均方根誤差(MSE)評(píng)價(jià)預(yù)測(cè)精度,其計(jì)算公式分別如下[18]
EMD-ARIMA、ARIMA 和EMD-D-ARIMA 三種方法的預(yù)測(cè)誤差見(jiàn)表4。EMD-ARIMA 組合算法,在預(yù)測(cè)結(jié)果誤差分析中,其平均絕對(duì)百分比誤差(MAPE)、平均絕對(duì)誤差(MAD)和均方誤差(MSE)均最小,即相比較于直接運(yùn)用ARIMA 方法預(yù)測(cè)和EMD-D-ARIMA,在基本型乘用汽車(chē)的月度銷(xiāo)量預(yù)測(cè)中EMD-ARIMA 組合算法預(yù)測(cè)效果更有優(yōu)勢(shì)。
表4 預(yù)測(cè)誤差
由于ARIMA 在預(yù)測(cè)平穩(wěn)序列時(shí)的精度較好,而原始汽車(chē)月度數(shù)據(jù)呈現(xiàn)非平穩(wěn)的特點(diǎn),因此運(yùn)用經(jīng)驗(yàn)?zāi)B(tài)分解原始數(shù)據(jù)并重組后,原始數(shù)據(jù)被分解為相對(duì)平穩(wěn)的高、低頻序列和殘差序列,再運(yùn)用ARIMA 模型預(yù)測(cè)效果會(huì)更好。 因?yàn)镋MD 分解本身就不可避免存在誤差,若直接將EMD 分解后的IMF 分量和趨勢(shì)項(xiàng)R 分別運(yùn)用ARIMA 預(yù)測(cè)并累加,則會(huì)導(dǎo)致預(yù)測(cè)誤差堆積,即EMD-D-ARIMA 預(yù)測(cè)算法較EMD-ARIMA 預(yù)測(cè)算法存在更大的誤差堆積。
本文運(yùn)用經(jīng)驗(yàn)?zāi)B(tài)分解方法,將國(guó)內(nèi)基本型乘用汽車(chē)的月度銷(xiāo)售量時(shí)間序列進(jìn)行分解,得到6 個(gè)本征模函數(shù)和1 個(gè)殘差序列趨勢(shì)項(xiàng),而后將各分量重組為高、低頻序列和一個(gè)趨勢(shì)項(xiàng),并通過(guò)差分自回歸移動(dòng)平均模型ARIMA 進(jìn)行2019 年7 月至2019 年12 月的月度銷(xiāo)量預(yù)測(cè), 相比直接運(yùn)用ARIMA 和EMD-D-ARIMA預(yù)測(cè),EMD-ARIMA 預(yù)測(cè)效果更好。在今后的研究中,可以考慮針對(duì)不同時(shí)間序列研究對(duì)象的特點(diǎn),如預(yù)測(cè)時(shí)間粒度和序列平穩(wěn)性等等,運(yùn)用其他合適預(yù)測(cè)算法與經(jīng)驗(yàn)?zāi)B(tài)分解EMD 進(jìn)行組合預(yù)測(cè),探究經(jīng)驗(yàn)?zāi)B(tài)分解方法在時(shí)間序列預(yù)測(cè)中的合理性和適用性。