相廣俐,李 林
(上海理工大學(xué)管理學(xué)院,上海 200093)
近年大宗商品在我國國民經(jīng)濟(jì)和社會生產(chǎn)活動中的地位愈加顯著,需求量也居世界前列。除了石油、礦產(chǎn)及農(nóng)產(chǎn)品外,化工產(chǎn)品也是大宗商品重要組成部分。以聚乙烯為例,在塑料化工業(yè)中,五大通用生產(chǎn)原材料有:聚乙烯(PE)、聚丙烯(PP)、聚氯乙烯(PVC)、聚苯乙烯(PS)及ABS 樹脂。其中聚乙烯是塑料工業(yè)中產(chǎn)量最高的品種。2020 年中國已是全球聚乙烯進(jìn)口量最大的國家,占全球進(jìn)口總量的31.7%,且呈快速上漲態(tài)勢[1]。聚乙烯價格的波動會給國內(nèi)相關(guān)生產(chǎn)企業(yè)和社會經(jīng)濟(jì)帶來很大的影響,因此,準(zhǔn)確預(yù)測聚乙烯價格具有十分重要的意義。
聚乙烯價格數(shù)據(jù)是時間序列數(shù)據(jù),受眾多線性與非線性因素影響,具有很強(qiáng)的不確定性和波動性,這使得準(zhǔn)確預(yù)測價格比較困難。如今可以應(yīng)用“大數(shù)據(jù)、機(jī)器學(xué)習(xí)”來研究此類問題[2],機(jī)器學(xué)習(xí)可以快速且自動生成應(yīng)用于大規(guī)模、多樣化數(shù)據(jù)的分析模型。如沈欣宜等[3]對比了SVM 模型、LSTM 模型、MLP 模型、GRU 模型預(yù)測銅期貨價格的效果,結(jié)果表明多因素特征對其有較強(qiáng)的長短期預(yù)測能力且機(jī)器學(xué)習(xí)預(yù)測有良好的適用性。彭燕等[4]運(yùn)用LSTM 模型對蘋果公司股價進(jìn)行預(yù)測,結(jié)果表明預(yù)測值與實(shí)際值擬合度較高。陳佳等[5]應(yīng)用系統(tǒng)聚類進(jìn)行特征分類、主成分分析對分類特征降維,用LSTM 模型進(jìn)行股指預(yù)測,預(yù)測結(jié)果在速度和準(zhǔn)確度兩方面分析均有顯著提升。伯毅[6]使用XGBoost模型對股票進(jìn)行短期預(yù)測,結(jié)果表明模型預(yù)測效果較好。許晴[7]等建立基于因素分析的支持向量機(jī)模型(FS-SVM)對煤炭價格進(jìn)行了預(yù)測分析。李輝等[8]采用RF-LSTM 組合模型來預(yù)測股票的收盤價,該組合模型可提高股票價格預(yù)測的準(zhǔn)確性。邊璐等[9]采用基于主成分分析的BP 神經(jīng)網(wǎng)絡(luò)(PCABP)組合模型預(yù)測稀土產(chǎn)品價格,結(jié)果表明該模型能更準(zhǔn)確地預(yù)測氧化鏑價格走勢。
基于現(xiàn)有的研究,本研究采用PCA-LSTM 模型來預(yù)測聚乙烯價格。首先通過相關(guān)性分析選擇合適的影響因素,然后利用主成分分析進(jìn)行降維來構(gòu)建影響因素體系,最后利用LSTM 神經(jīng)網(wǎng)絡(luò)模型預(yù)測聚乙烯價格,并將其與SVM、XGBoost 模型的預(yù)測結(jié)果對比分析。
長短時記憶神經(jīng)網(wǎng)絡(luò)是由循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)改進(jìn)而來。LSTM在RNN 的基礎(chǔ)上增加了門結(jié)構(gòu),有效克服RNN 權(quán)重影響過大、梯度消失和梯度爆炸等缺點(diǎn)[10]。LSTM 通過遺忘門、輸入門、輸出門來控制信息傳輸。遺忘門決定傳入進(jìn)來的數(shù)據(jù)信息xt哪些被遺忘哪些被保留下來;輸入門決定有多少信息加入細(xì)胞當(dāng)中,對信息選擇性地記憶;輸出門決定每一時刻是否有信息輸出。其基本結(jié)構(gòu)如圖1所示。
圖1 LSTM基本結(jié)構(gòu)圖
支持向量機(jī)(Support Vector Machine,SVM)是由Cortes 和Vapnik[11]于1995 年提出的。SVM 的學(xué)習(xí)機(jī)理是在樣本空間內(nèi)找到間隔最大的分類超平面,以達(dá)到最優(yōu)分類的效果,在時間序列預(yù)測、模式識別和回歸分析等領(lǐng)域有豐富的研究和應(yīng)用。具體表達(dá)為:
其中,w、b分別為回歸函數(shù)的權(quán)重和偏置;C為懲罰系數(shù);Lε為損失函數(shù)。
極端梯度提升樹(eXtreme Gradient Boosting,XGBoost)是陳天奇在2016年開發(fā)的Boosting庫,是以梯度提升決策樹(Gradient Boost Decision Tree,GBTD)為框架改進(jìn)而來。該算法可以解決回歸、分類、排序及用戶自定義的預(yù)測問題[12]。其預(yù)測模型可表示為:
其中,K為樹的總數(shù),f(k)表示第k棵樹。
本研究以2010 年1 月至2022 年6 月的聚乙烯價格和相關(guān)影響因素的138 個月度數(shù)據(jù)為樣本,相關(guān)數(shù)據(jù)來源于國家統(tǒng)計(jì)局和前瞻數(shù)據(jù)庫。本研究選取2010 年1 月-2020 年5 月的聚乙烯月度價格數(shù)據(jù)作為訓(xùn)練集,2020年6月-2022年6月的聚乙烯月度價格數(shù)據(jù)作為測試集。聚乙烯歷年月度價格數(shù)據(jù)如圖2所示。
圖2 聚乙烯價格數(shù)據(jù)圖
本研究首先采用上下值補(bǔ)全法填補(bǔ)原始數(shù)據(jù);再采用min-max 歸一化處理以此消除原始數(shù)據(jù)間的綱量化差異,最終使數(shù)據(jù)落在[0,1]區(qū)間中。轉(zhuǎn)換公式:
其中,x為原始數(shù)據(jù),xmin為原始數(shù)據(jù)序列中的最小值,xmax為原始數(shù)據(jù)序列中的最大值。
2.2.1 影響因素選擇
要提高聚乙烯價格預(yù)測精度,找到影響其價格的主要影響因素很關(guān)鍵。聚乙烯價格主要受到上游原材料、供給需求、下游產(chǎn)品以及宏觀經(jīng)濟(jì)等因素的影響。目前,國內(nèi)聚乙烯主要有如圖3 所示的兩種生產(chǎn)方式:一是通過石油生產(chǎn),二是通過煤炭生產(chǎn),目前以石油生產(chǎn)方式為主流。因此,本研究選取WTI 原油期貨價格、石腦油價格、煤炭價格、焦炭價格、乙烯價格、甲醇價格代表上游原材料。選取聚乙烯進(jìn)口量、初級聚乙烯進(jìn)口額當(dāng)月值和聚乙烯產(chǎn)量來反映供給需求。聚乙烯主要用來生產(chǎn)塑料產(chǎn)品,用塑料制品產(chǎn)量和初級形態(tài)塑料產(chǎn)量來反映下游產(chǎn)品。選取工業(yè)生產(chǎn)者出廠價格指數(shù)、化工原料類購進(jìn)價格指數(shù)來反映宏觀經(jīng)濟(jì)。13個影響因素見表1。
圖3 聚乙烯生產(chǎn)方式
表1 聚乙烯價格影響因素
2.2.2 主成分分析
在研究多特征問題時,不同特征間往往存在一定相關(guān)性,通過主成分分析把多個特征轉(zhuǎn)化成幾個綜合特征,從而在根本上解決信息冗余,達(dá)到降維目的[9,13]。本研究首先采用Pearson 相關(guān)性分析來描述13 個影響因素與聚乙烯價格的相關(guān)程度。由表2 可知,工業(yè)生產(chǎn)者出廠價格指數(shù)、化工原料類購進(jìn)價格指數(shù)、煤炭價格、焦炭價格與聚乙烯價格相關(guān)度較低,因此剔除這四個影響因素,剩于九個影響因素與聚乙烯價格的相關(guān)性系數(shù)均大于0.3。
表2 Pearson相關(guān)系數(shù)分析
為避免多因素導(dǎo)致模型出現(xiàn)多重共線性的問題,本研究采用主成分分析法對九個因素進(jìn)行降維處理。首先,利用KMO 檢驗(yàn)和Bartlett 球形度檢驗(yàn)來判斷數(shù)據(jù)是否可以進(jìn)行降維處理。由表3 可知:KMO 值為0.751 大于0.600,Bartlett 球形度檢驗(yàn)P 值為0.000,這說明本研究的數(shù)據(jù)適合主成分分析。
表3 KMO和Bartlett的檢驗(yàn)
其次,使用SPSS24 對九個影響因素進(jìn)行主成分分析。表4 為因素的方差解釋率,一共提取出三個主成分,成分1—成分3 的累積方差解釋率為88.249%,說明三個主成分足夠反應(yīng)原始數(shù)據(jù)信息。表5 為各因素系數(shù)成分矩陣,成分1 主要反映了供給需求相關(guān)指標(biāo),成分2 主要反映了上游原材料相關(guān)指標(biāo),成分3主要反映下游產(chǎn)品相關(guān)指標(biāo)。因此,本研究提取前三個主成分,構(gòu)建聚乙烯價格影響因素指標(biāo)體系,將其代入預(yù)測模型中進(jìn)行價格預(yù)測。
表4 方差解釋率表格
表5 成分得分系數(shù)表
本研究基于Python 語言搭建模型,利用Pandas 和Numpy 模塊對數(shù)據(jù)進(jìn)行讀取處理,使用sklearn 和Pytorch 模塊對模型分析。選擇PCA 降維的三個主成分作為聚乙烯價格預(yù)測模型的輸入值,聚乙烯價格為輸出值,利用長短期記憶神經(jīng)網(wǎng)絡(luò)建立PCA-LSTM 聚乙烯價格預(yù)測模型。隨著訓(xùn)練過程的進(jìn)行,模型易出現(xiàn)過擬合問題,即訓(xùn)練集擬合效果很好但在測試集結(jié)果失效。為避免過擬合的出現(xiàn),本研究在設(shè)計(jì)LSTM模型中加入了正則化以優(yōu)化模型,提高模型的泛化能力[14]。經(jīng)過實(shí)驗(yàn)調(diào)整,模型各個參數(shù)值設(shè)定為:學(xué)習(xí)率為0.0001,隱藏層中神經(jīng)元數(shù)為64,迭代次數(shù)為1000,正則項(xiàng)設(shè)置為0.001。各參數(shù)值如表6所示。
表6 模型參數(shù)值
將經(jīng)過歸一化處理的測試集數(shù)據(jù)代入訓(xùn)練好的LSTM 預(yù)測模型。同時分別用SVM、XGBoost 算法建立模型對聚乙烯價格展開預(yù)測。各模型的預(yù)測結(jié)果如圖4,由圖4 可知,LSTM、SVM、XGBoost 三種模型都能預(yù)測聚乙烯價格的總體趨勢,SVM、XGBoost 模型整體趨勢捕捉較好,LSTM 模型的預(yù)測值更加接近真實(shí)值。
圖4 各模型預(yù)測結(jié)果
為了檢驗(yàn)?zāi)P偷念A(yù)測精度,選用平均絕對誤差MAE、均方誤差MSE 和中值絕對誤差MedAE 作為評價指標(biāo)來評價模型效果。
由表7 可知,LSTM 神經(jīng)網(wǎng)絡(luò)模型的MAE 僅為0.085,MSE 僅 為0.011,MedAE 僅 為0.080,均小于SVM、XGBoost 模型的相應(yīng)誤差值。由此可見,基于主成分分析的LSTM 神經(jīng)網(wǎng)絡(luò)模型預(yù)測精度更好,能更準(zhǔn)確地反映聚乙烯價格的變化規(guī)律。
表7 各模型預(yù)測誤差值
本研究基于過往聚乙烯價格數(shù)據(jù),結(jié)合其上游原材料、供給需求、下游產(chǎn)品和宏觀經(jīng)濟(jì)等影響因素的歷史數(shù)據(jù),先采用PCA 對影響因素降維,再利用LSTM 模型展開價格預(yù)測。結(jié)果表明:本研究構(gòu)建的PCA-LSTM 預(yù)測模型相較于SVM、XGBoost兩對比模型結(jié)果更優(yōu)、誤差更小,可以提高聚乙烯價格預(yù)測的準(zhǔn)確性。
聚乙烯價格與我國國民經(jīng)濟(jì)發(fā)展直接相關(guān),本研究結(jié)果顯示LSTM 神經(jīng)網(wǎng)絡(luò)模型在一定程度上更適合聚乙烯價格預(yù)測,對今后聚乙烯價格走勢具有一定的參考性,有助于相關(guān)企業(yè)節(jié)約生產(chǎn)成本,促進(jìn)相關(guān)產(chǎn)業(yè)健康發(fā)展。由于現(xiàn)實(shí)數(shù)據(jù)的局限性,本研究僅考慮到13個影響因素,且大宗商品價格還受到不可量化的因素影響,比如政策、突發(fā)事件等,所以在影響因素的選取上還需進(jìn)一步研究;本研究的參數(shù)選取有一定的主觀性,將來可利用優(yōu)化算法尋找最優(yōu)模型參數(shù),這均是接下來需要進(jìn)一步研究的問題。