鄭俊褒 張旭 馬騰洲
摘? 要: 針對(duì)時(shí)間序列預(yù)測(cè)方法訓(xùn)練復(fù)雜、遷移預(yù)測(cè)能力差等問(wèn)題,提出一種自適應(yīng)預(yù)測(cè)方法。先根據(jù)預(yù)測(cè)誤差和當(dāng)前值確定下一時(shí)刻預(yù)測(cè)值的范圍,再結(jié)合短期歷史趨勢(shì)確定最終預(yù)測(cè)值。得到的當(dāng)前預(yù)測(cè)值代入下一輪循環(huán)中繼續(xù)預(yù)測(cè),通過(guò)不斷“預(yù)測(cè)-校正-預(yù)測(cè)”循環(huán)實(shí)現(xiàn)對(duì)數(shù)據(jù)預(yù)測(cè)。最后利用金融、風(fēng)力等時(shí)序數(shù)據(jù),LSTM、SVM、ARIMA、MA等經(jīng)典時(shí)間序列預(yù)測(cè)算法在預(yù)測(cè)精度、遷移預(yù)測(cè)能力、運(yùn)算速度等方面做了對(duì)比。
關(guān)鍵詞: 時(shí)序序列; 盲信號(hào); 數(shù)據(jù)預(yù)測(cè); 泛化能力
中圖分類號(hào):TP13? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)09-10-04
Research on time series forecasting method based on historical trend and forecast error
Zheng Junbao1, Zhang Xu1, Ma Tengzhou2
(1. School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China; 2. Shanghai Customs)
Abstract: Aiming at the problems of complex training and poor transfer forecasting ability of time series forecasting method, an adaptive forecasting method is proposed. The range of the next forecast value is first determined according to the forecast error and the current value, and then the final forecast value is determined by combining the short-term historical trend. The obtained forecast value is then substituted into the next cycle to continue forecasting, and the data forecasting is achieved through a continuous "forecast-correction-forecast" cycle. Using the time series data such as financial and wind power, the proposed algorithm is compared with LSTM, SVM, ARIMA, MA and other classical time series forecasting algorithms in terms of forecasting accuracy, transfer forecasting ability and computing speed.
Key words: time series; blind signal; data forecasting; generalization ability
0 引言
時(shí)序序列預(yù)測(cè),是指根據(jù)過(guò)去的時(shí)間序列數(shù)據(jù),預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)的數(shù)據(jù)變化趨勢(shì),在金融股票[1]、天氣預(yù)報(bào)[2]、傳感預(yù)警[3]等很多領(lǐng)域有著重要的應(yīng)用。目前,時(shí)序序列預(yù)測(cè)的研究主要采取兩種技術(shù)路線:一種是直接利用數(shù)據(jù)統(tǒng)計(jì)規(guī)律的統(tǒng)計(jì)學(xué)預(yù)測(cè)方法,另一種是由數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法。前者主要有移動(dòng)平均法[4]、指數(shù)平滑法[5]、差分自回歸移動(dòng)平均模型法[6],后者機(jī)器學(xué)習(xí)方法主要有支持向量機(jī)SVM、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[7]、長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM等。
由于統(tǒng)計(jì)學(xué)預(yù)測(cè)方法只是對(duì)歷史數(shù)據(jù)做統(tǒng)一化處理,對(duì)于非線性時(shí)間序列預(yù)測(cè)結(jié)果較差。如移動(dòng)平均方法,雖然能夠有效消除預(yù)測(cè)中的隨機(jī)波動(dòng),但預(yù)測(cè)結(jié)果總是停留在過(guò)去的平均水平而無(wú)法預(yù)測(cè)下一時(shí)刻的變化;機(jī)器學(xué)習(xí)方法一般通過(guò)數(shù)據(jù)訓(xùn)練所得的模型進(jìn)行預(yù)測(cè),在數(shù)據(jù)訓(xùn)練量小的情況下,機(jī)器學(xué)習(xí)方法無(wú)法達(dá)到理想效果,并且如果是對(duì)不同類型的時(shí)間序列預(yù)測(cè)就需要重新訓(xùn)練模型。此外,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法雖然能實(shí)現(xiàn)多步預(yù)測(cè),但在像自動(dòng)化控制領(lǐng)域這種對(duì)實(shí)時(shí)性要求較高,且需要結(jié)合當(dāng)前時(shí)刻真實(shí)值對(duì)下一時(shí)刻做出修正預(yù)測(cè)的場(chǎng)景就不適合。一些預(yù)測(cè)算法比較適合自動(dòng)化控制領(lǐng)域,如卡爾曼濾波算法,但其需要對(duì)系統(tǒng)模型已知的情況下構(gòu)建狀態(tài)方程和測(cè)量方程,對(duì)不同的場(chǎng)景無(wú)法直接遷移預(yù)測(cè)。
基于以上問(wèn)題,本文提出一種基于歷史趨勢(shì)和預(yù)測(cè)誤差的時(shí)序序列自適應(yīng)預(yù)測(cè)方法Historical Trends Forecast Errors(HTFE):一方面判定近期時(shí)間序列的趨勢(shì)類型(增長(zhǎng)型、衰減型或無(wú)規(guī)則型),另一方面根據(jù)預(yù)測(cè)誤差和當(dāng)前真實(shí)值得到當(dāng)前預(yù)測(cè)值的范圍,最終通過(guò)結(jié)合序列趨勢(shì)和預(yù)測(cè)范圍確定最終預(yù)測(cè)值。之后通過(guò)不斷重復(fù)“預(yù)測(cè)-校正-預(yù)測(cè)”,實(shí)現(xiàn)對(duì)連續(xù)狀態(tài)的持續(xù)預(yù)測(cè)。相較于機(jī)器學(xué)習(xí)模型,HTFE方法實(shí)現(xiàn)了自適應(yīng)預(yù)測(cè),對(duì)于不同類型的一維時(shí)間序列可以直接遷移預(yù)測(cè);相較于統(tǒng)計(jì)學(xué)預(yù)測(cè)方法,HTFE方法通過(guò)預(yù)測(cè)誤差不斷地修正下一次預(yù)測(cè)的范圍,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)更精準(zhǔn)的預(yù)測(cè)。
1 HTFE模型
1.1 算法原理及流程
HTFE算法通過(guò)“預(yù)測(cè)-校正-預(yù)測(cè)”循環(huán)方式對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),對(duì)于每一輪預(yù)測(cè),HTFE算法首先根據(jù)最近數(shù)據(jù)的趨勢(shì)將預(yù)測(cè)分為增長(zhǎng)型、衰減型、無(wú)規(guī)律型。然后通過(guò)上一時(shí)刻預(yù)測(cè)值和時(shí)間序列當(dāng)前真實(shí)值,得到預(yù)測(cè)誤差,根據(jù)預(yù)測(cè)誤差和當(dāng)前值得到初步預(yù)測(cè)值,再根據(jù)上一時(shí)刻最大、最小預(yù)測(cè)值以及當(dāng)前時(shí)刻初步預(yù)測(cè)值,更新當(dāng)前時(shí)刻的最大、最小預(yù)測(cè)值,形成下一時(shí)刻的預(yù)測(cè)區(qū)間。最后根據(jù)歷史趨勢(shì)和預(yù)測(cè)區(qū)間得到最終的預(yù)測(cè)值,得到預(yù)測(cè)值后本輪預(yù)測(cè)結(jié)束,將當(dāng)前預(yù)測(cè)值和預(yù)測(cè)區(qū)間代入到下一輪,完成下一時(shí)刻的預(yù)測(cè)。通過(guò)不斷循環(huán)單步預(yù)測(cè),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)整體預(yù)測(cè)。
HTFE算法單輪預(yù)測(cè)結(jié)構(gòu)如圖1所示,對(duì)于每一輪預(yù)測(cè),都會(huì)根據(jù)上一時(shí)刻的預(yù)測(cè)值[X'n]、預(yù)測(cè)最大值MAX、預(yù)測(cè)最小值MIN、當(dāng)前真實(shí)值[Xn]這四個(gè)值以及最新的時(shí)間序列趨勢(shì),來(lái)確定下一時(shí)刻的預(yù)測(cè)值和預(yù)測(cè)范圍。
HTFE算法流程如下:
(a) 判斷歷史趨勢(shì):取時(shí)間序列最近h個(gè)數(shù)據(jù),若序列單調(diào)遞增則其歷史趨勢(shì)為增長(zhǎng)型,若序列單調(diào)遞減則為衰減型,否則為無(wú)規(guī)律型。
(b) 計(jì)算當(dāng)前預(yù)測(cè)誤差:計(jì)算上一時(shí)刻預(yù)測(cè)值[x'n]和真實(shí)值[xn]的誤差乘以誤差因子[ω]記為預(yù)測(cè)誤差[δn]:
[δn=ω×(x'n-xn)] ⑴
(c) 計(jì)算初步預(yù)測(cè)值:將預(yù)測(cè)誤差加上當(dāng)前真實(shí)值可以得到對(duì)下一時(shí)刻的初步預(yù)測(cè)值。
根據(jù)歷史誤差[δn]和上一時(shí)刻預(yù)測(cè)值[x'n]更新初步預(yù)測(cè)值[xpren+1]。
[xpren+1=xn+δn] ⑵
(d) 更新預(yù)測(cè)區(qū)間:根據(jù)當(dāng)前計(jì)算得到的初步預(yù)測(cè)值[xpren+1]和上一時(shí)刻估計(jì)的預(yù)測(cè)范圍([xminn],[xmaxn])更新下一時(shí)刻的預(yù)測(cè)范圍([xminn+1,xmaxn+1]),其中[μ]為預(yù)測(cè)區(qū)間誤差因子。
[xmaxn+1=xpren+1+μ×(xmaxn-xpren+1)]? ⑶
[xminn+1=xpren+1+μ×(xminn-xpren+1)]? ⑷
(e) 調(diào)整預(yù)測(cè)范圍的最大最小值:為了保證下一時(shí)刻的預(yù)測(cè)范圍能夠覆蓋當(dāng)前值,當(dāng)最大預(yù)測(cè)值小于當(dāng)前真實(shí)值時(shí),令最大預(yù)測(cè)值等于當(dāng)前真實(shí)值。如果最小預(yù)測(cè)值大于當(dāng)前真實(shí)值,則令最小預(yù)測(cè)值等于當(dāng)前真實(shí)值。
[xmaxn+1=xn (xmaxn+1<xn)] ⑸
[xminn+1=xn (xminn+1>xn)] ⑹
(f) 計(jì)算最終預(yù)測(cè)值:根據(jù)預(yù)測(cè)最大值和最小值結(jié)合歷史趨勢(shì)得到下一時(shí)刻預(yù)測(cè)最終值[x'n+1]:
[x'n+1=α×xmaxn+1+β×xminn+1+γ×(xmaxn+1+xminn+1)] ⑺
其中,[α, β, γ]由歷史趨勢(shì)得出,如果趨勢(shì)為增長(zhǎng)型[α=1,]
[β=0, γ=0]如果為衰減型[α=0, β=1, γ=0],如果趨勢(shì)無(wú)特征那么[α=0, β=0, γ=0.5]。
(g) 重復(fù)以上步驟,以滑動(dòng)窗口方式直至預(yù)測(cè)結(jié)束。
2 實(shí)驗(yàn)與結(jié)果
2.1 實(shí)驗(yàn)數(shù)據(jù)
由于不同時(shí)序數(shù)據(jù)具有不同的特點(diǎn),為了評(píng)估模型在不同時(shí)序數(shù)據(jù)的表現(xiàn),本文選用了國(guó)內(nèi)外股票數(shù)據(jù)、風(fēng)力發(fā)電數(shù)據(jù)等不同行業(yè)背景的時(shí)序數(shù)據(jù)。
(a) 在金融數(shù)據(jù)方面,本文采用自1993年4月30日至2020年8月11日的上證指數(shù)(000001.SH)、A股指數(shù)(000002.SH),工業(yè)指數(shù)(000004.SH)、商業(yè)指數(shù)(000005.SH)、地產(chǎn)指數(shù)(000006.SH)等四個(gè)股市指數(shù)數(shù)據(jù),各6640個(gè)數(shù)據(jù)點(diǎn),同時(shí)選擇了自2019年11月14日至2020年12年23日的271個(gè)數(shù)據(jù)點(diǎn)的印尼人民銀行(BBRI)股票數(shù)據(jù)以評(píng)估模型在國(guó)外股市上的表現(xiàn)。
(b) 在風(fēng)力發(fā)電數(shù)據(jù)方面,本文采用比利時(shí)風(fēng)電場(chǎng)2022年8月一個(gè)月內(nèi)每天測(cè)量的風(fēng)力值數(shù)據(jù)進(jìn)行預(yù)測(cè)。采樣間隔為15分鐘,共2975個(gè)數(shù)據(jù)點(diǎn)。
2.2 對(duì)比方法及參數(shù)設(shè)置
本文選取了長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM、支持向量機(jī)SVM、差分整合移動(dòng)平均自回歸模型ARIMA、移動(dòng)平均MA這幾種常用的時(shí)序數(shù)據(jù)預(yù)測(cè)方法作對(duì)比來(lái)評(píng)估本文方法的性能。本文將前80%的數(shù)據(jù)集作為訓(xùn)練集,后20%作為測(cè)試集。所有模型以滑動(dòng)窗口方式對(duì)歸一化后的測(cè)試集進(jìn)行預(yù)測(cè)。
(a) LSTM采用一個(gè)輸入層,四個(gè)LSTM塊,以及一個(gè)單值預(yù)測(cè)的輸出層。優(yōu)化器為adam,損失函數(shù)為均方誤差MSE,訓(xùn)練次數(shù)為1000次。
(b) SVM模型采用懲罰系數(shù)為1000,核函數(shù)半徑g為0.01,核函數(shù)為高斯核函數(shù)RBF。
(c) 為了保證ARIMA批量預(yù)測(cè)的準(zhǔn)確性和效率,本文選用pmdarima(python環(huán)境中基于ARIMA模型進(jìn)行時(shí)間序列分析的包)中的auto_arima方法可以自動(dòng)計(jì)算出信息準(zhǔn)則的最小階數(shù)組合,從而減少由于主觀判斷引起的誤差。
(d) 移動(dòng)平均法設(shè)定MA滑動(dòng)周期為2。
(e) HTFE算法參數(shù)選取歷史趨勢(shì)觀測(cè)步數(shù)h為3,預(yù)測(cè)誤差因子[ω]為0.1,預(yù)測(cè)區(qū)間誤差因子[μ]為0.5。
2.3 實(shí)驗(yàn)結(jié)果與分析
2.3.1 預(yù)測(cè)精度對(duì)比
本文通過(guò)不同的模型對(duì)上述不同數(shù)據(jù)集分別做了預(yù)測(cè),以均方根誤差(RMSE)衡量ANN、LSTM、SVM、HTFE方法模型對(duì)股票收盤價(jià)的預(yù)測(cè)效果,各模型在各數(shù)據(jù)集預(yù)測(cè)結(jié)果如表1所示。
從表2數(shù)據(jù)對(duì)比發(fā)現(xiàn),HTFE模型相比其他模型誤差更小,精度更高。在股票數(shù)據(jù)和風(fēng)電場(chǎng)數(shù)據(jù)中HTFE比LSTM預(yù)測(cè)精度分別提升49.8%、50.47%,比MA預(yù)測(cè)精度分別提升10%、24%。
為了讓預(yù)測(cè)效果更直觀,本文將四種模型對(duì)印度人民銀行股票數(shù)據(jù)RRBI預(yù)測(cè)結(jié)果和原數(shù)據(jù)進(jìn)行對(duì)比,如圖2所示,可以看出五種預(yù)測(cè)模型存在不同程度上的滯后性,但HTFE方法在預(yù)測(cè)結(jié)果上更加接近真實(shí)數(shù)據(jù)的軌跡。
2.3.2 預(yù)測(cè)速度對(duì)比
在運(yùn)算速度方面,五種預(yù)測(cè)模型在印尼人民銀行股票數(shù)據(jù)的訓(xùn)練時(shí)間和預(yù)測(cè)耗費(fèi)時(shí)間如表2所示。LSTM由于需要訓(xùn)練1000輪導(dǎo)致花費(fèi)時(shí)間較長(zhǎng),ARIMA由于每次預(yù)測(cè)都需要計(jì)算合適的參數(shù)導(dǎo)致花費(fèi)時(shí)間最長(zhǎng),由于RRBI股票數(shù)據(jù)只有271個(gè)數(shù)據(jù)點(diǎn),SVM在本次訓(xùn)練和預(yù)測(cè)時(shí)間耗費(fèi)時(shí)間較短,HTFE與MA、SVM在運(yùn)算速度方面屬于同一個(gè)量級(jí),能夠保持較好的運(yùn)算速度。
2.3.3 遷移預(yù)測(cè)對(duì)比
在模型遷移預(yù)測(cè)方面,為了對(duì)比五種模型的遷移預(yù)測(cè)精度,本文將各模型在上證指數(shù)股票集上進(jìn)行訓(xùn)練,在印尼人民銀行股票上做出預(yù)測(cè),得到的結(jié)果如表3所示,可以看出,在上證指數(shù)股票數(shù)據(jù)訓(xùn)練的其他模型遷移至印尼人民銀行股票上再進(jìn)行預(yù)測(cè),得到的結(jié)果比在原始數(shù)據(jù)集上得到的結(jié)果差,而MA、HTFE算法由于自適應(yīng)特點(diǎn),遷移預(yù)測(cè)和非遷移預(yù)測(cè)結(jié)果保持一致。
綜上,與其他經(jīng)典預(yù)測(cè)模型在不同時(shí)間序列數(shù)據(jù)上的預(yù)測(cè)結(jié)果比較,HTFE模型在預(yù)測(cè)精度和遷移預(yù)測(cè)上具有穩(wěn)定表現(xiàn),同時(shí),預(yù)測(cè)速度也具有優(yōu)勢(shì)。
3 結(jié)論
本文提出了基于歷史趨勢(shì)和預(yù)測(cè)誤差的自適應(yīng)時(shí)間序列預(yù)測(cè)方法,一方面判定近期序列的歷史趨勢(shì),另一方面根據(jù)預(yù)測(cè)誤差和上一次預(yù)測(cè)值得到當(dāng)前預(yù)測(cè)值的范圍,最終通過(guò)結(jié)合歷史趨勢(shì)和預(yù)測(cè)范圍確定最終預(yù)測(cè)值。通過(guò)對(duì)多類時(shí)間序列數(shù)據(jù)與多種經(jīng)典時(shí)間序列預(yù)測(cè)模型進(jìn)行逐步預(yù)測(cè)和對(duì)比分析,本文提出的方法在不進(jìn)行訓(xùn)練的狀態(tài)下,在股票和風(fēng)力時(shí)間序列數(shù)據(jù)預(yù)測(cè)精度方面要優(yōu)于LSTM、SVM、ARIMA、MA等模型,并且擁有較快的預(yù)測(cè)速度和具備遷移預(yù)測(cè)能力。目前HTFE算法主要結(jié)合歷史趨勢(shì)和預(yù)測(cè)誤差對(duì)單變量時(shí)序序列進(jìn)行單步預(yù)測(cè),如何將當(dāng)前算法擴(kuò)展到多變量時(shí)序序列預(yù)測(cè),以及如何提升在多步預(yù)測(cè)中的效果還是未來(lái)要考慮的方向。
參考文獻(xiàn)(References):
[1] 宋剛,張?jiān)品澹紕?,?基于粒子群優(yōu)化LSTM的股票預(yù)測(cè)模型[J].北京航空航天大學(xué)學(xué)報(bào),2019,45(12):2533-2542.
[2] J. W. Taylor and R. Buizza, "Neural network load
forecasting with weather ensemble predictions," in IEEE Transactions on Power Systems,2002,17(3):626-632.
[3] Ruan Yi,Yuan Lifen,He Yigang,et al. Prognostics andhealth management for piezoresistive pressure sensor based on improved gated recurrent unit networks[J]. Measurement Science and Technology,2022,33(11).
[4] Liu Guangze,Yuan Mingkang,Chen Xudong, et al. Waterdemand in watershed forecasting using a hybrid model based on autoregressive moving average and deep neural networks[J]. Environmental science and pollution research international,2022.
[5] 楊國(guó)華,鄭豪豐,張鴻皓,等.基于Holt-Winters指數(shù)平滑和時(shí)間卷積網(wǎng)絡(luò)的短期負(fù)荷預(yù)測(cè)[J].電力系統(tǒng)自動(dòng)化,2022,46(6):73-82.
[6] 孟海寧,童新宇,石月開(kāi),等.基于ARIMA-RNN組合模型的云服務(wù)器老化預(yù)測(cè)方法[J].通信學(xué)報(bào),2021,42(1):163-171.
[7] 趙程棟,莊繼暉,程曉鳴,等.基于特征注意力機(jī)制的RNN-Bi-LSTM船舶軌跡預(yù)測(cè)[J].廣東海洋大學(xué)學(xué)報(bào),2022,42(5):102-109.