李文靜, 王瀟瀟
(1.北京工業(yè)大學(xué)信息學(xué)部, 北京 100124; 2.計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100124;3.智慧環(huán)保北京實(shí)驗(yàn)室, 北京 100124; 4.北京人工智能研究院, 北京 100124)
時(shí)間序列預(yù)測(cè)可以判斷事物發(fā)展趨勢(shì),高效的預(yù)測(cè)模型可為應(yīng)用決策提供有力依據(jù)[1]. 長(zhǎng)短期記憶(long short-term memory, LSTM)神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)間序列預(yù)測(cè)具有顯著優(yōu)勢(shì)[2-4],已廣泛地應(yīng)用于金融市場(chǎng)股票預(yù)測(cè)[5-7]、石油產(chǎn)量預(yù)測(cè)[8]、短時(shí)交通流預(yù)測(cè)[9]等領(lǐng)域,但標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)用于時(shí)間序列預(yù)測(cè)具有耗時(shí)長(zhǎng)、復(fù)雜度高等問(wèn)題[10-11]. 圍繞LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),目前已有大量學(xué)者進(jìn)行了研究.
LSTM神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中需要更新較多的參數(shù),增加了訓(xùn)練時(shí)間[12],故對(duì)其內(nèi)部結(jié)構(gòu)進(jìn)行刪減尤為重要. 一些研究者通過(guò)簡(jiǎn)化LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提出了多種基于標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)化變體[13],如去除遺忘門[14]、耦合輸入門與遺忘門[15]、去除窺視孔連接[16]等. Greff等[13]對(duì)多種LSTM神經(jīng)網(wǎng)絡(luò)簡(jiǎn)化變體的效果進(jìn)行了評(píng)價(jià),實(shí)驗(yàn)證明耦合輸入門與遺忘門、去除窺視孔連接的簡(jiǎn)化變體可以在不顯著降低性能的情況下減少LSTM模型的參數(shù)數(shù)量和計(jì)算成本. Cho等[15]提出一種包括重置門與更新門2個(gè)門結(jié)構(gòu)的門控循環(huán)單元(gated recurrent unit,GRU),實(shí)驗(yàn)證明GRU可以達(dá)到與LSTM模型相當(dāng)?shù)男Ч?,并且能夠很大程度上提高?xùn)練效率. Zhou等[17]提出只有一個(gè)門結(jié)構(gòu)的最小門控單元(minimal gated unit,MGU),實(shí)驗(yàn)證明MGU具有與GRU相當(dāng)?shù)木?,但結(jié)構(gòu)更簡(jiǎn)單,參數(shù)更少,訓(xùn)練速度更快. Oliver等[18]通過(guò)耦合輸入門與遺忘門以簡(jiǎn)化LSTM模型,使用一個(gè)門結(jié)構(gòu)同時(shí)控制遺忘和選擇記憶,該神經(jīng)網(wǎng)絡(luò)與其他LSTM模型簡(jiǎn)化變體相比能夠減少對(duì)歷史數(shù)據(jù)的依賴性,降低網(wǎng)絡(luò)的復(fù)雜度,在網(wǎng)絡(luò)性能不變的情況下縮短訓(xùn)練時(shí)間[19]. 然而,以上介紹的LSTM簡(jiǎn)化模型,仍需要更新和存儲(chǔ)較多的參數(shù),導(dǎo)致網(wǎng)絡(luò)計(jì)算冗余,訓(xùn)練時(shí)間較長(zhǎng).
針對(duì)以上問(wèn)題,近幾年一些學(xué)者提出精簡(jiǎn)門結(jié)構(gòu)方程的方法,進(jìn)一步減少訓(xùn)練過(guò)程中需要更新的參數(shù),提高訓(xùn)練速度. Lu等[20]通過(guò)精簡(jiǎn)標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)門結(jié)構(gòu)方程減少參數(shù)更新,提出3個(gè)模型并將其與標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)結(jié)構(gòu)比較,實(shí)驗(yàn)證明該模型在較少參數(shù)的情況下可獲得與標(biāo)準(zhǔn)LSTM模型相當(dāng)?shù)男阅? Rahul等[21]通過(guò)減少重置門和更新門的參數(shù),提出GRU的3種變體,并對(duì)其性能進(jìn)行了評(píng)估. 結(jié)果表明,這些變體的性能與GRU模型相當(dāng),同時(shí)降低了計(jì)算開(kāi)銷. Joel等[22]介紹了MGU的3種模型變體,通過(guò)減少遺忘門動(dòng)力方程中的參數(shù)數(shù)目,進(jìn)一步簡(jiǎn)化了設(shè)計(jì),這3種模型變體顯示出與MGU模型相似的精度,同時(shí)使用較少的參數(shù)減少訓(xùn)練時(shí)間. 根據(jù)以上分析,在減少門結(jié)構(gòu)數(shù)量的基礎(chǔ)上精簡(jiǎn)門結(jié)構(gòu)參數(shù)能夠在保證網(wǎng)絡(luò)性能的前提下減少網(wǎng)絡(luò)的訓(xùn)練時(shí)間.
由于Oliver等[18]提出的LSTM簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)具有較短訓(xùn)練時(shí)間、較少參數(shù)數(shù)量等優(yōu)點(diǎn),本文基于該網(wǎng)絡(luò)提出簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò),在耦合門結(jié)構(gòu)的基礎(chǔ)上繼續(xù)對(duì)門結(jié)構(gòu)方程中的參數(shù)進(jìn)行簡(jiǎn)化,可以更大程度上減少LSTM神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中參數(shù)更新的數(shù)量,提高網(wǎng)絡(luò)的訓(xùn)練速度. 通過(guò)2個(gè)基準(zhǔn)數(shù)據(jù)集及污水處理過(guò)程出水生化需氧量(biochemical oxygen demand,BOD)質(zhì)量濃度預(yù)測(cè)的實(shí)驗(yàn)驗(yàn)證,將其在3個(gè)時(shí)間序列數(shù)據(jù)集上與標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)及其他變體進(jìn)行比較評(píng)價(jià),結(jié)果說(shuō)明本文提出的簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)間減少的同時(shí)能夠達(dá)到較好的時(shí)間序列預(yù)測(cè)精度.
標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含一個(gè)狀態(tài)單元及3個(gè)門結(jié)構(gòu)(輸入門、遺忘門、輸出門),其中狀態(tài)單元用于記錄當(dāng)前時(shí)刻的狀態(tài),各門結(jié)構(gòu)用于控制信息的遺忘或記憶. 本文介紹的LSTM模型的結(jié)構(gòu)是去除窺視孔連接的標(biāo)準(zhǔn)LSTM模型[16],其內(nèi)部結(jié)構(gòu)圖如圖1所示. 標(biāo)準(zhǔn)LSTM模型的結(jié)構(gòu)為
(1)
圖1 LSTM神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)詳細(xì)示意圖Fig.1 Detailed schematic diagram of the internal structure for LSTM neural network
式中:xt為當(dāng)前時(shí)刻輸入向量;ht為當(dāng)前時(shí)刻輸出向量;zt、it、ft、ct、ot、ht分別為輸入信號(hào)、輸入門、遺忘門、狀態(tài)單元、輸出門、輸出信號(hào);Wz、Wi、Wf、Wo分別為zt、it、ft、ot中的輸入權(quán)重矩陣;Uz、Ui、Uf、Uo分別為zt、it、ft、ot中的遞歸權(quán)重矩陣;bz、bi、bf、bo分別為zt、it、ft、ot中的偏置矩陣;σ為sigmoid激活函數(shù);g為tanh激活函數(shù);⊙表示矩陣點(diǎn)乘操作.
對(duì)于只有一個(gè)重復(fù)隱含狀態(tài)的遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)結(jié)構(gòu),若設(shè)定m為輸入向量的維度,n為隱含層單元的個(gè)數(shù),則每次迭代過(guò)程需要更新的參數(shù)個(gè)數(shù)為(mn+n2+n). 由于標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)存在3個(gè)門結(jié)構(gòu)(輸入門it、遺忘門ft、輸出門ot)與輸入信號(hào)zt,由式(1)可知,標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)在每次迭代過(guò)程中需要更新的參數(shù)個(gè)數(shù)為4(mn+n2+n).
本文提出的簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò),首先通過(guò)耦合輸入門與遺忘門簡(jiǎn)化標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其次對(duì)門結(jié)構(gòu)方程中的參數(shù)進(jìn)行精簡(jiǎn)以進(jìn)一步減少網(wǎng)絡(luò)參數(shù),從而提高網(wǎng)絡(luò)訓(xùn)練速度.
本文通過(guò)耦合輸入門與遺忘門實(shí)現(xiàn)對(duì)標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)的門結(jié)構(gòu)簡(jiǎn)化,其結(jié)構(gòu)由1個(gè)狀態(tài)單元及2個(gè)門結(jié)構(gòu)組成(如圖2所示),具體介紹如下.
圖2 簡(jiǎn)化LSTM神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)Fig.2 Internal structure of the simplified LSTM neural network
1) 輸入門:控制需要輸入到網(wǎng)絡(luò)中的信息,該結(jié)構(gòu)與標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)相同,通過(guò)
zt=σ(Wzxt+Uzht-1+bz)
(2)
it=σ(Wixt+Uiht-1+bi)
(3)
實(shí)現(xiàn).
2) 狀態(tài)單元:狀態(tài)單元ct結(jié)合輸入信號(hào)zt與1-it控制的上一時(shí)刻的狀態(tài)單元ct-1,其更新公式為
ct=(1-it)⊙ct-1+zt
(4)
由此可見(jiàn),與標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)不同,式(4)由1-it代替遺忘門ft對(duì)上一時(shí)刻的狀態(tài)單元進(jìn)行選擇性記憶,當(dāng)it數(shù)值為0時(shí),上一時(shí)刻的單元狀態(tài)全部記憶,當(dāng)it數(shù)值為1時(shí),上一時(shí)刻的單元狀態(tài)全部遺忘,從而實(shí)現(xiàn)了輸入門與遺忘門的耦合.
3) 輸出門:控制當(dāng)前時(shí)刻狀態(tài)單元信息ct的輸出程度,該結(jié)構(gòu)與標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)輸出結(jié)構(gòu)相同,通過(guò)
ot=σ(Woxt+Uoht-1+bo)
(5)
ht=ot⊙g(ct)
(6)
實(shí)現(xiàn). 由此可見(jiàn),輸出門ot控制神經(jīng)網(wǎng)絡(luò)的最終輸出. 若ot數(shù)值為0,則當(dāng)前時(shí)刻單元狀態(tài)ct全部不輸出,ht輸出值為0;若ot數(shù)值為1,則當(dāng)前時(shí)刻單元狀態(tài)ct全部輸出.
經(jīng)過(guò)輸入門與遺忘門的耦合,LSTM網(wǎng)絡(luò)在簡(jiǎn)化后由2個(gè)門結(jié)構(gòu)組成,每次迭代過(guò)程需要更新的參數(shù)個(gè)數(shù)為3(mn+n2+n),與標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比減少了25%.
雖然耦合輸入門及遺忘門簡(jiǎn)化了標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),然而在每次訓(xùn)練過(guò)程中均需對(duì)輸入權(quán)重矩陣Wz、Wi、Wo進(jìn)行更新,由此導(dǎo)致計(jì)算量較大,訓(xùn)練時(shí)間較長(zhǎng). 針對(duì)該問(wèn)題,本文通過(guò)簡(jiǎn)化門結(jié)構(gòu)方程的參數(shù)進(jìn)一步對(duì)LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行精簡(jiǎn),在不損失精度的前提下縮短網(wǎng)絡(luò)的訓(xùn)練時(shí)間.
本文主要通過(guò)2種方法精簡(jiǎn)門結(jié)構(gòu)方程,包括:1) 去除輸入權(quán)重矩陣Wi、Wo;2) 去除輸入權(quán)重矩陣Wi、Wo與偏置矩陣bi、bo. 本文將經(jīng)過(guò)以上2種形式簡(jiǎn)化后的LSTM神經(jīng)網(wǎng)絡(luò)分別簡(jiǎn)稱為L(zhǎng)STM- 簡(jiǎn)化型Ⅰ神經(jīng)網(wǎng)絡(luò)和LSTM- 簡(jiǎn)化型Ⅱ神經(jīng)網(wǎng)絡(luò),以下分別對(duì)這2種簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行介紹.
1) LSTM- 簡(jiǎn)化型Ⅰ神經(jīng)網(wǎng)絡(luò)
該簡(jiǎn)化方法通過(guò)去除輸入門與輸出門中的輸入權(quán)重矩陣Wi、Wo進(jìn)一步簡(jiǎn)化LSTM神經(jīng)網(wǎng)絡(luò),由
(7)
構(gòu)成.
由此可見(jiàn),與標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)的門結(jié)構(gòu)控制信號(hào)不同之處為:該網(wǎng)絡(luò)門結(jié)構(gòu)控制信號(hào)由t-1時(shí)刻輸出信號(hào)ht-1、遞歸權(quán)重矩陣及偏置矩陣2項(xiàng)組成,在每次迭代過(guò)程中該網(wǎng)絡(luò)需要更新的參數(shù)個(gè)數(shù)為3(mn+n2+n-2mn),降低了計(jì)算復(fù)雜度.
2) LSTM- 簡(jiǎn)化型Ⅱ神經(jīng)網(wǎng)絡(luò)
該簡(jiǎn)化方法在去除輸入門與輸出門中輸入權(quán)重矩陣Wi、Wo的同時(shí),將偏置矩陣bi、bo去除,由
(8)
構(gòu)成.
由此可見(jiàn),與標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)的門結(jié)構(gòu)控制信號(hào)不同之處為:該網(wǎng)絡(luò)門結(jié)構(gòu)控制信號(hào)僅由t-1時(shí)刻輸出信號(hào)ht-1、遞歸權(quán)重矩陣1項(xiàng)組成,在每次迭代過(guò)程中該模型需要更新的參數(shù)個(gè)數(shù)為3(mn+n2+n-2mn-2n),進(jìn)一步降低了LSTM神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度.
本文采用梯度下降算法[23-24]對(duì)提出的簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行學(xué)習(xí),定義損失函數(shù)計(jì)算公式為
(9)
式中:hd,t為網(wǎng)絡(luò)在t時(shí)刻的期望輸出;ht為網(wǎng)絡(luò)在t時(shí)刻的實(shí)際輸出.
下面以LSTM- 簡(jiǎn)化型Ⅰ神經(jīng)網(wǎng)絡(luò)為例,介紹參數(shù)更新過(guò)程.
步驟1根據(jù)
δht=δzt+1Uz+δit+1Ui+δot+1Uo
(10)
δzt=δht⊙ot⊙g′(ct)⊙it⊙z′t
(11)
δit=δht⊙ot⊙g′(ct)⊙zt⊙i′t
(12)
δot=δht⊙g(ct)⊙o′t
(13)
計(jì)算t時(shí)刻輸出值ht及輸入信號(hào)zt、it、ot的誤差項(xiàng). 其中, 導(dǎo)數(shù)形式展開(kāi)公式為
g′(ct)=1-g(ct)2
(14)
z′t=zt(1-zt)
(15)
i′t=it(1-it)
(16)
o′t=ot(1-ot)
(17)
步驟2計(jì)算t時(shí)刻輸入權(quán)重矩陣、遞歸權(quán)重矩陣、偏置矩陣的更新值公式為
δWz,t=δzt?xt
(18)
δUΩ,t=δΩt?ht-1
(19)
δbΩ,t=δΩt
(20)
式中:?為矩陣叉乘操作;Ω分別為{z,i,o}中的任意一個(gè).
步驟3根據(jù)
Wz,t=Wz,t+1-η×δWz,t
(21)
UΩ,t=UΩ,t+1-η×δUΩ,t
(22)
bΩ,t=bΩ,t+1-η×δbΩ,t
(23)
計(jì)算t時(shí)刻更新后的輸入權(quán)重矩陣、遞歸權(quán)重矩陣、偏置矩陣. 式中η為學(xué)習(xí)率.
步驟4計(jì)算訓(xùn)練樣本的均方根誤差(root mean squared error, RMSE),如果訓(xùn)練樣本的RMSE達(dá)到期望訓(xùn)練樣本的RMSE或達(dá)到最大迭代次數(shù),則參數(shù)更新結(jié)束,否則返回步驟1.
對(duì)于LSTM- 簡(jiǎn)化型Ⅱ神經(jīng)網(wǎng)絡(luò),由于其門結(jié)構(gòu)方程在LSTM- 簡(jiǎn)化型Ⅰ神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)一步去除了偏置矩陣,其權(quán)重矩陣更新與LSTM- 簡(jiǎn)化型Ⅰ神經(jīng)網(wǎng)絡(luò)相同,如式(21)(22)所示.
為了驗(yàn)證所提出的簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)在時(shí)間序列預(yù)測(cè)上的有效性,本文采用RMSE評(píng)價(jià)模型的預(yù)測(cè)準(zhǔn)確性[25-27],公式為
(24)
式中N為樣本個(gè)數(shù). 將其與標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)、只進(jìn)行門結(jié)構(gòu)簡(jiǎn)化的LSTM神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱LSTM- 變體Ⅰ)、僅去除輸入權(quán)重矩陣的LSTM神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱LSTM- 變體Ⅱ)、僅去除輸入權(quán)重矩陣與偏置矩陣的LSTM神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱LSTM- 變體Ⅲ)等多種LSTM模型的性能進(jìn)行比較,在參數(shù)設(shè)置(包括LSTM模型狀態(tài)單元維度、學(xué)習(xí)率、期望訓(xùn)練樣本的RMSE、迭代次數(shù))相同的情況下分別計(jì)算訓(xùn)練和測(cè)試RMSE、訓(xùn)練時(shí)間及所需更新參數(shù)個(gè)數(shù)等,所有實(shí)驗(yàn)獨(dú)立運(yùn)行20次并求取均值.
在本節(jié)中采用2個(gè)時(shí)間序列基準(zhǔn)數(shù)據(jù)集(Lorenz時(shí)間序列、Mackey-Glass時(shí)間序列)評(píng)估簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)的性能.
3.1.1 Lorenz時(shí)間序列預(yù)測(cè)
Lorenz系統(tǒng)是一種大氣對(duì)流數(shù)學(xué)模型[28],它被廣泛地用作時(shí)間序列預(yù)測(cè)的基準(zhǔn)實(shí)驗(yàn)以評(píng)價(jià)模型的有效性. 其系統(tǒng)方程為
(25)
式中:x(t)、y(t)、z(t)為三維空間Lorenz系統(tǒng)的序列;a1、a2、a3為系統(tǒng)參數(shù),a1=10,a2=28,a3=8/3.
圖3 LSTM- 簡(jiǎn)化型Ⅰ對(duì)Lorenz時(shí)間序列預(yù)測(cè)的訓(xùn)練過(guò)程及測(cè)試效果Fig.3 Training process and testing results for the simplified LSTM Ⅰ in Lorenz time series
在本實(shí)驗(yàn)中,生成5 000組Lorenz樣本,僅使用y維樣本y(t)進(jìn)行時(shí)間序列預(yù)測(cè). 前2 000組作為訓(xùn)練樣本,后3 000組作為測(cè)試樣本. 以[y(t)y(t-1)y(t-2)]為輸入向量,預(yù)測(cè)y(t+1)的值. 設(shè)定狀態(tài)單元維度為8,學(xué)習(xí)率η為0.01,期望訓(xùn)練樣本的RMSE為0.060 0,最大迭代次數(shù)為1 000次. 當(dāng)訓(xùn)練樣本的RMSE達(dá)到期望訓(xùn)練樣本的RMSE或最大迭代次數(shù)時(shí),停止參數(shù)更新.
LSTM- 簡(jiǎn)化型Ⅰ、Ⅱ的訓(xùn)練過(guò)程RMSE曲線分別如圖3、4中的(a)所示. 從圖中可以看出,本文提出的簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練RMSE可以快速收斂. 其測(cè)試結(jié)果如圖3、4中的(b)(c)所示,可以看出其均可以達(dá)到較好的擬合效果.
表1對(duì)比了不同模型的性能,可以看出,(LSTM- 變體Ⅰ)或(LSTM- 變體Ⅱ、Ⅲ)均可以減少更新參數(shù)個(gè)數(shù)并縮短訓(xùn)練時(shí)間,但LSTM- 變體Ⅰ、Ⅱ的訓(xùn)練時(shí)間短于LSTM- 變體Ⅲ,同時(shí)LSTM- 簡(jiǎn)化型Ⅰ在需要更新的參數(shù)個(gè)數(shù)比LSTM- 變體Ⅲ較多的情況下訓(xùn)練時(shí)間顯著縮短,均說(shuō)明門結(jié)構(gòu)精簡(jiǎn)相對(duì)于簡(jiǎn)化門結(jié)構(gòu)方程對(duì)簡(jiǎn)化LSTM神經(jīng)網(wǎng)絡(luò)的效果更顯著. 通過(guò)實(shí)驗(yàn)結(jié)果分析可以得出,本文提出的LSTM- 簡(jiǎn)化型Ⅰ、Ⅱ神經(jīng)網(wǎng)絡(luò)能夠在不顯著降低預(yù)測(cè)精度的情況下,進(jìn)一步縮短訓(xùn)練時(shí)間,減少LSTM神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度,減少預(yù)測(cè)時(shí)間,更易對(duì)時(shí)間序列信息預(yù)測(cè).
3.1.2 Mackey-Glass時(shí)間序列預(yù)測(cè)
Mackey-Glass時(shí)間序列預(yù)測(cè)問(wèn)題已被公認(rèn)為評(píng)估網(wǎng)絡(luò)性能的基準(zhǔn)問(wèn)題之一[29]. 時(shí)間序列預(yù)測(cè)由離散方程
(26)
產(chǎn)生. 式中:a=0.1,b=0.2,τ=17,x(0)=1.2.
在本實(shí)驗(yàn)中,選取樣本1 000組,其中前500組作為訓(xùn)練樣本,后500組作為測(cè)試樣本. 以[x(t)x(t-6)x(t-12)x(t-18)]為輸入向量,預(yù)測(cè)
圖4 LSTM- 簡(jiǎn)化型Ⅱ?qū)orenz時(shí)間序列預(yù)測(cè)的訓(xùn)練過(guò)程及測(cè)試效果Fig.4 Training process and testing results for the simplified LSTM Ⅱ in Lorenz time series
表1 Lorenz時(shí)間序列預(yù)測(cè)模型性能對(duì)比
圖5 LSTM- 簡(jiǎn)化型Ⅰ對(duì)Mackey-Glass時(shí)間序列預(yù)測(cè)的訓(xùn)練過(guò)程及測(cè)試效果Fig.5 Training process and testing results for the simplified LSTMⅠ in Mackey-Glass time series
x(t+6)的值. 設(shè)定狀態(tài)單元維度為10,學(xué)習(xí)率η為0.01,期望訓(xùn)練RMSE為0.006 0,最大迭代次數(shù)為700次. 當(dāng)訓(xùn)練樣本的RMSE達(dá)到期望訓(xùn)練樣本的RMSE或最大迭代次數(shù)時(shí),停止參數(shù)更新.
LSTM- 簡(jiǎn)化型Ⅰ、Ⅱ的訓(xùn)練過(guò)程分別如圖5、6中的(a)所示. 從圖中可以看出,訓(xùn)練RMSE可以達(dá)到期望訓(xùn)練RMSE. 測(cè)試結(jié)果、測(cè)試誤差分別如圖5、6中的(b)(c)所示,從圖中可以看出,本文提出的簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)的測(cè)試結(jié)果可以達(dá)到較好的擬合效果.
從表2對(duì)不同模型進(jìn)行比較的結(jié)果可以看出,3種LSTM變體(LSTM- 變體Ⅰ、Ⅱ、Ⅲ)通過(guò)對(duì)門結(jié)構(gòu)精簡(jiǎn)或簡(jiǎn)化門結(jié)構(gòu)方程的方式,均縮短了訓(xùn)練時(shí)間,并且LSTM- 變體Ⅰ在需要更新的參數(shù)個(gè)數(shù)比LSTM- 變體Ⅱ、Ⅲ較多的情況下訓(xùn)練時(shí)間縮短,同時(shí)LSTM- 簡(jiǎn)化型Ⅰ、LSTM- 變體Ⅲ均可以減少更新參數(shù)個(gè)數(shù)并縮短訓(xùn)練時(shí)間,但前者的訓(xùn)練時(shí)間短于后者,說(shuō)明門結(jié)構(gòu)精簡(jiǎn)相對(duì)于簡(jiǎn)化門結(jié)構(gòu)方程對(duì)簡(jiǎn)化LSTM神經(jīng)網(wǎng)絡(luò)的效果更顯著. 通過(guò)實(shí)驗(yàn)結(jié)果分析,可以得出,本文提出的LSTM- 簡(jiǎn)化型Ⅰ、Ⅱ神經(jīng)網(wǎng)絡(luò)在不顯著降低預(yù)測(cè)精度的情況下進(jìn)一步縮短訓(xùn)練時(shí)間,在時(shí)間序列預(yù)測(cè)過(guò)程中達(dá)到對(duì)時(shí)間序列信息簡(jiǎn)潔、快速預(yù)測(cè)的目的.
圖6 LSTM- 簡(jiǎn)化型Ⅱ?qū)ackey-Glass時(shí)間序列預(yù)測(cè)的訓(xùn)練過(guò)程及測(cè)試效果Fig.6 Training process and testing results for the simplified LSTMⅡ in Mackey-Glass time series
表2 Mackey-Glass時(shí)間序列預(yù)測(cè)模型性能對(duì)比
圖7 LSTM- 簡(jiǎn)化型Ⅰ對(duì)BOD質(zhì)量濃度預(yù)測(cè)的訓(xùn)練過(guò)程及測(cè)試效果Fig.7 Training process and testing results for the simplified LSTMⅠ in BOD mass concentration prediction
BOD是污水處理中評(píng)價(jià)水質(zhì)的重要指標(biāo)之一,具有高度的非線性、大時(shí)變的特征,很難及時(shí)準(zhǔn)確地預(yù)測(cè)其質(zhì)量濃度[30]. 本文利用LSTM- 簡(jiǎn)化型Ⅰ、Ⅱ神經(jīng)網(wǎng)絡(luò)對(duì)污水處理過(guò)程中的BOD進(jìn)行建模,選取前8時(shí)刻的BOD質(zhì)量濃度作為輸入向量,下一時(shí)刻的BOD質(zhì)量濃度作為輸出變量.
選取北京市某污水廠的數(shù)據(jù)進(jìn)行仿真,獲得357組按照時(shí)間順序進(jìn)行排列的樣本,選取前250組作為訓(xùn)練樣本,后107組作為測(cè)試樣本,將所有樣本歸一化至[-1,1]輸入模型,并將樣本反歸一化后輸出. 設(shè)定狀態(tài)單元維度為15,學(xué)習(xí)率η為0.01,期望訓(xùn)練樣本的RMSE為0.060 0,最大迭代次數(shù)為2 000次. 當(dāng)訓(xùn)練樣本的RMSE達(dá)到期望訓(xùn)練樣本的RMSE或最大迭代次數(shù)時(shí),停止參數(shù)更新.
LSTM- 簡(jiǎn)化型Ⅰ、Ⅱ的訓(xùn)練過(guò)程分別如圖7、8中的(a)所示. 從圖中可以看出,訓(xùn)練樣本的RMSE能夠達(dá)到期望訓(xùn)練樣本的RMSE. 其測(cè)試結(jié)果反歸一化后輸出并計(jì)算測(cè)試誤差,分別如圖7、8中的(b)(c)所示. 從圖中可以看出,簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)的測(cè)試結(jié)果均可以達(dá)到較好的擬合效果.
圖8 LSTM- 簡(jiǎn)化型Ⅱ?qū)OD質(zhì)量濃度預(yù)測(cè)的訓(xùn)練過(guò)程及測(cè)試效果Fig.8 Training process and testing results for the simplified LSTMⅡ in BOD mass concentration prediction
從表3的對(duì)比結(jié)果可以看出,在達(dá)到期望訓(xùn)練樣本的RMSE、停止參數(shù)更新的情況下,LSTM- 變體Ⅰ比LSTM- 變體Ⅱ、Ⅲ需要更新較多的參數(shù)個(gè)數(shù)但需要較短的訓(xùn)練時(shí)間,同時(shí)LSTM- 簡(jiǎn)化型Ⅰ在需要更新的參數(shù)個(gè)數(shù)與LSTM- 變體Ⅲ相同的情況下訓(xùn)練時(shí)間顯著縮短,均說(shuō)明門結(jié)構(gòu)精簡(jiǎn)對(duì)簡(jiǎn)化LSTM神經(jīng)網(wǎng)絡(luò)的效果更顯著. 通過(guò)實(shí)驗(yàn)結(jié)果分析可以得出,本文提出的LSTM- 簡(jiǎn)化型Ⅰ、Ⅱ神經(jīng)網(wǎng)絡(luò)能夠在精度相當(dāng)?shù)那闆r下進(jìn)一步縮短訓(xùn)練時(shí)間,對(duì)BOD質(zhì)量濃度快速預(yù)測(cè).
表3 BOD質(zhì)量濃度預(yù)測(cè)模型性能對(duì)比
1) 簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)能夠在不顯著降低模型精度的情況下減少計(jì)算復(fù)雜度,縮短訓(xùn)練時(shí)間.
2) 基于簡(jiǎn)化型LSTM神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)方法能夠?qū)崿F(xiàn)時(shí)間序列的高效預(yù)測(cè).