程國建,魏珺潔
(西安石油大學(xué) 研究生院,陜西 西安 710065)
遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)作為一種動態(tài)神經(jīng)網(wǎng)絡(luò)[1],因為其訓(xùn)練算法太過復(fù)雜、計算量大、訓(xùn)練網(wǎng)絡(luò)需要大量的時間,所以在實際的應(yīng)用中仍然存在很多問題[2]。2001年,Jaeger提出了一種新型的遞歸神經(jīng)網(wǎng)絡(luò)[3]——回聲狀態(tài)網(wǎng)絡(luò)(Echo State Network,ESN),該網(wǎng)絡(luò)能夠更好的解決時序相關(guān)的動態(tài)問題。ESN的計算量小,訓(xùn)練簡單,使用過程中只需要訓(xùn)練網(wǎng)絡(luò)的輸出權(quán)值,而且僅通過線性回歸就可以完成訓(xùn)練[4]?,F(xiàn)在ESN已經(jīng)應(yīng)用在許多方面,例如預(yù)測太陽黑子數(shù)量的時間序列和城市共享單車數(shù)量[5]、變風(fēng)量空調(diào)內(nèi)??刂芠6]、網(wǎng)絡(luò)流量預(yù)測[7]、化工故障檢測[8]、非線性衛(wèi)星信道盲均衡[9]以及電力負荷預(yù)測[10-11]等。然而ESN也有不足,即當(dāng)輸入數(shù)據(jù)用儲備池中的回聲狀態(tài)來表示時,由于儲備池通常是一個大的隨機稀疏連接的遞歸神經(jīng)網(wǎng)絡(luò),所以可能會存在多余的回聲狀態(tài)。這就是ESN的共線性問題。
有許多研究人員嘗試對ESN進行優(yōu)化及改進[12-15],黃文華在其研究中將改進的ESN作為熱點話題預(yù)測模型[16],張寧致等人將改進的ESN應(yīng)用在股價預(yù)測等實際問題中[17-18]。深度回聲狀態(tài)網(wǎng)絡(luò)(Deep-Echo State Network,Deep-ESN)也是一種改進的ESN,論文所介紹的Deep-ESN模型是Qianli Ma、Lifeng Shen等人在2017年提出的一種分層儲備池計算框架[19],為了融合每個儲備池獲得的多尺度表示,該網(wǎng)絡(luò)添加了從每個編碼器到最后一個輸出層的連接。一些時間序列的實驗結(jié)果表明,Deep-ESN可以捕獲多尺度動力學(xué),并且優(yōu)于標(biāo)準(zhǔn)的淺層ESN。
ESN是一種結(jié)構(gòu)簡單的新型RNN,它僅由輸入層、儲備池和輸出層組成[20],如圖1。其中輸入層、儲備池和輸出層所包含的神經(jīng)元數(shù)分別為D,N和L,在t時刻的輸入向量,儲備狀態(tài)向量和輸出向量分別用u(t)、x(t)和y(t)表示。Win是輸入層與儲備池之間的一個N×D維的權(quán)值矩陣,它是從均勻分布[-1,1]中隨機初始化的一個值。Wres是儲備池內(nèi)部神經(jīng)元之間的一個N×N維權(quán)值矩陣,它通過儲備池的參數(shù)——儲備池譜半徑(Spectral Radius,SR)來計算。Wout是將從輸入層到輸出層的直接連接和從儲備池到輸出層的連接串聯(lián)起來的一個L×(D+N)維權(quán)值矩陣,它是ESN中唯一一個需要訓(xùn)練的權(quán)值矩陣。
ESN利用儲備池中隨機連接的神經(jīng)元來生成一個復(fù)雜的狀態(tài)空間,左側(cè)的輸入數(shù)據(jù)經(jīng)過狀態(tài)空間的線性組合得到右側(cè)的輸入數(shù)據(jù)。這里的ESN與傳統(tǒng)的RNN主要有以下不同:(1)ESN采用隨機高維投影方法捕捉輸入的動態(tài)性;(2)儲備池是整個系統(tǒng)的核心,它由大量(通常為100~1 000D)稀疏連接的神經(jīng)元組成;(3)輸出信號是儲備池中回聲狀態(tài)的線性組合,通過簡單的線性回歸就可以計算輸出權(quán)值。
圖1 ESN的基本結(jié)構(gòu)
儲備池內(nèi)部包含大量隨機連接的神經(jīng)元[21],如圖2所示,儲備池中神經(jīng)元的個數(shù)決定了儲備池的規(guī)模[22-23],這些隨機連接的神經(jīng)元構(gòu)成了復(fù)雜的狀態(tài)空間。儲備池內(nèi)部的計算過程與支持向量機(Support Vector Machine,SVM)的核方法類似[24],基本思想都是把低維空間中的輸入信號映射到高維空間。
圖2 儲備池
ESN的核心就是儲備池,因此ESN的穩(wěn)定性和復(fù)雜度等性能就由儲備池的參數(shù)決定。儲備池主要有以下4個參數(shù):(1)規(guī)模(神經(jīng)元個數(shù));(2)稀疏程度;(3)譜半徑SR;(4)輸入尺度因子(Input Scaling,IS)
論文介紹的Deep-ESN是一種多投影編碼分層框架,最顯著特點是它在分層框架中交替使用儲備池和編碼器,如圖3所示。
圖3 Deep-ESN的基本結(jié)構(gòu)
在Deep-ESN中,當(dāng)輸入時間序列被投影到儲備池的回聲狀態(tài)空間時,隨后的編碼器接收前一個儲備池的回聲狀態(tài)作為輸入,并且編碼高維度的回聲狀態(tài)表示再進入較低維度。然后,這些低維表示再次被投影到下一個儲備池的高維空間中,如此循環(huán)。
(1)
計算出前一個儲備池的狀態(tài)之后,可以利用無監(jiān)督降維技術(shù)對它們進行編碼并產(chǎn)生編碼特征。第j個編碼器的編碼過程可以表示為
(2)
其中,fenc(·)是編碼器的激活函數(shù),當(dāng)fenc(·)為恒等函數(shù)時,左側(cè)的函數(shù)是一種線性降維技術(shù)。
綜上所述,最后一個儲備池的狀態(tài)表示為
Hj=tj°Fj
(3)
(4)
Deep-ESN將附加的編碼器層的編碼特征合并到最后的輸出層中,得到如下輸出
Y=fout(WoutM)
(5)
(6)
整個Deep-ESN的平方誤差損失為
(7)
此時,參數(shù)Wout的優(yōu)化仍然是一個簡單的回歸問題。由于時間序列維持著一個高維度的形式,所以這個問題需要用Tikhonov正則化進行嶺回歸[25]來解決。
ESN自從提出以來,就產(chǎn)生了很大的影響,可以應(yīng)用在預(yù)測太陽黑子數(shù)量的時間序列和城市共享單車數(shù)量、變風(fēng)量空調(diào)內(nèi)??刂?、網(wǎng)絡(luò)流量預(yù)測以電力負荷預(yù)測等問題中。近幾年,也有許多研究學(xué)者提出了一些基于ESN的優(yōu)化模型,并將這些模型應(yīng)用于疾病診斷、趨勢預(yù)測[26-27]等問題中。
論文所介紹的Deep-ESN是由Qianli Ma等人在2017年發(fā)表的《A Multiple Projection-encoding Hierarchical Reservoir Computing Framework》中提出的。該論文對兩個混沌系統(tǒng)和兩個真實世界時間序列進行了基于Deep-ESN的綜合實驗分析,這些時間序列有麥基玻璃系統(tǒng)、NARMA系統(tǒng)、每月太陽黑子系列和每日最低溫度系列等。該論文通過實驗證明了Deep-ESN在4個時間序列(兩個混沌系統(tǒng)和兩個現(xiàn)實世界的時間序列)上超越了一些其他多尺度ESN的方法。
相比于其他的方法,Deep-ESN有如下幾點特征(詳見表1):(1)多投影編碼。Deep-ESN不是直接堆疊多個ESN,而是在儲備池之間使用編碼器,充分利用高維投影來獲得豐富的多尺度輸入動態(tài)表達;(2)多尺度特征融合。為了更好地融合每個儲備池捕獲的多尺度動態(tài)表示,添加了從每個編碼器到最后一個輸出層的連接,即特征鏈接;(3)簡化訓(xùn)練。與以前的一些基于層次的ESN模型不同,Deep-ESN唯一可訓(xùn)練的層是最后一個輸出層,它保留了儲備池計算的高效計算而不依賴于梯度傳播算法。
表1 各種方法的對比
論文綜合了眾多學(xué)者的研究,在理解了ESN的結(jié)構(gòu)框架的基礎(chǔ)上,給出了ESN的概括性介紹。不難發(fā)現(xiàn),ESN在應(yīng)用到實際問題中時存在著一些不足,并且已經(jīng)有許多學(xué)者嘗試對其改進。論文在研究了眾多改進的ESN結(jié)構(gòu)之后,選擇了Qianli Ma、Lifeng Shen等人在2017年提出的Deep-ESN進行學(xué)習(xí)研究,論文對其學(xué)習(xí)過程和網(wǎng)絡(luò)結(jié)構(gòu)進行了介紹。在作者研究的過程中,發(fā)現(xiàn)了一些與Deep-ESN有相似應(yīng)用的方法,文中也給出了這些方法的對比。
論文通過對ESN和Deep-ESN的研究,發(fā)現(xiàn)Deep-ESN不僅引入了一種編碼器對來自儲備池的數(shù)據(jù)進行降維編碼。同時,該網(wǎng)絡(luò)循環(huán)交替使用儲備池和編碼器,增加了網(wǎng)絡(luò)的深度,使得Deep-ESN的整體性能要優(yōu)于傳統(tǒng)的ESN。
盡管Deep-ESN具有許多優(yōu)勢,儲備池的優(yōu)化仍然是Deep-ESN需要解決的一個主要問題?,F(xiàn)在也有許多研究人員從事這方面的研究,相信將來這個問題定會得到很好的解決。由于論文所介紹的Deep-ESN是一種新型的網(wǎng)絡(luò)模型,現(xiàn)階段的應(yīng)用與研究非常少。但是Deep-ESN訓(xùn)練過程簡單、利用分層投影編碼的特點,會使它在將來受到廣泛的關(guān)注,并逐漸應(yīng)用到實際問題中去。