王 珠,劉佳璇
(中國石油大學(北京) 自動化系,北京 102249)
隨著自動化水平的提升、質量要求的完善、生產規(guī)模的擴大,現(xiàn)代工業(yè)過程往往存在強非線性、動態(tài)特性與慢時變等本質特點,眾多參變量中普遍存在不確定、多層次與強耦合關系,因此傳統(tǒng)的機理模型難以準確地描述實際工業(yè)過程.
軟測量技術[1]的產生與發(fā)展為解決上述問題提供了一種有效方法,其核心思想是利用易于測量的過程變量(輔助變量)建立可以表征過程變量和質量變量(主導變量)之間關系的軟測量模型.軟測量模型為后續(xù)過程控制[2–3]、在線估計[4–6]以及故障診斷[7]等方面產生了很大的影響,發(fā)揮了必要且重要的作用.早期的軟測量是基于機理分析的建模,需要對工業(yè)過程內部機理有充分的了解.其中:微分方程與代數(shù)方程能夠用于表示工業(yè)過程動態(tài)機理[8],卡爾曼濾波[9–10]常用于軟測量中對過程參數(shù)進行建模.但由于實際工業(yè)過程極為復雜,模型結構的形式難以確定,很難通過機理建模描述過程規(guī)律、反映過程特性.基于數(shù)據(jù)驅動[11]的軟測量建模方法解決了上述問題.數(shù)據(jù)驅動僅依靠現(xiàn)場采集的大量歷史輸入輸出數(shù)據(jù)建立質量變量與過程變量之間的數(shù)學關系,因此非常適合于復雜工業(yè)過程的軟測量建模.早期的數(shù)據(jù)驅動建模方法包含主成分分析法(principal component analysis,PCA[12])、偏最小二乘法(partial least squares,PLS[13])等回歸分析法與人工神經網(wǎng)絡(artificial neural network,ANN)等機器學習模型[14].由于實際工業(yè)過程具有動態(tài)特性,但上述回歸分析法與多數(shù)人工神經網(wǎng)絡模型僅能反映過程的非線性特性而缺少對動態(tài)特性的體現(xiàn),因此非線性動態(tài)建模成為軟測量的主要研究方向,不少研究針對時序數(shù)據(jù)具備的特性提出了非線性動態(tài)軟測量模型[15–17].
近年來,隨著神經網(wǎng)絡理論的不斷發(fā)展和完善,神經網(wǎng)絡軟測量模型主要包含普通神經網(wǎng)絡[18]、徑向基神經網(wǎng)絡(radial basis function network,RBF[19])、生成對抗神經網(wǎng)絡(generative adversarial network,GAN[20])等模型.但上述提出的模型都是靜態(tài)軟測量模型,在工業(yè)過程中具有一定的局限性.動態(tài)軟測量模型的相繼提出解決了靜態(tài)模型在實際應用中估計精度低、魯棒性差等問題.回聲狀態(tài)網(wǎng)絡(echo state network,ESN[21])、卷積神經網(wǎng)絡(convolutional neural network,CNN[22])與循環(huán)神經網(wǎng)絡(recurrent neural network,RNN[23–25])等常作為動態(tài)軟測量模型應用到實際的工業(yè)過程.其中:循環(huán)神經網(wǎng)絡的發(fā)展為時間序列的建模提供了優(yōu)良選擇.因此,對于工業(yè)過程的非線性全動態(tài)建模問題,常使用工業(yè)時序數(shù)據(jù)作為循環(huán)神經網(wǎng)絡的輸入或采用固定結構的記憶神經網(wǎng)絡對非線性動態(tài)過程進行有效模擬.記憶神經網(wǎng)絡分為循環(huán)神經網(wǎng)絡、長短期記憶神經網(wǎng)絡(long-short term memory,LSTM[26])和門控循環(huán)單元(gated recurrent unit,GRU[27]).其中:循環(huán)神經網(wǎng)絡是一種短記憶模型,不適合處理過長的時間序列;LSTM的提出解決了上述問題,在記憶方面得以較大提升,對任意長度的時序數(shù)據(jù)均能進行很好的訓練及預測,但該網(wǎng)絡的結構過于復雜,加重了計算負擔.為解決上述問題,GRU的提出得到了廣泛的應用.Fu等[28]使用GRU神經網(wǎng)絡對交通流進行了預測,實驗表明,GRU在交通流量預測上的性能優(yōu)于LSTM與自回歸積分移動平均(autoregressive integrated moving average,ARIMA)模型.Pavithra等[29]將門控循環(huán)單元應用于醫(yī)學領域,基于GRU在預測糖尿病疾病的發(fā)展上取得了良好的預測效果.Siwagorn等[30]采用GRU 預測飛機垂直速度的下降幅度,使飛機能夠有效著陸,提高了飛機的著陸效率.倪維成[31]建立了一種基于GRU的航空發(fā)動機剩余壽命預測模型,實驗表明該模型在預測精度上高于多數(shù)淺層機器學習方法和部分深度學習方法.雖然目前已有大量學者在不同領域驗證了GRU神經網(wǎng)絡較其他預測模型在時序預測問題上的優(yōu)越性,但基于GRU對工業(yè)領域中非線性動態(tài)過程的預測研究卻屈指可數(shù),并且已有研究沒有對GRU神經網(wǎng)絡反向更新單元數(shù)與實際非線性動態(tài)過程階次之間的關系進行研究.基于以上分析,本文提出一種依賴模型階次的GRU(model order based–GRU,MOb–GRU)軟測量模型,基于該模型對工業(yè)領域中單變量與多變量非線性動態(tài)過程進行全動態(tài)建模,本文用帶有輸出非線性的非線性動態(tài)過程代替實際非線性動態(tài)過程產生過程數(shù)據(jù),進而進行分析與建模.
Lynn等人[32]的研究表明,GRU結構的更新門和輸出激活函數(shù)是GRU網(wǎng)絡最關鍵的組件,學習率是門控循環(huán)單元最重要的超參數(shù).因此,建立神經網(wǎng)絡軟測量模型的關鍵是選擇合適的學習率優(yōu)化算法使網(wǎng)絡以較快速度達到收斂.目前已有一些關于深度學習模型中學習率策略的研究.Ranjeeth等[33]提出了具有最優(yōu)隨機梯度下降(stochastic gradient descent,SGD)的多層感知器機器學習模型,SGD的引入提高了感知器的性能與數(shù)據(jù)分類準確度,但SGD中學習率是固定的,收斂速度慢且容易陷入局部最優(yōu)解.Ralf等[34]設計了一種應用于復雜深度強化學習(deep reinforcement learning,DRL)問題的循環(huán)學習率方法,該方法較固定學習率方法能達到更好的結果,但循環(huán)學習率是在兩個有理邊界值的范圍內變化,而不是單調衰減的.為解決上述問題,本文設計了一種簡單而有效的階躍衰減類(step attenuation class,SAC)自適應學習率算法與學習率矩陣算法,兩種方法均保證了整個系統(tǒng)更快地收斂和穩(wěn)定,提高了預測的準確率.
GRU由Cho等人提出,是LSTM的一種變體模型,不僅能夠解決RNN存在的梯度消失問題,還簡化了LSTM的網(wǎng)絡結構、提高了收斂速度.目前最常用的GRU模型主要由更新門和重置門構成,圖1為其內部結構示意圖.
圖1 GRU內部結構示意圖Fig.1 GRU internal structure diagram
每個GRU單元能夠根據(jù)當前時刻的輸入xt和上一時刻隱藏層輸出的激活值ht?1,計算得到當前時刻隱藏層輸出值ht和候選激活值?ht.相比于RNN,GRU通過引入門控機制,能夠同時對不同時刻、不同長度的時序關系進行記憶和學習.相比于LSTM,GRU減少了網(wǎng)絡參數(shù)數(shù)量,加快了訓練的收斂速度,具有簡單的單元結構和高效處理數(shù)據(jù)的能力.目前GRU已被廣泛應用于機器翻譯和序列生成等眾多領域.
本文所提出的MOb–GRU軟測量模型適用的場合需滿足以下兩個條件:1)由于工業(yè)過程的復雜性,過程內部機理不清楚,無法運用機理建模對其進行精確建模;2)過程數(shù)據(jù)在時間上連續(xù),滿足一定的時序關系.文中分別采用ut和yt來表示過程變量和質量變量,軟測量模型基于數(shù)據(jù)驅動,通過學習得到過程變量與質量變量間的映射關系,即f:yt →ut.
MOb–GRU神經網(wǎng)絡與傳統(tǒng)GRU相比,網(wǎng)絡結構復雜度與訓練所需計算量均較小,原因在于:a)從結構上看,MOb–GRU能夠根據(jù)實際過程的大致階次調節(jié)反向更新單元數(shù),其數(shù)量可少于網(wǎng)絡中的總單元數(shù),與傳統(tǒng)GRU從第1個模塊開始輸出相比,既保證了長期和短期的記憶性,又在結構設置上變得更加靈活.需要注意的是,MOb–GRU的反向更新單元數(shù)是指包含最后一個模塊開始反向向前傳播的單元數(shù),與訓練算法中權重梯度在時間上的疊加數(shù)量相等,以此保證了權重在更新過程中不隨噪聲發(fā)生顯著波動;b)從訓練算法上看,在用隨時間反向傳播(back propagation through time,BPTT)算法進行訓練時,MOb–GRU綜合梯度量的確定依賴于反向更新單元數(shù),而GRU綜合梯度量的確定依賴于全部模塊數(shù).基于此,MOb–GRU訓練時歷經時間確定梯度所需的循環(huán)數(shù)量較小,計算量較低,減輕了模型的計算負荷.但MOb–GRU神經網(wǎng)絡與RNN相比,網(wǎng)絡結構復雜度與訓練所需計算量又是偏大的,原因在于:a)從結構上看,RNN中間層神經元的狀態(tài)是由上一層過程輸入的狀態(tài)與自身前一時刻的狀態(tài)決定的,意味著與GRU,MOb–GRU相比,RNN總模塊數(shù)只有2個;b)從訓練算法上看,RNN綜合梯度量的確定只需計算當前和前一時刻的梯度量,即反向傳播單元數(shù)為1,因此訓練所需的計算量相對更低.綜上所述,RNN與GRU,MOb–GRU相比,網(wǎng)絡結構更簡單,訓練時的計算時間復雜度更低.3個模型的計算時間復雜度關系如表1所示.
表1 3個模型的計算時間復雜度Table 1 Computational time complexity of three models
基于對模型計算時間復雜度與訓練性能的考慮,本文采用MOb–GRU模型對非線性動態(tài)過程進行建模,將過程的輸入數(shù)據(jù)ut和輸出數(shù)據(jù)yt作為神經網(wǎng)絡的學習數(shù)據(jù),無需明確過程內部機理和參數(shù)變量.本文設計的單變量MOb–GRU(SISO–MOb–GRU)信息流向圖和單變量GRU(SISO–GRU)信息流向圖如圖2所示.其中:j為前向傳播單元數(shù);i為反向更新單元數(shù);以SISO–MOb–GRU信息流向圖為例,每個單元下方直連的變量為MOb–GRU單元的輸入變量,上方直連的變量為MOb–GRU單元的預測輸出.定義x(t)=[u(t ?1)y(t ?1)]T為MOb–GRU單元的輸入;χ(t)=[x(t ?j)··· x(t ?i)··· x(t ?1)],(t)=[(t?i+1)···(t)]分別為網(wǎng)絡的輸入和輸出.為體現(xiàn)過程的動態(tài)特性,本文將采用遞歸的方式給網(wǎng)絡的輸入信號賦值,使MOb–GRU模型呈現(xiàn)出一種動態(tài)效果.SISO–GRU信息流向圖中的變量同理.
圖2 單變量MOb–GRU與單變量GRU信息流向圖Fig.2 SISO–MOb–GRU&SISO–GRU information flow diagram
高維、高階多變量過程普遍存在于現(xiàn)代工業(yè)過程中,因此基于MOb–GRU對多變量過程進行動態(tài)建模具有重要的實際意義.由于本研究限于理論分析層面,在單變量過程建模的基礎上僅通過拓展維度便能實現(xiàn)對多變量過程的模擬及預測.圖3為本文設計的多變量MOb–GRU(MIMO–MOb–GRU)信息流向圖.其中:s和v表示多變量非線性動態(tài)過程輸入與輸出變量的維度.每個MOb–GRU單元的輸入變量引出的小圓圈數(shù)量代表網(wǎng)絡的輸入維度.對于多變量過程,每增加一個輸入或輸出變量,便會多一個黃色圓圈與網(wǎng)絡的輸入變量相連,以表示網(wǎng)絡輸入維度的拓展;輸出維度的拓展同理.多變量GRU(MIMO–GRU)信息流向圖與MIMO–MOb–GRU信息流向圖的區(qū)別和單變量一樣,在此不呈現(xiàn)具體的MIMO–GRU信息流向圖.
圖3 MIMO–MOb–GRU信息流向圖Fig.3 MIMO–MOb–GRU information flow diagram
基于MOb–GRU神經網(wǎng)絡對非線性動態(tài)過程進行建模與預測的整體算法流程如下:
步驟1輸入輸出數(shù)據(jù)的歸一化處理.本研究將根據(jù)過程變量與質量變量的量程范圍進行歸一化和反歸一化處理.
其中:ut,max和ut,min為輸入變量量程范圍內的最大值與最小值;yt,max和yt,min為輸出變量量程范圍內的最大值與最小值.
步驟2初始化網(wǎng)絡結構選擇.
步驟3訓練網(wǎng)絡.本研究將采用BPTT對MOb–GRU網(wǎng)絡進行訓練.
步驟4步長及步長矩陣的選取.本文采用SAC自適應學習率算法與學習率矩陣算法選取合適的步長與步長矩陣對網(wǎng)絡參數(shù)進行更新,以確定最優(yōu)的網(wǎng)絡結構.
步驟5預測輸出.
BPTT算法是記憶神經網(wǎng)絡訓練時進行權重更新的一種基于時間的反向傳播算法,其本質為梯度下降法,因此求各參數(shù)的梯度成了該算法的關鍵.首先定義t時刻的損失函數(shù)為
其中:ye表示t時刻的實際輸出;yt表示t時刻的預測輸出.BPTT訓練算法具體見文獻[35].
學習率對神經網(wǎng)絡的學習有很大的影響.學習率過高,易使網(wǎng)絡參數(shù)優(yōu)化過度,導致訓練變得發(fā)散;學習率過小,雖然網(wǎng)絡訓練更加可靠,但所需時間過長.因此選擇合適的學習率優(yōu)化算法顯得尤為重要.
3.2.1 階躍衰減類SAC自適應學習率算法
對于不同波動程度的非線性動態(tài)過程會對應不同的最優(yōu)學習率(optimal learning rate,Olr),以保證網(wǎng)絡的預測精度和收斂速度.因此本文設計了1種SAC自適應學習率算法.
引入平均絕對百分比誤差(mean absolute percentage error,MAPE)作為評價指標,用于判斷模型訓練效果的好壞,即
其中:L為訓練數(shù)據(jù)的長度;yc為c時刻的真實輸出;為c時刻的估計輸出.
將訓練數(shù)據(jù)按時間連續(xù)劃分為n個長度為l的階段,將預選學習率中的固定學習率從大到小依次分配給[2,n ?1]的每個階段.第1階段采用初始學習率作為網(wǎng)絡的Olr進行訓練;第2階段到最后一個階段之間的每一階段,首先確保網(wǎng)絡在該固定學習率下收斂,接著取后0.25l的數(shù)據(jù)通過遞推式(5)計算MAPE數(shù)值,并將該值作為本階段的相對誤差標準值,即
其中:dl?0.75?l=(1?b)/(1?bl?0.75?l),b表示遺忘因子;q ∈[2,n ?1],表示某一階段.最后記錄每一階段最后一個時刻的MAPE和學習率.
在判斷階段,將當前階段的MAPEq與最優(yōu)MAPE進行比較,若MAPEq 通過不斷調整最優(yōu)MAPE確定最優(yōu)學習率的取值,具體實現(xiàn)流程如下: 步驟1判斷當前時刻c處于哪個階段. 步驟2如果q=1,則設置初始學習率為最優(yōu)學習率,用于神經網(wǎng)絡的穩(wěn)定和收斂.如果q=2,則在該階段的最后通過遞推公式計算初始MAPE作為相對誤差標準值. 步驟3如果2 步驟4如果q=n,使用最優(yōu)學習率訓練神經網(wǎng)絡并進行最優(yōu)網(wǎng)絡結構的確定. 利用SAC自適應學習率算法確定網(wǎng)絡的最優(yōu)學習率,相應的MOb–GRU反向更新算法形式為 其中:W(·)代表MOb–GRU模型中需要學習的權重參數(shù)Wo,Wrh,Wrx,W?hh,W?hx,Wzh,Wzx,后面該變量含義與此保持一致;k為采樣時刻;T為采樣周期,設置T=1 min;i為反向更新單元數(shù).為方便起見,后續(xù)形式上將采樣周期T省略,即用k表示kT. 注1本文根據(jù)數(shù)據(jù)集的長度將其劃分為n段,預選學習率由(n?2)個從小到大取值的固定學習率組成[α1,α2,···,αn?2],α1<α2<···<αn?2. 注2為保證網(wǎng)絡訓練時不會發(fā)散且使網(wǎng)絡較快地達到收斂,本文將初始學習率設置為預選學習率數(shù)組中的中間數(shù)值. 3.2.2 學習率矩陣算法 Hessian矩陣[36–37]常用于優(yōu)化問題,是用一個標量對一個向量的二階導數(shù)組成的方陣.對于實際問題Hessian矩陣可能會很難計算,因此通常采用近似二階Hessian 矩陣法代替計算,如BFGS 算法[38]、DFP 算法[39]與Levenberg–Marquardt(LM)算法[40].本研究將采用類LM算法作為學習率矩陣算法,利用近似二階Hessian矩陣的逆的方法代替步長,對權重進行更新.該算法結合了梯度下降法和高斯–牛頓法的優(yōu)點,使網(wǎng)絡能較快且穩(wěn)定地找到參數(shù)的最優(yōu)值. 利用學習率矩陣算法對MOb–GRU網(wǎng)絡參數(shù)進行反向更新時,算法形式如下: 注3兩種學習率優(yōu)化算法的區(qū)別在于:如果訓練網(wǎng)絡時已經能夠確定基礎步長的范圍,則采用SAC自適應學習率算法;當無法確定基礎步長范圍時,采用學習率矩陣算法.SAC自適應學習率算法能夠提高網(wǎng)絡的整體運算效率,而學習率矩陣算法只需提前選擇合適的阻尼項,便能對權重進行較好的調整,是能夠保證神經網(wǎng)絡達到收斂的一種較為穩(wěn)妥的訓練方法. 對于真實的工業(yè)過程,可以通過一個較快的采樣頻率采集過程數(shù)據(jù),再進行神經網(wǎng)絡建模.而本文給出帶有輸出非線性的仿真系統(tǒng),是為了代替實際工業(yè)過程而產生過程數(shù)據(jù),再根據(jù)所產生的數(shù)據(jù)對仿真系統(tǒng)進行建模.本節(jié)基于MOb–GRU軟測量模型分別對單變量與多變量非線性動態(tài)過程的仿真系統(tǒng)進行模擬,旨在驗證本文提出的MOb–GRU模型的有效性.在單變量非線性動態(tài)過程的建模中,討論了關鍵網(wǎng)絡結構參數(shù)以及系統(tǒng)波動程度對MOb–GRU訓練性能的影響.另外,仿真時將MOb–GRU與RNN,GRU兩個基線模型進行了對比,同時將SAC自適應學習率算法、學習率矩陣算法分別與固定學習率算法進行了比較. 該實驗中,單變量非線性動態(tài)過程的仿真系統(tǒng)可表示為 注4u(·)代表非線性動態(tài)過程的輸入信號,作為軟測量中的輔助變量,取為多正弦信號 其中:k為采樣時刻;取采樣周期T=1 min;本小節(jié)使用的數(shù)據(jù)集是通過式(8)–(9)仿真生成的,共81000個輸入輸出樣本數(shù)據(jù),以3:1:1的比例將數(shù)據(jù)集劃分為訓練集、驗證集和測試集.x(·)表示中間狀態(tài)變量;y(·)表示輸出變量,作為軟測量中的主導變量;w(·)表示過程噪聲,是一種分布服從均值為0、方差為?的高斯隨機噪聲,即 其中λ(·)表示參數(shù)的波動方差,后續(xù)實驗中λ用于表示系統(tǒng)內部波動程度.λ越大,表示系統(tǒng)內部波動程度越大. 本小節(jié)靜態(tài)非線性環(huán)節(jié)的具體表示如下: MOb–GRU神經網(wǎng)絡模型的超參數(shù)包括前向傳播單元數(shù)、反向更新單元數(shù)以及預選學習率間隔.首先基于實驗確定模型的關鍵結構參數(shù).參數(shù)初始化設置如表2所示. 對于單變量非線性動態(tài)過程的仿真系統(tǒng),考慮動態(tài)較為豐富且復雜的情況,將輸入輸出階次ζ,η均設置為6;預選學習率間隔lrg暫時設置為0.08,即預選學習率為[0.08,0.16,0.24,0.32,0.40,0.48,0.56,0.64];式(5)中遺忘因子d設置為0.95;系統(tǒng)內部波動程度λ暫時設置為0.00152;外部波動程度?暫時設置為4.02.為確定MOb–GRU的前向傳播單元數(shù)j與反向更新單元數(shù)i,在驗證集上進行對比實驗,將MAPE作為評價指標,能夠表征預測值與真實值之間偏差的實際水平,MAPE越小,模型性能越好.由于網(wǎng)絡在訓練過程中具有一定的隨機性,每次訓練得到的結果均有所不同,為保證實驗結果的可靠性,對每組參數(shù)實驗均進行50次重復,并將結果取平均,如表3 所示.其中:下標a表示采用SAC自適應學習率算法的網(wǎng)絡訓練結果;下標m表示采用學習率矩陣算法的網(wǎng)絡訓練結果;無下標表示采用固定學習率算法的網(wǎng)絡訓練結果.后面以表格形式呈現(xiàn)的實驗結果同理. 表3 不同模型結構參數(shù)下的MAPETable 3 MAPE under different model structure parameters 從表3可見,在3種學習率優(yōu)化算法下,前向傳播單元數(shù)為19、反向更新單元數(shù)為6時,MAPE的值最小.當前向傳播單元數(shù)小于19時,性能指標隨前向傳播單元數(shù)的增加而減小;當前向傳播單元數(shù)大于19時,性能指標隨前向傳播單元數(shù)的增加而增加.這是由于當前向傳播單元數(shù)增加到一定數(shù)目時,整個模型的參數(shù)爆炸增長,模型復雜度變大的同時預測精度降低.當反向更新單元數(shù)小于6時,性能指標隨反向更新單元數(shù)的增大而減小;當反向更新單元數(shù)大于6時,性能指標隨反向更新單元數(shù)的增大而增加,驗證了當反向更新單元數(shù)接近模型階次時,網(wǎng)絡具有更好的性能.因此,將MOb–GRU模型的前向傳播單元數(shù)設置為19,反向更新單元數(shù)設置為6進行后續(xù)實驗. 進而基于實驗確定合適的預選學習率間隔.在保證網(wǎng)絡跟蹤精度的基礎上,lrg從0.01到0.3的范圍內選取.在驗證集上對每個lrg均進行50次實驗,實驗結果取平均,依舊采用MAPE作為評價指標. 如圖4所示,對于[0.01,0.3]的預選學習率間隔而言,MAPE的值集中在0.0532~0.0712之間.實驗表明,預選學習率間隔過大或過小都會使MOb–GRU模型的訓練性能變得相對較差,當lrg=0.19時,網(wǎng)絡訓練性能達到最優(yōu),此時MAPE=0.0532.因此本文將預選學習率間隔選為0.19,進行后續(xù)研究. 圖4 MOb–GRU訓練性能與預選學習率間隔的關系Fig.4 Relationship between training performance and lrg of MOb–GRU 為研究系統(tǒng)波動對MOb–GRU網(wǎng)絡性能的影響,本文選擇MAPE和均方根誤差(root mean square error,RMSE)作為評價指標,RMSE由式(14)計算得到.為了對比模型的預測效果,選擇RNN與GRU模型作為對比基線模型.為了驗證本文所設計的兩種學習率優(yōu)化算法的有效性,將其分別與固定學習率算法進行比較 其中:L表示數(shù)據(jù)集長度;為網(wǎng)絡預測輸出;yc為系統(tǒng)真實輸出.RMSE越小,模型訓練性能越好.本文將系統(tǒng)波動分為系統(tǒng)內部波動與系統(tǒng)外部波動進行研究.基于以上實驗,設置MOb–GRU結構參數(shù)j=19,i=6;GRU結構參數(shù)j=19,i=18;根據(jù)第2節(jié)的理論分析,設置RNN的結構參數(shù)j=2,i=1. a) 系統(tǒng)內部波動對預測模型預測效果的影響. 系統(tǒng)內部波動是指動態(tài)線性環(huán)節(jié)參數(shù)向量的波動程度,每個參數(shù)可能具有不同的波動方差(如式(12)).設置式(8)中κ1=0.12,κ2=0.03,κ3=0.05,κ4=0.02,κ5=0.01,κ6=0.01,τ1=0.61,τ2=0.21,τ3=0.06,τ4=0.02,τ5=0.01,τ6=0.02以及系統(tǒng)外部波動方差?=4.02.為研究模型預測效果與系統(tǒng)內部參數(shù)波動程度(用λ表示)之間的關系,假設所有參數(shù)的波動方差均相同,考慮如下幾種情況: 對應不同的參數(shù)波動方差,實驗分別進行50次重復并將結果取平均.在驗證集上,運用MOb–GRU與兩種基線模型分別對3種情況的非線性動態(tài)過程進行預測,表4給出不同模型在不同學習率優(yōu)化算法下的預測結果.由表4可知,隨著內部參數(shù)波動程度的增加,各模型在3種學習率優(yōu)化算法下的預測精度均有所降低.原因是隨著內部參數(shù)波動程度的增加,系統(tǒng)的隨機性增強,在固定的網(wǎng)絡參數(shù)設置下,易導致網(wǎng)絡模型的預測精度降低,對實際系統(tǒng)的跟蹤性能變差. 表4 不同系統(tǒng)內部波動程度下的MAPETable 4 MAPE under different degrees of internal system fluctuation b) 系統(tǒng)外部波動對預測模型預測效果的影響. 系統(tǒng)外部波動是指高斯隨機噪聲的波動程度,即過程噪聲的波動方差.設置內部波動程度λ=0.0012,考慮噪聲波動程度?分別為4.02,6.02,8.023種情況,在驗證集上針對每種情況均進行50次獨立重復實驗并將結果取平均,結果如表5所示.由表5可以看出,在3種算法下,隨著噪聲波動程度的增加,各模型的預測精度均發(fā)生了不同程度的降低.原因是噪聲的存在會導致系統(tǒng)的隨機變化程度增加,且噪聲波動程度越大,系統(tǒng)變化頻率越大,導致在相同的結構參數(shù)下預測曲線難以跟上實際系統(tǒng)的變化,預測精度下降. 表5 不同系統(tǒng)外部波動程度下的MAPETable 5 MAPE under different degrees of external system fluctuation 基于上述分析,在測試集上,運用MOb–GRU模型與兩種基線模型分別對參數(shù)λ=0.0012,?=4.02的非線性動態(tài)過程進行預測,表6給出3種模型在不同算法下的預測結果,采用RMSE評價指標評價模型的預測精度.圖5為測試集上3種預測模型采用SAC自適應學習率優(yōu)化算法對單變量非線性動態(tài)過程進行模擬的預測曲線與真實曲線對比,取測試集中100個數(shù)據(jù)進行預測.由圖5可知,當合理設置模型參數(shù)后,MOb–GRU的預測曲線更接近實際曲線,能更好地跟蹤真實曲線的變化.從表6可知,在3種學習率算法下,相比于基線模型RNN與GRU,本文提出的模型具有更高的預測精度.這是因為RNN模型只有短記憶性,與長短期記憶模型MOb–GRU相比,無法捕捉長距離依賴關系,預測效果較差.本文將傳統(tǒng)GRU模型的反向更新單元數(shù)設置得較多,使得整個模型的記憶范圍變得較大,但與MOb–GRU相比,GRU計算量變大的同時預測效果反而變得不好.由此說明,反向更新單元數(shù)不是越多越好,當反向更新單元數(shù)接近實際過程的動態(tài)階次時,預測效果更好.另外,在3種預測模型中,SAC自適應學習率算法與學習率矩陣算法下的預測結果均優(yōu)于采用固定學習率算法所預測的結果,說明了本文設計的SAC自適應學習率算法與學習率矩陣算法的合理性. 表6 λ=0.0012,?=4.02情況下3種預測模型的RMSETable 6 RMSE of three prediction models in case of λ=0.0012,?=4.02 圖5 3種預測模型采用SAC自適應學習率算法的預測曲線與真實曲線Fig.5 Predicted curve and real curve of three prediction models under SAC adaptive learning rate algorithm 在單變量非線性動態(tài)過程的研究基礎上,將其拓展為多變量非線性動態(tài)過程進行研究.本文考慮三輸入單輸出過程,該過程的仿真系統(tǒng)可表示為 其中:本小節(jié)用時間域的單變量高階微分方程描述線性環(huán)節(jié)各通道的輸入輸出關系,系數(shù)ε1=1.5,ε2=2,ε3=1,β1=0.5,β2=0.3,β3=0.7;非線性環(huán)節(jié)用多項式形式表示;多變量非線性動態(tài)過程的階次設置為1;本小節(jié)所用數(shù)據(jù)集通過式(15)(17)–(19)仿真生成,共生成81000個輸入輸出數(shù)據(jù)樣本點,數(shù)據(jù)集劃分同單變量非線性動態(tài)過程;ug(·)代表非線性動態(tài)過程的輸入信號,作為軟測量中的輔助變量,對于每個輸入信號,均取為多正弦信號;xg(·)表示系統(tǒng)的中間狀態(tài)變量;y(·)表示系統(tǒng)的輸出變量,作為軟測量中的主導變量;輸入輸出變量的采樣周期T=1 min;w(·)表示分布服從均值為0、方差為?的高斯隨機噪聲,即 考慮1個混頻輸入多變量非線性動態(tài)過程,即輸入信號中含有低、中、高3種頻率的正弦信號 預選學習率是以0.19為基礎增量而構成的一個數(shù)組,設置噪聲波動程度?=4.02進行后續(xù)問題的研究.為了合理使用提出的MOb–GRU軟測量模型,首先需要對MOb–GRU的結構參數(shù)進行確定,選擇MAPE作為評價指標,進行網(wǎng)絡訓練性能的判斷.與單變量非線性動態(tài)過程確定網(wǎng)絡結構參數(shù)的實驗一樣,在驗證集上進行對比實驗,每組實驗均進行50次并將結果取平均,經過9組對比實驗后,最終確定MOb–GRU結構參數(shù)j=40,i=2;GRU結構參數(shù)j=40,i=39;根據(jù)第2節(jié)理論分析,設置RNN結構參數(shù)j=2,i=1.在測試集上,運用MOb–GRU模型與兩種基線模型分別對混頻輸入多變量非線性動態(tài)過程進行預測,結果如表7所示. 在實驗中,用到的計算機CPU主頻為1.80 GHz,仿真軟件為MATLAB R2020a.表8顯示了3種預測模型分別采用SAC自適應學習率算法對混頻輸入多變量非線性動態(tài)過程進行訓練的時間需求.由表7–8可知,相比于RNN模型,MOb–GRU模型提高了網(wǎng)絡的訓練性能與預測精度;相比于GRU模型,MOb–GRU模型在提高預測精度的同時還一定程度上減輕了網(wǎng)絡的計算負荷.圖6給出測試集上3種預測模型在SAC自適應學習率優(yōu)化算法下的預測曲線與真實曲線,取測試集的200個數(shù)據(jù)進行預測.從圖6可以看出,在存在高斯噪聲的情況下,基于MOb–GRU軟測量模型得到的估計值能更好地擬合實際值的變化趨勢,具有更高的建模精度,說明MOb–GRU模型能夠充分捕獲數(shù)據(jù)中隱藏的信息,從而使預測運算能夠達到更好的效果. 圖6 采用SAC自適應學習率算法對實際過程模擬的預測曲線與真實曲線對比Fig.6 Comparison between predicted curve and real curve of the actual process under SAC adaptive learning rate algorithm 表7 3種預測模型的RMSETable 7 RMSE of three prediction models 表8 3種模型模擬所需的時間Table 8 Time required for three models’simulation 對比表6和表7可以得到圖7所示結果,圖7展示了用SAC自適應學習率算法進行訓練時,MOb–GRU模型相較于傳統(tǒng)GRU與RNN模型的預測結果對比.由圖7可看出,當實際過程動態(tài)階次較高時,從預測效果上更能體現(xiàn)MOb–GRU長短期記憶模型較GRU長短期記憶模型與RNN短記憶模型的優(yōu)越性;但當實際過程動態(tài)階次較低時,MOb–GRU模型與GRU,RNN的預測精度相差不多,而基于RNN預測所需的時間較少.綜上所述,可以得到:1)實際過程動態(tài)階次高→系統(tǒng)動態(tài)特性豐富→包含前面時刻的u,y多→所需存儲空間較大→適合選擇MOb–GRU模型→模型具有長短記憶性且能充分體現(xiàn)當前時刻與前面時刻豐富的非線性動態(tài)關系→性能優(yōu)于長短期記憶的傳統(tǒng)GRU模型與短記憶的RNN模型;2)實際過程動態(tài)階次低→系統(tǒng)動態(tài)特性貧乏→包含前面時刻的u,y較少→所需存儲內存較小→系統(tǒng)記憶性較短→適合使用短記憶的RNN進行處理.因此比較MOb–GRU與GRU,RNN時,需選取動態(tài)階次高的非線性動態(tài)過程才更能體現(xiàn)MOb–GRU長短期記憶網(wǎng)絡的優(yōu)越性. 圖7 MOb–GRU相較于GRU/RNN的預測結果對比Fig.7 Comparison of prediction results between MOb–GRU and GRU/RNN 本文提出了一種依賴模型階次的工業(yè)軟測量網(wǎng)絡模型—–MOb–GRU,介紹了MOb–GRU神經網(wǎng)絡的訓練原理、算法及流程,設計了兩種學習率優(yōu)化方法—–階躍衰減類(SAC)自適應學習率算法與學習率矩陣算法.實驗表明,記憶神經網(wǎng)絡總的模塊數(shù)與描述實際過程動態(tài)特性豐富程度的能力相關,每一個模塊內部狀態(tài)變量的維度與表示非線性的能力相關,設置好合適的參數(shù)后,神經網(wǎng)絡能夠包含復雜且充分的非線性動態(tài)特性,以上兩部分共同完成了記憶神經網(wǎng)絡對非線性動態(tài)過程的充分性建模.在輸出預測任務中MOb–GRU的預測精度高于RNN與GRU模型,采用SAC自適應學習率算法和學習率矩陣算法的網(wǎng)絡訓練結果均優(yōu)于采用固定學習率算法的訓練結果,但MOb–GRU的泛化能力和適用范圍有待進一步確定.未來作者將收集實際現(xiàn)場數(shù)據(jù),利用自適應學習率或學習率矩陣算法對MOb–GRU軟測量模型進行高效訓練,并給出合適的輸出預測以構造更多有效的虛擬樣本.4 仿真實驗
4.1 單變量非線性動態(tài)過程的建模與預測
4.2 多變量非線性動態(tài)過程的建模與預測
5 結論