王欣羽,孟品超,尹偉石
(長春理工大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,長春 130022)
近年來深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能的核心框架,神經(jīng)網(wǎng)絡(luò)的理論分析也成為學(xué)術(shù)研究的熱點問題之一。Weinan[1]研究發(fā)現(xiàn)殘差神經(jīng)網(wǎng)絡(luò)(ResNet)中的殘差結(jié)構(gòu)與連續(xù)(離散)動力系統(tǒng)存在某些一致性,把ResNet 解釋為一階非線性常微分方程。隨后,這種思想被應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)(DNN),更一般地,機器學(xué)習(xí)可以看作由函數(shù)的表示、損失函數(shù)和訓(xùn)練動力學(xué)構(gòu)成的一個連續(xù)公式,這使得許多機器學(xué)習(xí)模型被證明可以轉(zhuǎn)化為不同連續(xù)方程的特定離散化,如隨機特征模型、雙層神經(jīng)網(wǎng)絡(luò)模型和殘差神經(jīng)網(wǎng)絡(luò)模型等[2]。神經(jīng)網(wǎng)絡(luò)能夠用微分方程解釋,就能夠利用微分方程解的穩(wěn)定性來分析神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性。在常微分方程理論啟發(fā)下,Haber E 和Ruthotto L[3]通 過使Jacobi 矩 陣 特 征值實部足夠小,來構(gòu)造能夠保持穩(wěn)定性的網(wǎng)絡(luò)框架。除此之外,也可以利用方程的數(shù)值方法設(shè)計新的網(wǎng)絡(luò)結(jié)構(gòu),以此提高網(wǎng)絡(luò)的穩(wěn)定性和泛化能力[4-6]。
門控循環(huán)單元網(wǎng)絡(luò)(GRU)是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在解決各類實際問題中表現(xiàn)出較好的能力,尤其在學(xué)習(xí)長序列時,能夠解決梯度爆炸和梯度消失的問題[7-8]。通過研究RNN 引起的動力系統(tǒng)行為,發(fā)現(xiàn)在沒有輸入數(shù)據(jù)的情況下,GRU 表現(xiàn)出混沌動力學(xué)[9-10]。但在各類實際應(yīng)用中,GRU 在訓(xùn)練和測試中都保持了穩(wěn)定性,本文給出并證明了GRU 穩(wěn)定性的定理。
單層GRU 結(jié)構(gòu)如圖1 所示,每個節(jié)點的運算結(jié)構(gòu)代表一個門控單元的運算過程,節(jié)點t(t= 1,2,…,T)的輸入xt與節(jié)點t- 1 的輸出ht-1合并后,經(jīng)過門控單元的運算,得到節(jié)點t的狀態(tài)ht,將其傳入下一個節(jié)點t+ 1。這里節(jié)點t的輸入xt和輸出ht分別表示為:,。
圖1 GRU 結(jié)構(gòu)圖
門控單元主要包括更新門和重置門。更新門zt+1是通過節(jié)點t+ 1 的輸入數(shù)據(jù):xt+1∈?n(t= 0,1,…,T- 1) 與節(jié)點t的隱含層狀態(tài)ht∈?m,利用激活函數(shù)作用生成:
更新門用于控制前一節(jié)點的狀態(tài)信息被帶入到當(dāng)前狀態(tài)中的程度,其值越大說明前一個節(jié)點保留下的信息越多。
重置門rt+1用來控制忽略前一節(jié)點的狀態(tài)信息的程度,其值越小說明忽略的信息越多。
在將節(jié)點t的信息傳遞到節(jié)點t+ 1 時,還需要利用重置門信息對前一節(jié)點狀態(tài)ht進行忽略,再與輸入xt+1作用得到候選激活狀態(tài),表示為:
其中,代表矩陣乘積;?代表Hadamard 積;權(quán)重矩陣Wzx、Wrx、Wh?h∈?m×m;Wzx、Wrx、Wh?x∈?m×m。
從而,GRU節(jié)點t+1的輸出ht+1可表示為:
其中,ht+1的第i項可寫為:
每個節(jié)點t+ 1 的狀態(tài)ht+1只與上一節(jié)點的狀態(tài)ht和當(dāng)前節(jié)點的輸入值xt+1有關(guān)。
為了用離散動力系統(tǒng)逼近GRU,下面討論GRU 的動力學(xué)表示。
其中,映射關(guān)系G(ht,xt+1)滿足:
因此,單層GRU 在給定一個初值h0時,都能得到一個近似解ht,使得該方程在每個節(jié)點的解都是連續(xù)方程在節(jié)點的近似解,當(dāng)計算到方程在節(jié)點T的解時,就相當(dāng)于GRU 完成了前向傳播過程。
映射關(guān)系? 滿足:
由此得到無輸入GRU 的動力系統(tǒng)表達式為:
可見系統(tǒng)中?(ht)不顯含變量t。因此,可以得出以下結(jié)論:
定理1:單層無輸入的GRU 系統(tǒng)是一種自治非線性動力系統(tǒng)。
因此,可以用動力學(xué)系統(tǒng)的理論來判斷單層無輸入GRU 的穩(wěn)定性。
一般地,通過微分方程的平衡解或零解隨時間變化的程度,來判斷方程的解的穩(wěn)定性。這里首先給出Lyapunov 意義下微分方程解的穩(wěn)定性的定義和Krasovskii 方法。
定義1:設(shè)f(t,x)滿足解的存在唯一性定理的條件,且微分方程初值問題,x∈?n的解x(t)=x(t,t0,x0)在(-∞, +∞)存在,f(t,x)還滿足f(t,0)= 0,即x(t)= 0 是方程的解,稱x(t)= 0 為方程的零解。
定理1 給出GRU 系統(tǒng)是一種非線性系統(tǒng),這種非線性系統(tǒng)的穩(wěn)定性可以通過Lyapunov 穩(wěn)定性判定方法中Krasovskii 方法來判斷。
引理1:(Krasovskii 方法)對于非線性系統(tǒng):
若系統(tǒng)滿足如下條件:
(1)平衡解為x= 0。
(2)f(x) 對狀態(tài)變量x是連續(xù)可微的,即存在矩陣,使為負定矩陣,其中,那么系統(tǒng)(11)漸近穩(wěn)定。
由此給出n維單層無輸入GRU 的局部穩(wěn)定性條件。
定理2:若n階權(quán)重矩陣的所有n個特征值都小于2,則單層無輸入的GRU 在原點處是局部漸近穩(wěn)定的。
證明:由公式(10)單層無輸入的GRU 網(wǎng)絡(luò)可以表示為:
式中,T是GRU 單元個數(shù);ct為中間變量。
其對應(yīng)的連續(xù)方程形式為:
其中,h=(h1,h2,…,hn)T。
該微分方程的解h在(-∞, +∞)存在,滿足存在唯一性定理,且f(h)滿足f(0) = 0,故h= 0 為方程的零解,進一步得到h=c= 0。
單層無輸入GRU 的Jacobi矩陣表達式中僅含有權(quán)重矩陣Wh?和單位矩陣E,這說明系統(tǒng)的穩(wěn)定性只依賴于候選激活狀態(tài)的權(quán)重矩陣Wh?。因此,可以通過在訓(xùn)練中選擇滿足該條件的權(quán)值矩陣Wh?,來保證其前向傳播的穩(wěn)定性。
任意選擇三種初始狀態(tài):(0.5, - 0.75),(-0.9,0.5),(-0.19, - 1.5),取總體迭代次數(shù)T= 50,步長ε= 0.1。利用二維無輸入的單層GRU 來預(yù)測隱藏狀態(tài)的軌跡,考慮以下兩種候選激活狀態(tài)的權(quán)重矩陣Wh?,他們分別對應(yīng)圖2(a)和圖2(c):
圖2 GRU 動力學(xué)可視化和變化趨勢圖
權(quán)重矩陣W+的兩個特征值分別為λ1(W+)=-5,λ2(W+)= -3,權(quán)重矩陣的所有特征值都小于2,且隱藏狀態(tài)分別從各自初始點(用星號表示)向原點移動,此時網(wǎng)絡(luò)在原點處滿足局部漸近穩(wěn)定。而權(quán)重矩陣W-的特征值λ1(W-)= 4 +1.7i,λ2(W-)= 4 - 1.7i,實部都是大于2的正數(shù),每個初始點都向不同的終點移動,從圖2(d)也可看出每個初始點的坐標最終都穩(wěn)定在不同的坐標點下。若權(quán)重矩陣對應(yīng)的特征值不滿足定理2 的穩(wěn)定條件,那么在多次迭代后其輸出值不趨于零點,且輸出值不可預(yù)測。
若動力系統(tǒng)在零解處漸近穩(wěn)定,那么隨迭代次數(shù)的增加,每次迭代得到的結(jié)果都會逐步趨向零解,直至達到完全平穩(wěn)。從圖2(b)的仿真結(jié)果可以看出,盡管無輸入的GRU 在不同初始值下到穩(wěn)定的速度不同,但其最終都在零點處達到穩(wěn)定。而對于不滿足穩(wěn)定條件的GRU,雖然每個初始點在迭代多次后最終都趨于穩(wěn)定,但每個初始點的穩(wěn)定點都不相同,無法預(yù)測最終的運行軌跡。因此,可以說在滿足定理2 的條件下,無輸入的GRU 其結(jié)果具有可預(yù)測的動態(tài)特性。
對于波動方程的散射問題,正向物理過程屬于適定問題,但在求解反問題過程中,方程的解關(guān)于已知數(shù)據(jù)不穩(wěn)定,這就導(dǎo)致了波場障礙物反演是一種典型的不適定問題??紤]在Dirichlet條件下,利用GRU 反演單入射波和多角度入射波下的障礙物形狀[11-12]。
網(wǎng)絡(luò)的運行效果通過對花生形狀邊界的反演誤差來進行評估。障礙物邊界反演過程以遠場數(shù)據(jù)作為GRU 輸入,GRU 最終節(jié)點的隱藏狀態(tài)hT發(fā)送到全連接層進行形狀參數(shù)提取,將所得參數(shù)帶入到經(jīng)過傅里葉展開的曲線方程中繪制預(yù)測曲線。這里Adam 作為優(yōu)化器,將遠場數(shù)據(jù)依次按節(jié)點順序呈現(xiàn)到GRU 中,換句話說,每個節(jié)點的輸入是遠場數(shù)據(jù)中實部和虛部構(gòu)成的二維向量,輸出是曲線參數(shù)方程的傅里葉系數(shù),時間步長在單入射情況下為T=n,在多角度入射時T=n2。
研究二維不可穿透障礙物的邊界曲線f(x),其中入射波數(shù)k= 1.5。在散射場[ 0,2π ]中均勻設(shè)置n個觀測點,且GRU 的門控單元個數(shù)與觀測點個數(shù)n相同,利用GRU 得到反演結(jié)果,誤差計算函數(shù)為,表1 給 出了網(wǎng)絡(luò)的訓(xùn)練誤差和測試誤差。
表1 單入射下不同觀測點個數(shù)對反演效果的影響
由表1 可見,觀測點個數(shù)的增加意味著包含的障礙物遠場信息增多,在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測中,網(wǎng)絡(luò)的運行所消耗的時間也會增加,相應(yīng)的反演結(jié)果與真實曲線的誤差逐漸減小,這說明網(wǎng)絡(luò)在整個學(xué)習(xí)過程中保持了穩(wěn)定反演效果和泛化能力。圖3 給出了在單入射下的反演效果圖。
圖3 觀測點個數(shù)為n= 5,15,25,30,35 時反演效果圖
從圖3 可見,在單入射情況下,隨著觀測點的增加,獲得了更多的遠場信息,較好地反演出障礙物的形狀曲線,尤其是在圖像拐點處也能很好地貼合真實曲線形狀。
相比于單入射情況,多角度入射得到的遠場數(shù)據(jù)能夠包含更多的障礙物邊界信息,從理論上能夠得到更好的反演效果。
在多角度入射的情況下,設(shè)置觀測點個數(shù)和入射點個數(shù)相同。取入射點的個數(shù)分別為n=3,5,7,研究在這種情況下網(wǎng)絡(luò)對障礙物形狀邊界的反演效果。
從表2 中的測試誤差可以看出,利用越多的有效信息反演出障礙物的效果越好。這與理論分析結(jié)果相同。當(dāng)入射點個數(shù)和觀測點個數(shù)均為7 時,每個障礙物形狀由7 × 7 個遠場數(shù)據(jù)表示,而單入射15 個觀測點的情況僅包含15 個遠場數(shù)據(jù),此時多入射反演產(chǎn)生的誤差與單入射情況下效果基本相同,因此,在數(shù)據(jù)集遠場數(shù)據(jù)有限的情況下,通過構(gòu)造單入射多個觀測點的數(shù)據(jù)能夠通過較少的遠場數(shù)據(jù)得到相似的訓(xùn)練效果。反演結(jié)果如圖4 所示。
表2 觀測點個數(shù)對反演效果的影響
在觀測點數(shù)n= 3 時,圖4 所示的反演結(jié)果,在外凸部分相對于觀測點個數(shù)為5 和7 時誤差較大,圖4 反演的花生形狀在曲線拐點處的凹陷較淺,曲線夾角大,在不同觀測點個數(shù)時都能較好地反演出原有形狀。而當(dāng)觀測點個數(shù)增加到7 時,反演結(jié)果都能夠幾乎與原曲線重合,從表3上的誤差結(jié)果看,這三種觀測點個數(shù)的選取都能使預(yù)測誤差低于0.05,在實際反演形狀曲線時能夠得到接近真實值的邊界曲線。
圖4 觀測點個數(shù)為n= 3,5,7 時反演效果圖
表3 不同噪聲程度下的訓(xùn)練效果
實際計算得到的遠場數(shù)據(jù)是存在誤差的,為了檢測遠場數(shù)據(jù)中誤差對網(wǎng)絡(luò)反演效果的影響,在遠場數(shù)據(jù)集中添加了一些隨機噪聲。當(dāng)入射點和觀測點個數(shù)都為n= 7 時,反演出的障礙物形狀與原形狀誤差最小,在原有參數(shù)下,對數(shù)據(jù)集添加高斯白噪聲N(0,per2),分別考慮噪聲per =5,20,50 的情況。訓(xùn)練時間和誤差如表3 所示。
將帶有不同噪聲的遠場數(shù)據(jù)的反演結(jié)果顯示在表3 中,可見添加不同程度的噪聲對整體的反演效果影響不大,噪聲越小其誤差也就越小,當(dāng)原始數(shù)據(jù)集中噪聲占比達到50%時,依然能夠描繪出障礙物的邊界形狀,表明了在該條件下的網(wǎng)絡(luò)結(jié)構(gòu)具有穩(wěn)定性。
如圖5 所示,當(dāng)遠場數(shù)據(jù)包含低水平的噪聲時,該模型可以準確地反轉(zhuǎn)形狀參數(shù)并重建障礙物的形狀。可以看出,該網(wǎng)絡(luò)對噪聲具有很強的魯棒性。
圖5 噪聲per=5,20,50 時反演效果圖
從3.1 和3.2 的實驗可以看出,在數(shù)據(jù)中不存在噪聲時,GRU 都能夠根據(jù)現(xiàn)有的遠場數(shù)據(jù)準確地反演出障礙物的形狀曲線。由3.3 節(jié)的實驗證明,當(dāng)遠場數(shù)據(jù)集含有不同程度的噪聲時,網(wǎng)絡(luò)的反演誤差也能達到與不含誤差同等的實驗效果。因此,對于這種不適定的反散射問題,不論遠場數(shù)據(jù)集是否存在誤差,都能夠得到較好的反演結(jié)果,且在網(wǎng)絡(luò)的反演過程中都保持了穩(wěn)定的運行。
將GRU 與常微分方程聯(lián)系起來,從常微分方程的穩(wěn)定性理論入手分析GRU 的穩(wěn)定性。同時,提出了一種通過循環(huán)神經(jīng)網(wǎng)絡(luò)反演障礙物形狀的方法,由于聲波反散射問題非線性不適定性,而神經(jīng)網(wǎng)絡(luò)能夠很好地擬合非線性系統(tǒng),因而選擇GRU 來重構(gòu)障礙物形狀。數(shù)值實驗表明,該方法適用于具有多個入射和多個觀測方向的全孔徑條件,在能夠處理單一入射方向和多觀測情況。實驗中該網(wǎng)絡(luò)在反演障礙物形狀時誤差均維持在10-2,可見GRU 在處理這類不適定問題時保持了較好的可訓(xùn)練性和穩(wěn)定性。