阮光維 李鐵山 于仁海 劉琪
當(dāng)船舶在海上航行時,由波浪、風(fēng)和海流等外部干擾的影響而產(chǎn)生的橫搖運動[1]將極大地減弱船舶的航行效率,船員的日?;顒雍痛鞍踩彩艿絿?yán)重影響.因此,在船舶運動控制領(lǐng)域,如何盡可能地減小船舶的橫搖動態(tài)具有重要意義.在最近的幾十年中,隨著船舶運動控制技術(shù)的不斷發(fā)展,減搖鰭以其形式小巧、維修簡單、減搖效率高等優(yōu)點被廣泛應(yīng)用于船舶減搖,并且獲得了良好的控制性能.然而,該裝置的效率取決于控制器設(shè)計,控制器的好壞將對減搖鰭系統(tǒng)有很大的影響.因此,減搖控制系統(tǒng)對減搖鰭能否穩(wěn)定工作有著極其重要的作用.目前,已經(jīng)有許多控制方法被用來設(shè)計船舶減搖鰭控制器.例如:文獻(xiàn)[2]提出了一種基于后推技術(shù)和閉環(huán)增益整形算法的非線性控制器;文獻(xiàn)[3]提出了一種PID方法,用于船舶減搖鰭控制器設(shè)計,同時基于蒙特卡羅優(yōu)化技術(shù)實現(xiàn)了船舶轉(zhuǎn)向;文獻(xiàn)[4]基于非線性擾動觀測器,將自適應(yīng)后推方法應(yīng)用于非線性船舶橫搖系統(tǒng),并在降低船舶橫搖方面獲得了較好控制性能;文獻(xiàn)[5]提出了一種簡化的模糊控制器,用于船舶橫搖系統(tǒng),旨在提高船舶減搖鰭控制器的實時執(zhí)行效率.
近年來,最優(yōu)控制已在許多控制領(lǐng)域中得到廣泛應(yīng)用,并成為電機(jī)控制、機(jī)器人控制等自動控制領(lǐng)域的重要方法之一.在船舶減搖控制領(lǐng)域中,最優(yōu)控制也有許多相關(guān)成果[6-8].Adaptive Dynamic Programming (ADP)方法是由Miller等[9]提出并廣泛應(yīng)用于控制領(lǐng)域的,其通常在結(jié)構(gòu)上需要三個神經(jīng)網(wǎng)絡(luò),分別是模型網(wǎng)絡(luò)、評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò).ADP方法的基本思想是通過使用函數(shù)近似的結(jié)構(gòu)(模糊模型、神經(jīng)網(wǎng)絡(luò)等)來逼近最優(yōu)控制策略和最優(yōu)性能指標(biāo)函數(shù).Miller等[9]介紹了兩種ADP結(jié)構(gòu),分別是雙啟發(fā)式動態(tài)規(guī)劃(DHP)和啟發(fā)式動態(tài)規(guī)劃(HDP).后來,隨著ADP方法的進(jìn)一步發(fā)展,又有了其他結(jié)構(gòu),例如執(zhí)行依賴啟發(fā)式動態(tài)規(guī)劃(ADHDP)、全局雙重啟發(fā)式動態(tài)規(guī)劃(GDHP)、執(zhí)行依賴雙發(fā)式動態(tài)規(guī)劃(ADDHP)、神經(jīng)網(wǎng)絡(luò)動態(tài)規(guī)劃結(jié)構(gòu)(NDP)[10]、近似動態(tài)規(guī)劃結(jié)構(gòu)[11]、自適應(yīng)評價設(shè)計結(jié)構(gòu)[12]等.
受Si等[13]和Xiao等[14]的啟發(fā),本文提出了一種基于ADHDP(Action Dependent Heuristic Dynamic Programming)方法的新型船舶減搖鰭在線學(xué)習(xí)最優(yōu)控制方法.首先對船舶橫搖運動模型建立單自由度模型,利用最優(yōu)控制理論,設(shè)計了基于ADHDP方法的船舶減搖鰭控制器.在設(shè)計過程中不采用系統(tǒng)模型來獲取未來的系統(tǒng)狀態(tài)值,而直接采用輸入輸出數(shù)據(jù),并使用兩個BP神經(jīng)網(wǎng)絡(luò)來對最優(yōu)控制律和性能指標(biāo)函數(shù)進(jìn)行逼近.評價網(wǎng)絡(luò)將用于逼近性能指標(biāo)函數(shù),而執(zhí)行網(wǎng)絡(luò)將用于獲取最優(yōu)控制信號.在訓(xùn)練過程中,這兩個神經(jīng)網(wǎng)絡(luò)不僅可以使用實時測量數(shù)據(jù),也可以減少內(nèi)部模型誤差和不確定性干擾的影響,從而提高控制精度和系統(tǒng)的魯棒性.
本文的其余部分安排如下:第1節(jié)提供了船舶橫搖系統(tǒng)的線性模型和隨機(jī)波浪擾動模型;第2節(jié)給出了用于船舶橫搖系統(tǒng)的ADHDP控制器設(shè)計;第3節(jié)給出仿真結(jié)果;第4節(jié)是總結(jié).
在海上航行時,船舶的橫搖運動主要是由波浪引起的.當(dāng)船舶的橫搖角度小時,可根據(jù)Conolly理論建立船舶線性橫搖模型.該模型被廣泛用于船舶減搖鰭控制[15],通常描述如下:
(1)
Kc=2Llfcos(α),
(2)
其中L是船的升力系數(shù),由減搖鰭產(chǎn)生,lf是減搖鰭的橫搖力臂,α是鰭角度,這是減搖鰭的垂直軸與中心線之間的角度.
將式(1)重新整理得:
(3)
(4)
其中A1,A2,B1是系數(shù),分別表示如下:
(5)
由式(4)得如下狀態(tài)空間方程:
(6)
本文采用了基于Pierson-Moscowitz譜的波動模型[16],其描述如下:
(7)
其中,H1/3是波高,ωa是波頻率,g表示重力加速度.
根據(jù)隨機(jī)過程理論,可將波的傾斜角模型描述如下:
(8)
其中μl表示波傾斜角初始相位,其值在0~2π之間隨機(jī)變化.為方便計算,本文選擇μl=0,則能譜與波高譜之間的關(guān)系式為
(9)
其中G1和G2是系數(shù),根據(jù)船體的形狀而變化.考慮到船舶航速和航向?qū)Υ八庥龅暮@祟l率的影響,可以將船舶的所謂相遇頻率描述如下:
(10)
其中V是船速,β是海浪的方向.根據(jù)能量等價原理,遇到頻率能譜密度函數(shù)與自然頻率能譜密度函數(shù)具有以下關(guān)系:
(11)
因此實際仿真中的波傾角模型如下:
(12)
使用上述公式進(jìn)行模擬,當(dāng)(1-2ωaVcos(β))/g=0時,Sp(ωe)中將會產(chǎn)生斷點,因此具有以下關(guān)系式:
Sp(ωa)Δωa=Sp(ωe)Δωe.
(13)
將式(13)代入式(12),可得:
(14)
圖1所示為隨機(jī)海浪,其中H1/3=5.8,n=28,波浪方向β=450,船速V=7.8 m/s
圖1 隨機(jī)海浪Fig.1 Random waves
線性模型(6)可以寫成如下的離散時間形式:
x(t+1)=Adx(t)+Bdu(t)+Cdw(t),
(15)
其中x(t)是系統(tǒng)的狀態(tài)變量,Ad是系統(tǒng)狀態(tài)矩陣,Bd,Cd是系統(tǒng)的輸入矩陣,w(t)表示外部干擾,u(t)用于表示系統(tǒng)的輸入信號.本文的任務(wù)是設(shè)計最優(yōu)控制器u(t)以最大程度地減少如下的性能指標(biāo)函數(shù):
(16)
其中γ是性能指標(biāo)的折扣因子,0<γ≤1.為簡單起見,本文中γ=1.函數(shù)U(x(i),u(i))=xT(i)Qx(i)+uT(i)Ru(i)是效用函數(shù),其中Q是一個半正定矩陣,而R是一個正定矩陣.根據(jù)Bellman原理,最優(yōu)性能指標(biāo)函數(shù)J*(x(t),u(t))可以寫成如下形式:
J(x(t+1),u(t+1))),
(17)
該方程也被稱為離散時間Hamilton-Jacobi-Bellman(DTHJB)方程.通過最小化性能指標(biāo)函數(shù),可以得到最優(yōu)控制策略:
J(x(t+1),u(t+1))).
(18)
ADHDP在結(jié)構(gòu)上需要使用兩個神經(jīng)網(wǎng)絡(luò):一個是評價網(wǎng)絡(luò)用于估計性能指標(biāo)函數(shù)J(x(t),u(t)),另一個是執(zhí)行網(wǎng)絡(luò)用于逼近控制信號u(t).圖2為船舶減搖鰭系統(tǒng)最優(yōu)ADHDP控制器示意圖.
圖2 船舶減搖鰭系統(tǒng)的ADHDP結(jié)構(gòu)Fig.2 ADHDP structure for ship fin stabilizer system
圖2中,實線表示信號流,虛線表示評價網(wǎng)和執(zhí)行網(wǎng)的參數(shù)更新路徑.系統(tǒng)的狀態(tài)變量是執(zhí)行網(wǎng)的輸入,它將輸出控制信號u(t)之后,該控制信號與系統(tǒng)的狀態(tài)變量相結(jié)合,成為評價網(wǎng)的輸入,它將在(17)中輸出目標(biāo)函數(shù)的近似值.u(t)也是減搖鰭系統(tǒng)的控制輸入.評價網(wǎng)和執(zhí)行網(wǎng)是基于BP神經(jīng)網(wǎng)絡(luò)的非線性多層反饋網(wǎng)絡(luò).下一部分將給出評價網(wǎng)和執(zhí)行網(wǎng)的詳細(xì)結(jié)構(gòu).
在ADHDP方法中,本文使用了評價網(wǎng)來逼近性能指標(biāo)函數(shù)J(t). 這里設(shè)計一個3-6-1結(jié)構(gòu)的評價網(wǎng)(圖3),其中包含3個輸入神經(jīng)元、6個隱含層神經(jīng)元和1個輸出神經(jīng)元.輸入信號x1,x2是系統(tǒng)的狀態(tài)(船舶橫搖角和船舶橫搖角速度),控制信號u(t)從執(zhí)行網(wǎng)的輸出信號中獲得.評價網(wǎng)的激活函數(shù)采用sigmoid函數(shù),評價網(wǎng)結(jié)構(gòu)如下所示:
(19)
圖3 評價網(wǎng)絡(luò)的結(jié)構(gòu)Fig.3 Structure of critic network
評價網(wǎng)的輸出層可以表示為
(20)
其中Ic(t)∈R3×1是輸入向量,J(t)是輸出向量,hc(t)∈R1×6是隱含層的輸出向量,wc1∈R6×3是輸入到隱含層的權(quán)重向量,wc2∈R1×6是隱含層到輸出層的權(quán)重向量.
在評價網(wǎng)中,前向過程計算目標(biāo)函數(shù)的近似值,而后向過程則更新評價網(wǎng)的權(quán)重矩陣.定義評價網(wǎng)誤差函數(shù)為
ec(t)=γJ(t)-J(t-1)+U(t),
(21)
評價網(wǎng)中的目標(biāo)函數(shù)為
(22)
評價網(wǎng)絡(luò)的權(quán)重更新算法基于梯度下降方法,它是通過應(yīng)用鏈?zhǔn)揭?guī)則獲得的.輸入層到隱含層的權(quán)值更新表示為
wc1(t+1)=wc1(t)+Δwc1(t),
(23)
其中Δwc1(t)∈R6×3,
(24)
其中i是矩陣行號,j是矩陣列號,lc>0 是評價網(wǎng)的學(xué)習(xí)率.
隱含層到輸出層的權(quán)重向量更新表達(dá)式為
wc2(t+1)=wc2(t)+Δwc2(t),
(25)
其中Δwc2(t)∈R1×6,
(26)
其中i是權(quán)重矩陣的行數(shù).
注1在式(24)和(26)中,?Ec(t)/?J(t)由式(21)和(22)計算,而?J(t)/?wc(t)與狀態(tài)變量和控制輸入有關(guān).
本文采用執(zhí)行網(wǎng)獲取控制信號u(t),設(shè)計了一個2-6-1結(jié)構(gòu)的執(zhí)行網(wǎng)絡(luò)(圖4),其中包含2個輸入神經(jīng)元、6個隱含層神經(jīng)元和1個輸出神經(jīng)元. 包括x1,x2的輸入信號是系統(tǒng)的狀態(tài)變量,輸出信號是系統(tǒng)的控制信號,同時使用sigmod函數(shù)作為激活函數(shù).
圖4 執(zhí)行網(wǎng)絡(luò)的結(jié)構(gòu)Fig.4 Structure of action network
執(zhí)行網(wǎng)絡(luò)的輸出信號可以確定為
(27)
其中Ia(t)∈R2×1是輸入向量,u(t)是輸出向量,ha(t)是隱含層的輸出向量,wa1∈R6×2是輸入層到隱含層的權(quán)重向量,wa2∈R1×6是隱含層到輸出層的權(quán)重向量.
定義執(zhí)行網(wǎng)誤差函數(shù)為
ea(t)=J(t).
(28)
最小化下面的目標(biāo)函數(shù),以更新執(zhí)行網(wǎng)絡(luò)中的權(quán)重:
(29)
執(zhí)行網(wǎng)絡(luò)的權(quán)重更新算法是基于梯度下降方法,通過應(yīng)用鏈?zhǔn)揭?guī)則給出的.如下所示輸入層到隱含層的權(quán)值更新表示為
wa1(t+1)=wa1(t)+Δwa1(t),
(30)
其中Δwa1(t)∈R6×3,
(31)
其中i是矩陣行數(shù),j是矩陣列數(shù),la>0是執(zhí)行網(wǎng)的學(xué)習(xí)率,Hl是執(zhí)行網(wǎng)中隱藏節(jié)點的數(shù)量,n是評價網(wǎng)的輸入信號的數(shù)量.
隱含層到輸出層的權(quán)重更新表達(dá)式為
wa2(t+1)=wa2(t)+Δwa2(t),
(32)
其中Δwa2(t)∈R1×6,
(33)
注2在式(31)和(33)中,?Ea(t)/?J(t)由式(28)和(29)計算,而?J(t)/?u(t)通過鏈?zhǔn)揭?guī)則獲得,該規(guī)則與執(zhí)行網(wǎng)中的權(quán)重矩陣相關(guān)[14].
本節(jié)將對容器進(jìn)行仿真,船舶參數(shù)如表1所示.
表1 船舶參數(shù)
船舶橫搖動態(tài)的狀態(tài)空間方程如下:
(34)
效用函數(shù)可以設(shè)計如下:
U(x(i),u(i))=xT(i)Qx(i)+uT(i)Ru(i),
(35)
本文設(shè)計了具有兩個神經(jīng)網(wǎng)絡(luò)的ADHDP控制器,每個神經(jīng)網(wǎng)絡(luò)的參數(shù)如下:評價網(wǎng)為3-6-1結(jié)構(gòu),具有3個輸入神經(jīng)元、6個隱含層神經(jīng)元和1個輸出神經(jīng)元,執(zhí)行網(wǎng)為2-6-1結(jié)構(gòu),有2個輸入神經(jīng)元、6個隱含層神經(jīng)元和1個輸出神經(jīng)元;評價網(wǎng)和執(zhí)行網(wǎng)的學(xué)習(xí)率lc=la=0.005;初始權(quán)重矩陣wc1∈R6×3和wa1∈R6×2分別為評價網(wǎng)和執(zhí)行網(wǎng)中輸入層到隱含層的權(quán)值矩陣,初始權(quán)重矩陣wc2∈R1×6和wa2∈R1×6分別為評價網(wǎng)和執(zhí)行網(wǎng)中的隱含層到輸出層的權(quán)值矩陣,權(quán)值在 [-1,1]中隨機(jī)選擇.初始權(quán)重矩陣選擇如下:
為了驗證所設(shè)計控制器的有效性,本文設(shè)計了船舶減搖鰭的線性二次調(diào)節(jié)器控制器來進(jìn)行比較.線性二次調(diào)節(jié)器控制器(Linear Quadratic Regulator,LQR)表示如下:
(36)
圖5為具有減搖鰭和不具有減搖鰭控制器的船舶橫搖角及橫搖速率的變化情況.由圖5可見,設(shè)計的減搖鰭控制器的有效性較好.圖6為本文設(shè)計的控制器(ADHDP)和線性二次調(diào)節(jié)器控制器(LQR)的比較,表明本文設(shè)計的控制器獲得比較好的控制效果.圖7和圖8分別為評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的權(quán)重收斂過程,顯然權(quán)重都收斂到常數(shù),這表明所提出的控制器具有很好的性能.
圖5 具有減搖鰭和不具有減搖鰭的橫搖角和橫搖速率的變化情況Fig.5 Roll angle and roll rate with and without fin stabilizer
圖6 ADHDP和LQR控制器對比Fig.6 Comparison between ADHDP and LQR controller
圖7 評價網(wǎng)絡(luò)的權(quán)值矩陣Fig.7 Weight matrices of critic network
圖8 執(zhí)行網(wǎng)絡(luò)的權(quán)重矩陣Fig.8 Weight matrices of action network
本文提出了一種基于ADHDP方法的船舶減搖鰭系統(tǒng)的最優(yōu)控制器.本文所提出的方法是利用評價網(wǎng)絡(luò)來逼近針對船舶減搖鰭控制系統(tǒng)設(shè)計的性能指標(biāo)函數(shù),并通過執(zhí)行網(wǎng)絡(luò)來獲得最優(yōu)控制律.ADHDP的優(yōu)點是在線訓(xùn)練,ADHDP結(jié)構(gòu)中的兩個神經(jīng)網(wǎng)絡(luò)既可以使用實時測量數(shù)據(jù),同時也可以減少內(nèi)部模型誤差和不確定性干擾的影響,從而提高了魯棒性.仿真結(jié)果驗證了該方法良好的減搖效果.