裴 培,何紹溟,王 江,林德福
(1.北京理工大學(xué)宇航學(xué)院,北京 100081;2. 北京理工大學(xué)無人飛行器自主控制研究所,北京 100081)
攔截導(dǎo)彈的制導(dǎo)和控制通常被當(dāng)作兩個(gè)回路來分開設(shè)計(jì),內(nèi)回路是產(chǎn)生舵指令的自動(dòng)駕駛儀控制回路,外回路是生成加速度指令的制導(dǎo)回路[1]。內(nèi)回路跟蹤外回路的加速度指令產(chǎn)生舵偏角控制量,內(nèi)外回路分開設(shè)計(jì)的主要問題是制導(dǎo)控制系統(tǒng)存在著時(shí)間滯后問題,無法攔截高速和高機(jī)動(dòng)的目標(biāo)。傳統(tǒng)的外回路采用比例導(dǎo)引制導(dǎo)律設(shè)計(jì),比例導(dǎo)引算法的主要思想是產(chǎn)生加速度指令使零控脫靶量在有限時(shí)間收斂到零[2]。雖然理論上已經(jīng)證明了導(dǎo)引增益為3的比例導(dǎo)引制導(dǎo)律對(duì)于常值速度的飛行器是能量最優(yōu)的[1],對(duì)于終端速度最大的情況也是最優(yōu)的[3];并且比例導(dǎo)引及其多種變化形式已經(jīng)被廣泛的用來控制終端落角和飛行時(shí)間[4-6]。但是過去經(jīng)典的制導(dǎo)算法的推導(dǎo)和理論證明都是基于忽略氣動(dòng)力后的線性化運(yùn)動(dòng)方程得到的。當(dāng)考慮制導(dǎo)控制一體化問題的時(shí)候,由于引入了彈體氣動(dòng)模型,制導(dǎo)系統(tǒng)的模型就變得非線性和時(shí)變性,無法利用比例導(dǎo)引的形式求解?;?刂芠7]、反步法[8]和連續(xù)時(shí)間預(yù)測(cè)控制[9]等方法被用來求解制導(dǎo)控制一體化問題。查旭[10]針對(duì)打擊固定目標(biāo),采用終端滑模理論設(shè)計(jì)制導(dǎo)控制一體化算法。賴超[11-12]將其擴(kuò)展成為在三維情況下打擊機(jī)動(dòng)目標(biāo)的制導(dǎo)控制一體化算法。雖然采用滑??刂瓶梢詫?shí)現(xiàn)目標(biāo)攔截,但滑??刂茣?huì)導(dǎo)致能耗增加,且容易出現(xiàn)控制飽和現(xiàn)象。這些形式的制導(dǎo)控制一體化算法控制律形式復(fù)雜,需要設(shè)置的參數(shù)多,針對(duì)不同的初始情況和彈體參數(shù)需要人工調(diào)整參數(shù)的取值來獲得良好的制導(dǎo)控制表現(xiàn)。簡化控制律的形式和自主進(jìn)行參數(shù)調(diào)節(jié)是改進(jìn)制導(dǎo)控制一體化算法的方向之一。
隨著嵌入式元器件計(jì)算能力的快速發(fā)展,計(jì)算制導(dǎo)算法的發(fā)展引起了學(xué)者的日益關(guān)注[13]。計(jì)算制導(dǎo)算法不同于傳統(tǒng)的制導(dǎo)律算法,它沒有一個(gè)解析形式的制導(dǎo)律,而是通過大量的在線計(jì)算來產(chǎn)生制導(dǎo)指令。計(jì)算制導(dǎo)可以分為基于模型和基于數(shù)據(jù)兩個(gè)類型。文獻(xiàn)[14]中提出了一種基于模型的三維終端落角約束計(jì)算制導(dǎo)算法,算法基于模型預(yù)測(cè)靜態(tài)規(guī)劃算法[15]。模型預(yù)測(cè)靜態(tài)規(guī)劃算法將動(dòng)態(tài)規(guī)劃問題轉(zhuǎn)化為靜態(tài)規(guī)劃問題從而提高計(jì)算效率,因此許多制導(dǎo)問題利用模型預(yù)測(cè)靜態(tài)規(guī)劃的高效性來求解,例如終端落角控制制導(dǎo)律[16]和再入制導(dǎo)[17]。然而基于模型預(yù)測(cè)靜態(tài)規(guī)劃方法求解制導(dǎo)律需要一個(gè)很好的初始猜測(cè)值來保證算法收斂[18]。
基于模型的算法要求模型的信息是完全已知的,所以基于模型優(yōu)化方法的表現(xiàn)與模型的精度有很大的關(guān)系。制導(dǎo)控制一體化問題中存在著很大的模型不確定性,例如目標(biāo)機(jī)動(dòng)、氣動(dòng)不確定性等,因此不適合使用基于模型的優(yōu)化方法求解。基于數(shù)據(jù)的優(yōu)化算法不需要模型的精確信息,因此比較適合用來求解制導(dǎo)控制一體化問題。采用強(qiáng)化學(xué)習(xí)理論解決控制問題的研究大都應(yīng)用在機(jī)器人上,很少用于解決航空航天中的制導(dǎo)問題。文獻(xiàn)[19]提出了一種基于強(qiáng)化學(xué)習(xí)的制導(dǎo)算法,首先將強(qiáng)化學(xué)習(xí)應(yīng)用到了制導(dǎo)領(lǐng)域,然而文章只考慮了一種固定的情形,魯棒性差。深度強(qiáng)化學(xué)習(xí)技術(shù)還被應(yīng)用于求解火星著陸制導(dǎo)問題[20]和再入制導(dǎo)問題[21]。文獻(xiàn)[22]利用強(qiáng)化學(xué)習(xí)技術(shù)來學(xué)習(xí)經(jīng)典的終端落角約束制導(dǎo)律制導(dǎo)增益,并將算法應(yīng)用到近直線軌道的相對(duì)運(yùn)動(dòng)制導(dǎo)問題中。文獻(xiàn)[23]利用Q學(xué)習(xí)方法根據(jù)傳統(tǒng)比例導(dǎo)引制導(dǎo)律,提出了基于強(qiáng)化學(xué)習(xí)的變系數(shù)比例導(dǎo)引制導(dǎo)律,然而其需要兩千次以上的迭代學(xué)習(xí)來保證結(jié)果收斂。
針對(duì)制導(dǎo)控制一體化問題存在的高度不確定性和控制律設(shè)計(jì)復(fù)雜的問題,本文基于無模型強(qiáng)化學(xué)習(xí)理論,研究了一種基于深度強(qiáng)化學(xué)習(xí)理論的制導(dǎo)控制一體化算法,算法可以通過學(xué)習(xí)自動(dòng)生成制導(dǎo)控制智能體,無需人工進(jìn)行參數(shù)調(diào)整。為了應(yīng)用強(qiáng)化學(xué)習(xí)算法,將導(dǎo)彈的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)過程建模為環(huán)境,舵偏角指令建模為智能體的行為,并且提出了權(quán)衡制導(dǎo)精度、能量損耗和飛行時(shí)間的獎(jiǎng)勵(lì)函數(shù)。強(qiáng)化學(xué)習(xí)模型框架建立后,采用深度確定性策略梯度(Deep determinstic policy gradient, DDPG)算法學(xué)習(xí)出一個(gè)從導(dǎo)彈觀測(cè)量到舵偏角指令的行為策略。數(shù)值仿真表明提出的算法可以實(shí)現(xiàn)在各種不同的初始情況下的精準(zhǔn)攔截,同傳統(tǒng)算法相比能耗更優(yōu),能夠避免控制飽和現(xiàn)象,并且算法對(duì)于彈體參數(shù)和氣動(dòng)不確定性具備良好的魯棒性。
強(qiáng)化學(xué)習(xí)的最優(yōu)策略可以通過最大化值函數(shù)和最大化行為值函數(shù)得到。然而直接最大化值函數(shù)或者行為值函數(shù)都需要精確的模型信息,很難在模型不確定的情況下使用。而無模型的強(qiáng)化學(xué)習(xí)算法放松了對(duì)于精確模型信息的需求,因此,在存在高度模型不確定性的情況下可以使用無模型的強(qiáng)化學(xué)習(xí)算法。
無模型的強(qiáng)化學(xué)習(xí)算法可以分為值函數(shù)方法和策略梯度方法兩類。值函數(shù)方法只適用于離散行為空間的情況。著名的深度Q學(xué)習(xí)[24]就屬于此類。與之相比,策略梯度算法可以應(yīng)用于連續(xù)控制系統(tǒng)的問題中。由谷歌Deepmind提出的深度確定性策略梯度算法是策略梯度算法的最新解決方案之一[25]。
對(duì)于制導(dǎo)控制一體化問題,強(qiáng)化學(xué)習(xí)的主要目的是產(chǎn)生舵偏角指令控制導(dǎo)彈攔截機(jī)動(dòng)目標(biāo)。為了解決這個(gè)問題,本文使用了DDPG算法設(shè)計(jì)了一個(gè)制導(dǎo)控制一體化算法。DDPG是一個(gè)執(zhí)行-評(píng)價(jià)算法,其基本概念框架如圖1所示。
圖1 DDPG算法基本概念框架圖Fig.1 Basic concept of DDPG
為了避免在探索狀態(tài)空間的過程中總回報(bào)函數(shù)陷入局部最優(yōu),DDPG在執(zhí)行器網(wǎng)絡(luò)的行為上增加一個(gè)隨機(jī)噪聲vt:
a′t=at+vt
(1)
式中:at為執(zhí)行器網(wǎng)絡(luò)輸出的行為。
并且在后面的系統(tǒng)中使用這個(gè)含噪聲的行為。隨機(jī)噪聲vt使用Ornstein-Uhlenbeck過程進(jìn)行更新
(2)
式中:μv為噪聲的均值;N(0,∑t)為0均值∑t方差的高斯分布;βattract是平均吸引常數(shù),代表噪聲被平均值吸引的速度;Ts是采樣時(shí)間。隨著訓(xùn)練過程經(jīng)驗(yàn)的增加,方差∑t以速率ε指數(shù)級(jí)衰減:
Σt=Σt-1(1-ε)
(3)
DDPG的偽代碼如算法1所示。
算法1 深度確定性策略梯度算法1 使用隨機(jī)權(quán)重μ和w來初始化執(zhí)行器和評(píng)價(jià)器網(wǎng)絡(luò)2 使用權(quán)重μ'=μ和w'=w來初始化目標(biāo)執(zhí)行器和評(píng)價(jià)器網(wǎng)絡(luò)3 初始化經(jīng)驗(yàn)緩沖區(qū)D4 for片段=1:最大片段個(gè)數(shù)do5 for t=1:最大步數(shù)do6 執(zhí)行器依據(jù)當(dāng)前狀態(tài)產(chǎn)生行為at=Aμ(st)7在行為中增加噪聲來探索a't=at+vt8執(zhí)行行為a't得到新的狀態(tài)st+1和獎(jiǎng)勵(lì)9將轉(zhuǎn)移經(jīng)驗(yàn)e(t)=(st,at,rt,st+1)存入經(jīng)驗(yàn)緩沖區(qū)D10從經(jīng)驗(yàn)緩沖區(qū)D中均勻抽取組隨機(jī)樣本ei11計(jì)算時(shí)序差分誤差δδt=Rt+ηQw'(st+1,Aμ'(st+1))-Qw(st,at)12計(jì)算損失函數(shù)L(w)L(w)=1N∑Ni=1δ2i
13 使用梯度下降法更新評(píng)價(jià)器網(wǎng)絡(luò)-12ΔwL(w)=1N∑Ni=1δiΔwQw(si,ai)wt+1=wt-αwΔwL(w)14使用策略梯度下降法更新執(zhí)行器網(wǎng)絡(luò)ΔμJ(Aμ)=1N∑Ni=1ΔμAμ(si)ΔatQw(si,ai)μt+1=μt+αμΔμJ(Aμ)15更新目標(biāo)網(wǎng)絡(luò)μ'=τμ+(1-τ)μ'w'=τw+(1-τ)w'16if任務(wù)結(jié)束then17終止當(dāng)前片段18end if19 end for20 end for
式中:s,a,r分別為強(qiáng)化學(xué)習(xí)馬爾可夫過程中的狀態(tài)量,行為和獎(jiǎng)勵(lì),A和Q是分別由μ、μ′和w,w′參數(shù)化定義的執(zhí)行器和評(píng)價(jià)器神經(jīng)網(wǎng)絡(luò),γ為定義的權(quán)重值,τ?1為很小的目標(biāo)網(wǎng)絡(luò)更新速率,αμ,αw分別為執(zhí)行器和評(píng)價(jià)器神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速率。
這個(gè)部分將制導(dǎo)控制問題轉(zhuǎn)化到強(qiáng)化學(xué)習(xí)的框架中。
考慮一個(gè)二維平面尋的階段,如圖2所示。慣性坐標(biāo)系由(X,Y)所示。變量的下標(biāo)M和T分別代表導(dǎo)彈和目標(biāo)。λ和r分別表示視線角和導(dǎo)彈目標(biāo)相對(duì)距離。γ為由慣性坐標(biāo)系定義的彈道傾角。速度和側(cè)向加速度分別由V和a表示。則描述導(dǎo)彈和目標(biāo)的相對(duì)運(yùn)動(dòng)關(guān)系方程可以表示為:
(4)
(5)
(6)
(7)
式中:aTraTsin(λ-γT),aTλaTcos(λ-γT)分別為目標(biāo)沿著視線和垂直于視線方向的加速度;aMraMsin(λ-γM),aMλaMcos(λ-γM)分別為導(dǎo)彈沿著視線和垂直于視線方向的加速度。
彈道傾角和側(cè)向加速度之間存在以下關(guān)系:
(8)
導(dǎo)彈的加速度由氣動(dòng)力提供,導(dǎo)彈的平面動(dòng)力學(xué)模型可以被表示為[8,26]:
(9)
式中:α表示彈體攻角;m表示彈體質(zhì)量;ωz表示彈體俯仰角速率;g是重力加速度;Jz是彈體的轉(zhuǎn)動(dòng)慣量;θ是俯仰角。L和M分別表示升力和俯仰力矩,可以由下式計(jì)算得到[8,26]
(10)
(11)
為了使用DDPG算法求解制導(dǎo)控制一體化問題,需要將原問題轉(zhuǎn)化到強(qiáng)化學(xué)習(xí)的框架中,首先要建立一個(gè)馬爾可夫決策過程。式(4)~(11)的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)方程構(gòu)成了強(qiáng)化學(xué)習(xí)馬爾可夫決策過程中的環(huán)境,環(huán)境st由過程狀態(tài)可以表征為:
(12)
對(duì)于制導(dǎo)控制一體化問題,馬爾可夫決策過程中智能體的行為定義為舵偏角指令δz。假設(shè)導(dǎo)彈裝備有主動(dòng)雷達(dá)探測(cè)器,可以測(cè)量與目標(biāo)的相對(duì)距離r和視線角λ以及他們的導(dǎo)數(shù)。并且導(dǎo)彈裝備有慣導(dǎo)裝置,可以測(cè)量自身的俯仰角θ、俯仰角速率ωz和彈道傾角γM,經(jīng)過組合導(dǎo)航算法后,可以得到攻角α,則馬爾可夫決策過程中智能體的觀測(cè)量ot可以定義為:
(13)
因此定義的馬爾可夫決策過程是全狀態(tài)可觀的。
相對(duì)運(yùn)動(dòng)學(xué)方程(4)~(10)、過程狀態(tài)(12)、智能體觀測(cè)量(13)、智能體行為和一個(gè)合適的獎(jiǎng)勵(lì)函數(shù)構(gòu)成了制導(dǎo)控制問題的馬爾可夫決策過程。制導(dǎo)控制一體化問題的強(qiáng)化學(xué)習(xí)框架的概念流程圖如圖3所示。
圖3 制導(dǎo)強(qiáng)化學(xué)習(xí)框架概念流程圖Fig.3 Conceptual flowchart of the proposed guidance RL framework
采用DDPG算法求解制導(dǎo)控制問題最重要的部分是設(shè)計(jì)一個(gè)合適的獎(jiǎng)勵(lì)函數(shù)使導(dǎo)彈穩(wěn)定的攔截目標(biāo)。最直接的獎(jiǎng)勵(lì)函數(shù)是當(dāng)導(dǎo)彈成功攔截目標(biāo)時(shí)給智能體一個(gè)獎(jiǎng)勵(lì),否則給智能體一個(gè)負(fù)的懲罰獎(jiǎng)勵(lì)。然而我們的實(shí)際測(cè)試表明這種簡單的獎(jiǎng)勵(lì)是無效的,因?yàn)樵陔S機(jī)初始猜想條件下導(dǎo)彈成功攔截目標(biāo)的概率非常低,智能體在有限數(shù)量的片段性學(xué)習(xí)中幾乎得不到正向激勵(lì)。
因?yàn)榱慊憧孛摪辛靠梢詫?shí)現(xiàn)零脫靶量攔截[1],所以本文使用零控脫靶量來建立獎(jiǎng)勵(lì)函數(shù)。在任意時(shí)刻,零控脫靶量定義為從t時(shí)刻起,如果導(dǎo)彈和目標(biāo)都不機(jī)動(dòng),導(dǎo)彈和目標(biāo)最近的距離。將零控脫靶量定義為z,其形式為[26]:
(14)
舵偏角的大小直接量化了由誘導(dǎo)阻力導(dǎo)致的速度損失??紤]到這個(gè)情況,獎(jiǎng)勵(lì)函數(shù)同樣需要考慮控制能耗。并且由于尋的階段通常非常短,需要導(dǎo)彈快速的攔截目標(biāo)。因此,將獎(jiǎng)勵(lì)函數(shù)定義如下:
Rt=Rδ+Rz+RVr+Rr
(15)
其中
(16)
(17)
(18)
(19)
式中:kδ,kz,kVr和kr是定義獎(jiǎng)勵(lì)函數(shù)的四個(gè)常數(shù)。δzmax為受導(dǎo)彈物理結(jié)構(gòu)限制的最大允許的舵偏角,z0代表零控脫靶量的初始值。
從式(15)中可以看出,獎(jiǎng)勵(lì)函數(shù)的前兩項(xiàng)懲罰的是歸一化后的控制能耗和零控脫靶量。在獎(jiǎng)勵(lì)函數(shù)中使用歸一化處理的原因是舵偏角大小和零控脫靶量具有不同的單位和尺度,很難在沒有歸一化的情況下直接比較。第三項(xiàng)rVr是激勵(lì)導(dǎo)彈持續(xù)減少相對(duì)距離來實(shí)現(xiàn)快速攔截。這一項(xiàng)同時(shí)也對(duì)任務(wù)失敗做出懲罰,因?yàn)槿绻谑S囡w行時(shí)間到0之后,導(dǎo)彈沒有命中目標(biāo),導(dǎo)彈和目標(biāo)之間的相對(duì)距離就會(huì)增加。第四項(xiàng)rr是當(dāng)相對(duì)距離小于一個(gè)正常數(shù)rd之后給予獎(jiǎng)勵(lì)。這一項(xiàng)僅在導(dǎo)彈接近目標(biāo)的時(shí)候產(chǎn)生作用,因此與經(jīng)典優(yōu)化控制問題中終端約束代價(jià)類似,用于約束終端狀態(tài)。簡而言之,本文提出的獎(jiǎng)勵(lì)函數(shù)允許智能體在攔截精度、能量損耗和飛行時(shí)間之間進(jìn)行權(quán)衡。由于強(qiáng)化學(xué)習(xí)的過程具有隨機(jī)性,目前針對(duì)獎(jiǎng)勵(lì)函數(shù)參數(shù)的選擇沒有一個(gè)定量的解析形式,但是可以通過訓(xùn)練結(jié)果定性的調(diào)整參數(shù)的取值。
kδ:通常選取比較小的數(shù)值,訓(xùn)練的首要目的是命中目標(biāo),其次是降低能耗,當(dāng)訓(xùn)練結(jié)果保證命中目標(biāo)后可以適當(dāng)增大取值
kz:驅(qū)動(dòng)零控脫靶量持續(xù)減少,參數(shù)取值過小零控脫靶量無法收斂到零,無法命中目標(biāo),參數(shù)取值過大訓(xùn)練目標(biāo)變?yōu)榱憧孛摪辛繙p小最快而不是零控脫靶量收斂到零。
kVr:驅(qū)動(dòng)相對(duì)距離持續(xù)較少,參數(shù)取值過小無法驅(qū)動(dòng)相對(duì)距離持續(xù)減少,參數(shù)取值過大訓(xùn)練過程無法適應(yīng)相對(duì)距離先增大后減小的情況。
kr:類似終端獎(jiǎng)勵(lì),初始值可以給的較大,參數(shù)取值過小無法命中目標(biāo),參數(shù)取值過大不利于降低控制能耗。
rd:定義為導(dǎo)彈的毀傷半徑。
通過二分法調(diào)整參數(shù)取值,通過進(jìn)行大量的數(shù)值仿真后,形成獎(jiǎng)勵(lì)函數(shù)的超參數(shù)見表1。進(jìn)行訓(xùn)練采取的導(dǎo)彈速度為VM=1000 m/s,目標(biāo)速度為VT=600 m/s,初始攻角為α0=0°,初始俯仰角速率為ωz0=0 (°)/s,初始俯仰角θ0等于導(dǎo)彈彈道傾角初始值γM0,其他初始條件參數(shù)見表2,彈體動(dòng)力學(xué)參數(shù)如式(26)所示。
表1 獎(jiǎng)勵(lì)函數(shù)的超參數(shù)取值Table 1 Hyper-parameters in shaping the reward function
這個(gè)部分定義了DDPG制導(dǎo)控制智能體的訓(xùn)練過程。智能體能夠直接學(xué)習(xí)控制指令δz,產(chǎn)生一個(gè)直接從觀測(cè)量到舵偏角指令的映射:
(20)
式中:fs是一個(gè)非線性函數(shù)。
訓(xùn)練DDPG制導(dǎo)控制智能體包含三個(gè)主要步驟:1)提出訓(xùn)練方案;2)創(chuàng)建執(zhí)行器和評(píng)價(jià)器網(wǎng)絡(luò);3)調(diào)整超參數(shù)。
在本文中,考慮一個(gè)導(dǎo)彈迎頭攻擊的情況。為了更好的使用已經(jīng)學(xué)習(xí)到的經(jīng)驗(yàn),首先采用幾個(gè)特定的初始狀態(tài)條件進(jìn)行訓(xùn)練。初始條件從狀態(tài)的最大值最小值中間選取,其數(shù)值見表2。首先基于這些初始條件序列的訓(xùn)練DDPG制導(dǎo)控制智能體,當(dāng)智能體采用一種特定的初始狀態(tài)進(jìn)行訓(xùn)練到收斂后切換到另一種初始狀態(tài)進(jìn)行訓(xùn)練。通過大量的經(jīng)驗(yàn)測(cè)試,我們發(fā)現(xiàn)提出的智能體在一種初始條件下200個(gè)片段以內(nèi)就能收斂。在特定的初始條件訓(xùn)練完成之后,片段進(jìn)行隨機(jī)初始化訓(xùn)練,初始狀態(tài)從這些狀態(tài)的最小值和最大值之間均勻隨機(jī)選取。這種啟發(fā)式的訓(xùn)練方法比直接從隨機(jī)狀態(tài)開始訓(xùn)練收斂快的多。
表2 訓(xùn)練初始條件取值范圍Table 2 Initial conditions in training
根據(jù)原始的DDPG算法[25],使用四層全連接的神經(jīng)網(wǎng)絡(luò)來表示執(zhí)行器和評(píng)價(jià)器的網(wǎng)絡(luò),這種四層網(wǎng)絡(luò)結(jié)構(gòu)在深度強(qiáng)化學(xué)習(xí)中廣泛應(yīng)用。這兩個(gè)網(wǎng)絡(luò)每一層的大小如表3所示。除了執(zhí)行器的輸出層以外,其他層的每一個(gè)神經(jīng)元都由一個(gè)整流線性單元(Relu)函數(shù)激活,該函數(shù)定義為:
(21)
由于其線性特性,能夠比其他非線性激活函數(shù)提供更快的收斂速度。
并且受彈體結(jié)構(gòu)限制,執(zhí)行器輸出的行為舵偏角大小受限,因此執(zhí)行器網(wǎng)絡(luò)的輸出層由雙曲正切函數(shù)激活:
(22)
執(zhí)行器網(wǎng)絡(luò)使用雙曲正切激活函數(shù)的優(yōu)點(diǎn)是限制執(zhí)行器輸出為(-1, 1),避免控制輸入飽和問題。執(zhí)行器的網(wǎng)絡(luò)輸出層由常數(shù)amax進(jìn)行縮放。
表3 網(wǎng)絡(luò)層結(jié)構(gòu)Table 3 Network layer size
(23)
式中:(·)0表示變量(·)的初始值,當(dāng)初始值為0時(shí),取值為1避免奇異現(xiàn)象。
為了解決穩(wěn)定學(xué)習(xí)過程中的過度擬合問題,執(zhí)行器和評(píng)價(jià)器網(wǎng)絡(luò)都使用帶L2正則化的Adam優(yōu)化器來訓(xùn)練。在使用L2正則化的情況下,執(zhí)行器和評(píng)價(jià)器的更新方式變?yōu)?
(24)
(25)
為了增加網(wǎng)絡(luò)訓(xùn)練過程的穩(wěn)定性,采用梯度截?cái)鄟硐拗茍?zhí)行器和評(píng)價(jià)器網(wǎng)絡(luò)的更新,也就是當(dāng)梯度的范數(shù)超過了一個(gè)給定的上界ρ,梯度就被縮放到等于ρ。這種方式有助于防止訓(xùn)練過程中出現(xiàn)數(shù)值溢出或者下溢現(xiàn)象。
當(dāng)導(dǎo)彈和目標(biāo)之間的相對(duì)距離小于rm=2 m或者時(shí)間步數(shù)超過了允許的最大步數(shù),每一個(gè)片段訓(xùn)練終止。本問題中DDPG算法訓(xùn)練使用的超參數(shù)見表4。調(diào)整超參數(shù)對(duì)于DDPG算法的性能有很大影響,并且這種調(diào)整過程在不同的應(yīng)用范圍內(nèi)是不同的,不同問題有不同超參數(shù)集。在大量數(shù)值仿真經(jīng)驗(yàn)總結(jié)下,給出了表中的超參數(shù)取值。
表4 超參數(shù)設(shè)置Table 4 Hyper parameters setting
仿真訓(xùn)練中與升力和俯仰力矩相關(guān)的參數(shù)為:
(26)
根據(jù)訓(xùn)練方案,首先采取10個(gè)固定的初始條件來序列的訓(xùn)練DDPG制導(dǎo)智能體。每一種初始條件采取200個(gè)片段進(jìn)行DDPG制導(dǎo)控制智能體訓(xùn)練。圖4給出了前四次固定初始條件下的學(xué)習(xí)曲線。曲線中的平均獎(jiǎng)勵(lì)是最近30次片段獎(jiǎng)勵(lì)的平均值。從圖中可以看出在前四次固定初始狀態(tài)訓(xùn)練中,提出的DDPG制導(dǎo)控制智能體的訓(xùn)練結(jié)果能夠在200個(gè)片段訓(xùn)練內(nèi)收斂。當(dāng)使用這些固定的初始狀態(tài)訓(xùn)練完成之后,訓(xùn)練片段的初始化變?yōu)閺臓顟B(tài)量的最小值和最大值之間隨機(jī)均勻取值。隨機(jī)初始條件訓(xùn)練過程的學(xué)習(xí)曲線如圖5所示。從圖中可以看出即使是在隨機(jī)初始條件的情況下,經(jīng)過10次固定的特定初始訓(xùn)練條件訓(xùn)練之后的DDPG制導(dǎo)控制智能體的平均獎(jiǎng)勵(lì)仍然能在200個(gè)片段訓(xùn)練內(nèi)收斂到一個(gè)穩(wěn)態(tài)值。訓(xùn)練過程能夠收斂的原因是智能體已經(jīng)在固定初始條件的訓(xùn)練中得到了一些經(jīng)驗(yàn)。在我們的數(shù)值仿真測(cè)試中,我們發(fā)現(xiàn)使用啟發(fā)式的訓(xùn)練過程比使用隨機(jī)初始條件開始訓(xùn)練的收斂速度要快的多。
圖4 特定初始條件下的學(xué)習(xí)曲線Fig.4 Learning curves with some fixed characteristic initial conditions
圖5 隨機(jī)初始條件下的學(xué)習(xí)曲線Fig.5 Learning curves with random initial condition
為了體現(xiàn)在訓(xùn)練DDPG制導(dǎo)智能體的過程中對(duì)觀測(cè)量和行為進(jìn)行歸一化處理的重要性,圖6給出了第一種固定初始條件下有無歸一化處理的200個(gè)片段訓(xùn)練平均獎(jiǎng)勵(lì)函數(shù)的對(duì)比結(jié)果。從圖中可以看出使用歸一化處理能夠使學(xué)習(xí)過程具有更快的收斂速度和更高的平均獎(jiǎng)勵(lì)穩(wěn)態(tài)值,不采取歸一化處理訓(xùn)練曲線無法收斂。歸一化處理使得觀測(cè)量的每個(gè)元素的權(quán)重都相等,可以使訓(xùn)練過程更有效、更高效。如果沒有歸一化處理,各個(gè)元素之間的尺度相差非常大,例如相對(duì)距離的量級(jí)就比視線角速度大得多,不利于執(zhí)行器和評(píng)價(jià)器網(wǎng)絡(luò)的訓(xùn)練。
圖6 有無歸一化處理過程學(xué)習(xí)曲線對(duì)比Fig.6 Learning process comparison with respect to normalization
為了測(cè)試提出的DDPG制導(dǎo)智能體的攔截表現(xiàn),將訓(xùn)練得到的DDPG制導(dǎo)智能體應(yīng)用到攔截機(jī)動(dòng)目標(biāo)的仿真測(cè)試中,仿真初始條件為相對(duì)距離初值r0=5000,初始彈目視線角λ0=0°,初始導(dǎo)彈彈道傾角為γM0=20°,初始目標(biāo)彈道傾角為γT0=150°,目標(biāo)常值加速度機(jī)動(dòng),加速度為20 m/s2。受彈體結(jié)構(gòu)限制,舵偏角指令限制為|δz|≤δzmax。為了與傳統(tǒng)設(shè)計(jì)方法進(jìn)行對(duì)比,文中采用了兩種方法進(jìn)行對(duì)比,第一種是制導(dǎo)增益為3的比例導(dǎo)引制導(dǎo)律(Proportional navigation guidance,PNG)與自動(dòng)駕駛儀組合來產(chǎn)生舵指令,自動(dòng)駕駛儀采用極點(diǎn)配置法設(shè)計(jì),第二種是采用反步法設(shè)計(jì)的制導(dǎo)控制一體化算法[23],仿真結(jié)果如圖7所示。其中三種算法的攔截精度見表6,可以看出由于采取了大量的數(shù)據(jù)進(jìn)行訓(xùn)練,提出的DDPG制導(dǎo)控制算法精度更高。從圖7(a)可以看出,三種制導(dǎo)算法都能夠成功攔截目標(biāo)。攻角曲線如圖7(b)所示,舵偏角曲線如圖7(c)所示,提出的算法由于懲罰了舵偏角并且采用雙曲正切函數(shù)作為輸出層,抑制了舵偏角指令飽和現(xiàn)象。圖7(d)中的加速度曲線表明,當(dāng)反步法制導(dǎo)控制一體化算法得到的最大加速度約200 m/s2時(shí),攻角約為40°,DDPG制導(dǎo)控制算法得到的最大加速度約為-100 m/s2時(shí),攻角約為-20°,驗(yàn)證了式(11)中導(dǎo)彈的側(cè)向加速度由攻角和重力加速度共同作用產(chǎn)生,同時(shí),舵偏角作用下,為了得到更大的攻角,彈體姿態(tài)的運(yùn)動(dòng)更大,因此攻角過大不利于導(dǎo)彈穩(wěn)定飛行,提出的制導(dǎo)控制智能體產(chǎn)生的最大攻角比傳統(tǒng)反步法低,更利于工程實(shí)現(xiàn)。從圖7(e)中的舵偏角指令控制能耗曲線可以看出,提出的DDPG制導(dǎo)算法在三種算法中能耗最優(yōu)。從圖中曲線可以看出提出的DDPG制導(dǎo)控制算法和反步法制導(dǎo)控制一體化算法曲線類似,但是由于懲罰了舵偏角指令,提出的制導(dǎo)算法得到的舵偏角比反步法制導(dǎo)控制一體化算法得到的舵偏角小,減小了控制能耗。
圖7 目標(biāo)機(jī)動(dòng)情況下仿真測(cè)試曲線Fig.7 Test results with random initial conditions for non-maneuvering target
為了驗(yàn)證算法在工程應(yīng)用的可行性,考慮到從組合導(dǎo)航算法中得到的數(shù)據(jù)存在噪聲,在仿真過程中引入噪聲,對(duì)算法進(jìn)行仿真分析。定義加入的噪聲滿足高斯分布,其標(biāo)準(zhǔn)差的值見表5。從圖8(a)中的飛行軌跡曲線可以看出提出的算法在噪聲作用下仍然能攔截目標(biāo),但是由于存在噪聲,脫靶量增大為1.12 m,圖8(b)給出了舵偏角指令的曲線,可以看出控制量由于觀測(cè)量存在的高斯噪聲產(chǎn)生了高頻抖振。
表5 噪聲高斯分布標(biāo)準(zhǔn)差Table 5 Standard deviation of Gaussian distribution noise
為了測(cè)試算法對(duì)比其他兩種算法的魯棒性,對(duì)參數(shù)(26)負(fù)向拉偏40%后,采用3種算法分別進(jìn)行仿真,仿真結(jié)果如圖9所示。仿真結(jié)果表明,在參數(shù)進(jìn)行負(fù)向拉偏后,比例導(dǎo)引和反步法制導(dǎo)控制一體化算法控制量飽和部分增加,而提出的DDPG制導(dǎo)控制算法由于懲罰了舵偏角指令且采取了抑制飽和的輸出層,很好的抑制了飽和效應(yīng)。三種算法的脫靶量見表6,可以看出參數(shù)負(fù)偏導(dǎo)致了制導(dǎo)律脫靶量增大,但是相比之下提出的算法精度仍然最高。
為了展現(xiàn)算法的魯棒性和泛化性,對(duì)訓(xùn)練采用的參數(shù)(26)分別正向拉偏40%和負(fù)向拉偏40%后,
圖9 參數(shù)負(fù)向拉偏三種算法對(duì)比仿真Fig.9 Simulation results of three guidance algorithm with parameters negative deviation
采用訓(xùn)練得到的制導(dǎo)控制智能體進(jìn)行制導(dǎo)控制仿真,結(jié)果如圖10所示。仿真結(jié)果表明在參數(shù)存在不確定性的情況下,提出的制導(dǎo)控制智能體仍然能保證導(dǎo)彈命中機(jī)動(dòng)目標(biāo),制導(dǎo)控制智能體對(duì)氣動(dòng)參數(shù)和彈體參數(shù)的不確定性具有良好的魯棒性,系統(tǒng)不確定性對(duì)舵偏角指令產(chǎn)生影響。
最后,為了更進(jìn)一步測(cè)試算法的魯棒性,初始條件在設(shè)定值的最大值最小值外浮動(dòng)10%,參數(shù)(26)在標(biāo)準(zhǔn)參數(shù)的基礎(chǔ)上正負(fù)隨機(jī)偏差40%,采用不同隨機(jī)初始條件對(duì)三種算法同時(shí)進(jìn)行蒙特卡洛數(shù)值仿真,仿真次數(shù)設(shè)置為100次。在每個(gè)測(cè)試周期中,目標(biāo)的側(cè)向加速度為常值,均勻隨機(jī)從最小值-20 m/s2和最大值20 m/s2之間取值。三種算法的脫靶量結(jié)果如圖11所示,坐標(biāo)信息為相對(duì)于目標(biāo)位置的相對(duì)信息,同時(shí)仿真脫靶量的統(tǒng)計(jì)結(jié)果見表6,可以看出由于采取了大量的數(shù)據(jù)進(jìn)行離線學(xué)習(xí),提出的制導(dǎo)控制一體化算法在三者中精度最高。
圖10 參數(shù)不確定性測(cè)試結(jié)果Fig.10 Test results with parameters uncertainty
圖11 三種算法蒙特卡洛仿真結(jié)果Fig.11 Monte Carlo simulation results of three guidance algorithm
表6 不同仿真情況下三種制導(dǎo)算法脫靶量數(shù)值Table 6 Missdistance of three guidance algorithm for different simulation cases
本文基于深度強(qiáng)化學(xué)習(xí)理論提出了一個(gè)針對(duì)導(dǎo)彈目標(biāo)攔截問題的制導(dǎo)控制一體化算法。將制導(dǎo)控制一體化問題轉(zhuǎn)化為一個(gè)強(qiáng)化學(xué)習(xí)優(yōu)化問題,并且提出了一種啟發(fā)式的獎(jiǎng)勵(lì)函數(shù)使導(dǎo)彈能低能耗且快速穩(wěn)定的攔截目標(biāo)。采用深度確定性策略梯度算法來訓(xùn)練強(qiáng)化學(xué)習(xí)制導(dǎo)控制智能體,使總回報(bào)的期望最大化,生成從觀測(cè)量到行為映射的確定性策略,即生成了從觀測(cè)量到舵偏角指令的映射。大量的數(shù)值仿真驗(yàn)證了提出算法的有效性和魯棒性,同傳統(tǒng)制導(dǎo)控制設(shè)計(jì)方法對(duì)比說明了提出的算法能耗更優(yōu)。