齊義文,張 弛,陳禹西
(沈陽(yáng)航空航天大學(xué) 自動(dòng)化學(xué)院,沈陽(yáng) 110136)
變循環(huán)航空發(fā)動(dòng)機(jī)與渦輪或渦扇發(fā)動(dòng)機(jī)相比,增加了眾多可變幾何部件,可改變發(fā)動(dòng)機(jī)的循環(huán)參數(shù)[1],以滿足亞音速、跨音速、超音速等不同條件下的飛行要求,顯著提高發(fā)動(dòng)機(jī)推進(jìn)系統(tǒng)的整體性能。但可控部件的增多、各部件之間存在的耦合等因素卻給控制系統(tǒng)設(shè)計(jì)增加了負(fù)擔(dān),而PID控制、自抗擾控制、模糊控制等傳統(tǒng)控制方法又存在響應(yīng)速度較慢、魯棒性較弱等局限,對(duì)于變循環(huán)航空發(fā)動(dòng)機(jī)這一類(lèi)多變量、多模態(tài)、強(qiáng)耦合系統(tǒng),難以在全包線和變工況下達(dá)到理想的控制效能[2]。因此,探索其他性能更優(yōu)異、設(shè)計(jì)更簡(jiǎn)便、響應(yīng)速度更快的控制方法十分必要。而強(qiáng)化學(xué)習(xí)方法作為人工智能技術(shù)重要的前沿方法之一,具有不依賴(lài)模型、自學(xué)習(xí)、自更新等優(yōu)點(diǎn)[3],可通過(guò)“試錯(cuò)”方式不斷形成經(jīng)驗(yàn)完善的控制策略,是解決復(fù)雜系統(tǒng)控制設(shè)計(jì)難題的一種有效手段。
有關(guān)強(qiáng)化學(xué)習(xí)方法在其他領(lǐng)域的應(yīng)用,國(guó)內(nèi)外已有頗多成果。Xie等[4]提出了一種基于強(qiáng)化學(xué)習(xí)的模糊自適應(yīng)滑??刂破?,改善了三剛體連桿機(jī)械手的抖振效果,并保持了魯棒性。Samadi等[5]提出了一種基于多智能體的分布式微電網(wǎng)能量管理方法,采用強(qiáng)化學(xué)習(xí)優(yōu)化了運(yùn)行成本。You等[6]提出了一種基于深度確定性策略梯度的無(wú)人機(jī)連續(xù)戰(zhàn)略機(jī)動(dòng)規(guī)劃方法,改善了三維動(dòng)態(tài)高空環(huán)境下目標(biāo)跟蹤的魯棒性。Zhao[7]利用一種新的強(qiáng)化學(xué)習(xí)方法,研究了多參與者連續(xù)時(shí)間非線性系統(tǒng)非零和博弈的最優(yōu)跟蹤控制問(wèn)題。Lan等[8]應(yīng)用強(qiáng)化學(xué)習(xí)理論實(shí)現(xiàn)了集群系統(tǒng)在未知?jiǎng)討B(tài)環(huán)境下的協(xié)同學(xué)習(xí)與作業(yè)。Huang等[9]利用深度強(qiáng)化學(xué)習(xí)的高維特征提取和非線性泛化能力,開(kāi)發(fā)了電力系統(tǒng)新型自適應(yīng)應(yīng)急控制方案。Chu等[10]提出了兩種方法用于穩(wěn)定強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過(guò)程,利用大型合成交通網(wǎng)格模擬摩納哥市的大型交通網(wǎng)絡(luò)動(dòng)態(tài),試驗(yàn)證明所提出算法具有最優(yōu)性和魯棒性。相曉嘉等[11]以固定翼無(wú)人機(jī)為對(duì)象,考慮復(fù)雜動(dòng)態(tài)環(huán)境的隨機(jī)性和不確定性,提出了基于無(wú)模型深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)編隊(duì)協(xié)調(diào)控制方法。張耀中等[12]針對(duì)無(wú)人機(jī)集群協(xié)同執(zhí)行對(duì)敵方來(lái)襲目標(biāo)的追擊任務(wù),設(shè)計(jì)了一種引導(dǎo)型回報(bào)函數(shù),有效解決了深度強(qiáng)化學(xué)習(xí)在長(zhǎng)周期任務(wù)下的稀疏回報(bào)問(wèn)題。
在變循環(huán)航空發(fā)動(dòng)機(jī)控制方面,何鳳林等[13]針對(duì)XTE76變循環(huán)航空發(fā)動(dòng)機(jī)的控制結(jié)構(gòu)問(wèn)題,研究了對(duì)二分塊之間進(jìn)行解耦的控制方法。肖紅亮等[14]針對(duì)變循環(huán)航空發(fā)動(dòng)機(jī)存在的不確定性及外部干擾下多變量輸出跟蹤控制問(wèn)題,給出了一種基于線性二次型調(diào)節(jié)器(Linear Quadratic Regulator,LQR)方法的增廣模型參考自適應(yīng)滑??刂品椒?。Chen等[15]提出了一種基于紅外預(yù)測(cè)模型的變循環(huán)航空發(fā)動(dòng)機(jī)最小紅外特性性能尋求控制方法,并對(duì)雙旁路可變循環(huán)航空發(fā)動(dòng)機(jī)分別進(jìn)行了最大推力、最小耗油率和最小紅外特性優(yōu)化控制仿真。陳玉春等[16]針對(duì)變循環(huán)航空發(fā)動(dòng)機(jī)多變量穩(wěn)態(tài)控制規(guī)律優(yōu)化設(shè)計(jì),提出了一種新方法—逆算法。
盡管變循環(huán)航空發(fā)動(dòng)機(jī)控制取得了一些進(jìn)展,但強(qiáng)化學(xué)習(xí)方法在本領(lǐng)域的應(yīng)用尚不多見(jiàn),仍多采用依賴(lài)于專(zhuān)家經(jīng)驗(yàn)的PID變參控制方法。而強(qiáng)化學(xué)習(xí)方法具有不依賴(lài)模型的優(yōu)點(diǎn),用于變循環(huán)航空發(fā)動(dòng)機(jī)這一類(lèi)強(qiáng)非線性復(fù)雜系統(tǒng)的控制,可有效降低控制設(shè)計(jì)難度,其自學(xué)習(xí)性、自更新性可實(shí)現(xiàn)變循環(huán)航空發(fā)動(dòng)機(jī)多變工況下的高性能控制。據(jù)此,本文針對(duì)變循環(huán)航空發(fā)動(dòng)機(jī),給出兩種基于強(qiáng)化學(xué)習(xí)方法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)方法,并通過(guò)仿真驗(yàn)證了方法的快速性、準(zhǔn)確性、穩(wěn)定性與魯棒性。
本文采用的是姜渭宇等[17]在“變循環(huán)渦扇發(fā)動(dòng)機(jī)智能控制仿真平臺(tái)研究”一文中建立的雙外涵變循環(huán)航空發(fā)動(dòng)機(jī)模型,其結(jié)構(gòu)如圖1所示。
圖1 變循環(huán)航空發(fā)動(dòng)機(jī)結(jié)構(gòu)圖
與傳統(tǒng)發(fā)動(dòng)機(jī)相比,該發(fā)動(dòng)機(jī)增加了多個(gè)可調(diào)部件,其可控參數(shù)包括:主燃油流量、高壓壓氣機(jī)導(dǎo)流葉片角度、加力燃油流量、風(fēng)扇導(dǎo)流葉片角度、噴口臨界面積、噴口膨脹面積、核心機(jī)風(fēng)扇導(dǎo)流葉片角度、低壓渦輪導(dǎo)向器控制角度、核心機(jī)風(fēng)扇的混合器面積、第一外涵面積。此外,模型輸入還包括來(lái)流氣體參數(shù),即進(jìn)氣靜壓、進(jìn)氣靜溫、進(jìn)氣總壓與進(jìn)氣總溫等。
變循環(huán)航空發(fā)動(dòng)機(jī)傳感器測(cè)點(diǎn)參數(shù)包括:風(fēng)扇物理轉(zhuǎn)速、高壓物理轉(zhuǎn)速、進(jìn)氣靜壓、進(jìn)氣靜溫、進(jìn)氣總溫、進(jìn)氣總壓、風(fēng)扇后內(nèi)涵溫度、風(fēng)扇后內(nèi)涵壓力、核心機(jī)風(fēng)扇后內(nèi)涵溫度、核心機(jī)風(fēng)扇后內(nèi)涵壓力、高壓壓氣機(jī)后溫度、高壓壓氣機(jī)后壓力、渦輪后溫度、渦輪后壓力等。此外,根據(jù)模型輸入?yún)?shù)及傳感器參數(shù)可間接計(jì)算推力、壓比、流量、涵道比等不可測(cè)的變循環(huán)航空發(fā)動(dòng)機(jī)性能參數(shù)。出于安全保護(hù),變循環(huán)航空發(fā)動(dòng)機(jī)在運(yùn)行期間還需考慮高低壓轉(zhuǎn)速與渦輪前溫度等限制。
強(qiáng)化學(xué)習(xí)用于描述和解決智能體在與環(huán)境交互過(guò)程中通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題[18],其簡(jiǎn)潔原理如圖2所示。
圖2 強(qiáng)化學(xué)習(xí)示意圖
智能體不斷接收環(huán)境狀態(tài)信息,并基于狀態(tài)信息反饋相應(yīng)動(dòng)作于環(huán)境,更新環(huán)境狀態(tài)。同時(shí),智能體在做出動(dòng)作后會(huì)獲得對(duì)應(yīng)獎(jiǎng)勵(lì),通過(guò)與環(huán)境的往復(fù)交互,利用獎(jiǎng)勵(lì)不斷更新策略,達(dá)到既定學(xué)習(xí)目標(biāo)。與傳統(tǒng)控制方法相比,強(qiáng)化學(xué)習(xí)方法支持多維度輸入輸出,可不依賴(lài)控制模型,并對(duì)非線性復(fù)雜系統(tǒng)有著出色的逼近能力,且對(duì)對(duì)象運(yùn)行特性的未知變化和不確定性有良好的預(yù)測(cè)、自學(xué)習(xí)能力和魯棒性。
深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)是一種基于值的強(qiáng)化學(xué)習(xí)算法[19],算法流程如圖3所示。通過(guò)交互,不斷更新Q網(wǎng)絡(luò)參數(shù)來(lái)擬合動(dòng)作價(jià)值函數(shù),該函數(shù)進(jìn)一步指導(dǎo)動(dòng)作輸出。同時(shí),引入經(jīng)驗(yàn)集合,緩存交互參數(shù),并隨機(jī)采樣緩存經(jīng)驗(yàn)實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的批量更新,既節(jié)約了計(jì)算資源,也有效減弱了時(shí)間序列對(duì)網(wǎng)絡(luò)更新的影響。
基于DQN算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)主要分為如下4步。
(1)狀態(tài)與動(dòng)作參數(shù)選取
為降低Q網(wǎng)絡(luò)對(duì)動(dòng)作價(jià)值函數(shù)的擬合難度,狀態(tài)參數(shù)需直觀反映變循環(huán)航空發(fā)動(dòng)機(jī)工作狀態(tài)。此外,動(dòng)作參數(shù)與狀態(tài)參數(shù)之間需具有明確對(duì)應(yīng)關(guān)系,否則會(huì)增加網(wǎng)絡(luò)訓(xùn)練難度,甚至無(wú)法收斂。本設(shè)計(jì)將表征發(fā)動(dòng)機(jī)運(yùn)行情況的變循環(huán)航空發(fā)動(dòng)機(jī)高低壓轉(zhuǎn)子轉(zhuǎn)速作為狀態(tài)參數(shù)。在設(shè)計(jì)初期,選取目標(biāo)推力、推力誤差、高低壓轉(zhuǎn)子轉(zhuǎn)速3項(xiàng)作為控制器輸入狀態(tài)參數(shù);選取主燃油流量作為控制器輸出參數(shù),其余執(zhí)行機(jī)構(gòu)輸出由相關(guān)控制規(guī)律給定。在網(wǎng)絡(luò)訓(xùn)練中,通過(guò)給定不同目標(biāo)推力指令來(lái)實(shí)現(xiàn)可變推力控制要求。然而在實(shí)際訓(xùn)練中,由于控制精度要求,需對(duì)主燃油流量動(dòng)作進(jìn)行更精細(xì)的劃分,并且不同目標(biāo)推力給定的訓(xùn)練十分耗時(shí)。在這樣的背景下,初期設(shè)計(jì)的網(wǎng)絡(luò)對(duì)于訓(xùn)練之外的目標(biāo)推力難以實(shí)現(xiàn)較好的預(yù)測(cè)效果。
圖3 DQN算法原理圖
進(jìn)一步對(duì)狀態(tài)和動(dòng)作參數(shù)再設(shè)計(jì),將控制器輸入狀態(tài)參數(shù)調(diào)整為推力誤差、高低壓轉(zhuǎn)子轉(zhuǎn)速和上一時(shí)刻主燃油流量;將控制器輸出參數(shù)調(diào)整為主燃油流量的增量,并加以限制,使變循環(huán)航空發(fā)動(dòng)機(jī)運(yùn)行在安全范圍內(nèi)。這樣,新設(shè)計(jì)方法既減小了動(dòng)作集合A的大小,提高了訓(xùn)練速度,又能對(duì)變指令操作起到良好的控制效果。在上述設(shè)計(jì)基礎(chǔ)上進(jìn)一步擴(kuò)展,考慮變循環(huán)航空發(fā)動(dòng)機(jī)變工作點(diǎn)運(yùn)行。在訓(xùn)練時(shí),考慮不同工作點(diǎn)的來(lái)流參數(shù)。同時(shí),引入推力階躍訓(xùn)練指令,使控制器在變推力指令時(shí)仍具備高精度控制性能。最終,本文選用改進(jìn)后的狀態(tài)、動(dòng)作參數(shù)作為控制器的輸入輸出。
(2)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是否合理直接影響到網(wǎng)絡(luò)能否收斂、收斂效果及控制精度。獎(jiǎng)勵(lì)條件與控制目標(biāo)還需具有確切關(guān)系,以起到對(duì)網(wǎng)絡(luò)訓(xùn)練的有效指導(dǎo)作用。此處設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)由推力誤差決定,推力誤差絕對(duì)值越小,對(duì)應(yīng)獎(jiǎng)勵(lì)值越大。設(shè)計(jì)初期采用的獎(jiǎng)勵(lì)函數(shù)為
(1)
式(1)中:Fn_e為推力誤差絕對(duì)值;r為獎(jiǎng)勵(lì)值。但基于該獎(jiǎng)勵(lì)條件與上述選取的狀態(tài)、動(dòng)作參數(shù)設(shè)計(jì)的推力控制器穩(wěn)態(tài)誤差較大,無(wú)法滿足控制要求。因此,對(duì)推力誤差絕對(duì)值與獎(jiǎng)勵(lì)條件做了進(jìn)一步劃分,以達(dá)到高性能的控制目標(biāo),改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)為
(2)
最終,采用式(2)的獎(jiǎng)勵(lì)函數(shù),有效減小了穩(wěn)態(tài)誤差,提高了控制精度。
(3)控制策略設(shè)計(jì)
由于網(wǎng)絡(luò)層數(shù)較多,為便于理解,本文均以3層網(wǎng)絡(luò)為例加以說(shuō)明。Q網(wǎng)絡(luò)接收變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)參數(shù)s,輸出當(dāng)前狀態(tài)下全部主燃油流量增量動(dòng)作對(duì)應(yīng)的Q值,即Q(s,A)。
(3)
式(3)中:ωQ1∈R(n+p)×m與ωQ2∈Rm×p均為權(quán)重矩陣;bQ∈Rm為偏置列向量;σ(·)為Relu激活函數(shù),s∈Rn為變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)列向量,A∈Rp為主燃油增量動(dòng)作列向量,也稱(chēng)動(dòng)作集合。通過(guò)ε-greedy策略從動(dòng)作集合A中選擇主燃油增量作為輸出動(dòng)作,變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)參數(shù)更新為s′并得到獎(jiǎng)勵(lì)值r。ε-greedy策略為
(4)
式(4)中:a∈R為A中包含的主燃油增量動(dòng)作之一;maxQ(s,A)為從式(3)選取最大的Q(si,ai),i=1,2,…,p對(duì)應(yīng)的主燃油增量動(dòng)作a;randmona為從A中隨機(jī)選取主燃油增量動(dòng)作;rand為0~1的隨機(jī)數(shù);ε為0~1的隨機(jī)因子,通過(guò)改變?chǔ)诺拇笮】烧{(diào)節(jié)Q網(wǎng)絡(luò)訓(xùn)練期間的隨機(jī)探索性。訓(xùn)練初期ε取0.3,使網(wǎng)絡(luò)具有較大探索能力。隨著訓(xùn)練時(shí)間的增加,ε逐漸減小。完成訓(xùn)練后,將ε置為0,使其完全按照已具備大量經(jīng)驗(yàn)的Q網(wǎng)絡(luò)輸出主燃油增量動(dòng)作。
(4)更新Q網(wǎng)絡(luò)
鑒于變循環(huán)航空發(fā)動(dòng)機(jī)仿真模型每次運(yùn)行都包括約150s的起動(dòng)段,之后強(qiáng)化學(xué)習(xí)控制器才介入,而起動(dòng)段的交互信息對(duì)強(qiáng)化學(xué)習(xí)控制器訓(xùn)練是無(wú)效的,因此設(shè)定經(jīng)驗(yàn)集合在強(qiáng)化學(xué)習(xí)控制器介入后才開(kāi)始緩存交互經(jīng)驗(yàn)。從經(jīng)驗(yàn)集合中隨機(jī)采樣訓(xùn)練樣本,每次采樣的經(jīng)驗(yàn)格式為[s,a,s′,r,is_done],其中is_done判斷s′是否為終止?fàn)顟B(tài),具體包括判斷高低壓轉(zhuǎn)子轉(zhuǎn)速、推力誤差、渦輪溫度、喘振等變循環(huán)航空發(fā)動(dòng)機(jī)重要指標(biāo)是否超限,若任一指標(biāo)超限,則s′為終止?fàn)顟B(tài),is_done為1,結(jié)束本輪仿真;否則is_done為0,繼續(xù)執(zhí)行仿真訓(xùn)練。s′輸入至Q網(wǎng)絡(luò),Q網(wǎng)絡(luò)輸出s′狀態(tài)下對(duì)應(yīng)全部主燃油增量動(dòng)作的Q值Q(s′,A),將最大Q值記為Q(s′,a′),據(jù)此,計(jì)算目標(biāo)Q值即Q′
(5)
基于此,可計(jì)算Q網(wǎng)絡(luò)反向傳播誤差JQ為
(6)
式(6)中:q為采樣個(gè)數(shù)。Q網(wǎng)絡(luò)通過(guò)梯度下降法更新權(quán)重與偏置參數(shù)
(7)
(8)
式(7)~(8)中:αQ∈R為Q網(wǎng)絡(luò)更新步長(zhǎng)。鑒于每輪仿真DQN控制器與變循環(huán)航空發(fā)動(dòng)機(jī)模型的交互次數(shù)是可獲取的,而每次交互獲得的獎(jiǎng)勵(lì)值也是可記錄的,當(dāng)網(wǎng)絡(luò)收斂至最優(yōu)動(dòng)作價(jià)值函數(shù)時(shí),控制器每次交互均可得到最大的獎(jiǎng)勵(lì)值。基于此,將網(wǎng)絡(luò)更新收斂條件設(shè)為單輪仿真累計(jì)獎(jiǎng)勵(lì)值最大,即控制器每次交互獲得的獎(jiǎng)勵(lì)值最大。
深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是一種融合了基于值與策略的強(qiáng)化學(xué)習(xí)算法[20],算法流程如圖4所示。與DQN算法相同的是采用經(jīng)驗(yàn)集合緩存交互參數(shù)。與DQN不同在于,DDPG使用4個(gè)神經(jīng)網(wǎng)絡(luò),并行兩隊(duì)快速更新和緩慢更新的神經(jīng)網(wǎng)絡(luò),提高了網(wǎng)絡(luò)穩(wěn)定性。4個(gè)網(wǎng)絡(luò)作用分別為:Actor估計(jì)網(wǎng)絡(luò)與環(huán)境交互;和Critic估計(jì)網(wǎng)絡(luò)通過(guò)交互信息更新自身參數(shù)并指導(dǎo)Actor估計(jì)網(wǎng)絡(luò)更新;Actor目標(biāo)網(wǎng)絡(luò)與Critic目標(biāo)網(wǎng)絡(luò)預(yù)測(cè)下一時(shí)刻動(dòng)作與動(dòng)作價(jià)值函數(shù)。
圖4 DDPG算法原理圖
基于DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制狀態(tài)參數(shù)選取、獎(jiǎng)勵(lì)函數(shù)設(shè)置、訓(xùn)練指令設(shè)計(jì)、網(wǎng)絡(luò)收斂條件設(shè)定、經(jīng)驗(yàn)集合緩存機(jī)制與DQN算法一致,不同在于DDPG算法無(wú)需構(gòu)建離散的主燃油增量動(dòng)作集合A,而是通過(guò)Actor估計(jì)網(wǎng)絡(luò)自學(xué)習(xí)、自更新以輸出主燃油增量動(dòng)作。此外,還需對(duì)主燃油流量加以限制,實(shí)現(xiàn)對(duì)變循環(huán)航空發(fā)動(dòng)機(jī)的安全保護(hù)。
基于DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)主要分為4步。
(1)Actor估計(jì)網(wǎng)絡(luò)設(shè)計(jì)
以變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)參數(shù)s作為Actor估計(jì)網(wǎng)絡(luò)輸入,輸出對(duì)應(yīng)主燃油增量aWf,更新變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)s′并得到獎(jiǎng)勵(lì)r,動(dòng)作aWf與狀態(tài)s的關(guān)系為
aWf=ωea2Tσ(ωea1Ts-bea)+N
(9)
式(9)中:aWf′∈R為主燃油增量;ωea1∈Rn×m與ωea2∈Rm×l均為權(quán)重矩陣;bea∈Rm為偏置列向量,N∈R為添加的高斯噪聲,且隨著網(wǎng)絡(luò)迭代增加,噪聲強(qiáng)度逐漸減弱,以此來(lái)解決訓(xùn)練過(guò)程前、后期不同的探索與收斂需求。
(2)Critic估計(jì)網(wǎng)絡(luò)設(shè)計(jì)
Critic估計(jì)網(wǎng)絡(luò)評(píng)價(jià)Actor估計(jì)網(wǎng)絡(luò)在當(dāng)前變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)s下輸出主燃油增量動(dòng)作aWf的優(yōu)劣,以s和aWf作為Critic估計(jì)網(wǎng)絡(luò)輸入,輸出評(píng)價(jià)函數(shù)Qc(s,aWf)。
(10)
式(10)中:ωec1∈R(n+l)×m為權(quán)重矩陣;ωec2∈Rm為權(quán)重列向量;bec∈Rm為偏置列向量。
(3)Actor與Critic目標(biāo)網(wǎng)絡(luò)設(shè)計(jì)
Actor目標(biāo)網(wǎng)絡(luò)、Critic目標(biāo)網(wǎng)絡(luò)分別與Actor估計(jì)網(wǎng)絡(luò)、Critic估計(jì)網(wǎng)絡(luò)初始參數(shù)及網(wǎng)絡(luò)結(jié)構(gòu)完全一致。Actor目標(biāo)網(wǎng)絡(luò)以Actor估計(jì)網(wǎng)絡(luò)作用后的變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)s′作為輸入,輸出新的主燃油增量動(dòng)作aWf′,Critic目標(biāo)網(wǎng)絡(luò)以s′和aWf′作為輸入,輸出評(píng)價(jià)函數(shù)Qc(s′,aWf′)。
(4)網(wǎng)絡(luò)更新
Critic估計(jì)網(wǎng)絡(luò)的反向傳播誤差為
(11)
式(11)中:q為采樣個(gè)數(shù);yi為目標(biāo)評(píng)價(jià)函數(shù)值。
(12)
式(12)中:ri為獎(jiǎng)勵(lì);γ為折扣因子;取值范圍為0~1?;诖?,可得出Critic估計(jì)網(wǎng)絡(luò)權(quán)重與偏置更新公式
(13)
(14)
式(13)~(14)中:αec為Critic估計(jì)網(wǎng)絡(luò)更新步長(zhǎng)。為減小Critic估計(jì)網(wǎng)絡(luò)的反向傳播誤差Jec,Actor估計(jì)網(wǎng)絡(luò)需輸出使評(píng)價(jià)函數(shù)Qc(s,aWf)值更大的主燃油增量動(dòng)作aWf,Actor估計(jì)網(wǎng)絡(luò)的反向傳播誤差為
(15)
基于此,可得出Actor估計(jì)網(wǎng)絡(luò)權(quán)重與偏置更新公式
(16)
(17)
需要注意的是,目標(biāo)網(wǎng)絡(luò)與估計(jì)網(wǎng)絡(luò)具有不同的更新頻率,以減弱網(wǎng)絡(luò)間的耦合性,目標(biāo)網(wǎng)絡(luò)以軟更新的方式更新權(quán)重與偏置,即每次只以較小幅度更新網(wǎng)絡(luò)參數(shù),Critic目標(biāo)網(wǎng)絡(luò)更新公式為
ωtci=τωeci+(1-τ)ωtci,i=1,2
(18)
btc=τbec+(1-τ)btc
(19)
Actor目標(biāo)網(wǎng)絡(luò)更新公式為
ωtai=τωeai+(1-τ)ωtai,i=1,2
(20)
bta=τbea+(1-τ)bta
(21)
式(18)~(21)中,τ為0.1以下的更新系數(shù)。
分別在高度H=13 km、馬赫數(shù)Ma=0.8和高度H=10 km、馬赫數(shù)Ma=1.5兩種飛行狀態(tài)下,進(jìn)行變循環(huán)航空發(fā)動(dòng)機(jī)強(qiáng)化學(xué)習(xí)推力控制方法的仿真驗(yàn)證??刂破魍ㄟ^(guò)輸入設(shè)定的變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)參數(shù),輸出主燃油增量指令,其余控制變量由與反饋推力相關(guān)的控制規(guī)律給定,模型輸出變循環(huán)航空發(fā)動(dòng)機(jī)各性能參數(shù)。給出不同推力指令下實(shí)際反饋推力與主燃油流量的變化,并將基于DQN算法、DDPG算法設(shè)計(jì)的兩種控制器進(jìn)行對(duì)比分析。
圖5~圖6給出了在高度H=13 km、馬赫數(shù)Ma=0.8飛行條件下,基于DQN和DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)控制器150s階躍指令下的推力響應(yīng)和主燃油流量變化。DQN控制器達(dá)到了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時(shí)間1.25 s和超調(diào)量0.53%的控制指標(biāo),DDPG控制器則實(shí)現(xiàn)了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時(shí)間1.2 s和超調(diào)量0.27%的較高精度控制。兩種設(shè)計(jì)均獲得良好的跟蹤控制品質(zhì),驗(yàn)證了控制設(shè)計(jì)的正確性和有效性。
圖5 高度13km、Ma=0.8階躍指令DQN控制器仿真結(jié)果
圖6 高度13 km、Ma=0.8階躍指令DDPG控制器仿真結(jié)果
圖7~圖8給出了在高度H=10 km、馬赫數(shù)Ma=1.5飛行條件下,基于DQN和DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)控制器150 s階躍指令下的推力響應(yīng)和主燃油流量變化。可知,DQN控制器達(dá)到了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時(shí)間1.31 s和超調(diào)量1%的控制指標(biāo),DDPG控制器實(shí)現(xiàn)了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時(shí)間1.5 s和超調(diào)量0.27%的控制指標(biāo)。
圖7 高度10 km、Ma=1.5階躍指令DQN控制器仿真結(jié)果
圖8 高度10 km、Ma=1.5階躍指令DDPG控制器仿真結(jié)果
在變循環(huán)航空發(fā)動(dòng)機(jī)推力控制仿真驗(yàn)證中,DDPG控制器與DQN控制器達(dá)到了相同的高控制精度,二者調(diào)節(jié)時(shí)間差別不大,而DDPG控制作用下的超調(diào)量顯著小于DQN控制器。需要注意的是,雖然DQN算法下的推力控制設(shè)計(jì)實(shí)現(xiàn)了較高的控制性能,但算法本身僅支持離散的燃油增量動(dòng)作輸出,其推力響應(yīng)與主燃油流量輸入經(jīng)多次動(dòng)作設(shè)計(jì)后仍存在較小幅度的振蕩。DDPG算法支持連續(xù)的燃油增量動(dòng)作輸出,無(wú)需構(gòu)建動(dòng)作集合即可實(shí)現(xiàn)變循環(huán)航空發(fā)動(dòng)機(jī)推力及主燃油流量的無(wú)振蕩調(diào)節(jié)。由此,基于DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制器通過(guò)自學(xué)習(xí)、自更新,有效地實(shí)現(xiàn)了推力的穩(wěn)定、快速、準(zhǔn)確控制,進(jìn)一步驗(yàn)證了基于強(qiáng)化學(xué)習(xí)方法的變循環(huán)航空發(fā)動(dòng)機(jī)控制器輸入輸出參數(shù)及獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的合理性。
由表1可見(jiàn),基于DQN與DDPG兩種強(qiáng)化學(xué)習(xí)方法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)均實(shí)現(xiàn)了變循環(huán)航空發(fā)動(dòng)機(jī)高精度可變推力控制。由于DQN算法僅支持離散動(dòng)作輸出,在推力控制設(shè)計(jì)中,需對(duì)其主燃油流量增量動(dòng)作集合不斷完善,設(shè)計(jì)不當(dāng)會(huì)導(dǎo)致主燃油流量與輸出推力發(fā)生大幅振蕩。
表1 主要控制性能指標(biāo)
綜上,在不同飛行狀態(tài)下,基于DQN和DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)在階躍指令下均實(shí)現(xiàn)了高性能、高精度控制。
本文對(duì)兩種變循環(huán)航空發(fā)動(dòng)機(jī)強(qiáng)化學(xué)習(xí)推力控制方法進(jìn)行了研究,可得出以下結(jié)論:
(1)強(qiáng)化學(xué)習(xí)算法對(duì)于變循環(huán)航空發(fā)動(dòng)機(jī)這一類(lèi)具有強(qiáng)非線性、強(qiáng)耦合的復(fù)雜系統(tǒng),可實(shí)現(xiàn)較好的控制效果,且具有穩(wěn)定、快速、準(zhǔn)確的優(yōu)點(diǎn)。其不依賴(lài)模型的特點(diǎn)在一定程度上可簡(jiǎn)化控制設(shè)計(jì),降低設(shè)計(jì)難度。
(2)控制增量設(shè)計(jì)可有效避免DQN一類(lèi)基于值的強(qiáng)化學(xué)習(xí)算法輸出存在振蕩的問(wèn)題,彌補(bǔ)算法本身只支持離散動(dòng)作輸出的不足,既提高了訓(xùn)練速度,也改善了控制精度。但動(dòng)作設(shè)計(jì)的合理性需通過(guò)實(shí)驗(yàn)進(jìn)一步確定。
(3)在網(wǎng)絡(luò)訓(xùn)練過(guò)程中加入隨機(jī)噪聲可提高網(wǎng)絡(luò)的探索性,引入變指令訓(xùn)練可提高網(wǎng)絡(luò)對(duì)不同控制指令的控制及預(yù)測(cè)能力。從經(jīng)驗(yàn)集合中隨機(jī)采樣訓(xùn)練樣本,可有效減弱時(shí)間序列對(duì)網(wǎng)絡(luò)訓(xùn)練帶來(lái)的不利影響。
然而,在變循環(huán)航空發(fā)動(dòng)機(jī)強(qiáng)化學(xué)習(xí)控制設(shè)計(jì)過(guò)程中,仍存在一些問(wèn)題有待研究:
(1)如何利用已有的設(shè)計(jì)方案實(shí)現(xiàn)變循環(huán)航空發(fā)動(dòng)機(jī)全包線、多工況、多變量、多目標(biāo)的尋優(yōu)設(shè)計(jì),進(jìn)一步提高控制品質(zhì)。
(2)由于發(fā)動(dòng)機(jī)的歷史運(yùn)行數(shù)據(jù)是可獲取的,如何利用已有數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)參數(shù)的初始化來(lái)減少網(wǎng)絡(luò)運(yùn)行成本,還需進(jìn)一步考量。
(3)發(fā)動(dòng)機(jī)性能衰退是發(fā)動(dòng)機(jī)服役過(guò)程中不可避免的問(wèn)題,而強(qiáng)化學(xué)習(xí)算法又具備自學(xué)習(xí)、自更新能力,如何使發(fā)動(dòng)機(jī)在特性衰退時(shí)仍保持一定的性能水平,仍需研究。