基于強(qiáng)化學(xué)習(xí)方法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制

2022-11-08 13:46齊義文陳禹西

沈陽(yáng)航空航天大學(xué)學(xué)報(bào) 2022年3期

齊義文，張弛，陳禹西

(沈陽(yáng)航空航天大學(xué) 自動(dòng)化學(xué)院，沈陽(yáng) 110136)

變循環(huán)航空發(fā)動(dòng)機(jī)與渦輪或渦扇發(fā)動(dòng)機(jī)相比,增加了眾多可變幾何部件，可改變發(fā)動(dòng)機(jī)的循環(huán)參數(shù)[1]，以滿足亞音速、跨音速、超音速等不同條件下的飛行要求，顯著提高發(fā)動(dòng)機(jī)推進(jìn)系統(tǒng)的整體性能。但可控部件的增多、各部件之間存在的耦合等因素卻給控制系統(tǒng)設(shè)計(jì)增加了負(fù)擔(dān)，而PID控制、自抗擾控制、模糊控制等傳統(tǒng)控制方法又存在響應(yīng)速度較慢、魯棒性較弱等局限，對(duì)于變循環(huán)航空發(fā)動(dòng)機(jī)這一類(lèi)多變量、多模態(tài)、強(qiáng)耦合系統(tǒng)，難以在全包線和變工況下達(dá)到理想的控制效能[2]。因此，探索其他性能更優(yōu)異、設(shè)計(jì)更簡(jiǎn)便、響應(yīng)速度更快的控制方法十分必要。而強(qiáng)化學(xué)習(xí)方法作為人工智能技術(shù)重要的前沿方法之一，具有不依賴(lài)模型、自學(xué)習(xí)、自更新等優(yōu)點(diǎn)[3]，可通過(guò)“試錯(cuò)”方式不斷形成經(jīng)驗(yàn)完善的控制策略，是解決復(fù)雜系統(tǒng)控制設(shè)計(jì)難題的一種有效手段。

有關(guān)強(qiáng)化學(xué)習(xí)方法在其他領(lǐng)域的應(yīng)用，國(guó)內(nèi)外已有頗多成果。Xie等[4]提出了一種基于強(qiáng)化學(xué)習(xí)的模糊自適應(yīng)滑?？刂破?，改善了三剛體連桿機(jī)械手的抖振效果，并保持了魯棒性。Samadi等[5]提出了一種基于多智能體的分布式微電網(wǎng)能量管理方法，采用強(qiáng)化學(xué)習(xí)優(yōu)化了運(yùn)行成本。You等[6]提出了一種基于深度確定性策略梯度的無(wú)人機(jī)連續(xù)戰(zhàn)略機(jī)動(dòng)規(guī)劃方法，改善了三維動(dòng)態(tài)高空環(huán)境下目標(biāo)跟蹤的魯棒性。Zhao[7]利用一種新的強(qiáng)化學(xué)習(xí)方法，研究了多參與者連續(xù)時(shí)間非線性系統(tǒng)非零和博弈的最優(yōu)跟蹤控制問(wèn)題。Lan等[8]應(yīng)用強(qiáng)化學(xué)習(xí)理論實(shí)現(xiàn)了集群系統(tǒng)在未知?jiǎng)討B(tài)環(huán)境下的協(xié)同學(xué)習(xí)與作業(yè)。Huang等[9]利用深度強(qiáng)化學(xué)習(xí)的高維特征提取和非線性泛化能力，開(kāi)發(fā)了電力系統(tǒng)新型自適應(yīng)應(yīng)急控制方案。Chu等[10]提出了兩種方法用于穩(wěn)定強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過(guò)程，利用大型合成交通網(wǎng)格模擬摩納哥市的大型交通網(wǎng)絡(luò)動(dòng)態(tài)，試驗(yàn)證明所提出算法具有最優(yōu)性和魯棒性。相曉嘉等[11]以固定翼無(wú)人機(jī)為對(duì)象，考慮復(fù)雜動(dòng)態(tài)環(huán)境的隨機(jī)性和不確定性，提出了基于無(wú)模型深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)編隊(duì)協(xié)調(diào)控制方法。張耀中等[12]針對(duì)無(wú)人機(jī)集群協(xié)同執(zhí)行對(duì)敵方來(lái)襲目標(biāo)的追擊任務(wù)，設(shè)計(jì)了一種引導(dǎo)型回報(bào)函數(shù)，有效解決了深度強(qiáng)化學(xué)習(xí)在長(zhǎng)周期任務(wù)下的稀疏回報(bào)問(wèn)題。

在變循環(huán)航空發(fā)動(dòng)機(jī)控制方面，何鳳林等[13]針對(duì)XTE76變循環(huán)航空發(fā)動(dòng)機(jī)的控制結(jié)構(gòu)問(wèn)題，研究了對(duì)二分塊之間進(jìn)行解耦的控制方法。肖紅亮等[14]針對(duì)變循環(huán)航空發(fā)動(dòng)機(jī)存在的不確定性及外部干擾下多變量輸出跟蹤控制問(wèn)題，給出了一種基于線性二次型調(diào)節(jié)器(Linear Quadratic Regulator，LQR)方法的增廣模型參考自適應(yīng)滑?？刂品椒?。Chen等[15]提出了一種基于紅外預(yù)測(cè)模型的變循環(huán)航空發(fā)動(dòng)機(jī)最小紅外特性性能尋求控制方法，并對(duì)雙旁路可變循環(huán)航空發(fā)動(dòng)機(jī)分別進(jìn)行了最大推力、最小耗油率和最小紅外特性優(yōu)化控制仿真。陳玉春等[16]針對(duì)變循環(huán)航空發(fā)動(dòng)機(jī)多變量穩(wěn)態(tài)控制規(guī)律優(yōu)化設(shè)計(jì)，提出了一種新方法—逆算法。

盡管變循環(huán)航空發(fā)動(dòng)機(jī)控制取得了一些進(jìn)展，但強(qiáng)化學(xué)習(xí)方法在本領(lǐng)域的應(yīng)用尚不多見(jiàn)，仍多采用依賴(lài)于專(zhuān)家經(jīng)驗(yàn)的PID變參控制方法。而強(qiáng)化學(xué)習(xí)方法具有不依賴(lài)模型的優(yōu)點(diǎn)，用于變循環(huán)航空發(fā)動(dòng)機(jī)這一類(lèi)強(qiáng)非線性復(fù)雜系統(tǒng)的控制，可有效降低控制設(shè)計(jì)難度，其自學(xué)習(xí)性、自更新性可實(shí)現(xiàn)變循環(huán)航空發(fā)動(dòng)機(jī)多變工況下的高性能控制。據(jù)此，本文針對(duì)變循環(huán)航空發(fā)動(dòng)機(jī)，給出兩種基于強(qiáng)化學(xué)習(xí)方法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)方法，并通過(guò)仿真驗(yàn)證了方法的快速性、準(zhǔn)確性、穩(wěn)定性與魯棒性。

1 變循環(huán)航空發(fā)動(dòng)機(jī)模型

本文采用的是姜渭宇等[17]在“變循環(huán)渦扇發(fā)動(dòng)機(jī)智能控制仿真平臺(tái)研究”一文中建立的雙外涵變循環(huán)航空發(fā)動(dòng)機(jī)模型，其結(jié)構(gòu)如圖1所示。

圖1 變循環(huán)航空發(fā)動(dòng)機(jī)結(jié)構(gòu)圖

與傳統(tǒng)發(fā)動(dòng)機(jī)相比，該發(fā)動(dòng)機(jī)增加了多個(gè)可調(diào)部件，其可控參數(shù)包括：主燃油流量、高壓壓氣機(jī)導(dǎo)流葉片角度、加力燃油流量、風(fēng)扇導(dǎo)流葉片角度、噴口臨界面積、噴口膨脹面積、核心機(jī)風(fēng)扇導(dǎo)流葉片角度、低壓渦輪導(dǎo)向器控制角度、核心機(jī)風(fēng)扇的混合器面積、第一外涵面積。此外，模型輸入還包括來(lái)流氣體參數(shù)，即進(jìn)氣靜壓、進(jìn)氣靜溫、進(jìn)氣總壓與進(jìn)氣總溫等。

變循環(huán)航空發(fā)動(dòng)機(jī)傳感器測(cè)點(diǎn)參數(shù)包括：風(fēng)扇物理轉(zhuǎn)速、高壓物理轉(zhuǎn)速、進(jìn)氣靜壓、進(jìn)氣靜溫、進(jìn)氣總溫、進(jìn)氣總壓、風(fēng)扇后內(nèi)涵溫度、風(fēng)扇后內(nèi)涵壓力、核心機(jī)風(fēng)扇后內(nèi)涵溫度、核心機(jī)風(fēng)扇后內(nèi)涵壓力、高壓壓氣機(jī)后溫度、高壓壓氣機(jī)后壓力、渦輪后溫度、渦輪后壓力等。此外，根據(jù)模型輸入?yún)?shù)及傳感器參數(shù)可間接計(jì)算推力、壓比、流量、涵道比等不可測(cè)的變循環(huán)航空發(fā)動(dòng)機(jī)性能參數(shù)。出于安全保護(hù)，變循環(huán)航空發(fā)動(dòng)機(jī)在運(yùn)行期間還需考慮高低壓轉(zhuǎn)速與渦輪前溫度等限制。

2 基于強(qiáng)化學(xué)習(xí)的推力控制設(shè)計(jì)

強(qiáng)化學(xué)習(xí)用于描述和解決智能體在與環(huán)境交互過(guò)程中通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題[18]，其簡(jiǎn)潔原理如圖2所示。

圖2 強(qiáng)化學(xué)習(xí)示意圖

智能體不斷接收環(huán)境狀態(tài)信息，并基于狀態(tài)信息反饋相應(yīng)動(dòng)作于環(huán)境，更新環(huán)境狀態(tài)。同時(shí)，智能體在做出動(dòng)作后會(huì)獲得對(duì)應(yīng)獎(jiǎng)勵(lì)，通過(guò)與環(huán)境的往復(fù)交互，利用獎(jiǎng)勵(lì)不斷更新策略，達(dá)到既定學(xué)習(xí)目標(biāo)。與傳統(tǒng)控制方法相比，強(qiáng)化學(xué)習(xí)方法支持多維度輸入輸出，可不依賴(lài)控制模型，并對(duì)非線性復(fù)雜系統(tǒng)有著出色的逼近能力，且對(duì)對(duì)象運(yùn)行特性的未知變化和不確定性有良好的預(yù)測(cè)、自學(xué)習(xí)能力和魯棒性。

2.1 基于DQN的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)

深度Q網(wǎng)絡(luò)(Deep Q Network，DQN)是一種基于值的強(qiáng)化學(xué)習(xí)算法[19]，算法流程如圖3所示。通過(guò)交互，不斷更新Q網(wǎng)絡(luò)參數(shù)來(lái)擬合動(dòng)作價(jià)值函數(shù)，該函數(shù)進(jìn)一步指導(dǎo)動(dòng)作輸出。同時(shí)，引入經(jīng)驗(yàn)集合，緩存交互參數(shù)，并隨機(jī)采樣緩存經(jīng)驗(yàn)實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的批量更新，既節(jié)約了計(jì)算資源，也有效減弱了時(shí)間序列對(duì)網(wǎng)絡(luò)更新的影響。

基于DQN算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)主要分為如下4步。

(1)狀態(tài)與動(dòng)作參數(shù)選取

為降低Q網(wǎng)絡(luò)對(duì)動(dòng)作價(jià)值函數(shù)的擬合難度，狀態(tài)參數(shù)需直觀反映變循環(huán)航空發(fā)動(dòng)機(jī)工作狀態(tài)。此外，動(dòng)作參數(shù)與狀態(tài)參數(shù)之間需具有明確對(duì)應(yīng)關(guān)系，否則會(huì)增加網(wǎng)絡(luò)訓(xùn)練難度，甚至無(wú)法收斂。本設(shè)計(jì)將表征發(fā)動(dòng)機(jī)運(yùn)行情況的變循環(huán)航空發(fā)動(dòng)機(jī)高低壓轉(zhuǎn)子轉(zhuǎn)速作為狀態(tài)參數(shù)。在設(shè)計(jì)初期，選取目標(biāo)推力、推力誤差、高低壓轉(zhuǎn)子轉(zhuǎn)速3項(xiàng)作為控制器輸入狀態(tài)參數(shù)；選取主燃油流量作為控制器輸出參數(shù)，其余執(zhí)行機(jī)構(gòu)輸出由相關(guān)控制規(guī)律給定。在網(wǎng)絡(luò)訓(xùn)練中，通過(guò)給定不同目標(biāo)推力指令來(lái)實(shí)現(xiàn)可變推力控制要求。然而在實(shí)際訓(xùn)練中，由于控制精度要求，需對(duì)主燃油流量動(dòng)作進(jìn)行更精細(xì)的劃分，并且不同目標(biāo)推力給定的訓(xùn)練十分耗時(shí)。在這樣的背景下，初期設(shè)計(jì)的網(wǎng)絡(luò)對(duì)于訓(xùn)練之外的目標(biāo)推力難以實(shí)現(xiàn)較好的預(yù)測(cè)效果。

圖3 DQN算法原理圖

進(jìn)一步對(duì)狀態(tài)和動(dòng)作參數(shù)再設(shè)計(jì)，將控制器輸入狀態(tài)參數(shù)調(diào)整為推力誤差、高低壓轉(zhuǎn)子轉(zhuǎn)速和上一時(shí)刻主燃油流量；將控制器輸出參數(shù)調(diào)整為主燃油流量的增量，并加以限制，使變循環(huán)航空發(fā)動(dòng)機(jī)運(yùn)行在安全范圍內(nèi)。這樣，新設(shè)計(jì)方法既減小了動(dòng)作集合A的大小，提高了訓(xùn)練速度，又能對(duì)變指令操作起到良好的控制效果。在上述設(shè)計(jì)基礎(chǔ)上進(jìn)一步擴(kuò)展，考慮變循環(huán)航空發(fā)動(dòng)機(jī)變工作點(diǎn)運(yùn)行。在訓(xùn)練時(shí)，考慮不同工作點(diǎn)的來(lái)流參數(shù)。同時(shí)，引入推力階躍訓(xùn)練指令，使控制器在變推力指令時(shí)仍具備高精度控制性能。最終，本文選用改進(jìn)后的狀態(tài)、動(dòng)作參數(shù)作為控制器的輸入輸出。

(2)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是否合理直接影響到網(wǎng)絡(luò)能否收斂、收斂效果及控制精度。獎(jiǎng)勵(lì)條件與控制目標(biāo)還需具有確切關(guān)系，以起到對(duì)網(wǎng)絡(luò)訓(xùn)練的有效指導(dǎo)作用。此處設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)由推力誤差決定，推力誤差絕對(duì)值越小，對(duì)應(yīng)獎(jiǎng)勵(lì)值越大。設(shè)計(jì)初期采用的獎(jiǎng)勵(lì)函數(shù)為

(1)

式(1)中：Fn_e為推力誤差絕對(duì)值；r為獎(jiǎng)勵(lì)值。但基于該獎(jiǎng)勵(lì)條件與上述選取的狀態(tài)、動(dòng)作參數(shù)設(shè)計(jì)的推力控制器穩(wěn)態(tài)誤差較大，無(wú)法滿足控制要求。因此，對(duì)推力誤差絕對(duì)值與獎(jiǎng)勵(lì)條件做了進(jìn)一步劃分，以達(dá)到高性能的控制目標(biāo)，改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)為

(2)

最終，采用式(2)的獎(jiǎng)勵(lì)函數(shù)，有效減小了穩(wěn)態(tài)誤差，提高了控制精度。

(3)控制策略設(shè)計(jì)

由于網(wǎng)絡(luò)層數(shù)較多，為便于理解，本文均以3層網(wǎng)絡(luò)為例加以說(shuō)明。Q網(wǎng)絡(luò)接收變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)參數(shù)s，輸出當(dāng)前狀態(tài)下全部主燃油流量增量動(dòng)作對(duì)應(yīng)的Q值，即Q(s,A)。

(3)

式(3)中：ωQ1∈R(n+p)×m與ωQ2∈Rm×p均為權(quán)重矩陣；bQ∈Rm為偏置列向量；σ(·)為Relu激活函數(shù)，s∈Rn為變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)列向量，A∈Rp為主燃油增量動(dòng)作列向量，也稱(chēng)動(dòng)作集合。通過(guò)ε-greedy策略從動(dòng)作集合A中選擇主燃油增量作為輸出動(dòng)作，變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)參數(shù)更新為s′并得到獎(jiǎng)勵(lì)值r。ε-greedy策略為

(4)

式(4)中：a∈R為A中包含的主燃油增量動(dòng)作之一；maxQ(s,A)為從式(3)選取最大的Q(si,ai),i=1,2,…,p對(duì)應(yīng)的主燃油增量動(dòng)作a；randmona為從A中隨機(jī)選取主燃油增量動(dòng)作；rand為0～1的隨機(jī)數(shù)；ε為0～1的隨機(jī)因子，通過(guò)改變?chǔ)诺拇笮】烧{(diào)節(jié)Q網(wǎng)絡(luò)訓(xùn)練期間的隨機(jī)探索性。訓(xùn)練初期ε取0.3，使網(wǎng)絡(luò)具有較大探索能力。隨著訓(xùn)練時(shí)間的增加，ε逐漸減小。完成訓(xùn)練后，將ε置為0，使其完全按照已具備大量經(jīng)驗(yàn)的Q網(wǎng)絡(luò)輸出主燃油增量動(dòng)作。

(4)更新Q網(wǎng)絡(luò)

鑒于變循環(huán)航空發(fā)動(dòng)機(jī)仿真模型每次運(yùn)行都包括約150s的起動(dòng)段，之后強(qiáng)化學(xué)習(xí)控制器才介入，而起動(dòng)段的交互信息對(duì)強(qiáng)化學(xué)習(xí)控制器訓(xùn)練是無(wú)效的，因此設(shè)定經(jīng)驗(yàn)集合在強(qiáng)化學(xué)習(xí)控制器介入后才開(kāi)始緩存交互經(jīng)驗(yàn)。從經(jīng)驗(yàn)集合中隨機(jī)采樣訓(xùn)練樣本，每次采樣的經(jīng)驗(yàn)格式為[s,a,s′,r,is_done]，其中is_done判斷s′是否為終止?fàn)顟B(tài)，具體包括判斷高低壓轉(zhuǎn)子轉(zhuǎn)速、推力誤差、渦輪溫度、喘振等變循環(huán)航空發(fā)動(dòng)機(jī)重要指標(biāo)是否超限,若任一指標(biāo)超限，則s′為終止?fàn)顟B(tài)，is_done為1，結(jié)束本輪仿真;否則is_done為0，繼續(xù)執(zhí)行仿真訓(xùn)練。s′輸入至Q網(wǎng)絡(luò)，Q網(wǎng)絡(luò)輸出s′狀態(tài)下對(duì)應(yīng)全部主燃油增量動(dòng)作的Q值Q(s′,A)，將最大Q值記為Q(s′,a′)，據(jù)此，計(jì)算目標(biāo)Q值即Q′

(5)

基于此，可計(jì)算Q網(wǎng)絡(luò)反向傳播誤差JQ為

(6)

式(6)中:q為采樣個(gè)數(shù)。Q網(wǎng)絡(luò)通過(guò)梯度下降法更新權(quán)重與偏置參數(shù)

(7)

(8)

式(7)～(8)中：αQ∈R為Q網(wǎng)絡(luò)更新步長(zhǎng)。鑒于每輪仿真DQN控制器與變循環(huán)航空發(fā)動(dòng)機(jī)模型的交互次數(shù)是可獲取的，而每次交互獲得的獎(jiǎng)勵(lì)值也是可記錄的，當(dāng)網(wǎng)絡(luò)收斂至最優(yōu)動(dòng)作價(jià)值函數(shù)時(shí)，控制器每次交互均可得到最大的獎(jiǎng)勵(lì)值。基于此，將網(wǎng)絡(luò)更新收斂條件設(shè)為單輪仿真累計(jì)獎(jiǎng)勵(lì)值最大，即控制器每次交互獲得的獎(jiǎng)勵(lì)值最大。

2.2 基于DDPG的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)

深度確定性策略梯度(Deep Deterministic Policy Gradient，DDPG)是一種融合了基于值與策略的強(qiáng)化學(xué)習(xí)算法[20]，算法流程如圖4所示。與DQN算法相同的是采用經(jīng)驗(yàn)集合緩存交互參數(shù)。與DQN不同在于，DDPG使用4個(gè)神經(jīng)網(wǎng)絡(luò)，并行兩隊(duì)快速更新和緩慢更新的神經(jīng)網(wǎng)絡(luò)，提高了網(wǎng)絡(luò)穩(wěn)定性。4個(gè)網(wǎng)絡(luò)作用分別為：Actor估計(jì)網(wǎng)絡(luò)與環(huán)境交互；和Critic估計(jì)網(wǎng)絡(luò)通過(guò)交互信息更新自身參數(shù)并指導(dǎo)Actor估計(jì)網(wǎng)絡(luò)更新；Actor目標(biāo)網(wǎng)絡(luò)與Critic目標(biāo)網(wǎng)絡(luò)預(yù)測(cè)下一時(shí)刻動(dòng)作與動(dòng)作價(jià)值函數(shù)。

圖4 DDPG算法原理圖

基于DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制狀態(tài)參數(shù)選取、獎(jiǎng)勵(lì)函數(shù)設(shè)置、訓(xùn)練指令設(shè)計(jì)、網(wǎng)絡(luò)收斂條件設(shè)定、經(jīng)驗(yàn)集合緩存機(jī)制與DQN算法一致，不同在于DDPG算法無(wú)需構(gòu)建離散的主燃油增量動(dòng)作集合A，而是通過(guò)Actor估計(jì)網(wǎng)絡(luò)自學(xué)習(xí)、自更新以輸出主燃油增量動(dòng)作。此外，還需對(duì)主燃油流量加以限制，實(shí)現(xiàn)對(duì)變循環(huán)航空發(fā)動(dòng)機(jī)的安全保護(hù)。

基于DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)主要分為4步。

(1)Actor估計(jì)網(wǎng)絡(luò)設(shè)計(jì)

以變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)參數(shù)s作為Actor估計(jì)網(wǎng)絡(luò)輸入，輸出對(duì)應(yīng)主燃油增量aWf，更新變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)s′并得到獎(jiǎng)勵(lì)r，動(dòng)作aWf與狀態(tài)s的關(guān)系為

aWf=ωea2Tσ(ωea1Ts-bea)+N

(9)

式(9)中：aWf′∈R為主燃油增量；ωea1∈Rn×m與ωea2∈Rm×l均為權(quán)重矩陣；bea∈Rm為偏置列向量，N∈R為添加的高斯噪聲，且隨著網(wǎng)絡(luò)迭代增加，噪聲強(qiáng)度逐漸減弱，以此來(lái)解決訓(xùn)練過(guò)程前、后期不同的探索與收斂需求。

(2)Critic估計(jì)網(wǎng)絡(luò)設(shè)計(jì)

Critic估計(jì)網(wǎng)絡(luò)評(píng)價(jià)Actor估計(jì)網(wǎng)絡(luò)在當(dāng)前變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)s下輸出主燃油增量動(dòng)作aWf的優(yōu)劣，以s和aWf作為Critic估計(jì)網(wǎng)絡(luò)輸入，輸出評(píng)價(jià)函數(shù)Qc(s,aWf)。

(10)

式(10)中：ωec1∈R(n+l)×m為權(quán)重矩陣；ωec2∈Rm為權(quán)重列向量；bec∈Rm為偏置列向量。

(3)Actor與Critic目標(biāo)網(wǎng)絡(luò)設(shè)計(jì)

Actor目標(biāo)網(wǎng)絡(luò)、Critic目標(biāo)網(wǎng)絡(luò)分別與Actor估計(jì)網(wǎng)絡(luò)、Critic估計(jì)網(wǎng)絡(luò)初始參數(shù)及網(wǎng)絡(luò)結(jié)構(gòu)完全一致。Actor目標(biāo)網(wǎng)絡(luò)以Actor估計(jì)網(wǎng)絡(luò)作用后的變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)s′作為輸入，輸出新的主燃油增量動(dòng)作aWf′，Critic目標(biāo)網(wǎng)絡(luò)以s′和aWf′作為輸入，輸出評(píng)價(jià)函數(shù)Qc(s′,aWf′)。

(4)網(wǎng)絡(luò)更新

Critic估計(jì)網(wǎng)絡(luò)的反向傳播誤差為

(11)

式(11)中：q為采樣個(gè)數(shù)；yi為目標(biāo)評(píng)價(jià)函數(shù)值。

(12)

式(12)中：ri為獎(jiǎng)勵(lì)；γ為折扣因子；取值范圍為0～1?；诖?，可得出Critic估計(jì)網(wǎng)絡(luò)權(quán)重與偏置更新公式

(13)

(14)

式(13)～(14)中：αec為Critic估計(jì)網(wǎng)絡(luò)更新步長(zhǎng)。為減小Critic估計(jì)網(wǎng)絡(luò)的反向傳播誤差Jec，Actor估計(jì)網(wǎng)絡(luò)需輸出使評(píng)價(jià)函數(shù)Qc(s,aWf)值更大的主燃油增量動(dòng)作aWf，Actor估計(jì)網(wǎng)絡(luò)的反向傳播誤差為

(15)

基于此，可得出Actor估計(jì)網(wǎng)絡(luò)權(quán)重與偏置更新公式

(16)

(17)

需要注意的是，目標(biāo)網(wǎng)絡(luò)與估計(jì)網(wǎng)絡(luò)具有不同的更新頻率，以減弱網(wǎng)絡(luò)間的耦合性，目標(biāo)網(wǎng)絡(luò)以軟更新的方式更新權(quán)重與偏置，即每次只以較小幅度更新網(wǎng)絡(luò)參數(shù)，Critic目標(biāo)網(wǎng)絡(luò)更新公式為

ωtci=τωeci+(1-τ)ωtci,i=1,2

(18)

btc=τbec+(1-τ)btc

(19)

Actor目標(biāo)網(wǎng)絡(luò)更新公式為

ωtai=τωeai+(1-τ)ωtai,i=1,2

(20)

bta=τbea+(1-τ)bta

(21)

式(18)～(21)中，τ為0.1以下的更新系數(shù)。

3 仿真驗(yàn)證與分析

分別在高度H=13 km、馬赫數(shù)Ma=0.8和高度H=10 km、馬赫數(shù)Ma=1.5兩種飛行狀態(tài)下，進(jìn)行變循環(huán)航空發(fā)動(dòng)機(jī)強(qiáng)化學(xué)習(xí)推力控制方法的仿真驗(yàn)證?？刂破魍ㄟ^(guò)輸入設(shè)定的變循環(huán)航空發(fā)動(dòng)機(jī)狀態(tài)參數(shù)，輸出主燃油增量指令，其余控制變量由與反饋推力相關(guān)的控制規(guī)律給定，模型輸出變循環(huán)航空發(fā)動(dòng)機(jī)各性能參數(shù)。給出不同推力指令下實(shí)際反饋推力與主燃油流量的變化，并將基于DQN算法、DDPG算法設(shè)計(jì)的兩種控制器進(jìn)行對(duì)比分析。

圖5～圖6給出了在高度H=13 km、馬赫數(shù)Ma=0.8飛行條件下，基于DQN和DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)控制器150s階躍指令下的推力響應(yīng)和主燃油流量變化。DQN控制器達(dá)到了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時(shí)間1.25 s和超調(diào)量0.53%的控制指標(biāo)，DDPG控制器則實(shí)現(xiàn)了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時(shí)間1.2 s和超調(diào)量0.27%的較高精度控制。兩種設(shè)計(jì)均獲得良好的跟蹤控制品質(zhì)，驗(yàn)證了控制設(shè)計(jì)的正確性和有效性。

圖5 高度13km、Ma=0.8階躍指令DQN控制器仿真結(jié)果

圖6 高度13 km、Ma=0.8階躍指令DDPG控制器仿真結(jié)果

圖7～圖8給出了在高度H=10 km、馬赫數(shù)Ma=1.5飛行條件下，基于DQN和DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)控制器150 s階躍指令下的推力響應(yīng)和主燃油流量變化。可知，DQN控制器達(dá)到了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時(shí)間1.31 s和超調(diào)量1%的控制指標(biāo)，DDPG控制器實(shí)現(xiàn)了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時(shí)間1.5 s和超調(diào)量0.27%的控制指標(biāo)。

圖7 高度10 km、Ma=1.5階躍指令DQN控制器仿真結(jié)果

圖8 高度10 km、Ma=1.5階躍指令DDPG控制器仿真結(jié)果

在變循環(huán)航空發(fā)動(dòng)機(jī)推力控制仿真驗(yàn)證中，DDPG控制器與DQN控制器達(dá)到了相同的高控制精度，二者調(diào)節(jié)時(shí)間差別不大，而DDPG控制作用下的超調(diào)量顯著小于DQN控制器。需要注意的是，雖然DQN算法下的推力控制設(shè)計(jì)實(shí)現(xiàn)了較高的控制性能，但算法本身僅支持離散的燃油增量動(dòng)作輸出，其推力響應(yīng)與主燃油流量輸入經(jīng)多次動(dòng)作設(shè)計(jì)后仍存在較小幅度的振蕩。DDPG算法支持連續(xù)的燃油增量動(dòng)作輸出，無(wú)需構(gòu)建動(dòng)作集合即可實(shí)現(xiàn)變循環(huán)航空發(fā)動(dòng)機(jī)推力及主燃油流量的無(wú)振蕩調(diào)節(jié)。由此，基于DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制器通過(guò)自學(xué)習(xí)、自更新，有效地實(shí)現(xiàn)了推力的穩(wěn)定、快速、準(zhǔn)確控制，進(jìn)一步驗(yàn)證了基于強(qiáng)化學(xué)習(xí)方法的變循環(huán)航空發(fā)動(dòng)機(jī)控制器輸入輸出參數(shù)及獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的合理性。

由表1可見(jiàn)，基于DQN與DDPG兩種強(qiáng)化學(xué)習(xí)方法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)均實(shí)現(xiàn)了變循環(huán)航空發(fā)動(dòng)機(jī)高精度可變推力控制。由于DQN算法僅支持離散動(dòng)作輸出，在推力控制設(shè)計(jì)中，需對(duì)其主燃油流量增量動(dòng)作集合不斷完善，設(shè)計(jì)不當(dāng)會(huì)導(dǎo)致主燃油流量與輸出推力發(fā)生大幅振蕩。

表1 主要控制性能指標(biāo)

綜上，在不同飛行狀態(tài)下，基于DQN和DDPG算法的變循環(huán)航空發(fā)動(dòng)機(jī)推力控制設(shè)計(jì)在階躍指令下均實(shí)現(xiàn)了高性能、高精度控制。

4 結(jié)論

本文對(duì)兩種變循環(huán)航空發(fā)動(dòng)機(jī)強(qiáng)化學(xué)習(xí)推力控制方法進(jìn)行了研究，可得出以下結(jié)論：

(1)強(qiáng)化學(xué)習(xí)算法對(duì)于變循環(huán)航空發(fā)動(dòng)機(jī)這一類(lèi)具有強(qiáng)非線性、強(qiáng)耦合的復(fù)雜系統(tǒng)，可實(shí)現(xiàn)較好的控制效果，且具有穩(wěn)定、快速、準(zhǔn)確的優(yōu)點(diǎn)。其不依賴(lài)模型的特點(diǎn)在一定程度上可簡(jiǎn)化控制設(shè)計(jì)，降低設(shè)計(jì)難度。

(2)控制增量設(shè)計(jì)可有效避免DQN一類(lèi)基于值的強(qiáng)化學(xué)習(xí)算法輸出存在振蕩的問(wèn)題，彌補(bǔ)算法本身只支持離散動(dòng)作輸出的不足，既提高了訓(xùn)練速度，也改善了控制精度。但動(dòng)作設(shè)計(jì)的合理性需通過(guò)實(shí)驗(yàn)進(jìn)一步確定。

(3)在網(wǎng)絡(luò)訓(xùn)練過(guò)程中加入隨機(jī)噪聲可提高網(wǎng)絡(luò)的探索性，引入變指令訓(xùn)練可提高網(wǎng)絡(luò)對(duì)不同控制指令的控制及預(yù)測(cè)能力。從經(jīng)驗(yàn)集合中隨機(jī)采樣訓(xùn)練樣本，可有效減弱時(shí)間序列對(duì)網(wǎng)絡(luò)訓(xùn)練帶來(lái)的不利影響。

然而，在變循環(huán)航空發(fā)動(dòng)機(jī)強(qiáng)化學(xué)習(xí)控制設(shè)計(jì)過(guò)程中，仍存在一些問(wèn)題有待研究：

(1)如何利用已有的設(shè)計(jì)方案實(shí)現(xiàn)變循環(huán)航空發(fā)動(dòng)機(jī)全包線、多工況、多變量、多目標(biāo)的尋優(yōu)設(shè)計(jì)，進(jìn)一步提高控制品質(zhì)。

(2)由于發(fā)動(dòng)機(jī)的歷史運(yùn)行數(shù)據(jù)是可獲取的，如何利用已有數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)參數(shù)的初始化來(lái)減少網(wǎng)絡(luò)運(yùn)行成本，還需進(jìn)一步考量。

(3)發(fā)動(dòng)機(jī)性能衰退是發(fā)動(dòng)機(jī)服役過(guò)程中不可避免的問(wèn)題，而強(qiáng)化學(xué)習(xí)算法又具備自學(xué)習(xí)、自更新能力，如何使發(fā)動(dòng)機(jī)在特性衰退時(shí)仍保持一定的性能水平，仍需研究。