張茂盛,段杰,肖息,陳善洛,歐陽權(quán),王志勝
1.南京航空航天大學(xué) 自動化學(xué)院,江蘇 南京 210016
2.南京機(jī)電液壓工程研究中心 航空機(jī)電系統(tǒng)綜合航空科技重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 211106
隨著永磁同步電機(jī)(permanent magnet synchronous motor,PMSM)的發(fā)展,以機(jī)電作動器(electromechanical actuator,EMA)為位移輸出的機(jī)電伺服系統(tǒng)逐漸取代了液壓伺服系統(tǒng),成為多電飛機(jī)、運(yùn)載火箭等航空航天器上的關(guān)鍵執(zhí)行部件[1-5]。由于取消了傳統(tǒng)液壓作動器內(nèi)部的液壓系統(tǒng),機(jī)電作動器具有維護(hù)簡單、執(zhí)行效率高以及環(huán)境適應(yīng)性強(qiáng)等優(yōu)點(diǎn)[6]。機(jī)電作動器系統(tǒng)的主要任務(wù)是接收控制系統(tǒng)的指令信號并帶動舵機(jī)跟隨指令信號運(yùn)動,其特點(diǎn)是負(fù)載特性變化大,系統(tǒng)的摩擦、間隙和飽和等非線性特性明顯,且系統(tǒng)難以精確建模[7-8]。
國內(nèi)外對機(jī)電作動器的控制問題進(jìn)行了有益的研究,比如比例積分微分(proportion-integrationdifferentiation,PID)控制[5]、魯棒控制[8]、自抗擾控制[9]和神經(jīng)網(wǎng)絡(luò)控制[10]等控制算法都實(shí)現(xiàn)了良好的控制效果。其中,PID 控制是一種應(yīng)用廣泛的控制算法,具有較好的魯棒性和可實(shí)現(xiàn)性。由于實(shí)際工程實(shí)踐中微分項(xiàng)的引入會導(dǎo)致系統(tǒng)穩(wěn)定性降低,因此,機(jī)電作動器系統(tǒng)一般采用PI 控制。但是PI 控制的性能依賴于參數(shù)整定,而參數(shù)整定很大程度取決于經(jīng)驗(yàn)調(diào)試。
本文的主要研究內(nèi)容是構(gòu)建包含摩擦、間隙和飽和等非線性的機(jī)電作動器模型,在保留傳統(tǒng)機(jī)電作動器PI 控制魯棒性與易實(shí)現(xiàn)性的情況下,通過強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)來改造傳統(tǒng)的PI 控制器,以實(shí)現(xiàn)更好的自適應(yīng)性,降低參數(shù)整定的難度。
強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的重要研究方向,它的出現(xiàn)極大推動了智能控制的發(fā)展,用強(qiáng)化學(xué)習(xí)方法改造傳統(tǒng)控制方法也成為自動控制領(lǐng)域的熱點(diǎn)[11-16]。將深度神經(jīng)網(wǎng)絡(luò)引入到強(qiáng)化學(xué)習(xí),形成了深度強(qiáng)化學(xué)習(xí)算法[17-18]。深度確定性策略梯度算法(deep deterministic policy gradient,DDPG)是一種無模型深度強(qiáng)化學(xué)習(xí)算法,該算法不依賴于系統(tǒng)的精確建模,而是通過不斷試錯來學(xué)習(xí)出完成任務(wù)的策略[19-25]。
由于本文研究的機(jī)電作動器是高階、非線性、強(qiáng)耦合的系統(tǒng),若直接利用強(qiáng)化學(xué)習(xí)信號設(shè)計(jì)機(jī)電作動器的控制力矩,很容易導(dǎo)致強(qiáng)化學(xué)習(xí)系統(tǒng)鎮(zhèn)定失敗[16]。因此,為了規(guī)范深度強(qiáng)化學(xué)習(xí)算法的策略范圍,提高智能體策略的可復(fù)現(xiàn)性,增強(qiáng)機(jī)電作動器系統(tǒng)的穩(wěn)定性,本文將DDPG 算法與PI控制相結(jié)合,用于解決機(jī)電作動器的控制問題。
機(jī)電作動器是機(jī)電伺服系統(tǒng)的主要執(zhí)行機(jī)構(gòu),由驅(qū)動器驅(qū)動永磁同步電機(jī),通過離合器和絲杠軸帶動滾珠螺母輸出直線位移,機(jī)電作動器的典型負(fù)載為作動筒。模型示意如圖1 所示,可分為電機(jī)部分和機(jī)械傳動部分[5]。
圖1 機(jī)電作動器模型[6]
本文研究的機(jī)電作動器中的永磁同步電機(jī)采用表貼式三相永磁同步電機(jī),建立電機(jī)定子的磁鏈方程組:
式中:ψd和 ψq分別為磁鏈的直軸分量與交軸分量;Ld和Lq分別為定子電感的直軸分量與交軸分量,且滿足Ld=Lq;id和iq分別為電流的直軸分量與交軸分量;ψr為轉(zhuǎn)子磁鏈。在d-q 坐標(biāo)系下,電機(jī)定子電壓方程組與電磁轉(zhuǎn)矩分別為
式中:Ud和Uq分別為定子電壓的直軸和交軸分量;Rs為電機(jī)定子電阻;ωr=npωm為電機(jī)電氣角速度,其中np為電機(jī)極對數(shù),ωm為電機(jī)機(jī)械角速度;Te為電機(jī)的電磁轉(zhuǎn)矩。
機(jī)電作動器的機(jī)械傳動部分主要由離合器、絲杠軸和滾珠螺母組成。機(jī)械傳動部分的運(yùn)動方程與轉(zhuǎn)矩方程分別為
式中:Te為電機(jī)輸 出電磁轉(zhuǎn)矩;θm為電 機(jī)輸出角度;KL為作動部分等效扭轉(zhuǎn)剛度;JL為等效轉(zhuǎn)動慣量;fL為阻力等效阻尼系數(shù);θL為絲杠旋轉(zhuǎn)角度;TL為作動點(diǎn)等效負(fù)載轉(zhuǎn)矩;xL為作動位移,滿足,其中k為滾珠螺母系數(shù)。
考慮到PID 型控制器在工業(yè)控制與科學(xué)研究中的廣泛應(yīng)用,通過PID 控制與人工智能方法相結(jié)合,形成了PID 控制器的改進(jìn)形式,因此,經(jīng)典PID 控制器的性能可以通過使用強(qiáng)化學(xué)習(xí)方法來進(jìn)行改進(jìn)。本文提出一種深度確定性策略梯度-PI(DDPG-PI)控制算法,考慮通過DDPG 算法來改進(jìn)PI 控制器在機(jī)電作動器系統(tǒng)中的性能,控制系統(tǒng)結(jié)構(gòu)框圖如圖2 所示。
圖2 機(jī)電作動器控制系統(tǒng)結(jié)構(gòu)
機(jī)電作動器的DDPG-PI 控制算法可描述為
式中:位置誤差信號e=xref-xL,xref為參考位置,xL為實(shí)際位置;控制器參數(shù) (KP,KI)是由PI 控制器預(yù)調(diào)試得到的初始參數(shù);參數(shù)增量 (ΔKP,ΔKI)由DDPG 算法在線產(chǎn)生。本文通過使用DDPG 算法訓(xùn)練強(qiáng)化學(xué)習(xí)智能體,智能體將根據(jù)機(jī)電作動系統(tǒng)當(dāng)前時刻的運(yùn)行狀態(tài),由智能體的策略函數(shù)在線產(chǎn)生PI 控制器的增益參數(shù) ΔKP、ΔKI。對于確定性策略,決策過程可描述為
式中:μ(·)為強(qiáng)化學(xué)習(xí)智能體的確定性策略函數(shù),st為機(jī)電作動器當(dāng)前時刻。
強(qiáng)化學(xué)習(xí)算法的本質(zhì)是強(qiáng)化學(xué)習(xí)智能體與環(huán)境不斷進(jìn)行回合交互,然后基于馬爾科夫決策過程(Markov decision process,MDP)找到一個最優(yōu)策略函數(shù),使得智能體獲得的回報最大化,通常將強(qiáng)化學(xué)習(xí)轉(zhuǎn)換成MDP 問題。機(jī)電作動器系統(tǒng)的運(yùn)行狀態(tài)滿足馬爾科夫性質(zhì),考慮將強(qiáng)化學(xué)習(xí)框架定義為馬爾科夫決策過程,將智能體與環(huán)境交互的過程定義為強(qiáng)化學(xué)習(xí)過程[17]。
圖3 描述了強(qiáng)化學(xué)習(xí)算法的基本流程。在智能體與機(jī)電作動器環(huán)境進(jìn)行交互的每一回合中,在t時刻,智能體從環(huán)境中獲得狀態(tài)觀測值st,采取動作at,強(qiáng)化學(xué)習(xí)智能體的動作行為at由策略函數(shù) π(at|st)決 定,π 將狀態(tài)st映射成動作空間 A中 相應(yīng)的動作at,并獲得標(biāo)量的獎勵信號rt,環(huán)境狀態(tài)更新,進(jìn)入到下一狀態(tài)st+1。該過程持續(xù)進(jìn)行直到智能體到達(dá)回合的最終狀態(tài),該交互回合結(jié)束。
圖3 機(jī)電作動器的強(qiáng)化學(xué)習(xí)控制流程
Q 學(xué)習(xí)算法的單步預(yù)測方法可以由貝爾曼方程描述:
式中 λ ∈(0,1]和 γ ∈(0,1]分別為學(xué)習(xí)率和折扣因子。
機(jī)電作動器控制具有連續(xù)的動作空間,因此屬于連續(xù)控制問題,而Q-learning、DQN 等算法無法處理連續(xù)控制問題。這里我們采用DDPG 算法來解決連續(xù)控制問題。在需要執(zhí)行連續(xù)動作的控制問題中,采用確定性目標(biāo)策略,智能體的行為由策略函數(shù) μ決 定,μ將狀態(tài)映射成相應(yīng)的動作,即μ:S →A。此時,將馬爾科夫決策過程建模為狀態(tài)空間 S,動作空間 A。
DDPG 算法滿足執(zhí)行者-評論者(Actor-Critic)結(jié)構(gòu),DDPG 中的執(zhí)行者網(wǎng)絡(luò)即策略網(wǎng)絡(luò),利用策略函數(shù) μ(s)根 據(jù)狀態(tài)st輸出動作,評論者網(wǎng)絡(luò)利用動作-狀態(tài)價值函數(shù)Q(s,a)對Actor 網(wǎng)絡(luò)輸出的動作進(jìn)行價值評估。
DDPG 算法由2 部分組成:1)權(quán)重為 θQ的評論者網(wǎng)絡(luò)Q(s,a|θQ),用于近似動作-狀態(tài)價值函數(shù);2)權(quán)重為 θμ的執(zhí)行者網(wǎng)絡(luò) μ(s|θμ),用于近似當(dāng)前的策略函數(shù),將狀態(tài)映射為具體動作。通過最小化損失函數(shù)L(θ)來訓(xùn)練評論者網(wǎng)絡(luò)的參數(shù):
式中 τ為權(quán)重系數(shù),且 τ ?1。
為了提高智能體的探索性,在原有的策略中加入探索噪聲 N,因此,將改進(jìn)后的策略網(wǎng)絡(luò)描述為
式中噪聲 N滿足奧恩斯坦-烏倫貝克過程[21]。
本文中,位移動作的誤差以及誤差微分作為強(qiáng)化學(xué)習(xí)智能體的輸入,即st=(e,de/dt),執(zhí)行者輸出連續(xù)動作at=(ΔKP,ΔKI)作為PI 控制器的參數(shù)增益。使用策略網(wǎng)絡(luò)來近似策略函數(shù),使用動作-價值網(wǎng)絡(luò)來近似動作價值函數(shù)。
評論者網(wǎng)絡(luò)接收狀態(tài)st以及執(zhí)行者動作at作為輸入,通過Q網(wǎng)絡(luò)Q(st,at|θQ)輸出Q值標(biāo)量。DDPG算法的獎勵函數(shù)rt定義為高斯獎勵函數(shù):
式中 δ為高斯函數(shù)的形狀參數(shù),本文取 δ=0.447。
本文利用Matlab/Simulink 仿真驗(yàn)證了DDPGPI 控制策略在機(jī)電作作動器系統(tǒng)控制上的有效性,機(jī)電作動器的參數(shù)見表1。向系統(tǒng)輸入單位階躍信號,通過預(yù)調(diào)試PI 控制器的參數(shù)使機(jī)電作動器達(dá)到穩(wěn)定運(yùn)行狀態(tài)。
表1 機(jī)電作動器仿真參數(shù)
使用深度強(qiáng)化學(xué)習(xí)DDPG 算法,在預(yù)調(diào)試所得的PI 參數(shù)的基礎(chǔ)上進(jìn)行優(yōu)化,DDPG 算法的超參數(shù)設(shè)置見表2。
表2 DDPG 算法的超參數(shù)設(shè)置
將初調(diào)試過的PI 控制器參數(shù)作為強(qiáng)化學(xué)習(xí)DDPG 智能體輸出參數(shù)的基準(zhǔn)值,在訓(xùn)練環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)以得到更好的在線PI 參數(shù)值。強(qiáng)化學(xué)習(xí)的每一次迭代,機(jī)電作動器基于DDPG 智能體當(dāng)前的策略產(chǎn)生一條軌跡,并計(jì)算當(dāng)次回報以及回報的平均值。
圖4 展現(xiàn)了強(qiáng)化學(xué)習(xí)過程中每一訓(xùn)練回合中強(qiáng)化學(xué)習(xí)智能體所得到的回報的提升過程。圖中實(shí)線表示每一回合的回報值,虛線表示前20 回合的平均回報值。從圖4 中可以看出,當(dāng)訓(xùn)練的回合次數(shù)達(dá)到500 左右時,訓(xùn)練基本達(dá)到穩(wěn)定狀態(tài)。
圖4 強(qiáng)化學(xué)習(xí)智能體回報曲線
圖5 給出了3 種控制算法下的機(jī)電作動器單位階躍輸入表示的指令控制下的響應(yīng)曲線。PI 表示經(jīng)典PI 控制下的機(jī)電作動器響應(yīng)曲線,F(xiàn)UZZYPI 表示模糊PI 控制下的響應(yīng)曲線,DDPG-PI 表示基于本文所提出的DDPG-PI 控制下的響應(yīng)曲線。
圖5 機(jī)電作動器位移曲線對比
通過機(jī)電作動器系統(tǒng)的穩(wěn)態(tài)誤差、調(diào)節(jié)時間指標(biāo)來分析3 種算法的控制性能。仿真對比結(jié)果見表3。可以看出,系統(tǒng)的穩(wěn)態(tài)誤差越小、調(diào)節(jié)時間越短,則算法的控制性能越好。
表3 3 種控制方法下的性能指標(biāo)對比
從穩(wěn)態(tài)誤差和調(diào)節(jié)時間2 項(xiàng)指標(biāo)的對比可以看出,與PI 控制器、模糊PI 控制器相比,DDPGPI 控制器的穩(wěn)態(tài)誤差更小,響應(yīng)速度更快,因此,本文提出算法的有效性和優(yōu)越性得到了驗(yàn)證。
1)本文針對機(jī)電作動器控制問題提出了一種基于深度強(qiáng)化學(xué)習(xí)-PI 的控制方法,將DDPG 算法用于優(yōu)化PI 控制器的參數(shù),以實(shí)現(xiàn)機(jī)電作動器控制器參數(shù)的在線調(diào)節(jié)。
2)通過仿真結(jié)果可以看出,與機(jī)電PI 控制、模糊PI 控制相比,本文提出的機(jī)電作動器DDPGPI 控制方法的響應(yīng)速度更快,控制精度更高。
3)本文探索了深度強(qiáng)化學(xué)習(xí)與經(jīng)典控制方法的結(jié)合,形成了機(jī)電作動器的DDPG-PI 控制算法,并仿真驗(yàn)證了算法的可行性,該方法將推動人工智能算法與的機(jī)電控制的結(jié)合與發(fā)展。
本課題的未來研究方向?qū)⒅铝τ诳刂扑惴ǖ膶?shí)物驗(yàn)證,以及其他深度強(qiáng)化學(xué)習(xí)算法在機(jī)電作動器上的應(yīng)用等。