基于深度強(qiáng)化學(xué)習(xí)-PI 控制的機(jī)電作動器控制策略

2022-08-17 13:20張茂盛段杰肖息陳善洛歐陽權(quán)王志勝

應(yīng)用科技 2022年4期

張茂盛，段杰，肖息，陳善洛，歐陽權(quán)，王志勝

1.南京航空航天大學(xué) 自動化學(xué)院，江蘇南京 210016

2.南京機(jī)電液壓工程研究中心航空機(jī)電系統(tǒng)綜合航空科技重點(diǎn)實(shí)驗(yàn)室，江蘇南京 211106

隨著永磁同步電機(jī)(permanent magnet synchronous motor,PMSM)的發(fā)展，以機(jī)電作動器(electromechanical actuator,EMA)為位移輸出的機(jī)電伺服系統(tǒng)逐漸取代了液壓伺服系統(tǒng)，成為多電飛機(jī)、運(yùn)載火箭等航空航天器上的關(guān)鍵執(zhí)行部件[1-5]。由于取消了傳統(tǒng)液壓作動器內(nèi)部的液壓系統(tǒng)，機(jī)電作動器具有維護(hù)簡單、執(zhí)行效率高以及環(huán)境適應(yīng)性強(qiáng)等優(yōu)點(diǎn)[6]。機(jī)電作動器系統(tǒng)的主要任務(wù)是接收控制系統(tǒng)的指令信號并帶動舵機(jī)跟隨指令信號運(yùn)動，其特點(diǎn)是負(fù)載特性變化大，系統(tǒng)的摩擦、間隙和飽和等非線性特性明顯，且系統(tǒng)難以精確建模[7-8]。

國內(nèi)外對機(jī)電作動器的控制問題進(jìn)行了有益的研究，比如比例積分微分（proportion-integrationdifferentiation,PID）控制[5]、魯棒控制[8]、自抗擾控制[9]和神經(jīng)網(wǎng)絡(luò)控制[10]等控制算法都實(shí)現(xiàn)了良好的控制效果。其中，PID 控制是一種應(yīng)用廣泛的控制算法，具有較好的魯棒性和可實(shí)現(xiàn)性。由于實(shí)際工程實(shí)踐中微分項(xiàng)的引入會導(dǎo)致系統(tǒng)穩(wěn)定性降低，因此，機(jī)電作動器系統(tǒng)一般采用PI 控制。但是PI 控制的性能依賴于參數(shù)整定，而參數(shù)整定很大程度取決于經(jīng)驗(yàn)調(diào)試。

本文的主要研究內(nèi)容是構(gòu)建包含摩擦、間隙和飽和等非線性的機(jī)電作動器模型，在保留傳統(tǒng)機(jī)電作動器PI 控制魯棒性與易實(shí)現(xiàn)性的情況下，通過強(qiáng)化學(xué)習(xí)(reinforcement learning，RL)來改造傳統(tǒng)的PI 控制器，以實(shí)現(xiàn)更好的自適應(yīng)性，降低參數(shù)整定的難度。

強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的重要研究方向，它的出現(xiàn)極大推動了智能控制的發(fā)展，用強(qiáng)化學(xué)習(xí)方法改造傳統(tǒng)控制方法也成為自動控制領(lǐng)域的熱點(diǎn)[11-16]。將深度神經(jīng)網(wǎng)絡(luò)引入到強(qiáng)化學(xué)習(xí)，形成了深度強(qiáng)化學(xué)習(xí)算法[17-18]。深度確定性策略梯度算法(deep deterministic policy gradient，DDPG)是一種無模型深度強(qiáng)化學(xué)習(xí)算法，該算法不依賴于系統(tǒng)的精確建模，而是通過不斷試錯來學(xué)習(xí)出完成任務(wù)的策略[19-25]。

由于本文研究的機(jī)電作動器是高階、非線性、強(qiáng)耦合的系統(tǒng)，若直接利用強(qiáng)化學(xué)習(xí)信號設(shè)計(jì)機(jī)電作動器的控制力矩，很容易導(dǎo)致強(qiáng)化學(xué)習(xí)系統(tǒng)鎮(zhèn)定失敗[16]。因此，為了規(guī)范深度強(qiáng)化學(xué)習(xí)算法的策略范圍，提高智能體策略的可復(fù)現(xiàn)性，增強(qiáng)機(jī)電作動器系統(tǒng)的穩(wěn)定性，本文將DDPG 算法與PI控制相結(jié)合，用于解決機(jī)電作動器的控制問題。

1 機(jī)電作動器模型

機(jī)電作動器是機(jī)電伺服系統(tǒng)的主要執(zhí)行機(jī)構(gòu)，由驅(qū)動器驅(qū)動永磁同步電機(jī)，通過離合器和絲杠軸帶動滾珠螺母輸出直線位移，機(jī)電作動器的典型負(fù)載為作動筒。模型示意如圖1 所示，可分為電機(jī)部分和機(jī)械傳動部分[5]。

圖1 機(jī)電作動器模型[6]

1.1 永磁同步電機(jī)部分

本文研究的機(jī)電作動器中的永磁同步電機(jī)采用表貼式三相永磁同步電機(jī)，建立電機(jī)定子的磁鏈方程組：

式中：ψd和 ψq分別為磁鏈的直軸分量與交軸分量；Ld和Lq分別為定子電感的直軸分量與交軸分量，且滿足Ld=Lq；id和iq分別為電流的直軸分量與交軸分量；ψr為轉(zhuǎn)子磁鏈。在d-q 坐標(biāo)系下，電機(jī)定子電壓方程組與電磁轉(zhuǎn)矩分別為

式中：Ud和Uq分別為定子電壓的直軸和交軸分量；Rs為電機(jī)定子電阻；ωr=npωm為電機(jī)電氣角速度，其中np為電機(jī)極對數(shù)，ωm為電機(jī)機(jī)械角速度；Te為電機(jī)的電磁轉(zhuǎn)矩。

1.2 機(jī)械傳動部分

機(jī)電作動器的機(jī)械傳動部分主要由離合器、絲杠軸和滾珠螺母組成。機(jī)械傳動部分的運(yùn)動方程與轉(zhuǎn)矩方程分別為

式中：Te為電機(jī)輸出電磁轉(zhuǎn)矩；θm為電機(jī)輸出角度；KL為作動部分等效扭轉(zhuǎn)剛度；JL為等效轉(zhuǎn)動慣量；fL為阻力等效阻尼系數(shù)；θL為絲杠旋轉(zhuǎn)角度；TL為作動點(diǎn)等效負(fù)載轉(zhuǎn)矩；xL為作動位移，滿足，其中k為滾珠螺母系數(shù)。

2 深度強(qiáng)化學(xué)習(xí)-PI 控制算法

考慮到PID 型控制器在工業(yè)控制與科學(xué)研究中的廣泛應(yīng)用，通過PID 控制與人工智能方法相結(jié)合，形成了PID 控制器的改進(jìn)形式，因此，經(jīng)典PID 控制器的性能可以通過使用強(qiáng)化學(xué)習(xí)方法來進(jìn)行改進(jìn)。本文提出一種深度確定性策略梯度-PI（DDPG-PI）控制算法，考慮通過DDPG 算法來改進(jìn)PI 控制器在機(jī)電作動器系統(tǒng)中的性能，控制系統(tǒng)結(jié)構(gòu)框圖如圖2 所示。

圖2 機(jī)電作動器控制系統(tǒng)結(jié)構(gòu)

機(jī)電作動器的DDPG-PI 控制算法可描述為

式中：位置誤差信號e=xref-xL，xref為參考位置，xL為實(shí)際位置；控制器參數(shù) (KP,KI)是由PI 控制器預(yù)調(diào)試得到的初始參數(shù)；參數(shù)增量 (ΔKP,ΔKI)由DDPG 算法在線產(chǎn)生。本文通過使用DDPG 算法訓(xùn)練強(qiáng)化學(xué)習(xí)智能體，智能體將根據(jù)機(jī)電作動系統(tǒng)當(dāng)前時刻的運(yùn)行狀態(tài)，由智能體的策略函數(shù)在線產(chǎn)生PI 控制器的增益參數(shù) ΔKP、ΔKI。對于確定性策略，決策過程可描述為

式中：μ(·)為強(qiáng)化學(xué)習(xí)智能體的確定性策略函數(shù)，st為機(jī)電作動器當(dāng)前時刻。

2.1 強(qiáng)化學(xué)習(xí)與馬爾科夫決策過程

強(qiáng)化學(xué)習(xí)算法的本質(zhì)是強(qiáng)化學(xué)習(xí)智能體與環(huán)境不斷進(jìn)行回合交互，然后基于馬爾科夫決策過程(Markov decision process，MDP)找到一個最優(yōu)策略函數(shù)，使得智能體獲得的回報最大化，通常將強(qiáng)化學(xué)習(xí)轉(zhuǎn)換成MDP 問題。機(jī)電作動器系統(tǒng)的運(yùn)行狀態(tài)滿足馬爾科夫性質(zhì)，考慮將強(qiáng)化學(xué)習(xí)框架定義為馬爾科夫決策過程，將智能體與環(huán)境交互的過程定義為強(qiáng)化學(xué)習(xí)過程[17]。

圖3 描述了強(qiáng)化學(xué)習(xí)算法的基本流程。在智能體與機(jī)電作動器環(huán)境進(jìn)行交互的每一回合中，在t時刻，智能體從環(huán)境中獲得狀態(tài)觀測值st，采取動作at，強(qiáng)化學(xué)習(xí)智能體的動作行為at由策略函數(shù) π(at|st)決定，π 將狀態(tài)st映射成動作空間 A中相應(yīng)的動作at，并獲得標(biāo)量的獎勵信號rt，環(huán)境狀態(tài)更新，進(jìn)入到下一狀態(tài)st+1。該過程持續(xù)進(jìn)行直到智能體到達(dá)回合的最終狀態(tài)，該交互回合結(jié)束。

圖3 機(jī)電作動器的強(qiáng)化學(xué)習(xí)控制流程

Q 學(xué)習(xí)算法的單步預(yù)測方法可以由貝爾曼方程描述：

式中 λ ∈(0,1]和 γ ∈(0,1]分別為學(xué)習(xí)率和折扣因子。

2.2 深度確定性策略梯度

機(jī)電作動器控制具有連續(xù)的動作空間，因此屬于連續(xù)控制問題，而Q-learning、DQN 等算法無法處理連續(xù)控制問題。這里我們采用DDPG 算法來解決連續(xù)控制問題。在需要執(zhí)行連續(xù)動作的控制問題中，采用確定性目標(biāo)策略，智能體的行為由策略函數(shù) μ決定，μ將狀態(tài)映射成相應(yīng)的動作，即μ:S →A。此時，將馬爾科夫決策過程建模為狀態(tài)空間 S，動作空間 A。

DDPG 算法滿足執(zhí)行者-評論者(Actor-Critic)結(jié)構(gòu)，DDPG 中的執(zhí)行者網(wǎng)絡(luò)即策略網(wǎng)絡(luò)，利用策略函數(shù) μ(s)根據(jù)狀態(tài)st輸出動作，評論者網(wǎng)絡(luò)利用動作-狀態(tài)價值函數(shù)Q(s,a)對Actor 網(wǎng)絡(luò)輸出的動作進(jìn)行價值評估。

DDPG 算法由2 部分組成：1)權(quán)重為 θQ的評論者網(wǎng)絡(luò)Q(s,a|θQ)，用于近似動作-狀態(tài)價值函數(shù)；2)權(quán)重為 θμ的執(zhí)行者網(wǎng)絡(luò) μ(s|θμ)，用于近似當(dāng)前的策略函數(shù)，將狀態(tài)映射為具體動作。通過最小化損失函數(shù)L(θ)來訓(xùn)練評論者網(wǎng)絡(luò)的參數(shù)：

式中 τ為權(quán)重系數(shù)，且 τ ?1。

為了提高智能體的探索性，在原有的策略中加入探索噪聲 N，因此，將改進(jìn)后的策略網(wǎng)絡(luò)描述為

式中噪聲 N滿足奧恩斯坦-烏倫貝克過程[21]。

本文中，位移動作的誤差以及誤差微分作為強(qiáng)化學(xué)習(xí)智能體的輸入，即st=(e,de/dt)，執(zhí)行者輸出連續(xù)動作at=(ΔKP,ΔKI)作為PI 控制器的參數(shù)增益。使用策略網(wǎng)絡(luò)來近似策略函數(shù)，使用動作-價值網(wǎng)絡(luò)來近似動作價值函數(shù)。

評論者網(wǎng)絡(luò)接收狀態(tài)st以及執(zhí)行者動作at作為輸入，通過Q網(wǎng)絡(luò)Q(st,at|θQ)輸出Q值標(biāo)量。DDPG算法的獎勵函數(shù)rt定義為高斯獎勵函數(shù)：

式中 δ為高斯函數(shù)的形狀參數(shù)，本文取 δ=0.447。

3 仿真分析

3.1 實(shí)例介紹

本文利用Matlab/Simulink 仿真驗(yàn)證了DDPGPI 控制策略在機(jī)電作作動器系統(tǒng)控制上的有效性，機(jī)電作動器的參數(shù)見表1。向系統(tǒng)輸入單位階躍信號，通過預(yù)調(diào)試PI 控制器的參數(shù)使機(jī)電作動器達(dá)到穩(wěn)定運(yùn)行狀態(tài)。

表1 機(jī)電作動器仿真參數(shù)

使用深度強(qiáng)化學(xué)習(xí)DDPG 算法，在預(yù)調(diào)試所得的PI 參數(shù)的基礎(chǔ)上進(jìn)行優(yōu)化，DDPG 算法的超參數(shù)設(shè)置見表2。

表2 DDPG 算法的超參數(shù)設(shè)置

3.2 仿真結(jié)果

將初調(diào)試過的PI 控制器參數(shù)作為強(qiáng)化學(xué)習(xí)DDPG 智能體輸出參數(shù)的基準(zhǔn)值，在訓(xùn)練環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)以得到更好的在線PI 參數(shù)值。強(qiáng)化學(xué)習(xí)的每一次迭代，機(jī)電作動器基于DDPG 智能體當(dāng)前的策略產(chǎn)生一條軌跡，并計(jì)算當(dāng)次回報以及回報的平均值。

圖4 展現(xiàn)了強(qiáng)化學(xué)習(xí)過程中每一訓(xùn)練回合中強(qiáng)化學(xué)習(xí)智能體所得到的回報的提升過程。圖中實(shí)線表示每一回合的回報值，虛線表示前20 回合的平均回報值。從圖4 中可以看出，當(dāng)訓(xùn)練的回合次數(shù)達(dá)到500 左右時，訓(xùn)練基本達(dá)到穩(wěn)定狀態(tài)。

圖4 強(qiáng)化學(xué)習(xí)智能體回報曲線

圖5 給出了3 種控制算法下的機(jī)電作動器單位階躍輸入表示的指令控制下的響應(yīng)曲線。PI 表示經(jīng)典PI 控制下的機(jī)電作動器響應(yīng)曲線，F(xiàn)UZZYPI 表示模糊PI 控制下的響應(yīng)曲線，DDPG-PI 表示基于本文所提出的DDPG-PI 控制下的響應(yīng)曲線。

圖5 機(jī)電作動器位移曲線對比

通過機(jī)電作動器系統(tǒng)的穩(wěn)態(tài)誤差、調(diào)節(jié)時間指標(biāo)來分析3 種算法的控制性能。仿真對比結(jié)果見表3。可以看出，系統(tǒng)的穩(wěn)態(tài)誤差越小、調(diào)節(jié)時間越短，則算法的控制性能越好。

表3 3 種控制方法下的性能指標(biāo)對比

從穩(wěn)態(tài)誤差和調(diào)節(jié)時間2 項(xiàng)指標(biāo)的對比可以看出，與PI 控制器、模糊PI 控制器相比，DDPGPI 控制器的穩(wěn)態(tài)誤差更小，響應(yīng)速度更快，因此，本文提出算法的有效性和優(yōu)越性得到了驗(yàn)證。

4 結(jié)論

1）本文針對機(jī)電作動器控制問題提出了一種基于深度強(qiáng)化學(xué)習(xí)-PI 的控制方法，將DDPG 算法用于優(yōu)化PI 控制器的參數(shù)，以實(shí)現(xiàn)機(jī)電作動器控制器參數(shù)的在線調(diào)節(jié)。

2）通過仿真結(jié)果可以看出，與機(jī)電PI 控制、模糊PI 控制相比，本文提出的機(jī)電作動器DDPGPI 控制方法的響應(yīng)速度更快，控制精度更高。

3）本文探索了深度強(qiáng)化學(xué)習(xí)與經(jīng)典控制方法的結(jié)合，形成了機(jī)電作動器的DDPG-PI 控制算法，并仿真驗(yàn)證了算法的可行性，該方法將推動人工智能算法與的機(jī)電控制的結(jié)合與發(fā)展。

本課題的未來研究方向?qū)⒅铝τ诳刂扑惴ǖ膶?shí)物驗(yàn)證，以及其他深度強(qiáng)化學(xué)習(xí)算法在機(jī)電作動器上的應(yīng)用等。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡