永磁同步直線電機DDPG自適應(yīng)控制

2020-05-29 11:15張振宇張東波

微電機 2020年4期

張振宇，張昱，陳麗，張東波

(1.沈陽工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院，沈陽 110870；2.廣東省智能制造研究所廣東省現(xiàn)代控制技術(shù)重點實驗室，廣州 510070)

0 引言

永磁同步直線電機(Permanent Magnet Synchronous Linear Motor，PMSLM)有著推力大、速度大、行程大和精度高等優(yōu)點，因此廣泛應(yīng)用于現(xiàn)代工業(yè)中[1]。直線電機伺服系統(tǒng)相比傳統(tǒng)的伺服電機精簡了機械結(jié)構(gòu)，取消了傳動環(huán)節(jié)，具有優(yōu)越的加減速度特性和高剛度、高可靠性，運行噪聲小，維護簡單等優(yōu)點。目前，直線電機技術(shù)已經(jīng)比較成熟，并越來越多地用在高速、高精密機械加工中[2]。由于實際直線電機伺服系統(tǒng)的非線性及不確定性，當(dāng)模型的不確定性超過傳統(tǒng)線性最優(yōu)魯棒控制所允許的范圍時，控制系統(tǒng)就變得不穩(wěn)定[3]，所以傳統(tǒng)PID控制在直線電機高加速運行有干擾情況下不能達到理想的控制效果。

針對以上現(xiàn)狀，為了在高速高精度應(yīng)用場合實現(xiàn)對非線性、強耦合、負載擾動大的永磁同步直線電機的快速精準(zhǔn)控制，本文提出深度確定性策略梯度(Deep Deterministic Policy Gradient , DDPG)算法自適應(yīng)控制策略，其被控對象可以是非線性系統(tǒng)，DDPG自適應(yīng)控制系統(tǒng)基于強化學(xué)習(xí)，具有很強的自學(xué)習(xí)、自整定能力，能根據(jù)負載擾動進行更新控制策略，有效提高系統(tǒng)抗干擾能力，減小速度信號跟蹤誤差。并通過在Matlab/Simulink仿真平臺仿真分析和傳統(tǒng)PID控制性能進行對比實驗，驗證DDPG自適應(yīng)控制器的動態(tài)性能。

1 永磁同步直線電機模型建立

為了分析直線電機的特性，并在Simulink上進行仿真，首先要對直線電機進行數(shù)學(xué)建模。直線電機的數(shù)學(xué)模型是個強耦合、多變量、非線性系統(tǒng)，直接分析它的微分方程難度很大，通常釆用的方法是坐標(biāo)變化方法[4]。將三相正弦交流電通入交流電機定子的三相繞組A、B、C中，會產(chǎn)生旋轉(zhuǎn)磁勢，它在空間是呈正弦分布的。為了分析和設(shè)計的方便，直線電機數(shù)學(xué)模型通常需要用到Clark變換、Park變換和Park逆變換。

將三相靜止坐標(biāo)等效為兩相靜止坐標(biāo)(3S/2S)，ABC→αβ0，稱為Clark變換。

(1)

考慮零軸分量，兩相αβ坐標(biāo)系到兩相dq坐標(biāo)系的變換矩陣形式為：

(2)

通過矢量旋轉(zhuǎn)變換，將兩相靜止的αβ坐標(biāo)系變換到兩相旋轉(zhuǎn)的dq坐標(biāo)系，稱為Park變換。經(jīng)過變換后，PMSLM的d、q軸數(shù)學(xué)模型模塊如下：

電流平衡模塊：

根據(jù)矢量控制的基本原理，可以推出直線電機在d、q軸數(shù)學(xué)模型下的電壓方程式為

(3)

式中，Rs為初級繞組等效電阻，ud為直線電機d軸電壓，id為d軸電流，ψd為d軸磁鏈；uq為q軸電壓，iq為q軸電流，ψq為q軸的磁鏈；為永磁體極距，v為直線電機的同步運動速度。

磁鏈方程為

(4)

式中，Ld為d軸電感，Lq為q軸電感，ψf為永磁體勵磁的基波磁鏈。

電磁推力方程為

Fe=K[ψfiq+(Ld-Lq)idiq]

(5)

(6)

式中，F(xiàn)e為電磁推力系數(shù)。

機械運動方程：

(7)

式中，M為直線電機初級的質(zhì)量，F(xiàn)1為負載干擾阻力，B為黏性阻力系數(shù)。

因為直線電機的次級為永磁體，由式(6)知，當(dāng)初始狀態(tài)保持iq與d軸垂直，不僅可以對直線電機數(shù)學(xué)模型進行參數(shù)解耦，而且還可以得到最大推力。所以采用id=0的矢量控制策略，則永磁同步直線電機的數(shù)學(xué)模型可簡化為

(8)

所以直線電機傳遞函數(shù)結(jié)構(gòu)圖如圖1所示。

圖1 直線電機傳遞函數(shù)結(jié)構(gòu)圖

根據(jù)上述直線電機數(shù)學(xué)建模在Simulink上搭建好直線電機模型，由于直線電機采用脈寬調(diào)制的三相電流供電，并采取電流跟蹤控制的，所以需要在直線電機模型前再連接SVPWM模塊，而DDPG自適應(yīng)控制器是根據(jù)控制電流跟蹤，來實現(xiàn)直線電機模型控制的。

2 DDPG自適應(yīng)控制策略

DDPG是深度強化學(xué)習(xí)的一種算法，是一種數(shù)據(jù)驅(qū)動的控制方法，可以根據(jù)系統(tǒng)的輸入輸出數(shù)據(jù)，學(xué)習(xí)系統(tǒng)的數(shù)學(xué)模型，并根據(jù)給定的獎勵實現(xiàn)系統(tǒng)的最優(yōu)控制。2013年，Deep mind公司提出了深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)。通過將DQN應(yīng)用到視頻游戲，強化代理僅通過從圖像中獲取信息多次訓(xùn)練，就可以就能熟練的闖關(guān)游戲[5]。Lillicrap 等人于2015年提出了一種深度確定性策略梯度(DDPG)算法作為重放緩沖器來構(gòu)建目標(biāo)網(wǎng)絡(luò)，以解決連續(xù)運動空間神經(jīng)網(wǎng)絡(luò)收斂和慢速算法更新的問題[6],并在Nature上發(fā)表的關(guān)于深度強化學(xué)習(xí)的論文[7]。

DDPG算法是一種無模型、在線、離線策略的強化學(xué)習(xí)方法，僅利用受控系統(tǒng)的輸入輸出數(shù)據(jù)直接進行控制器的設(shè)計和分析，使用批量次的數(shù)據(jù)對仿真代理進行訓(xùn)練，最終培訓(xùn)出合適的強化代理，在強化代理根據(jù)環(huán)境改變而更新策略，來更新評判Q值。DDPG采取經(jīng)驗回放機制，通過連續(xù)對目標(biāo)網(wǎng)絡(luò)參數(shù)與當(dāng)前網(wǎng)絡(luò)的參數(shù)加權(quán)平均進行訓(xùn)練，以避免振蕩[8]。

深度強化學(xué)習(xí)具有良好的知識轉(zhuǎn)移能力，這對于伺服系統(tǒng)跟蹤具有不同幅度或頻率的信號是必要的。DDPG是一種數(shù)據(jù)驅(qū)動的控制方法，可以根據(jù)系統(tǒng)的輸入輸出數(shù)據(jù)學(xué)習(xí)系統(tǒng)的數(shù)學(xué)模型，并根據(jù)給定的獎勵實現(xiàn)系統(tǒng)的最優(yōu)控制。通過DDPG的自學(xué)習(xí)智能結(jié)構(gòu)，提高直流電機伺服系統(tǒng)精度[9]。

DDPG自適應(yīng)控制器基本框架如圖2所示。

圖2 DDPG自適應(yīng)控制器基本框架圖

圖中虛線上部分是基于強化學(xué)習(xí)的自適應(yīng)參數(shù)調(diào)節(jié)器，由強化學(xué)習(xí)代理組成，虛線下部分由被控對象組成作為代理環(huán)境交互對象。其中誤差e(t)=u(t)-y(t)，u(t)是初始輸入值，y(t)是反饋值。

考慮到系統(tǒng)誤差和反饋值數(shù)值范圍對系統(tǒng)控制性能的影響, 獎勵函數(shù)定義為

rt=α1r1(t)+α2r2(t)

(9)

其中,α1,α2分別為限定誤差值范圍和反饋數(shù)值范圍的獎勵系數(shù),r1(t)，r2(t)分別為誤差值范圍和反饋數(shù)值范圍，定義為

(10)

(11)

其中，σ為允許的誤差帶，y′(t)為反饋數(shù)值上限。

在Simulink上搭建的基于DDPG自適應(yīng)控制器的直線電機速度環(huán)控制框圖如圖3所示。

圖3 DDPG自適應(yīng)直線電機速度環(huán)Simulink控制框圖

V0為初始給定速度模塊；C_npmlsm為直線電機電流環(huán)集成模塊；Signal Processing為直線電機對強化代理的信號處理模塊，以直線電機的速度誤差e和反饋速度Velocity信號作為輸入，再將速度誤差e、誤差積分及反饋速度Velocity作為觀察狀態(tài)st輸入到強化代理的觀察狀態(tài)Observation端口，反饋速度Velocity的速度范圍作為強化代理的截至范圍輸入到強化代理的Isdone端口，根據(jù)對誤差e的限定范圍及反饋速度截至范圍設(shè)定的獎勵輸入到強化代理的Reward端口；RL Agent為DDPG強化代理模塊，將動作值作為直線電機電流環(huán)的輸入電流值輸入到C_npmlsm模塊中。

DDPG自適應(yīng)控制器在Simulink上搭建大部分需要采用M文件下編寫S函數(shù)來調(diào)用神經(jīng)網(wǎng)絡(luò)模塊組建強化學(xué)習(xí)代理。

3 實驗結(jié)果與分析

基于DDPG自適應(yīng)控制器的直線電機速度環(huán)控制系統(tǒng)在Simulink上搭建好以后，將主要相關(guān)參數(shù)輸入。本論文仿真參數(shù)設(shè)置為Rs=3.3 Ω,Ld=Lq=0.001 H,M=1 kg,B=1.2 N·s/m,ψf=0.23336Wb,=0.048 m,連續(xù)推力F1=130 N。給定速度設(shè)置為2 m/s，獎勵函數(shù)設(shè)置為rt=5×(e<0.01)-1×(e>0.01)-100((y′(t)>4)‖(y′(t)<0))。在強化代理經(jīng)過多回合自學(xué)習(xí)，自整定后，當(dāng)訓(xùn)練的指標(biāo)達到設(shè)定的指標(biāo)時，仿真模型停止訓(xùn)練，并生成最優(yōu)強化代理，保存到指定的文件夾下。

仿真速度初始給定2 m/s，在無干擾條件下，傳統(tǒng)PID控制和DDPG自適應(yīng)控制的速度對比仿真結(jié)果如圖4所示，從圖中的對比波形圖可看出，DDPG自適應(yīng)控制不僅超調(diào)量小，而且具有更快的響應(yīng)速度。

圖4 無干擾速度對比仿真波形圖

為了檢驗系統(tǒng)的抗干擾能力，仿真速度初始給定2 m/s，在t=0.1 s時，施加50 N的負載擾動，傳統(tǒng)PID控制和DDPG自適應(yīng)控制的速度對比仿真結(jié)果如圖5所示，從仿真圖中速度波形可看出，DDPG自適應(yīng)控制相比PID控制，不僅減小了超調(diào)量，提高了系統(tǒng)的響應(yīng)速度，而且在被控系統(tǒng)突加擾動的情況下，擾動小，能使系統(tǒng)快速恢復(fù)穩(wěn)定，具有較強的抗干擾能力。

圖5 施加干擾速度對比仿真波形圖

為了檢驗系統(tǒng)的跟隨性能，仿真速度輸入為方波信號，初始速度為1 m/s，在t=0.08 s時，變?yōu)? m/s，在t=0.16 s時，變?yōu)? m/s，在t=0.24 s時，變?yōu)? m/s，在t=0.32 s時，變?yōu)? m/s。傳統(tǒng)PID控制和DDPG自適應(yīng)控制的速度對比仿真結(jié)果如圖6所示，從仿真圖中速度波形可看出，DDPG自適應(yīng)控制相比PID控制，具有更優(yōu)良的跟隨性能。

圖6 跟隨速度對比仿真波形圖

4 結(jié) 語

本文針對直線電機的模型的非線性、強耦合、負載擾動大等特點，提出了一種基于DDPG自適應(yīng)控制新型控制方法，應(yīng)用于PMLSM的速度控制環(huán)中。DDPG自適應(yīng)控制器強化代理是在Actor-Critic網(wǎng)絡(luò)基礎(chǔ)上建立的，Actor網(wǎng)絡(luò)實現(xiàn)了策略的最佳近似，Critic網(wǎng)絡(luò)實現(xiàn)了價值函數(shù)的最優(yōu)逼近，采用參數(shù)隨機OU噪聲動態(tài)調(diào)整等策略，提高了神經(jīng)網(wǎng)絡(luò)的收斂速度，同時提高了控制系統(tǒng)的精度。

本文利用Matlab/Simulink軟件包中現(xiàn)有的工具和庫，對PID控制器和DDPG自適應(yīng)控制器的性能進行了比較研究，并通過不斷在Simulink上仿真訓(xùn)練，優(yōu)化DDPG自適應(yīng)控制器。模擬仿真后，實驗結(jié)果表明：DDPG自適應(yīng)控制器可以實現(xiàn)對非線性系統(tǒng)的穩(wěn)定跟蹤控制, 并且與傳統(tǒng)的PID控制相比, 基于DDPG自適應(yīng)控制器控制器具有響應(yīng)速度快, 自適應(yīng)能力強, 抗干擾能力強，跟隨效果好等優(yōu)點。