不確定非線性系統(tǒng)的事件驅(qū)動(dòng)魯棒跟蹤控制

2018-07-12 02:57:02崔黎黎王曉薇

沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2018年3期

崔黎黎, 王曉薇, 吳　鵬, 王　利

(沈陽師范大學(xué) 科信軟件學(xué)院, 沈陽　110034)

在實(shí)際工業(yè)領(lǐng)域中,大多數(shù)被控對象具有高度非線性,很難獲得其精確的數(shù)學(xué)模型,這使得實(shí)際動(dòng)態(tài)系統(tǒng)和系統(tǒng)的數(shù)學(xué)模型間普遍存在不確定性,從而導(dǎo)致系統(tǒng)的性能變差甚至不穩(wěn)定,因此,控制器設(shè)計(jì)時(shí)魯棒性是研究者們所考慮的重點(diǎn)。非線性魯棒跟蹤控制研究如何設(shè)計(jì)控制器使系統(tǒng)在不確定性作用下能夠跟蹤一個(gè)給定的目標(biāo)軌跡,一直是控制領(lǐng)域研究的一個(gè)重點(diǎn)內(nèi)容。研究者們基于經(jīng)典的控制理論,如變結(jié)構(gòu)控制[1]、模型預(yù)測控制[2]、反演控制[3]、神經(jīng)網(wǎng)絡(luò)控制[4]等,提出了各種魯棒跟蹤控制方法。然而,上述方法雖然實(shí)現(xiàn)了魯棒跟蹤,但大多數(shù)未考慮系統(tǒng)性能的優(yōu)化。

近年來,自適應(yīng)動(dòng)態(tài)規(guī)劃方法(adaptive dynamic programming, ADP)由于具有自學(xué)習(xí)與優(yōu)化能力,能夠有效解決動(dòng)態(tài)規(guī)劃的“維數(shù)災(zāi)”問題,現(xiàn)已成為了控制領(lǐng)域研究的熱點(diǎn)。目前ADP理論在非線性系統(tǒng)的最優(yōu)控制[5]、微分對策[6]、多智能體系統(tǒng)的最優(yōu)控制[7]等方面已取得了許多重要的研究成果。在最優(yōu)跟蹤控制方面,文獻(xiàn)[8]針對一類不確定連續(xù)非線性系統(tǒng)提出了基于評價(jià)網(wǎng)絡(luò)-控制網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)自適應(yīng)魯棒器設(shè)計(jì)方法。文獻(xiàn)[9]基于ADP方法研究了一類不確定離散非線性系統(tǒng)的魯棒跟蹤控制問題。文獻(xiàn)[10]提出了一個(gè)在線策略增強(qiáng)學(xué)習(xí)算法,實(shí)現(xiàn)了一類未知非線性系統(tǒng)的H∞跟蹤控制。文獻(xiàn)[11]針對一類未知不確定性系統(tǒng)的跟蹤控制問題提出了一個(gè)數(shù)據(jù)驅(qū)動(dòng)ADP算法。然而,上述控制器設(shè)計(jì)方法均未考慮網(wǎng)絡(luò)帶寬的限制,所設(shè)計(jì)的控制器是基于時(shí)間驅(qū)動(dòng)的,采用實(shí)時(shí)更新的方式,因此網(wǎng)絡(luò)負(fù)荷和計(jì)算量較大,在實(shí)際應(yīng)用中具有一定的局限性。據(jù)作者所知,目前基于ADP的不確定非線性系統(tǒng)的事件驅(qū)動(dòng)魯棒跟蹤控制相關(guān)結(jié)果尚未見報(bào)道。

本文針對一類非線性系統(tǒng)提出一種基于事件驅(qū)動(dòng)自適應(yīng)動(dòng)態(tài)規(guī)劃方法的魯棒跟蹤控制方案。首先,利用系統(tǒng)增廣技術(shù)將原系統(tǒng)轉(zhuǎn)化為由跟蹤誤差和目標(biāo)軌跡表示的增廣系統(tǒng),從而將原系統(tǒng)的魯棒跟蹤問題轉(zhuǎn)化為增廣系統(tǒng)的魯棒鎮(zhèn)定問題。為了處理不確定性的同時(shí)優(yōu)化系統(tǒng)跟蹤性能,定義了一個(gè)新的性能指標(biāo)函數(shù),進(jìn)一步將增廣系統(tǒng)的魯棒鎮(zhèn)定問題轉(zhuǎn)化為其標(biāo)稱系統(tǒng)的最優(yōu)控制問題,推導(dǎo)得出相應(yīng)的HJB方程和最優(yōu)控制策略,并在理論上證明了問題轉(zhuǎn)化的等價(jià)性。針對標(biāo)稱系統(tǒng),提出了一個(gè)事件驅(qū)動(dòng)自適應(yīng)動(dòng)態(tài)規(guī)劃算法設(shè)計(jì)近似最優(yōu)控制策略,值得指出的是該控制策略僅在事件觸發(fā)時(shí)刻更新,可大大減少網(wǎng)絡(luò)負(fù)載和計(jì)算量。利用Lyapunov穩(wěn)定性理論嚴(yán)格證明了閉環(huán)系統(tǒng)的一致最終有界穩(wěn)定性。仿真例子驗(yàn)證了所提出的控制方案的有效性。

1　問題描述

考慮如下的不確定非線性系統(tǒng):

(1)

其中:x(t)∈Rn為系統(tǒng)狀態(tài);u(t)∈Rm為系統(tǒng)控制輸入;d(t)∈Rm為控制擾動(dòng)。假設(shè)f(x(t))和g(x(t))滿足Lipschiz連續(xù)性條件,且系統(tǒng)在Ω∈Rn是強(qiáng)可控的。本文的控制目標(biāo)是設(shè)計(jì)事件驅(qū)動(dòng)魯棒跟蹤控制策略u(t),使得擾動(dòng)存在時(shí)系統(tǒng)狀態(tài)x(t)能夠跟蹤給定的目標(biāo)軌跡xd(t)。假設(shè)期望軌跡滿足如下的表達(dá)式

(2)

其中:xd(t)∈Rn為有界的期望軌跡;fd(xd(t))為Lipschiz連續(xù)函數(shù),并滿足fd(0)=0。

定義如下的跟蹤誤差

ed=x(t)-xd(t)

(3)

利用式(1)～式(3)可得系統(tǒng)的跟蹤誤差動(dòng)態(tài)方程為

(4)

(5)

?t∈[tk,tk+1)

(6)

則當(dāng)t=tk時(shí),有ek(tk)=0?；跔顟B(tài)采樣的事件驅(qū)動(dòng)控制策略可表示如下

?t∈[tk,tk+1)

(7)

由式(7)可知事件驅(qū)動(dòng)控制策略僅在事件觸發(fā)條件滿足時(shí)更新,而在2個(gè)相鄰的事件間則保持不變。控制輸入的連續(xù)性可由零階保持器保證。接下來,本文將針對增廣系統(tǒng)(5)在事件驅(qū)動(dòng)控制框架下提出一個(gè)基于ADP方法的事件驅(qū)動(dòng)魯棒控制策略,從而實(shí)現(xiàn)控制目標(biāo)。

2　基于ADP的事件驅(qū)動(dòng)魯棒控制

首先,通過定義一個(gè)新的性能指標(biāo)函數(shù),進(jìn)一步將增廣系統(tǒng)的魯棒鎮(zhèn)定問題轉(zhuǎn)化為其標(biāo)稱系統(tǒng)的最優(yōu)控制問題,并在理論上證明問題轉(zhuǎn)化的等價(jià)性。接著,提出一個(gè)事件驅(qū)動(dòng)ADP算法求解標(biāo)稱系統(tǒng)的HJB方程,從而得到事件驅(qū)動(dòng)最優(yōu)控制策略。

不考慮輸入擾動(dòng),增廣系統(tǒng)(5)的標(biāo)稱系統(tǒng)可以表示為

對標(biāo)稱系統(tǒng)(5),定義一個(gè)新的性能指標(biāo)函數(shù)如下:

其中:λ為衰減因子;Q和R為對稱正定常數(shù)矩陣。對上式求微分可得

(8)

定義Hamilton函數(shù)如下

H(δ,V(δ),u)=

(9)

最優(yōu)性能指標(biāo)函數(shù)V*(δ(t))定義如下:

(10)

根據(jù)Bellman最優(yōu)控制原理可得,最優(yōu)性能指標(biāo)函數(shù)V*(δ(t))滿足如下的HJB方程:

(11)

相應(yīng)的最優(yōu)控制策略u*(δ)為

(12)

將上式帶入式(11),可得HJB方程如下:

V*(δ)=0

(13)

定理1考慮標(biāo)稱系統(tǒng)(6),定義性能指標(biāo)函數(shù)為(7),控制策略為(12),假設(shè)跟蹤HJB方程(13)存在一個(gè)解V*(δ(t)),若不等式:

(14)

成立,則當(dāng)λ=0時(shí),閉環(huán)系統(tǒng)(5)漸近穩(wěn)定。當(dāng)λ≠0時(shí),閉環(huán)系統(tǒng)(5)一致最終有界穩(wěn)定。

證明選取最優(yōu)性能指標(biāo)函數(shù)V*(δ(t))為Lyapunov函數(shù),對其求導(dǎo)可得

(15)

由HJB方程(11)可得

(16)

根據(jù)式(12)有

(17)

利用式(16)～式(17)可得

(18)

上式兩邊均乘以e-λt可得

(19)

進(jìn)一步可得

(20)

對上式加減dT(t)Rd(t),并利用式(14)可得

(22)

當(dāng)λ≠0時(shí),由上式可得

(23)

(24)

則可得閉環(huán)系統(tǒng)漸近穩(wěn)定。證明完畢。

(25)

V*(δ)=W*Tσ(δ)+ε(δ)

(26)

(27)

根據(jù)式(25)和式(26)可得

(28)

(29)

將上式代入式(9)可得近似Hamilton函數(shù):

(31)

(32)

由式(6)和式(29)可得標(biāo)稱系統(tǒng)閉環(huán)動(dòng)態(tài)為

(33)

3　穩(wěn)定性分析

假設(shè)2g(x)有界,即‖g(x)‖≤gM,其中g(shù)M>0。

假設(shè)3評價(jià)網(wǎng)絡(luò)理想權(quán)值W,激活函數(shù)σ(·)及其導(dǎo)數(shù)σ(·),近似誤差ε及其導(dǎo)數(shù)ε均有界,即‖W‖≤WM,‖σ(·)‖≤σM,‖σ(·)‖≤σdM,‖ε‖≤εM,‖ε‖≤εdM,其中WM,σM,σdM,εM和εdM均為正常數(shù)。

定理2考慮系統(tǒng)(6),事件驅(qū)動(dòng)控制策略為(29),評價(jià)網(wǎng)絡(luò)權(quán)值調(diào)節(jié)律為(31)。假設(shè)系統(tǒng)狀態(tài)滿足持續(xù)激勵(lì)條件,事件觸發(fā)條件為

(34)

其中α∈(0,1)。若評價(jià)網(wǎng)絡(luò)學(xué)習(xí)率l滿足如下不等式

(35)

證明選取如下的Lyapunov函數(shù)

(36)

那么,當(dāng)t∈[tk,tk+1)時(shí),對Lyapunov函數(shù)(36)求導(dǎo)可得

(37)

(38)

由HJB方程(13)可得

V*(δ)

(39)

進(jìn)一步可得

利用式(34)可得

(42)

當(dāng)t=tk時(shí),對Lyapunov函數(shù)(36)求差分,

(43)

因此可得跟蹤誤差和神經(jīng)網(wǎng)絡(luò)權(quán)值誤差均一致最終有界。證明完畢。

4　仿真例子

考慮如下的不確定非線性系統(tǒng):

(44)

圖1　評價(jià)網(wǎng)絡(luò)的權(quán)值收斂軌跡Fig.1　Convergent trajectories of critic neural network weights

將所得到的事件驅(qū)動(dòng)魯棒控制器作用到系統(tǒng)(44)上,跟蹤誤差軌跡如圖2所示,事件觸發(fā)條件ek及其上界eT的軌跡如圖3所示。本文提出的事件驅(qū)動(dòng)的魯棒控制器僅需更新69次,而時(shí)間驅(qū)動(dòng)的控制器則需更新500次,因此可減少86.2%的計(jì)算量。仿真結(jié)果證明了本文所提出方案的有效性。

圖2　跟蹤誤差軌跡Fig.2　Trajectories of tracking error

圖3　事件觸發(fā)條件軌跡Fig.3　Trajectories of event-triggered condition

5　結(jié)　　論

針對一類不確定非線性系統(tǒng)的魯棒跟蹤控制問題,本文利用增廣技術(shù)和引入新型性能指標(biāo)函數(shù)將其轉(zhuǎn)化為標(biāo)稱系統(tǒng)的最優(yōu)控制問題,并結(jié)合事件驅(qū)動(dòng)機(jī)制和ADP方法提出了一個(gè)事件驅(qū)動(dòng)魯棒跟蹤控制方案,理論上證明了閉環(huán)系統(tǒng)的一致最終有界穩(wěn)定性。仿真結(jié)果驗(yàn)證了所提出方法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

不確定非線性系統(tǒng)的事件驅(qū)動(dòng)魯棒跟蹤控制

1 問題描述

2 基于ADP的事件驅(qū)動(dòng)魯棒控制

3 穩(wěn)定性分析

4 仿真例子

5 結(jié) 論

1　問題描述

2　基于ADP的事件驅(qū)動(dòng)魯棒控制

3　穩(wěn)定性分析

4　仿真例子

5　結(jié)　　論