朱萌萌,宋運忠
(河南理工大學電氣工程與自動化學院,河南 焦作 454000)
隨機系統(tǒng)廣泛存在于實際的生產(chǎn)生活中,比如,在社會經(jīng)濟、航天航空、生物醫(yī)學、生態(tài)環(huán)境、工業(yè)過程等領(lǐng)域,許多系統(tǒng)會受到外界隨機干擾和觀測噪聲的影響形成非線性隨機擾動,造成系統(tǒng)的性能差、不穩(wěn)定。類似這些內(nèi)部含有隨機變量,外部受隨機擾動或噪聲干擾的系統(tǒng),稱為隨機系統(tǒng)[1-7]。為了改善系統(tǒng)的性能,降低外界干擾的影響,專家們開始利用隨機的觀點分析和解決此類實際問題。從而推動了隨機系統(tǒng)優(yōu)化控制理論的迅速發(fā)展,也使其成為目前最優(yōu)控制領(lǐng)域的重要研究方向之一。
近年來,隨機系統(tǒng)的最優(yōu)控制理論已逐步完善和成熟。但是,大部分研究成果的取得均依賴于系統(tǒng)精確地數(shù)學模型,這對于實際系統(tǒng)來說是復雜的,分析起來極其困難。因而,把連續(xù)信號轉(zhuǎn)換成離散信號的采樣過程,是求解隨機系統(tǒng)控制問題的一種行之有效的方法。采樣定理的提出已有70多年,學者們相繼提出了多種采樣方法,并利用這些采樣方案解決不同的控制問題[8-10]。其中,周期采樣和事件觸發(fā)采樣機制是解決此類控制問題的兩種常用方法。傳統(tǒng)的采樣方法是周期性采樣,無論系統(tǒng)狀態(tài)如何變化,采樣間隔往往是不變的。雖然,這種采樣策略的問題比較容易研究,但是也容易造成計算資源和通信資源的浪費,在某種程度上也易造成“維數(shù)災”。因此,可變采樣速率的采樣方案得到了研究者的廣泛關(guān)注。這種采樣方法的特點是只有當滿足系統(tǒng)狀態(tài)的變化量超過事先給定的閾值后,系統(tǒng)狀態(tài)的信息才被采樣并實施控制。這種采樣機制被稱為勒貝格采樣,又叫事件觸發(fā)采樣。勒貝格采樣方法早在20世紀60年代就被提出,在實際系統(tǒng)中的應用亦得到了廣泛研究。譬如,文獻[11]基于脈沖系統(tǒng)、分段線性系統(tǒng)和擾動線性系統(tǒng)分別提出了3種方法來分析事件觸發(fā)控制系統(tǒng)的穩(wěn)定性,理論上研究了線性系統(tǒng)的周期事件驅(qū)動控制。文獻[12]在減少目標跟蹤系統(tǒng)通信量的同時保證系統(tǒng)的最優(yōu)估計性能,針對目標跟蹤問題,將事件驅(qū)動控制擴展到了非線性系統(tǒng)中。文獻[13]針對線性系統(tǒng)狀態(tài)反饋控制問題,利用脈沖控制方法,研究了事件觸發(fā)控制系統(tǒng)的穩(wěn)定性。文獻[14]針對連續(xù)時間非線性系統(tǒng)的控制問題,設(shè)計了最優(yōu)自適應事件觸發(fā)控制算法。文獻[15]針對積分器的穩(wěn)定性問題,在勒貝格采樣環(huán)境下提出了一種非線性控制律,從而使系統(tǒng)達到漸近穩(wěn)定。基于上述文獻,學者們在很大程度上對事件觸發(fā)機制的應用研究做出了杰出貢獻,使最優(yōu)控制理論得到了進一步的完善。但是,在這些文獻中,采用事件觸發(fā)采樣時的控制策略往往簡單,如脈沖控制、開關(guān)控制、啟發(fā)式PID控制或自適應觸發(fā)控制,并且大部分針對的是連續(xù)時間線性系統(tǒng)或者離散時間非線性系統(tǒng)。然而,基于勒貝格采樣的連續(xù)非線性系統(tǒng)的最優(yōu)控制問題還沒有一個完整的模型,也沒有得到深入的研究。因此,本文提出了基于勒貝格采樣的非線性系統(tǒng)最優(yōu)控制模型,并給出了基于馬爾可夫決策過程的求解方法。
本文主要研究了連續(xù)時間非線性系統(tǒng)的最優(yōu)控制問題,提出了基于勒貝格采樣的一般最優(yōu)控制方案。首先,給出了勒貝格采樣系統(tǒng)模型的數(shù)學描述。然后,利用馬爾可夫決策過程中的時間集結(jié)方法搭建模型,并通過策略迭代算法對該模型進行Matlab仿真,結(jié)合解析法求解策略迭代算法中系統(tǒng)的相關(guān)參數(shù)。最后,利用仿真算例,通過給定初始策略求得勒貝格采樣系統(tǒng)的最優(yōu)策略和平均采樣間隔,再用此平均采樣間隔作為周期性采樣系統(tǒng)的等采樣間隔,對比兩種采樣策略,可以發(fā)現(xiàn)基于勒貝格采樣的非線性系統(tǒng)的優(yōu)化性能好于基于周期采樣的隨機動態(tài)系統(tǒng)。為了更好地說明方法的有效性,分別定量地改變代價函數(shù)的控制能量和事件的狀態(tài)值對其進行仿真研究,實驗結(jié)果再次表明勒貝格采樣系統(tǒng)不僅改善了系統(tǒng)性能,還減小了系統(tǒng)能耗。
給定一個1維連續(xù)非線性控制系統(tǒng)[16]:
dx=μ(x,u)dt+σdv
(1)
其中,x=x(t)∈R表示系統(tǒng)在t時刻的狀態(tài),u=u(t)∈U?Rn為系統(tǒng)在t時刻的控制量,U是控制量的集合,v=v(t)表示一個維納過程,σ是常數(shù)。μ(x,u)為“狀態(tài)-行動”對的數(shù)值函數(shù)。假設(shè)系統(tǒng)(1)是勒貝格可測函數(shù),則系統(tǒng)的代價函數(shù)記為fu(x)。研究隨機系統(tǒng)的最優(yōu)控制問題,其目的就是找一個最優(yōu)控制律u(t),t∈[0,∞),使無窮時段長期平均性能最小。
定義系統(tǒng)的無窮時段長期平均性能為
(2)
其中,“E”表示概率測度下的期望,假設(shè)在控制變量u(t)的作用下系統(tǒng)是穩(wěn)定的,那么上述性能ηu與初始狀態(tài)x(0)無關(guān)。
本文研究的勒貝格采樣[17-18]定義如下:首先,定義一個有限離散事件集合:D={1,…,D} 。每一個事件d∈D對應系統(tǒng)的一個狀態(tài)值xd。那么,事件集合D相對應的系統(tǒng)狀態(tài)值的集合為χD={xd:d∈D}?R,簡稱事件的值集合。為了更加完整地描述系統(tǒng)的一般數(shù)學模型,假設(shè)x1 ti= min{t:t>ti-1,x(t)∈χD,x(t)≠x(ti-1)} (3) 對所有的i=1,2,…均成立。發(fā)生在時刻ti的事件記做di∈D,則{di,i=0,1,2,L}構(gòu)成了一個嵌入鏈。為了保證嵌入鏈是發(fā)生在離散時刻,即di+1-di∈{-1,1},從而排除了di+1=di的情況。如上所述,只在事件發(fā)生的時候才進行的采樣過程,被稱為勒貝格采樣。 勒貝格采樣又稱基于事件的采樣,由此可結(jié)合基于事件驅(qū)動的優(yōu)化控制方法來研究系統(tǒng)模型。在基于勒貝格采樣的系統(tǒng)模型構(gòu)建中,系統(tǒng)的控制量是在系統(tǒng)狀態(tài)被采樣的時候加入的,直到下一個采樣時刻發(fā)生才停止。因此,在時刻ti的控制量,記做ui。數(shù)學符號描述為:u(t)=ui且t∈[ti,ti+1)。原動態(tài)系統(tǒng)(1)可以描述為 dx=μ(xi,ui)dt+σdv,ti≤t (4) 其中,ui表示系統(tǒng)在時刻ti所加入的控制量,又稱為事件的行動。它是由控制策略所決定的,記為ui=u(di),di∈D,ui∈U,i= 0,1,L。這個與事件di有關(guān)的控制策略稱為控制律或策略,記作u。從式(4)可得,行動ui僅由事件di決定,因此u稱作基于事件的策略。假設(shè)可采取的行動集合U是有限的,則原系統(tǒng)(1)的問題就變成了如何選擇一個最優(yōu)控制策略u使得動態(tài)系統(tǒng)(4)的平均性能最小。 研究動態(tài)系統(tǒng)的最優(yōu)控制問題常常通過搭建馬爾可夫數(shù)學模型來求解,許多關(guān)于馬爾可夫模型的優(yōu)化設(shè)計方法也均可適用。因此,可以通過構(gòu)造一個等價的馬爾可夫模型,再結(jié)合時間集結(jié)法來求解系統(tǒng)的最優(yōu)控制問題[19-20]。 本文研究的時間集結(jié)法[21]定義如下:通過分析動態(tài)系統(tǒng)(4)可知,嵌入鏈{di,i=0,1,2,…}是一個馬爾可夫鏈,具有狀態(tài)空間D以及轉(zhuǎn)移概率矩陣Pu={pu(d)(d'|d)}d,d'∈D,它表示在策略u下,這個嵌入式的馬爾可夫鏈從事件d轉(zhuǎn)移到下一個事件d'的概率。在系統(tǒng)穩(wěn)定的條件下,由式(3)可得: (5) 其中,pu(1)(2|1)=1,pu(D)(D-1|D)=1。顯然,這個嵌入鏈是不可約的且周期為2的馬氏鏈。則有唯一的穩(wěn)態(tài)分布πu滿足平衡方程:πuPu=πu和πue=1,其中e=(1,1,…,1)T是每個元素都為1的D維列向量。 根據(jù)馬爾可夫模型,通過構(gòu)造一個等價的馬爾可夫過程,并且結(jié)合代價函數(shù),使平均性能(2)和動態(tài)系統(tǒng)(4)的性能是相同的。由于系統(tǒng)的樣本路徑被各個嵌入點分隔成許多片段,因此,定義第d片段為:ζi={x(t),ti≤t (6) (7) (8) (9) 在策略u下,通過運用強大數(shù)法則[22],系統(tǒng)的性能表示為 (10) (11) (12) 對任意策略u有: 嵌入鏈對應的平均性能為 (13) 其中,δ是實數(shù)。 針對連續(xù)非線性系統(tǒng)的最優(yōu)控制問題,通過定理1可知,新構(gòu)建的馬爾可夫模型可采用策略迭代算法進行求解和仿真驗證。 定理1 1)對于馬爾可夫模型中代價函數(shù)為(12)以及δ=ηu,策略u′優(yōu)于策略u的充分必要條件是:具有代價函數(shù)(11)的馬爾可夫模型,策略u′也優(yōu)于策略u。 2)對于馬爾可夫模型中代價函數(shù)為(11)以及最佳策略u*的充分必要條件是:馬爾可夫模型中代價函數(shù)為(12)以及δ=ηu*,策略u*也是最佳的。 證明: (14) 其中,I是單位陣,gu表示在策略u的性能勢向量[23]。特別地,gu的特解如下[23]: (15) 通過定理1可給出如下策略迭代算法[21]。定義uk為第k次迭代中所使用的策略,u*為最優(yōu)策略。策略迭代算法的具體步驟如表1所示: 表1 策略迭代算法Tab.1 Policy iteration algorithm 通過定理1)和策略迭代理論[23],如果該算法不停止,則在每次迭代中,嵌入式馬爾可夫鏈的性能都會得到提升。當只有有限數(shù)量的策略時,迭代過程必將停止。由定理2)可知,當?shù)V梗到y(tǒng)將會達到嵌入式馬爾可夫鏈的最優(yōu)性能。 本文主要研究這種狀態(tài)無關(guān)的特殊情況[23],代價函數(shù)為fu(x)=mx2+uTNu,其中是正實數(shù),N是正定矩陣。在策略迭代中使用的3個變量,通過求解微分方程可得到解析解。經(jīng)過計算,結(jié)果如下: 對于所有的xd-1≤x≤xd+1,1 (16) (17) (18) 其中,qp(x,u)表示從狀態(tài)x∈(xd-1,xd+1)、行動為u出發(fā)的過程中,首先到達狀態(tài)xd+1而不是xd-1的概率。q1(x,u)表示x∈(xd-1,xd+1)時,從初始狀態(tài)x0、行動u0出發(fā)的片段期望長度,而對于其他狀態(tài)x,令q1(x,u)=0。qf(x,u)表示從狀態(tài)x∈(xd-1,xd+1)、行動為u開始的在一個片段上的期望代價積分,而當x?(xd-1,xd+1)有qf(x,u)=0。下式中出現(xiàn)的相同符號,含義亦相同。 如果μ(u)=0,則: (19) (20) (21) 當d=1時,因為該系統(tǒng)是穩(wěn)定的,且如前面假設(shè)的x1<0,必有μ(u)>0,于是有qp(x,u)=1,q1(x,u)=(x2-x1)=μ(u)和: (22) 當d=D和μ(u)<0時,有qp(xD,u)=0和q1(xD,u)=(xD-1-xD)/μ(u): (23) 上文已經(jīng)對勒貝格采樣系統(tǒng)的最優(yōu)控制方案作了詳細的闡述,下面對周期性采樣方案的優(yōu)化控制作簡要地分析[24-25]。為了保證在其他條件不變的情況下比較兩者的性能,利用勒貝格采樣系統(tǒng)中所得平均采樣間隔作為周期性采樣的等采樣間隔,即Δ=ti+1-ti。其中,ti,i=0,1,2,…,表示系統(tǒng)的采樣時刻。 動態(tài)系統(tǒng)描述為: dx=(ax+bui)dt+σdv,ti≤t (24) 其中,ui是采樣時刻ti上的控制量,在區(qū)間[ti,ti+1)上保持不變,且由系統(tǒng)狀態(tài)決定:令xi=x(ti),則ui=u(xi)。a∈R和b∈R1×n都是給定參數(shù),從而保證系統(tǒng)的可鎮(zhèn)定性。代價函數(shù)為fu(x)=mx2+uTNu。該系統(tǒng)的優(yōu)化問題是找到一個反饋控制律u(x)使性能(2)最小。 針對狀態(tài)無關(guān)這種特殊情形,由式(24)可知,當a=0時,有: xi+1=Axi+Bui+ξ (25) 其中,A=1,B=bΔ,且ξ=σv是一個零均值,方差為Var(ξ)=σ2Δ的正態(tài)分布隨機變量。 Fu(x)=Gx2+xRu+uTVu+J (26) 其中G=m,R=mbΔ,V=(1/3)mbTbΔ2+N以及J=(1/2)mσ2Δ。最優(yōu)控制律是u(x)=-Lx,其中L=(1/2)(BTBS+V)-1(2ABTS+RT),并且S滿足代數(shù)Riccati方程: (27) 通過求解方程(27)可以得到最優(yōu)控制策略,其相對應的最優(yōu)性能為η=σ2ΔS+J。 圖1 基于勒貝格采樣的控制策略Fig.1 Lebesgue-sampling-based control policy 為了避免初始策略選擇的偶然性,對初始策略進行多組數(shù)據(jù)實驗后,實驗結(jié)果如表2所示。觀察發(fā)現(xiàn),當初始策略中間項為0時,左右兩端的策略關(guān)于中間項互為相反數(shù),且左邊的控制量大于零,右邊的控制量小于零時,迭代次數(shù)k=1;當初始策略為最優(yōu)策略時,不進行迭代,即k=0;當初始策略偏離最優(yōu)策略較大時,迭代次數(shù)也相對的增加。故而,為了快速得到較好的性能,初始策略的設(shè)定可為最優(yōu)策略的形式。 表2 初始策略與迭代次數(shù)的關(guān)系Tab.2 The relationship between the initial strategy and the number of iterations 表3 兩種采樣方案的數(shù)據(jù)對比Tab.3 Data comparison of two sampling schemes 例2根據(jù)例1,令系統(tǒng)代價函數(shù)fu(x)=x2+Nu2中的正定矩陣N=0,0.1,0.2,…,1,2,3,4,10,其余參數(shù)不變的情況下,對比觀察勒貝格采樣系統(tǒng)和傳統(tǒng)周期采樣系統(tǒng)的性能參數(shù)變化。仿真驗證,其結(jié)果分別用表4和圖2表示: 表4 兩種采樣方案的數(shù)據(jù)對比Tab.4 Data comparison of two sampling schemes 圖2 兩種采樣方案的性能比較Fig.2 Performance comparison of two sampling schemes 觀察上面的表4,表中的最后1列表示勒貝格采樣優(yōu)于周期采樣性能的百分比,百分比隨著N的變大而減小,說明了控制能量的代價在設(shè)計控制器時顯得尤為重要。由整個結(jié)果分析可知,當N>0時,系統(tǒng)的控制能量代價不為零,最優(yōu)策略也不是max-min形式。比如,當N=0.3時,系統(tǒng)的最優(yōu)策略為u*=[5,3,2,0,-2,-3,-5]T。 再分析圖2可知,在相同的采樣間隔下,當N=3時,勒貝格采樣系統(tǒng)性能和周期采樣性能有相同的效果;當N<3時,基于勒貝格采樣系統(tǒng)的性能明顯優(yōu)于基于周期采樣系統(tǒng)的性能。雖然,當N>3時,周期采樣系統(tǒng)的性能優(yōu)于勒貝格采樣系統(tǒng),但是,從圖中可以清晰地看到,隨著N的增大,平均采樣間隔變化非常小,性能百分比也趨于零。 表5 兩種采樣方案的數(shù)據(jù)對比(N=0,0.3,3)Tab.5 Data comparison of two sampling schemes(N=0,0.3,3) 圖3 系數(shù)m單獨改變時的性能比較Fig.3 Performance comparison when coefficient m is changed separately 例3在例2的基礎(chǔ)上,改變代價函數(shù)為fu(x)=mx2+Nu2的系數(shù),其他條件亦不變的情況下,當m=0.01,0.1,1,10,100,N=0,0.3,1,3.時,得出如下結(jié)論: 通過仿真實驗數(shù)據(jù)分析可得,當控制能量N=0時,無論代價函數(shù)中系數(shù)為何值時,系統(tǒng)平均采樣間隔不變,即Δ=0.347 6s,最優(yōu)策略始終為min-max形式,即u*=[5,5,5,0,-5,-5,-5]T;由表5分析可知,系統(tǒng)的最優(yōu)性能隨著的增大而增大,且倍數(shù)增加相同。從而表明了勒貝格采樣系統(tǒng)中,與狀態(tài)權(quán)值相關(guān)的代價函數(shù)不影響系統(tǒng)的采樣間隔,但對系統(tǒng)的性能影響較大。再觀察圖3中的四個結(jié)果,比較圖3a與圖3b可知,當N<1時,勒貝格采樣系統(tǒng)的平均采樣間隔和兩種兩樣方案的系統(tǒng)性能百分比幾乎是不變的,且兩種采樣系統(tǒng)性能也都是隨著成倍的增加而成倍的增大,呈正比例關(guān)系。由圖3c可知,當N>1時,雖然兩種采樣系統(tǒng)的最優(yōu)性能也隨著的增大而增大,但也不是正比例的關(guān)系。由于圖3a-圖3c的選值范圍較大,為了仔細分析比較兩種采樣方案的系統(tǒng)性能,針對又選擇了(0,1]區(qū)間的數(shù)值。根據(jù)例2中的結(jié)果可知,當N=3時,勒貝格采樣系統(tǒng)性能和周期采樣性能有相同的效果,屬于一個臨界值。在細化值時,依然選擇N=3。由圖3d可知,當N=3,m=1時,兩種采樣方案的系統(tǒng)性能相同,從而驗證了例2的結(jié)果。然而,只有當m<1時,勒貝格采樣系統(tǒng)的性能稍微比周期采樣的性能差一點。因此,整體上可得出勒貝格采樣系統(tǒng)的性能優(yōu)于周期采樣系統(tǒng)的性能是有條件的。 通過多次仿真實驗,由表6中數(shù)據(jù)可得,在控制能量代價不為零時,系統(tǒng)的最優(yōu)性能隨著的增大而增大;平均采樣間隔隨著的增大而減小,系統(tǒng)達到最優(yōu)策略后也幾乎不再變化。 表6 兩種采樣方案的數(shù)據(jù)對比(N=1)Tab.6 Data comparison of two sampling schemes(N=1) 圖4 v變化時各個參量改進的比例Fig.4 Proportion of improvement of each parameter when v changes 例4在例1的基礎(chǔ)上,假定系統(tǒng)的代價函數(shù)中N=0.3,其余條件不變,事件集D的值集合變?yōu)棣諨= {-3,-1-v,-v…,v,1 +v,3},v∈[0.2,1.8]。采用勒貝格采樣,對所有的系統(tǒng)優(yōu)化性能結(jié)果用圖4表示,實線表示最化性能的比例,即各種可能的對應的最優(yōu)性能比上v=1時的最優(yōu)性能,虛線表示平均采樣間隔的比例,即各種可能的對應的采樣間隔比上v=1時的采樣間隔。 由圖4可知,實線斜率的絕對值小于虛線的斜率。當增加時,系統(tǒng)性能略微變差,但平均采樣間隔也會隨之增加,從而節(jié)約了計算資源。 本文研究了勒貝格采樣系統(tǒng)的一般最優(yōu)控制模型,為性能勢理論在隨機控制系統(tǒng)中的應用提供了新的解決方案。首先,通過構(gòu)造等價的馬爾可夫模型,提出了基于勒貝格采樣的非線性系統(tǒng)最優(yōu)控制的一般數(shù)學模型;然后,根據(jù)該模型具有馬爾可夫性,編寫了相應的策略迭代算法以求解勒貝格采樣系統(tǒng)的最優(yōu)策略和長期平均性能,并結(jié)合解析法得出了算法中需要用到的樣本路徑上片段的期望性能、片段長度和相應的轉(zhuǎn)移概率;最后,仿真結(jié)果驗證了在相同的采樣間隔情況下,勒貝格采樣系統(tǒng)的優(yōu)化性能不僅明顯要優(yōu)于周期采樣系統(tǒng),而且基于勒貝格采樣的方法更符合實際的控制系統(tǒng),有效地降低了系統(tǒng)的采樣次數(shù)并節(jié)約了系統(tǒng)的資源消耗。2.2 時間集結(jié)法
2.3 策略迭代算法
2.4 解析法
3 周期采樣系統(tǒng)的優(yōu)化控制
4 仿真結(jié)果與分析
5 結(jié)論