劉 艷,阮小娥
(西安交通大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西西安 710049)
20世紀(jì)80年代初,日本學(xué)者S.Arimoto等人針對(duì)于機(jī)械手在某一有限時(shí)間區(qū)間內(nèi)重復(fù)跟蹤給定期望軌跡問題,提出了迭代學(xué)習(xí)控制(iterative learning con-trol,ILC)方法[1],該方法在機(jī)器人裝配、機(jī)電一體化、港口集裝箱自動(dòng)裝卸、間歇工業(yè)過程系統(tǒng)等領(lǐng)域引起了廣泛的關(guān)注與應(yīng)用[2–7].迭代學(xué)習(xí)控制的宗旨是針對(duì)特定類型的系統(tǒng),設(shè)計(jì)適當(dāng)?shù)牡鷮W(xué)習(xí)控制律,并對(duì)其學(xué)習(xí)特性,如收斂性和魯棒性進(jìn)行評(píng)價(jià).
迭代學(xué)習(xí)控制的基本學(xué)習(xí)機(jī)理是利用系統(tǒng)已有的跟蹤誤差信息,修正或補(bǔ)償系統(tǒng)當(dāng)前運(yùn)行次的控制輸入,得到系統(tǒng)下一運(yùn)行次的控制輸入,以使隨著系統(tǒng)運(yùn)行次的不斷增加,系統(tǒng)輸出越來越逼近于期望軌線.經(jīng)典的迭代學(xué)習(xí)控制律類型包括D–型[1,8]、P–型[9–11]、PD–型、PID–型[12–14]、高階PD–型[15–17],以及基于反饋的PD–型、PID–型[18–19]和組合型[20]等.傳統(tǒng)的PID–型迭代學(xué)習(xí)控制律的構(gòu)造對(duì)系統(tǒng)動(dòng)力學(xué)知識(shí)要求甚少,但學(xué)習(xí)增益是根據(jù)經(jīng)驗(yàn)選取的,不具有自適應(yīng)性,因而學(xué)習(xí)機(jī)制是被動(dòng)的.當(dāng)然,當(dāng)系統(tǒng)動(dòng)力學(xué)信息可通過辨識(shí)或?qū)嶒?yàn)測(cè)試獲取時(shí),在某種性能指標(biāo)最優(yōu)意義下,可得最優(yōu)或自適應(yīng)迭代學(xué)習(xí)策略,以期獲得良好的跟蹤性能,此種學(xué)習(xí)機(jī)制是積極主動(dòng)式的.諸如在離散系統(tǒng)中,已有的最優(yōu)迭代學(xué)習(xí)控制策略包括H∞型、最速下降型、Newton-Raphson 型、Gauss-Newton型、范數(shù)最優(yōu)型、參數(shù)最優(yōu)型迭代學(xué)習(xí)控制機(jī)制[21–27]等.
縱觀迭代學(xué)習(xí)控制的收斂性和魯棒性研究,其研究對(duì)象和研究方法多種多樣.對(duì)于離散時(shí)域迭代學(xué)習(xí)控制系統(tǒng)而言,得益于數(shù)據(jù)采樣的有限性,采用提升向量技術(shù),可將系統(tǒng)輸入–輸出關(guān)系表為代數(shù)形式,其收斂性可轉(zhuǎn)化為沿著迭代方向系統(tǒng)的穩(wěn)定性[28–30].相對(duì)于離散系統(tǒng)的輸入–輸出代數(shù)關(guān)系,連續(xù)系統(tǒng)的輸入–輸出關(guān)系是卷積形式,其收斂性分析面臨諸多困難和挑戰(zhàn).如,很難將控制輸入從卷積積分中提取出來,即不易于用跟蹤誤差對(duì)學(xué)習(xí)性能進(jìn)行合理的評(píng)估.如早期文獻(xiàn)中[12,31–32],主要方法是采用λ范數(shù)度量跟蹤誤差,證明了D–型、PD–型、PID–型迭代學(xué)習(xí)控制律的收斂性和魯棒性,其中λ范數(shù)的負(fù)指數(shù)函數(shù)形式巧妙地消減了對(duì)卷積積分進(jìn)行估計(jì)的困難.但仔細(xì)觀察λ范數(shù)度量意義下的PD–型和PID–型迭代學(xué)習(xí)控制律的收斂性和魯棒性論證過程,不難發(fā)現(xiàn)收斂性是在參數(shù)λ充分大的題設(shè)下得出的,而且只考量跟蹤誤差當(dāng)?shù)乌呄蛴跓o窮大時(shí)的漸近行為,而沒有考量系統(tǒng)在初始迭代次的暫態(tài)學(xué)習(xí)性能.此外,如文獻(xiàn)[33]所述,理論上,當(dāng)參數(shù)λ的取值充分大且當(dāng)?shù)纬浞执髸r(shí),即使跟蹤誤差在λ范數(shù)形式下滿足精度要求,但在實(shí)際度量如能量意義下,跟蹤誤差在初始迭代次會(huì)遠(yuǎn)遠(yuǎn)超出工程容許度,有時(shí)會(huì)導(dǎo)致系統(tǒng)崩潰.盡管如此,根據(jù)學(xué)習(xí)機(jī)理,學(xué)者們不斷積極探索,堅(jiān)信當(dāng)比例、積分和導(dǎo)數(shù)補(bǔ)償增益在適當(dāng)條件下,可有效提高迭代學(xué)習(xí)控制的跟蹤性能.已有結(jié)果表明,P–型迭代學(xué)習(xí)控制律對(duì)耗散系統(tǒng)是有效的[34];適當(dāng)?shù)姆e分補(bǔ)償可改善系統(tǒng)的跟蹤性能,但尚無嚴(yán)格論證[35];此外,文獻(xiàn)[36]在sup–范數(shù)意義下,證明了PID–型迭代學(xué)習(xí)控制算法的跟蹤誤差在某一子區(qū)間上是指數(shù)單調(diào)收斂的,其子區(qū)間的上界依賴于系統(tǒng)的狀態(tài)矩陣、輸入和輸出矩陣以及比例和導(dǎo)數(shù)學(xué)習(xí)增益,這意味著比例、積分和導(dǎo)數(shù)補(bǔ)償均可影響系統(tǒng)的暫態(tài)和漸近學(xué)習(xí)性能.由于sup–范數(shù)度量意義下的單調(diào)收斂性只囿于某一子區(qū)間,不能保證在整個(gè)運(yùn)行區(qū)間上成立,仍會(huì)出現(xiàn)跟蹤誤差超出容許度的情形;進(jìn)一步研究中,文獻(xiàn)[17]采用Lebesgue-p范數(shù)度量跟蹤誤差,得出線性時(shí)不變系統(tǒng)的一階PD–型迭代學(xué)習(xí)控制律是單調(diào)收斂的,給出了收斂判據(jù)由系統(tǒng)動(dòng)力學(xué)和學(xué)習(xí)增益表達(dá)的顯式表示.特別地,跟蹤誤差Lebesgue-2范數(shù)即是跟蹤誤差的能量,但該結(jié)果并未涉及積分補(bǔ)償行為對(duì)跟蹤性能的影響.受上文所述的積分補(bǔ)償積極作用的啟發(fā),本文針對(duì)線性連續(xù)時(shí)不變系統(tǒng),將積分補(bǔ)償嵌入PD–型迭代學(xué)習(xí)控制策略,在Lebesgue-p范數(shù)度量意義下,研究一階和二階PID–型迭代學(xué)習(xí)控制律的單調(diào)收斂形態(tài).
考慮如下重復(fù)性單輸入單輸出線性時(shí)不變系統(tǒng):
其中:[0,Tf]為系統(tǒng)的運(yùn)行區(qū)間;k表示系統(tǒng)重復(fù)指標(biāo),即迭代次數(shù);x(t)∈Rn,u(t)∈R,y(t)∈R分別表示n維狀態(tài)向量、純量控制輸入和控制輸出;矩陣A,B和C表示狀態(tài)、輸入、輸出矩陣.在運(yùn)行區(qū)間t ∈[0,Tf]上,假設(shè)yd(t)為系統(tǒng)(1)的期望軌線,且滿足yd(0)=0,u1(t)為任意初次運(yùn)行時(shí)的控制輸入.利用初次跟蹤誤差,即e1(t)=yd(t)?y1(t)的比例、積分和導(dǎo)數(shù)值對(duì)當(dāng)前運(yùn)行的控制輸入u1(t)進(jìn)行補(bǔ)償,產(chǎn)生系統(tǒng)下一次運(yùn)行的控制輸入u2(t),t ∈[0,Tf].依次類推,可迭代生成控制輸入序列,即為傳統(tǒng)的一階PID–型迭代學(xué)習(xí)控制律,其數(shù)學(xué)表達(dá)式如下:
其中Γp1,Γi1和Γd1分別為比例、積分和導(dǎo)數(shù)學(xué)習(xí)增益.這里ek(t)=yd(t)?yk(t)表示期望軌線yd(t)與系統(tǒng)第k次迭代運(yùn)行時(shí)由控制輸入uk(t)產(chǎn)生的控制輸出yk(t)之間的跟蹤誤差.值得注意的是,在學(xué)習(xí)控制律(2)中,下一次運(yùn)行的控制輸入uk+1(t)是由當(dāng)前運(yùn)行時(shí)的控制輸入和跟蹤誤差信息組成的,算法(2)被稱為一階PID–型迭代學(xué)習(xí)控制更新律.
顯然,當(dāng)導(dǎo)數(shù)學(xué)習(xí)增益Γd1置為零時(shí),PID–型迭代學(xué)習(xí)控制律LPID(1)或(2)就退化為PI–型迭代學(xué)習(xí)控制律LPI(1).類似地,通過設(shè)置學(xué)習(xí)增益Γp1,Γd1和(或)Γi1為零,可得到相應(yīng)的D–型和P–型迭代學(xué)習(xí)控制算法.
此外,利用最近相鄰2次迭代跟蹤誤差聯(lián)合補(bǔ)償當(dāng)前次控制輸入,可得二階PID–型迭代學(xué)習(xí)控制律,其數(shù)學(xué)表達(dá)式如下:
注1類似于文獻(xiàn)[17]中的討論,通過適當(dāng)選擇學(xué)習(xí)增益,當(dāng)σ2<時(shí),可使二階PID–型迭代學(xué)習(xí)控制律LPID(2)的收斂速度快于一階PID–型迭代學(xué)習(xí)控制律LPID(1).
注2因?yàn)镻ID–型迭代學(xué)習(xí)控制器的物理含義類似于傳統(tǒng)的PID控制器,可借鑒PID控制器增益選取的經(jīng)驗(yàn),選取比例、導(dǎo)數(shù)和積分學(xué)習(xí)增益.
在微電子制造中,快速熱處理是半導(dǎo)體加工中不可缺少的一道工序.在短時(shí)間內(nèi),硅片的溫度必須加熱至較高溫度.在通常情況下,單晶反應(yīng)釜由常規(guī)PID控制器調(diào)節(jié),其暫態(tài)響應(yīng)有時(shí)會(huì)出現(xiàn)響應(yīng)速度慢、穩(wěn)態(tài)時(shí)間過長(zhǎng)、存在穩(wěn)態(tài)誤差或暫態(tài)響應(yīng)超調(diào)等現(xiàn)象[39].從長(zhǎng)遠(yuǎn)的生產(chǎn)過程來看,快速熱加工可看作為多次重復(fù)的間歇過程,因此,可采用迭代學(xué)習(xí)控制方法改善其暫態(tài)性能.假設(shè)由PID控制器調(diào)整的反應(yīng)釜的動(dòng)力學(xué)模型為
系統(tǒng)的運(yùn)行區(qū)間設(shè)定為[0,20],初始狀態(tài)為[x1(0)x2(0) x3(0)]T=0,期望軌跡線為
仿真中,誤差的Lebesgue-2范數(shù)為
比較1一階PID–型和PD–型迭代學(xué)習(xí)控制律的單調(diào)收斂性:為了便于對(duì)照,一階PID–型和相對(duì)應(yīng)的PD–型迭代學(xué)習(xí)控制律的比例和導(dǎo)數(shù)學(xué)習(xí)增益設(shè)置相同,取Γp1=1.1, Γd1=1.2, Γi1=0.05.可驗(yàn)證PID–型控制律的收斂因子ρ1=0.75817<1,PD–型控制律的收斂因子=0.75073<1,滿足定理1的收斂條件.
圖1顯示PID–型和PD–型迭代學(xué)習(xí)控制律在第15次迭代時(shí)的跟蹤行為,其中:實(shí)線表示期望軌線、虛線表示PID–型控制律的輸出曲線、點(diǎn)劃線表示PD–型控制律的輸出曲線.圖2是兩種控制律的跟蹤誤差的2 范數(shù)曲線,其中k表示系統(tǒng)迭代次數(shù).從圖1和圖2可以看出,一階PID–型控制律的跟蹤誤差的2范數(shù)小于相應(yīng)的PD–型控制律的跟蹤誤差的2范數(shù),且能消除系統(tǒng)的穩(wěn)態(tài)誤差.
圖1 第15次運(yùn)行時(shí)的跟蹤行為Fig.1 Tracking behavior of the 15th iteration
圖2 跟蹤誤差的2范數(shù)的變化趨勢(shì)Fig.2 Tracking error 2-norm tendency
比較2一階和二階PID–型迭代學(xué)習(xí)控制律LPID(2)的單調(diào)收斂性:在一階和二階PID–型迭代學(xué)習(xí)控制律中,選取學(xué)習(xí)增益分別為Γp1=1.1, Γd1=1.2, Γi1=0.03, Γp2=1.1, Γd2=1.2和Γi2=0.1,權(quán)重系數(shù)分別為ω1=0.9和ω2=0.1,通過計(jì)算可知=0.7987 < 1, σ1=0.9098 < 1和σ2=0.3978<1,滿足定理2的收斂條件.圖3為一階和二階PID–型迭代學(xué)習(xí)控制律在第10次迭代時(shí)的輸出曲線.圖4為2種迭代學(xué)習(xí)控制律的跟蹤誤差的2范數(shù)趨勢(shì),從圖中可以看出一階和二階PID–型迭代學(xué)習(xí)控制律都具有較好的跟蹤性能.
圖3 第10次運(yùn)行時(shí)的跟蹤行為Fig.3 Tracking behavior of the 10th iteration
圖4 跟蹤誤差的2范數(shù)的變化趨勢(shì)Fig.4 Tracking error 2-norm tendency
本文研究了一類線性時(shí)不變系統(tǒng)的一階和二階PID–型迭代學(xué)習(xí)控制律的收斂性態(tài).在Lebesgue-p范數(shù)度量意義下,利用推廣的卷積Young不等式,理論證明了控制律的單調(diào)收斂性.在證明過程中,采用范數(shù)的三角不等式對(duì)誤差的2范數(shù)進(jìn)行估計(jì),這可能導(dǎo)致當(dāng)積分補(bǔ)償嵌入到PD–型迭代學(xué)習(xí)控制律中時(shí),收斂條件較為保守.盡管如此,數(shù)值仿真表明適當(dāng)選取積分學(xué)習(xí)增益,可進(jìn)一步改善系統(tǒng)的跟蹤性能;特別地,對(duì)于存在穩(wěn)態(tài)誤差系統(tǒng),積分補(bǔ)償可消除跟蹤的穩(wěn)態(tài)誤差.由于迭代學(xué)習(xí)控制策略沿迭代方向是誤差補(bǔ)償方案的積累,也可看作是一種形式的積分,因此,積分增益的選擇需謹(jǐn)慎,或可采取靈活的切換算法或自適應(yīng)增益選取方法.