周 偉,于 淼
(浙江大學(xué) 電氣工程學(xué)院,浙江 杭州310027)
自Arimoto等[1-2]針對工業(yè)機(jī)械手系統(tǒng)可重復(fù)的特點(diǎn),提出一種迭代學(xué)習(xí)算法以來,這種智能控制技術(shù)[3-4]引起了人們極大的興趣.迭代學(xué)習(xí)控制將非線性系統(tǒng)作為研究對象,通過不斷迭代而達(dá)到期望行為.在迭代學(xué)習(xí)控制的發(fā)展過程中涌現(xiàn)了許多熱點(diǎn)問題,得到了諸多專家學(xué)者的關(guān)注,如經(jīng)典迭代學(xué)習(xí)控制[5]、高階迭代學(xué)習(xí)控制[6]、魯棒迭代學(xué)習(xí)控制、最優(yōu)迭代學(xué)習(xí)控制、自適應(yīng)迭代學(xué)習(xí)控制[7]等.短短二十幾年,迭代學(xué)習(xí)控制獲得了極大的發(fā)展.
迭代學(xué)習(xí)控制本質(zhì)上是通過對輸出誤差的不斷修正,而實(shí)現(xiàn)自我學(xué)習(xí)的[8-9].利用前一次或前幾次操作時(shí)測得的誤差信息修正控制輸入,控制器的綜合結(jié)構(gòu)簡單,在線計(jì)算負(fù)擔(dān)?。?0].針對非線性系統(tǒng),使用時(shí)變的學(xué)習(xí)控制技術(shù)可以改善控制性能[11].尤其當(dāng)模型未完全已知,或不能充分展現(xiàn)被控對象的全部客觀規(guī)律時(shí),迭代學(xué)習(xí)控制可以充分利用被控對象可以重復(fù)運(yùn)行的特點(diǎn),不斷更新控制輸入,通過多次迭代后,實(shí)現(xiàn)對系統(tǒng)參考輸出軌跡的零誤差追蹤[12].
傳統(tǒng)的迭代學(xué)習(xí)控制在追蹤參考軌跡的過程中,要求參考軌跡必須是迭代不變的.然而,實(shí)際上很難滿足如此嚴(yán)格的重復(fù)性[13].比如,機(jī)械手在上一次工作過程中,在[0 ,T ]期間追蹤某一參考軌跡,在下一次工作時(shí),可能追蹤另一相關(guān)的參考軌跡.根據(jù)內(nèi)模原理可知,當(dāng)受控對象追蹤某一目標(biāo)軌跡時(shí),控制回路必須包含產(chǎn)生目標(biāo)軌跡的動力系統(tǒng)模型的全部信息[14].Moore[15]首先引入ω 算子用來描述迭代域的變化情況.Liu等[16]針對連續(xù)系統(tǒng)參考軌跡的迭代域非嚴(yán)格重復(fù)性問題,通過將高階內(nèi)模和迭代學(xué)習(xí)控制方法相結(jié)合,利用λ范數(shù),證明了基于高階內(nèi)模的迭代學(xué)習(xí)方法的有效性.Yin等[17]針對帶不確定參數(shù)的非線性系統(tǒng)的迭代學(xué)習(xí)問題,使用高階內(nèi)模描述時(shí)變且沿迭代域變化的參數(shù),設(shè)計(jì)基于高階內(nèi)模的參數(shù)學(xué)習(xí)律,并用Lyaponov方法證明了迭代域的漸近收斂.隨著計(jì)算機(jī)控制技術(shù)的廣泛應(yīng)用,離散系統(tǒng)的控制問題受到越來越多的重視.尤其當(dāng)系統(tǒng)中存在非線性因素時(shí),無法將連續(xù)系統(tǒng)中已經(jīng)得到的結(jié)論直接應(yīng)用于離散系統(tǒng).另外,迭代學(xué)習(xí)過程的實(shí)現(xiàn)總是離散的.針對離散系統(tǒng),研究參考軌跡的迭代域非嚴(yán)格重復(fù)問題具有現(xiàn)實(shí)意義.
本文針對一類一階非正則離散時(shí)間非線性系統(tǒng)參考軌跡的非嚴(yán)格重復(fù)性問題,提出基于內(nèi)模原理的控制方法.針對由高階內(nèi)模產(chǎn)生的參考軌跡,使用一種D 型迭代學(xué)習(xí)控制律,從理論上證明了系統(tǒng)跟蹤誤差的收斂性.對于機(jī)械手模型的仿真結(jié)果證明了所提出方法的有效性.
系統(tǒng)方程如下式所示:
式中:下標(biāo)k表示迭代次數(shù);t∈[0 ,T ],[0 ,T ]表示離散時(shí)間{0,1,…,T };xk(t)∈Rn;uk(t)和yk(t)分別為第k 次迭代時(shí)的輸入和輸出向量,uk(t)∈Rm,yk(t)∈Rm;f (xk(t))∈Rn;B(t)∈Rn×m、C(t)∈Rm×n均為關(guān)于t的有界函數(shù).系統(tǒng)(1)為離散一階非正則系統(tǒng),在有限時(shí)間區(qū)間[0 ,T ]上重復(fù)運(yùn)行.
式中:hi(i=1,2,…,m)為穩(wěn)定的多項(xiàng)式 H (z) =zm-h1zm-1-h2zm-2-…-hm的系數(shù).式(2)描述了參考軌跡迭代域變化的規(guī)律性.由式(2)可以看出,參考軌跡迭代相關(guān),且變化規(guī)律是已知的.另外,根據(jù)m 階內(nèi)模求得參考軌跡(t),需要m 個初始軌跡(t),(t),…,(t).記 多 項(xiàng) 式 算 子H (ω-1)為
將式(2)改寫為
系統(tǒng)(1)滿足如下假設(shè).
假設(shè)1 非線性函數(shù)f (xk(t))在有限時(shí)間區(qū)間[0 ,T ]上關(guān) 于xk滿 足 一 致 全局Lipschitz條 件,即滿足:‖f (x1)-f (x2)‖≤lf‖x1-x2‖,其中l(wèi)f為Lipschitz系數(shù).
假設(shè)2 系統(tǒng)初值條件滿足:ek(0) =0,k=1,2,….
假設(shè)3 m 階內(nèi)模生成的參考軌跡滿足:多項(xiàng)式 H (z) =zm-h1zm-1-h2zm-2-…-hm是 穩(wěn) 定的,即多項(xiàng)式的特征方程的所有根位于單位圓內(nèi)部,或在單位圓上僅有單根或共軛復(fù)根.
系統(tǒng)輸出追蹤由m 階內(nèi)模生成的參考軌跡,首先,隨著迭代次數(shù)的增加,參考軌跡不能趨于發(fā)散.因此,上述多項(xiàng)式構(gòu)成的特征方程的根必須位于單位圓內(nèi)部,或僅有單根或共軛復(fù)根落在單位圓上.其次,若上述多項(xiàng)式構(gòu)成的特征方程的根全部位于單位圓的內(nèi)部,上述多項(xiàng)式是穩(wěn)定的,并且當(dāng)?shù)螖?shù)趨向無窮時(shí),由m 階內(nèi)模生成的參考軌跡最終會收斂到零.因?yàn)檫@種情況下,由m 階內(nèi)模產(chǎn)生的參考軌跡的變化趨勢是漸近穩(wěn)定的.最后,若特征方程至少在單位圓上有單根或共軛復(fù)根,則由m 階內(nèi)模生成的參考軌跡在迭代域上會不斷變化,且不會收斂到零.
例如,當(dāng)H1(ω-1)=1 時(shí),有(t)=(t),追蹤的參考軌跡迭代域不變,屬于高階內(nèi)模生成的參考軌跡的特殊情況.當(dāng)H2(ω-1)=ω-1時(shí),高階內(nèi)模生成的參考軌跡滿足的多項(xiàng)式為H2(z) =z2-1,特征根為z1,2=±1,都位于單位圓上.此時(shí),(t)=(t).基于迭代域的算子ω 的定義來源于z 變換的概念,因此仿照z 變換的方法求解(t)可得,y(t)=D1(t)·1k+D2(t)·(- 1 )k.其中,D1(t)及D2(t)為與迭代無關(guān)的待定時(shí)變系數(shù),由初始條件決定.這意味著在奇數(shù)次迭代時(shí),追蹤的參考軌跡都相同,即(t)=D1(t)-D2(t)=…=(t);在偶數(shù)次迭代時(shí),追蹤的參考軌跡相同,即(t)=D1(t)+D2(t)=…=(t),k=1,2,…,N.由此可見,由高階內(nèi)模H2(ω-1)生成的參考軌跡在迭代域上,以2次迭代為周期,參考軌跡會發(fā)生重復(fù)性變化,但是不會收斂到零.
定義1 函數(shù)f(t)的λ范數(shù)[21]為
定義2 表征m 階內(nèi)模的多項(xiàng)式算子H (ω-1)和輸出追蹤誤差乘積的λ范數(shù)為
控制目標(biāo)是設(shè)計(jì)迭代學(xué)習(xí)控制律uk+1(t),使得當(dāng)k→∞時(shí),
針對基于高階內(nèi)模的參考軌跡,采用含有m 階內(nèi)模的D 型迭代學(xué)習(xí)控制律:
即
其中H (ω-1)的定義如式(3)所示,學(xué)習(xí)增益γk的定義為
定理:對于滿足假設(shè)1、2、3和4的一階非正則離散時(shí)間非線性系統(tǒng)(1),針對參考軌跡(2),采用含有m 階內(nèi)模的D 型迭代學(xué)習(xí)控制律(6),選擇學(xué)習(xí)增益γk,使得下列特征多項(xiàng)式漸近穩(wěn)定:
式中:ζt,j=‖hk+1-jIm-C(t)B (t- 1)γk+1-j‖,Im∈Rm×m為單位矩陣,t∈[1 ,T+1] ,j∈[k,k-1,…,km+1],系統(tǒng)跟蹤誤差沿迭代方向收斂到0,即
定義第k+1次迭代時(shí)的輸出追蹤誤差為
將滿足m 階內(nèi)模的輸出跟蹤軌跡(4)代入可得
將式(1)代入式(9),可得
整理可得
由式(3)、(4)可知,
對式(11)兩端取范數(shù),并將式(7)代入可得
在式(13)中,令
并整理可得
考慮到函數(shù)f(t)滿足假設(shè)1,式(14)可變?yōu)?/p>
由式(1)可得
根據(jù)式(13),對式(16)兩端取范數(shù)可得
然后將式(17)在t∈[0 ,T ]展開.當(dāng)t=0時(shí),有
根據(jù)假設(shè)2可知,
可得:xk+1(0) =H (ω-1)xk(0) .將其代入式(18),有
同理有
依此類推,可得
將式(23)代入式(15),有
將式(24)兩端同時(shí)乘以exp(-λ(t +1) ),然后在區(qū)間[0 ,T ]上取上界;根據(jù)假設(shè)4,可得
在式(25)中,可得
式中:
同理可得
另外,可得
同理有,
將式(26)~(29)代入式(25)可知,
式中:
將式(30)各項(xiàng)中的高階內(nèi)模完整表示出來,則有
將式(31)~(33)代入式(30),再將式(30)由t=0到t=T逐項(xiàng)寫出,并記αt+1=a-λbC[δ+ 1] ‖εfk(t)‖λ,t∈[0 ,T] ,可知,當(dāng)t=0時(shí),有
同理,逐步推知,當(dāng)t=T 時(shí),有
注意到假設(shè)2,對不等式(35)進(jìn)行整理,并令
可知,當(dāng)t∈[0 ,T] 時(shí),有
當(dāng)t=0時(shí),滿足
將t=0到t=T 的每一項(xiàng)展開并寫成矩陣形式如下:
式中:
當(dāng)k=0時(shí),有
式中:Ψs(s∈[1-m,2-m,…,0] ),滿足
首先分析不等式(36)中的μt+1,j和ρt+1,j.可以看出,當(dāng)λ取足夠大時(shí),μt+1,j以及ρt+1,j中的δ可以達(dá)到任意小.其次,分析αt+1,t∈[0 ,T ].可以看出,αt+1中的‖εfk(t)‖λ是關(guān)于λ的函數(shù).由于
考慮單連桿機(jī)械手的軌跡跟蹤問題.單連桿機(jī)械手模型的系統(tǒng)方程[22-24]為
由于C( t+ 1 )B(t)=[0 ,1] [0,Δ]T≠0,可知系統(tǒng)為一階非正則.
追蹤的參考軌跡為
其中第一次及第二次迭代的追蹤軌跡如下:
輸出追蹤參考軌跡中內(nèi)含的二階內(nèi)模系數(shù)為:h1=2cos (10 Δ) ,h2=-1,因此,控制取為
選 擇 學(xué) 習(xí) 增 益γ1=1.59/Δ,γ2=-1.10/Δ.(ek(t+ 1) -ek(t))/Δ 是機(jī)械手系統(tǒng)(43)在 第k 次迭代時(shí)的輸出追蹤誤差的一階導(dǎo)數(shù)[25],即控制輸入(47)可以看成是連續(xù)系統(tǒng)(43)的下述學(xué)習(xí)控制律的離散化:
收斂條件為:‖h1I-γ1CB‖=0.4<1,‖h2Iγ2CB‖=0.1<1.對應(yīng)的特征多項(xiàng)式為:z2-0.4z-0.1.它的2個特征根分別為z1=0.57,z2=-0.17,都位于單位圓內(nèi).
圖1 迭代變化的追蹤參考軌跡Fig.1 Iteration-varying reference trajectory
圖1給出參考軌跡在時(shí)域和迭代域下的變化情況.由式(45)可知,迭代變化的參考軌跡滿足,多項(xiàng)式 H (z) =z2-2cos (10 Δ) z+1的特征根是一對位于單位圓上的共軛復(fù)根.仿照z 變換的方式求解式(45)可得,(t)=Da(t)·cos (10 Δk) +Db(t)×sin (10 Δk) ,其中Da(t)及Db(t)為與迭代無關(guān)的待定時(shí)變系數(shù),由初始條件決定.由此可知,參考軌跡(45)在迭代域上會不斷變化,不會重復(fù),且不會收斂到零.從圖1可以看出,滿足m 階內(nèi)模的參考軌跡(45)在迭代域內(nèi)不斷振蕩,完全不重復(fù).定義第k次迭代的輸出均方根誤差為
表1給出不同的迭代次數(shù)時(shí),系統(tǒng)的輸出均方根誤差.圖2給出系統(tǒng)沿迭代方向的輸出均方根誤差.圖3展示了第3次、第7次及第10次迭代時(shí)系統(tǒng)的輸出追蹤情況.從圖2、3可以看出,隨著迭代次數(shù)的增加,系統(tǒng)輸出逐漸收斂到參考軌跡.第10次迭代時(shí),系統(tǒng)輸出已經(jīng)能夠很好地追蹤參考軌跡.另外,第3次迭代時(shí)追蹤的參考軌跡和第10次迭代時(shí)追蹤的參考軌跡完全不同,采用基于高階內(nèi)模的D型迭代算法能夠很好地實(shí)現(xiàn)追蹤.當(dāng)選擇輸出均方根誤差的許可范圍為小于0.01 時(shí),從表1 可以看出,第8次迭代之后,系統(tǒng)的輸出均方根誤差都在許可范圍之內(nèi).
為了與本文含有m 階內(nèi)模的D 型迭代學(xué)習(xí)控制律(47)相比較,給出含有m 階內(nèi)模的P 型[26]迭代學(xué)習(xí)控制律的仿真結(jié)果.控制輸入如下式所示:
表1 基于高階內(nèi)模的D型迭代學(xué)習(xí)律的輸出均方根誤差Tab.1 Output tracking root-mean-square error of HOIMbased D-type ILC
圖2 采用基于高階內(nèi)模的D型迭代學(xué)習(xí)律的系統(tǒng)沿迭代方向的輸出均方根誤差Fig.2 Output tracking root-mean-square error of HOIM-based D-type ILC along iteration axis
圖3 第3、7及10次迭代時(shí)的追蹤Fig.3 Tracking profiles of HOIM-based ILC for 3rd,7th and 10th iterations
表2給出不同迭代次數(shù)時(shí)系統(tǒng)的輸出均方根誤差.系統(tǒng)沿迭代方向的輸出均方根誤差曲線如圖4所示.
考慮到含有高階內(nèi)模的迭代學(xué)習(xí)控制律形式與傳統(tǒng)的高階迭代學(xué)習(xí)控制律形式相似,為了與采用高階內(nèi)模的迭代學(xué)習(xí)控制對比,給出采用高階迭代學(xué)習(xí)律時(shí)的系統(tǒng)追蹤情況.選取控制輸入如下式所示:
表2 基于高階內(nèi)模的P型迭代學(xué)習(xí)律的輸出均方根誤差Tab.2 Output tracking root-mean-square error of HOIMbased P-type ILC
圖4 采用基于高階內(nèi)模的P型迭代學(xué)習(xí)律的系統(tǒng)沿迭代方向的輸出均方根誤差Fig.4 Output tracking root-mean-square error of HOIM-based P-type ILC along iteration axis
選擇P1=1.91,P2=-0.91,Q1=2.65,Q2=-1.圖5給出采用高階迭代學(xué)習(xí)算法,迭代100次時(shí),系統(tǒng)的輸出均方根誤差曲線.表3給出不同的迭代次數(shù)時(shí),系統(tǒng)的輸出均方根誤差.將圖4、5與圖2對比可見,采用基于高階內(nèi)模的D 型迭代學(xué)習(xí)方法,與采用另外2種迭代學(xué)習(xí)控制方法相比,在收斂過程中的振蕩較少,收斂過程更加平穩(wěn),收斂速度顯著加快.
圖5 采用高階迭代學(xué)習(xí)算法時(shí)沿迭代方向的輸出均方根誤差Fig.5 Output tracking root-mean-square error with high order ILC algorithm along iteration axis
表3 基于高階迭代學(xué)習(xí)算法的輸出均方根誤差Tab.3 Output tracking root-mean-square error of high order ILC
(1)本文針對由高階內(nèi)模產(chǎn)生的參考軌跡,設(shè)計(jì)基于高階內(nèi)模的迭代學(xué)習(xí)控制,系統(tǒng)跟蹤誤差可以在有限時(shí)間內(nèi)收斂到零.
(2)通過對機(jī)械手模型的離散化,然后設(shè)計(jì)學(xué)習(xí)增益,并進(jìn)行仿真分析.可以發(fā)現(xiàn),采用基于高階內(nèi)模的D 型迭代學(xué)習(xí)控制方法能夠很好地追蹤迭代域變化的參考軌跡,經(jīng)過較少的迭代次數(shù)能夠達(dá)到系統(tǒng)追蹤的要求.
(3)針對追蹤軌跡迭代域的非嚴(yán)格重復(fù)問題,高階迭代學(xué)習(xí)具有一定的魯棒性,但不能達(dá)到漸近收斂.
(
):
[1]ARIMOTO S,KAWAMURA S,MIYAZAKI F.Bettering operation of robots by learning[J].Journal of Robotic Systems,1984,1(2):123-140.
[2]ARIMOTO S,KAWAMURA S,MIYAZAKI F.Bettering operation of dynamic systems by learning:a new control theory for servomechanism or mechatronics systems[C]∥Proceedings of 23rd Conference on Decision and Control.Las Vegas:IEEE,1984:1064-1069.
[3]張興國,林輝.迭代學(xué)習(xí)控制理論進(jìn)展與展望[J].測控技術(shù),2006,25(11):1-5.ZHANG Xing-guo,LIN Hui.Recent developments and prospects of iterative learning control theory[J].Measurement and Control Technology,2006,25(11):1-5.
[4]許建新,侯忠生.學(xué)習(xí)控制的現(xiàn)狀與展望[J].自動化學(xué)報(bào),2005,31(6):943-955.XU Jian-xin,HOU Zhong-sheng.On learning control:the state of the art and perspective[J].ACTA Automatica Sinica,2005,31(6):943-955.
[5]ARIMOTO S.Learning control theory for robotic motion[J].International Journal of Adaptive Control and Signal Processing,1990,4(6):543-564.
[6]CHEN Yang-quan,WEN Chang-yun,SUN Ming-xuan.A robust high-order P-type iterative controller using current iteration tracking error[J].International Journal of Control,1997,68(2):331-342.
[7]FRENCH M,ROGERS E.Non-linear iterative learning by an adaptive Lyapunov technique[J].International Journal of Control,2000,73(10):840-850.
[8]王曄,劉山.期望軌跡可變的非線性時(shí)變系統(tǒng)迭代學(xué)習(xí)控制 [J].浙 江 大 學(xué) 學(xué) 報(bào):工 學(xué) 版,2009,43(5):839-843.WANG Ye,LIU Shan.Iterative learning control of nonidentical desired trajectories for a class of nonlinear timevarying systems[J].Journal of Zhejiang University:Engineering Science,2009,43(5):839-843.
[9]于淼,王佳森,齊冬蓮.具有未知控制方向的輸出反饋?zhàn)赃m應(yīng)學(xué)習(xí)控制[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2013,47(8):1424-1430.YU Miao,WANG Jia-sen,QI Dong-lian.Output-feedback adaptive learning control with unknown control direction[J].Journal of Zhejiang University:Engineering Science,2013,47(8):1424-1430.
[10]孫明軒,黃寶健.迭代學(xué)習(xí)控制[M].北京:國防工業(yè)出版社,2000:2-3.
[11]BONDI P,CASALINO G,GAMBARDELLA L.On the iterative learning control theory for robotic manipulators[J].IEEE Journal of Robotics and Automation,1988,4(1):14-22.
[12]馬航,楊俊友,袁琳.迭代學(xué)習(xí)控制研究現(xiàn)狀與趨勢[J].控制工程,2009,16(3):286-290.MA Hang,YANG Jun-you,YUAN Lin.Current state and trend of iterative learning control[J].Control Engineering of China,2009,16(3):286-290.
[13]XU Jian-xin.Direct learning of control efforts for trajectories with different magnitude scales[J].Automatica,1997,33(12):2191-2195.
[14]TAYEBI A,ZAREMBA M B.Internal model-based robust iterative learning control for uncertain LTI systems[C]∥Proceedings of the 39th IEEE Conference on Decision and Control.Sydney:IEEE,2000:3439-3444.
[15]MOORE K L.A matrix fraction approach to higher-order iterative learning control:2-D dynamics through repetition-domain filtering [C]∥Proceedings of the Second International Workshop on Multidimensional(ND)Systems.Czocha Castle:[s.n.],2000:99-104.
[16]LIU Chun-ping,XU Jian-xin,WU Jun.On iterative learning control with high-order internal models[J].International Journal of Adaptive Control and Signal Processing,2010,24(9):731-742.
[17]YIN Chen-kun,XU Jian-xin,HOU Zhong-sheng.A high-order internal model based iterative learning control scheme for nonlinear systems with time-iterationvarying parameters[J].IEEE Transactions on Automatic Control,2010,55(11):2665-2670.
[18]CHI Rong-hu,HOU Zhong-sheng,XU Jian-xin.Adaptive ILC for a class of discrete-time systems with iteration-varying trajectory and random initial condition[J].Automatica,2008,44(8):2207-2213.
[19]LIU Chun-ping,XU Jian-xin,WU Jun.Iterative learning control with high-order internal model for linear time-varying systems[C]∥Proceedings of 2009 American Control Conference.St.Louis:IEEE,2009:1634-1639.
[20]CHEN Yang-quan,MOORE K L.Harnessing the nonrepetitiveness in iterative learning control[C]∥Proceedings of the 41st IEEE Conference on Decision and Control.Las Vegas:IEEE,2002:3350-3355.
[21]CHIEN C J.A discrete iterative learning control for a class of nonlinear time-varying systems [J].IEEE Transactions on Automatic Control,1998,43(5):748-752.
[22]SUN Ming-xuan,WANG Dan-wei.Initial shift issues on discrete-time iterative learning control with system relative degree[J].IEEE Transactions on Automatic Control,2003,48(1):144-148.
[23]WANG Dan-wei.Convergence and robustness of discrete time nonlinear systems with iterative learning control[J].Automatica,1998,34(11):1445-1448.
[24]HWANG D H,BIEN Z,OH S R.Iterative learning control method for discrete-time dynamic systems[J].IEE Proceedings-D:Control Theory and Applications,1991,138(2):139-144.
[25]JANG T J,AHN H S,CHOI C H.Iterative learning control for discrete-time nonlinear systems[J].International Journal of Systems Science,1994,25(7):1179-1189.
[26]MOORE K L.An observation about monotonic convergence in discrete-time,P-type iterative learning control[C]∥Proceedings of the 2001IEEE International Symposium on Intelligent Control.Mexico:IEEE,2001:45-49.