段緒彭 李永振
摘 要:本文對(duì)于系統(tǒng)模態(tài)不匹配的異步切換多智能體系統(tǒng)的輸出調(diào)節(jié)問題進(jìn)行了分析與探討,結(jié)合粒子群算法等多智能體系統(tǒng)的優(yōu)化算法對(duì)于分布式輸出反饋控制協(xié)議進(jìn)行了設(shè)計(jì),從而能夠有效地做好輸出調(diào)節(jié)的工作,為其進(jìn)一步發(fā)展打下了堅(jiān)實(shí)的基礎(chǔ)。
關(guān)鍵詞:異步切換多智能體系統(tǒng);輸出調(diào)節(jié)問題;分析;探討
輸出調(diào)節(jié)問題近年來已經(jīng)取得了很多成果, 輸出調(diào)節(jié)的目標(biāo)是為不確定受控系統(tǒng)設(shè)計(jì)控制律使得閉環(huán)系統(tǒng)漸近穩(wěn)定, 且在存在擾動(dòng)時(shí)閉環(huán)系統(tǒng)的輸出可以漸近地跟蹤參考輸入或漸近地抑制干擾信號(hào)。多智能體系統(tǒng)一致性問題受到了很多學(xué)者的關(guān)注,一致性問題可以看作輸出調(diào)節(jié)的一類特殊問題, 同理, 多智能體的一致性問題也可看作多智能體協(xié)同輸出調(diào)節(jié)問題的一類特殊問題。
1 多智能體系統(tǒng)的優(yōu)化算法分析
粒子群算法,縮寫為 PSO。PSO 算法屬于進(jìn)化算法的一種,和模擬退火算法相似,它也是從隨機(jī)解出發(fā),通過迭代尋找最優(yōu)解,它也是通過適應(yīng)度來評(píng)價(jià)解的品質(zhì),但它比遺傳算法規(guī)則更為簡(jiǎn)單,它沒有遺傳算法的“交叉”和“變異”操作,它通過追隨當(dāng)前搜索到的最優(yōu)值來尋找全局最優(yōu)。這種算法以其實(shí)現(xiàn)容易、精度高、收斂快等優(yōu)點(diǎn)引起了學(xué)術(shù)界的重視,并且在解決實(shí)際問題中展示了其優(yōu)越性,粒子群算法是一種并行算法,其源于對(duì)鳥群捕食的行為研究 目前很多學(xué)者都對(duì)多智能體系統(tǒng)生成進(jìn)行了深入研究,取得的研究成果也是眾多的。在本文中對(duì)于個(gè)體適應(yīng)值以多智能體系統(tǒng)數(shù)據(jù)進(jìn)行有效模擬,以此方式使得程序運(yùn)行時(shí)間得以有效控制,故此,進(jìn)行多智能體系統(tǒng)數(shù)據(jù)生成時(shí),僅需利用較為基本的方法即可,由于在被測(cè)程序中,所對(duì)應(yīng)的目標(biāo)路徑并不是唯一的,而每次算法運(yùn)行,僅能夠?qū)ζ渲械囊环N路徑進(jìn)行測(cè)試,由此得到對(duì)應(yīng)路徑的多智能體系統(tǒng)數(shù)據(jù),因此路徑數(shù)量對(duì)應(yīng)著算法需要進(jìn)行的次數(shù)。首先,要求能夠得到一定的多智能體系統(tǒng)數(shù)據(jù),可將程序進(jìn)行插裝以獲得真實(shí)適應(yīng)值,由此得到實(shí)驗(yàn)需要的樣本數(shù)據(jù)。隨后,通過樣本使得多智能體系統(tǒng)數(shù)據(jù)得到訓(xùn)練,當(dāng)訓(xùn)練完成之后以這些多智能體系統(tǒng)數(shù)據(jù)來對(duì)個(gè)體適應(yīng)值進(jìn)行大致評(píng)估,從中選擇優(yōu)秀的個(gè)體,即那些具有較好適應(yīng)值的,隨后進(jìn)行程序運(yùn)行以此方式從中得到實(shí)際的適應(yīng)值水平。此外,因?yàn)樵诒疚姆椒ㄖ袑?duì)于個(gè)體適應(yīng)值是以多智能體系統(tǒng)數(shù)據(jù)進(jìn)行的評(píng)估,故此,如果目標(biāo)路徑是相同的,只需要在初始階段對(duì)多智能體系統(tǒng)數(shù)據(jù)進(jìn)行訓(xùn)練,在后期的運(yùn)行中是無須對(duì)其進(jìn)行更新的。
2 分布式輸出反饋控制協(xié)議設(shè)計(jì)
一般在這樣的框架下,可以實(shí)現(xiàn)較好的優(yōu)化功能,主要包括評(píng)價(jià)模型和執(zhí)行三個(gè)部分,這三個(gè)部分主要在于能夠?qū)崿F(xiàn)完整的評(píng)價(jià)改善循環(huán),評(píng)價(jià)模塊可以評(píng)估執(zhí)行模塊的實(shí)際效能,對(duì)于代價(jià)函數(shù)進(jìn)行優(yōu)化與修正,執(zhí)行模塊可以產(chǎn)生實(shí)際的動(dòng)作來對(duì)所改進(jìn)的策略進(jìn)行執(zhí)行,同時(shí)也能有效的對(duì)于被控對(duì)象的情況進(jìn)行反應(yīng),將其進(jìn)行運(yùn)行之后,可以通過不同的反饋,來對(duì)實(shí)際評(píng)價(jià)與運(yùn)行的情況進(jìn)行確定,同時(shí),利用相關(guān)的神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等算法,來實(shí)現(xiàn)函數(shù)的近似與優(yōu)化,這樣就能對(duì)于系統(tǒng)的內(nèi)部參數(shù)進(jìn)行實(shí)時(shí)的更新,這里主要是采用貝爾曼的優(yōu)化方式來進(jìn)行更新的。效用函數(shù)可以對(duì)于函數(shù)輸入在系統(tǒng)內(nèi)產(chǎn)生的效果,進(jìn)行合理有效的評(píng)估,主要有以下這些方式:通過代價(jià)函數(shù)的定義情況,我們可以對(duì)效用函數(shù)做出一定的評(píng)價(jià),我們可以看出,當(dāng)?shù)綍r(shí)候,效用函數(shù)的重要性是一樣的,當(dāng)折扣因子減小的時(shí)候,這個(gè)自適應(yīng)系統(tǒng)就可以在越短的時(shí)間內(nèi)進(jìn)行收斂,得到一個(gè)更加優(yōu)化的結(jié)果,但是當(dāng)折扣因子如果過大的時(shí)候,系統(tǒng)的幅度就很難進(jìn)行控制,所以這個(gè)時(shí)候,我們應(yīng)當(dāng)盡量的提高學(xué)習(xí)率。學(xué)習(xí)率一般是在0到1之間的,學(xué)習(xí)率可以直接反映這個(gè)系統(tǒng)的學(xué)習(xí)速度,但是學(xué)習(xí)率如果太大的話,就可能會(huì)導(dǎo)致整個(gè)系統(tǒng)的震蕩過于嚴(yán)重,但是學(xué)習(xí)律太低又使得它的收斂的速度太慢了,導(dǎo)致整個(gè)的訓(xùn)練時(shí)間太長(zhǎng),無法滿足實(shí)際的要求,因此在符合實(shí)際要求的情況下,盡量增大學(xué)習(xí)率,這樣就可以提升學(xué)習(xí)的速度,同時(shí)避免出現(xiàn)嚴(yán)重的震蕩情況。
分布式輸出反饋控制協(xié)議方法是通過強(qiáng)化學(xué)習(xí),來對(duì)傳統(tǒng)的動(dòng)態(tài)規(guī)劃進(jìn)行優(yōu)化,然后可以有效的解決離散系統(tǒng)和非線性系統(tǒng)中出現(xiàn)的問題,主要包括策略迭代和直接在兩種形式,策略迭代主要是通過策略評(píng)價(jià)與改進(jìn)的方法,對(duì)每一步的策略進(jìn)行評(píng)估,來不斷的尋找優(yōu)化的策略,同時(shí)對(duì)其進(jìn)行改良和優(yōu)化,得到新的權(quán)值,生成新的優(yōu)化函數(shù)進(jìn)行計(jì)算,在這個(gè)過程當(dāng)中,評(píng)估和改進(jìn)是循環(huán)進(jìn)行的,最后將會(huì)得到一個(gè)最優(yōu)的控制策略。但是需要注意的是,在最好的運(yùn)行模式下,相關(guān)的一些外部參數(shù)條件應(yīng)當(dāng)是穩(wěn)定的,這是非常重要的,如果沒有這個(gè)條件,就會(huì)導(dǎo)致整個(gè)策略評(píng)估,出現(xiàn)一些意外的情況。值迭代的算法主要是針對(duì)于一些方程式的計(jì)算,通過最優(yōu)函數(shù)的尋找與控制計(jì)算,就能計(jì)算出最優(yōu)的值,它不需要進(jìn)行控制策略的穩(wěn)定化,在我們的使用當(dāng)中必須要注意,無論是迭代策略還是值迭代,都需要對(duì)于被控對(duì)象的相關(guān)特性,尤其是內(nèi)部特性進(jìn)行研究,這也是分布式輸出反饋控制協(xié)議的核心特點(diǎn)。
策略迭代的算法可以根據(jù)每一步的執(zhí)行情況,來對(duì)策略進(jìn)行迭代性的優(yōu)化,主要是通過每一步的代價(jià)函數(shù)來對(duì)于當(dāng)前情況的優(yōu)化情況進(jìn)行分析,根據(jù)目前策略下系統(tǒng)的運(yùn)行方式,來對(duì)于新的代價(jià)函數(shù)進(jìn)行求解,進(jìn)行不斷的迭代,最終得到最優(yōu)化的全局的結(jié)果。
3 總結(jié)
在每次處理更新中對(duì)于最優(yōu)的控制函數(shù)進(jìn)行重新的計(jì)算,通過求函數(shù)最小值的方法來盡量得到優(yōu)化的控制方案。主要可以通過對(duì)于貝爾曼方程進(jìn)行求導(dǎo)而得到最優(yōu)解,同時(shí)每次迭代算法幾乎都是一樣的,需要通過對(duì)計(jì)算對(duì)象的內(nèi)部動(dòng)態(tài)特性來進(jìn)行有效的控制與計(jì)算,這樣才能使得最終的結(jié)果符合于實(shí)際的優(yōu)化情況。
參考文獻(xiàn):
[1]王傳銳.多智能體系統(tǒng)分布式跟蹤控制問題研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2014.
[2]丁磊.不同數(shù)據(jù)觸發(fā)機(jī)制下的多智能體系統(tǒng)一致性及H_∞濾波[D].大連海事大學(xué),2014.
[3]金元日.不確定通信下多智能體系統(tǒng)的一致性[D].浙江大學(xué),2013.
[4]劉學(xué)良.多智能體系統(tǒng)協(xié)調(diào)控制中的若干問題研究[D].華南理工大學(xué),2012.