禹明剛,何 明,張東戈,羅 玲,康 凱
(1.陸軍工程大學(xué)指揮控制工程學(xué)院,南京 210007;2.陸軍工程大學(xué)通信工程學(xué)院,南京 210007)
隨著第三次人工智能浪潮的持續(xù)推進(jìn),由“單體自主智能”發(fā)展而來(lái)的“群體演化智能”,成為新一代人工智能的重要特征之一。尤其在軍事領(lǐng)域,無(wú)人集群(陸戰(zhàn)場(chǎng)無(wú)人車集群[1-3]、水面無(wú)人艇集群[4-6]、空域蜂群[7-10])作戰(zhàn)得到了前所未有的關(guān)注,美軍已將無(wú)人集群作戰(zhàn)列為一種能夠改變作戰(zhàn)規(guī)則的“顛覆性技術(shù)”。
目前,無(wú)人集群控制方式主要有集中控制和自主協(xié)同兩類。在戰(zhàn)場(chǎng)復(fù)雜電磁環(huán)境下,尤其當(dāng)集群進(jìn)入敵縱深之后,通信不暢甚至通信失效是常見(jiàn)的現(xiàn)實(shí)風(fēng)險(xiǎn)[11],此時(shí),集中控制方式失效,無(wú)人集群必須根據(jù)外部態(tài)勢(shì),臨機(jī)作出有效響應(yīng),做到自我管理、自主協(xié)同,以繼續(xù)完成既定軍事行動(dòng)。
無(wú)人集群的自主協(xié)同,需要具有不同功能類型的無(wú)人單元分工合作。如圖1 所示,在火力打擊任務(wù)中,情報(bào)單元S1將敵機(jī)目標(biāo)信息傳遞給指控單元S2,S2指揮火力單元S3實(shí)施火力打擊,三類功能單元的分工合作與密切協(xié)同是實(shí)現(xiàn)既定軍事任務(wù)的重要前提。事實(shí)上,分工與合作現(xiàn)象早已普遍存在于生物界,例如,獅子在合作捕獵時(shí),會(huì)自發(fā)地采取不同行動(dòng),一般其中兩頭獅子會(huì)從兩翼沖擊一群獵物,使得它們因驚慌而向前奔跑,同時(shí)另外一兩頭獅子會(huì)沖到中間迎擊獵物,這種捕獵方式十分有效。上述例子所呈現(xiàn)的特點(diǎn)是,對(duì)于一項(xiàng)共同任務(wù),必須通過(guò)不同角色的個(gè)體分工合作才能完成,任一種角色的個(gè)體都無(wú)法獨(dú)立完成該任務(wù)。在處理這樣的協(xié)調(diào)控制問(wèn)題時(shí),一個(gè)重要的任務(wù)在于在復(fù)雜的連接網(wǎng)絡(luò)上如何劃分集群實(shí)施有效的策略分布,使不同策略個(gè)體盡可能均勻分布在其策略互補(bǔ)的個(gè)體周圍。例如,火力打擊任務(wù)中,有必要使得功能互補(bǔ)的個(gè)體分布在盡可能近的位置上,使得鄰居個(gè)體可以相互補(bǔ)充、高效完成任務(wù)。
圖1 無(wú)人集群自主協(xié)同示意
演化博弈理論(Evolutionary game)[12-14]為研究多個(gè)體間的交互行為提供了一種有效的數(shù)學(xué)工具和研究框架。演化博弈將經(jīng)濟(jì)學(xué)的“均衡觀”與生物學(xué)的“適應(yīng)性”理念進(jìn)行了很好的結(jié)合。它刻畫(huà)了在理性不完全、信息不對(duì)稱、對(duì)環(huán)境及預(yù)期存在偏差條件下,群體通過(guò)學(xué)習(xí)、模仿、試錯(cuò)而不斷適應(yīng)外部環(huán)境,最終達(dá)到演化穩(wěn)定狀態(tài)(Evolutionary Stable State,ESS)[15]的過(guò)程。近年來(lái),眾多學(xué)者利用演化博弈理論研究合作促進(jìn)機(jī)制,以哈佛大學(xué)Nowak 教授為代表,對(duì)“綜合進(jìn)化論”進(jìn)行擴(kuò)展,總結(jié)了促進(jìn)合作涌現(xiàn)的五大機(jī)制[16]。演化博弈論為研究協(xié)作控制提供了重要數(shù)學(xué)框架。
在無(wú)人集群分工問(wèn)題中,控制目標(biāo)是盡可能使得相鄰位置的無(wú)人平臺(tái)處于不同的策略狀態(tài),以便更高效地完成合作任務(wù)。因此,在無(wú)人平臺(tái)與其鄰居博弈時(shí),當(dāng)分別持不同策略時(shí)所獲收益應(yīng)高于持相同策略。因此,在控制集群演化時(shí),需要選取的博弈類型是,其納什均衡為每個(gè)平臺(tái)采取與鄰居相反的策略,此時(shí)整個(gè)集群方能獲取更高的收益。雪堆博弈(或鷹鴿博弈、懦夫博弈)[17]恰吻合了上述需求。當(dāng)集群中的無(wú)人平臺(tái)間展開(kāi)上述博弈時(shí),演化穩(wěn)定策略為采取與對(duì)方相反的策略,因此,該類模型為分析無(wú)人集群分工合作問(wèn)題提供了很好的理論框架。
目前,用演化博弈理論解決分工合作問(wèn)題,主要有兩大研究方向:一是基于馬爾科夫隨機(jī)過(guò)程研究混合均勻種群的演化穩(wěn)定狀態(tài)及合作策略占優(yōu)條件[18-19];二是基于圖論研究復(fù)雜網(wǎng)絡(luò)等空間結(jié)構(gòu)種群的演化動(dòng)力學(xué)過(guò)程及合作機(jī)理[20-21]。
對(duì)于前者,代表性研究有:北京大學(xué)杜金銘教授團(tuán)隊(duì)通過(guò)理論推導(dǎo)和模擬仿真,獲取了愿景驅(qū)動(dòng)動(dòng)態(tài)下兩方博弈策略占優(yōu)條件[22],以及門(mén)限值對(duì)多方雪堆博弈合作形成的影響[23];進(jìn)一步地,團(tuán)隊(duì)將理論成果拓展到雙重門(mén)限值,推導(dǎo)了雙重門(mén)限值下的雪堆博弈收益支付比(b/c)及演化穩(wěn)定解[24-25]。此外,還有研究者研究了懲罰機(jī)制對(duì)雪堆博弈中合作演化的促進(jìn)機(jī)理[26]?!盎旌暇鶆颉奔僭O(shè)了集群的全連接特性,未考慮結(jié)構(gòu)對(duì)合作的影響,而在現(xiàn)實(shí)戰(zhàn)場(chǎng)環(huán)境中,無(wú)人平臺(tái)通過(guò)物理/信息鏈接形成特定的網(wǎng)絡(luò)結(jié)構(gòu)。因此,如何基于特定網(wǎng)絡(luò)結(jié)構(gòu)分析集群的合作演化機(jī)理,是實(shí)現(xiàn)集群協(xié)作控制的必然途徑。
對(duì)于后者,哈佛大學(xué)Nowak 教授團(tuán)隊(duì),對(duì)環(huán)形圖、隨機(jī)圖、無(wú)標(biāo)度網(wǎng)絡(luò)等空間結(jié)構(gòu)上的集群演化進(jìn)行理論推導(dǎo),開(kāi)創(chuàng)性地提出博弈效費(fèi)比與(b/c)與網(wǎng)絡(luò)平均度k 之間的關(guān)系,指出越小的網(wǎng)絡(luò)連通度越利于自然選擇中合作的產(chǎn)生[27];之后,他們利用偶對(duì)近似理論,對(duì)規(guī)則格子上的合作現(xiàn)象進(jìn)行理論推導(dǎo),獲得了合作產(chǎn)生并擴(kuò)張的邊界條件[20,28];在上述工作的基礎(chǔ)上,進(jìn)一步對(duì)比分析了同質(zhì)與異質(zhì)網(wǎng)絡(luò)在促進(jìn)合作行為產(chǎn)生中的差異,仿真發(fā)現(xiàn)弱連接更能促進(jìn)異質(zhì)網(wǎng)絡(luò)上合作行為的產(chǎn)生[29];同期,有其他研究者研究圖上的多方博弈動(dòng)態(tài)過(guò)程,仿真發(fā)現(xiàn),對(duì)于合作博弈,相比于無(wú)結(jié)構(gòu)種群,空間結(jié)構(gòu)種群更能促進(jìn)合作的發(fā)生[21];近兩年,團(tuán)隊(duì)將空間結(jié)構(gòu)上的合作演化動(dòng)態(tài)應(yīng)用到社會(huì)網(wǎng)絡(luò),分析人類社會(huì)產(chǎn)生合作行為的臨界條件[30],針對(duì)演化收斂概率大小與演化收斂時(shí)間長(zhǎng)短之間的矛盾,初步探索了空間結(jié)構(gòu)在兩者之間的權(quán)衡[31],并將結(jié)構(gòu)種群上的合作演化進(jìn)一步擴(kuò)展到加權(quán)圖[32]。文獻(xiàn)[33-34]針對(duì)多人雪堆博弈這一特定模型,分別在混合均勻種群、結(jié)構(gòu)種群上研究了效費(fèi)比(b/c)與合作水平間的關(guān)系曲線,并對(duì)比分析了同質(zhì)/異質(zhì)網(wǎng)絡(luò)在合作促進(jìn)中與無(wú)結(jié)構(gòu)種群的顯著區(qū)別。
上述對(duì)合作問(wèn)題的研究有很高的理論和工程價(jià)值。然而,在解決無(wú)人集群協(xié)作控制問(wèn)題時(shí),上述成果仍存在兩點(diǎn)不足:一是現(xiàn)有成果多聚焦于合作行為產(chǎn)生的臨界條件,對(duì)以追求集群總體效用最大化為目的的分工合作問(wèn)題考慮不足,雖然合作行為的產(chǎn)生與集群總體效用最大化在機(jī)理上有相似之處[35],但在實(shí)現(xiàn)途徑上存在本質(zhì)區(qū)別;二是尚未見(jiàn)軍事應(yīng)用研究成果,目前可見(jiàn)雪堆博弈(或鷹鴿博弈、懦夫博弈)在環(huán)境污染[36]、輿情傳播[37]、文化演進(jìn)[38]等方面的應(yīng)用,由于軍事領(lǐng)域的特殊性及無(wú)人集群作戰(zhàn)的新質(zhì)性,鮮有成果可循。
前期,針對(duì)無(wú)人集群合作問(wèn)題,基于演化博弈理論,推導(dǎo)出混合均勻集群上策略的平均豐度函數(shù)及占優(yōu)條件[39]。本研究在此基礎(chǔ)上將混合均勻假設(shè)擴(kuò)展到空間結(jié)構(gòu)集群,首先基于演化博弈框架對(duì)無(wú)人集群分工合作建模;然后,給出結(jié)構(gòu)集群上的演化動(dòng)力學(xué)微分方程,并理論推導(dǎo)出博弈均衡解及擾動(dòng)近似解;接下來(lái),以火力打擊任務(wù)想定為例,分別對(duì)規(guī)則圖上、一般拓?fù)渖系募汉献鬟M(jìn)行算例仿真,仿真結(jié)果與理論推導(dǎo)相互印證,證明所提方法可實(shí)現(xiàn)集群協(xié)作控制的目的;最后,依據(jù)理論推導(dǎo)及仿真結(jié)果,給出無(wú)人集群作戰(zhàn)中,促進(jìn)集群分工合作的合理化建議。
無(wú)人集群分工合作,是一個(gè)多方參與、多輪迭代的策略博弈和演化過(guò)程,因此,用演化博弈對(duì)該問(wèn)題進(jìn)行建模。首先,給出無(wú)人集群分工合作與演化博弈相關(guān)概念的映射關(guān)系,如表1 所示。
表1 概念映射關(guān)系
在演化博弈集群模型中,單個(gè)無(wú)人平臺(tái)充當(dāng)博弈參與者(Individual)角色;由多個(gè)無(wú)人平臺(tái)構(gòu)成的集群,在集群層面擁有共同目標(biāo),需要完成同一任務(wù);單個(gè)無(wú)人平臺(tái)具有可選的不同行為方式,作為博弈策略(Strategy);平臺(tái)在每一時(shí)刻,與其“鄰居”(存在基于地理位置的物理連接和基于信息通信的邏輯連接的其他無(wú)人平臺(tái))發(fā)生交互;依據(jù)其自身及對(duì)手策略,獲得一定的收益(Payoff);具備獨(dú)立決策能力的理性無(wú)人平臺(tái),通過(guò)評(píng)估其收益,按照一定的動(dòng)力學(xué)規(guī)律進(jìn)行策略更新;經(jīng)多輪策略更新過(guò)程,集群不斷演化(Evolutionary),使得集群控制最終達(dá)到目標(biāo)狀態(tài)(如一致、同步、分工等)。上述過(guò)程,博弈類型的選擇、收益計(jì)算方式的設(shè)計(jì)、策略更新規(guī)則的確定至關(guān)重要,上述幾類因素是決定集群演化方向和控制目標(biāo)實(shí)現(xiàn)的關(guān)鍵。
設(shè)演化博弈發(fā)生在一個(gè)數(shù)量為N 的結(jié)構(gòu)集群中,每個(gè)無(wú)人平臺(tái)i∈N 定義為一個(gè)四元組:Individuali={Statei,Transitioni,Interactioni,F(xiàn)itnessi}
1)狀態(tài)(State),無(wú)人平臺(tái)當(dāng)前時(shí)刻的策略及與鄰居所構(gòu)成的網(wǎng)絡(luò)連接關(guān)系。集群狀態(tài)則定義為,某時(shí)刻集群中持不同策略的平臺(tái)的占比及整體網(wǎng)絡(luò)結(jié)構(gòu)形態(tài)。
2)轉(zhuǎn)換(Transition),無(wú)人平臺(tái)基于收益的策略調(diào)整及網(wǎng)絡(luò)拓?fù)涞膭?dòng)態(tài)重構(gòu)。集群的轉(zhuǎn)換則定義為集群狀態(tài)的調(diào)整過(guò)程。
3)交互(Interaction),無(wú)人平臺(tái)間基于網(wǎng)絡(luò)拓?fù)?,?shí)施信息傳遞和策略博弈的過(guò)程。
4)適應(yīng)度(Fitness),每一輪博弈中,無(wú)人平臺(tái)與鄰居交互所獲取的收益,反映了無(wú)人平臺(tái)對(duì)環(huán)境的適應(yīng)能力。
無(wú)人平臺(tái)間的交互拓?fù)潢P(guān)系可借助圖論進(jìn)行刻畫(huà):G=(N,L),其中,i∈N 為由無(wú)人平臺(tái)構(gòu)成的節(jié)點(diǎn)集,L=N×N 為邊集。用有序?qū)Γ╥,j)刻畫(huà)有向邊,若平臺(tái)i 能夠接收平臺(tái)j 的狀態(tài)信息,則稱j 為i 的一個(gè)鄰居,i 的鄰居集合為ki={j∈N,(i,j)∈L},若為無(wú)向圖,若(i,j)∈L 則(j,i)∈L。
每一輪博弈亦稱為演化的一個(gè)時(shí)間步長(zhǎng)
在無(wú)人集群的分工及協(xié)作控制問(wèn)題中,控制目標(biāo)是盡可能使相鄰位置的平臺(tái)采取不同策略,映射到博弈過(guò)程即為博弈雙方持相同策略所獲收益應(yīng)低于分別持不同策略,雪堆博弈(或鷹鴿博弈、懦夫博弈)即屬于此類博弈。以雪堆博弈為例,雪堆博弈[33]所描述的情景為:天降大雪,路被雪堆封堵,兩個(gè)相向而行的司機(jī)同時(shí)被困在雪堆的兩端。有兩種策略可選:合作或背叛。合作意味著下車鏟雪,背叛則意味著呆在車?yán)餆o(wú)所作為,寄希望于另一人去鏟雪。若兩人均選擇合作,則對(duì)于每人而言,工作量減半;若兩人均背叛,則兩人只能等到雪化才能通過(guò)。設(shè)順利通過(guò)的收益為b,鏟雪的代價(jià)為c,則收益矩陣如下:
根據(jù)經(jīng)典博弈理論,在b>c 時(shí),該博弈的納什均衡為選擇與對(duì)方相反的策略:若對(duì)方選擇合作則己方選擇背叛,若對(duì)方選擇背叛則己方選擇合作。事實(shí)上,無(wú)論是雪堆博弈還是鷹鴿博弈、懦夫博弈,取得上述均衡的前提體現(xiàn)在收益矩陣上,具有以下共同特點(diǎn):R<T 且S>P,其中,R、T、S、P 為一般收益矩陣表示形式(如式2)中的具體收益。
無(wú)人平臺(tái)采用模仿動(dòng)態(tài)(Fermi 過(guò)程)進(jìn)行策略更新,即將其自身適應(yīng)度與鄰居平均適應(yīng)度(Fˉj)進(jìn)行比對(duì),以一定的概率進(jìn)行策略調(diào)整。在該規(guī)則驅(qū)動(dòng)下,無(wú)人平臺(tái)在策略空間{A,B}中切換其策略的概率為:
本部分將通過(guò)嚴(yán)格的理論推導(dǎo),分析所提演化博弈模型對(duì)于無(wú)人集群分工合作的控制效果。
在一個(gè)規(guī)模為N 的無(wú)人集群中,每個(gè)無(wú)人平臺(tái)占據(jù)通信拓?fù)涞囊粋€(gè)頂點(diǎn),初始狀態(tài)下,每個(gè)平臺(tái)在策略空間{A,B}中隨機(jī)選擇一個(gè)作為初始策略。在每個(gè)時(shí)間步內(nèi),平臺(tái)依據(jù)式(2)與其所有鄰居進(jìn)行博弈,依據(jù)式(3)確定其該輪博弈的平均收益。通過(guò)分析集群演化過(guò)程中持A、B 策略的平臺(tái)在整個(gè)集群的占比變化,求其演化穩(wěn)定解,進(jìn)而獲取集群分工合作形成的條件。
不難得知,整個(gè)集群的狀態(tài)(策略組成及結(jié)構(gòu)分布)由PA、PAA兩個(gè)變量即可刻畫(huà)。
作為焦點(diǎn)個(gè)體的無(wú)人平臺(tái)與其所有鄰居展開(kāi)博弈,設(shè)在每個(gè)時(shí)間步內(nèi),其鄰居中持A、B 策略的平臺(tái)個(gè)數(shù)分別是kA和kB,滿足kA+kB=k。則持策略A和策略B 的焦點(diǎn)個(gè)體收益分別為:
依據(jù)上述策略轉(zhuǎn)換概率及策略對(duì)變動(dòng)概率,隨著演化進(jìn)程推進(jìn),集群中持策略A、B 的平臺(tái)占比此消彼長(zhǎng),策略對(duì)AA、AB、BA、BB 數(shù)量動(dòng)態(tài)調(diào)整。當(dāng)演化至某一時(shí)刻,策略占比及策略對(duì)數(shù)量不再變化,此時(shí)集群整體演化趨于穩(wěn)定。通過(guò)分析集群穩(wěn)定時(shí)的演化參數(shù),設(shè)計(jì)合理的控制機(jī)制,可達(dá)到對(duì)集群分工合作管控之目的。
即演化結(jié)果為集群中持策略A、B 的平臺(tái)個(gè)數(shù)均等,且給定一個(gè)持X(X∈{A,B})策略的平臺(tái),在其鄰居中找到一個(gè)持Y(Y∈{A,B})策略平臺(tái)的條件概率相同。因此,持不同策略的平臺(tái)在空間結(jié)構(gòu)上呈均勻交叉分布。
另外需要注意的是,在分工合作問(wèn)題中,只要求博弈的納什均衡為選擇與對(duì)方相反的策略:若對(duì)方選擇A 則己方選擇B,若對(duì)方選擇B 則己方選擇A,對(duì)策略A 和B 并無(wú)需進(jìn)行差異性要求。為了體現(xiàn)策略本身的無(wú)差異性,即收益矩陣的對(duì)稱性,規(guī)定R=P 且S=T。
因此,在博弈機(jī)制設(shè)計(jì)時(shí)只要滿足R<T 且S>P,R+S=T+P,R=P 且S=T 的前提條件,即可使得網(wǎng)絡(luò)拓?fù)渖舷噜徫恢玫臒o(wú)人平臺(tái)持不同策略,實(shí)現(xiàn)集群的分工合作,從而高效完成任務(wù)。
以集群火力打擊任務(wù)想定為背景,依據(jù)集群演化動(dòng)力學(xué)過(guò)程,對(duì)規(guī)則圖和一般拓?fù)渖系臒o(wú)人集群分工合作問(wèn)題進(jìn)行算例仿真,以驗(yàn)證模型合理性與理論分析的正確性,為實(shí)現(xiàn)無(wú)人集群的分工合作提供決策支持。無(wú)人集群火力打擊任務(wù)想定如圖2 所示。
圖2 無(wú)人集群火力打擊任務(wù)想定
在無(wú)人集群火力打擊任務(wù)中,每個(gè)無(wú)人作戰(zhàn)平臺(tái)具備兩種功能:彈藥保障與火力打擊,且無(wú)人平臺(tái)可根據(jù)任務(wù)需要在兩種功能間進(jìn)行切換。從個(gè)體協(xié)同和任務(wù)完成角度,有必要使得功能互補(bǔ)的平臺(tái)交叉分布,即分布在盡可能近的鄰居位置上,以密切配合共同完成對(duì)敵火力打擊任務(wù)。
初始時(shí)刻,不同功能的無(wú)人平臺(tái)在空間拓?fù)渖想S機(jī)分布。當(dāng)集中控制方式失效后,集群依據(jù)演化動(dòng)力學(xué)過(guò)程進(jìn)行多輪迭代博弈,最終達(dá)到演化穩(wěn)定狀態(tài);此時(shí),集群達(dá)到空間結(jié)構(gòu)的最優(yōu)化分布,持彈藥保障和火力打擊策略的平臺(tái)交叉分布,彼此通過(guò)保障連與火力鏈相互鉸鏈,實(shí)現(xiàn)功能互補(bǔ)與分工合作,高效完成對(duì)敵火力打擊任務(wù)。
初始策略分布為隨機(jī)過(guò)程,各平臺(tái)隨機(jī)采取策略A 或B,其中,持策略A 和B 的平臺(tái)各占總數(shù)的近50%。集群初始策略分布如圖3 所示,其中,每個(gè)柵格代表一個(gè)平臺(tái),白色柵格表示策略A,灰色柵格表示策略B。
圖3 規(guī)則圖上的初始策略分布
根據(jù)第2 部分理論分析結(jié)果,在滿足R<T 且S>P,R+S=T+P,R=P 且S=T 的前提下,給出收益矩陣如下:
上述取值充分體現(xiàn)了平臺(tái)在選擇與鄰居相反策略時(shí)所帶來(lái)的高收益。同時(shí),從收益層面確保兩個(gè)策略的無(wú)差異性。
演化過(guò)程斑圖如圖4 所示,其中,圖4(a)表示第1 輪博弈后的策略分布,由于還遠(yuǎn)未達(dá)到演化穩(wěn)定,策略分布仍較為隨機(jī),但相比于圖3 的初始狀態(tài),已有部分平臺(tái)實(shí)現(xiàn)了策略轉(zhuǎn)換;圖4(b)顯示經(jīng)過(guò)多輪的博弈迭代,集群達(dá)到演化穩(wěn)定狀態(tài)后,策略在圖上交叉分布的最終演化結(jié)果。
圖4 規(guī)則圖上的策略演化斑圖
由圖4(b)可知,集群的狀態(tài)最終進(jìn)化到一個(gè)最優(yōu)化的分布,即持彈藥保障和火力打擊策略的平臺(tái)交叉分布,從而形成功能互補(bǔ)與分工合作,高效完成對(duì)敵火力打擊任務(wù)。
本節(jié)將規(guī)則圖上的協(xié)作演化擴(kuò)展到一般的網(wǎng)絡(luò)拓?fù)渖?,此種情況下,平臺(tái)間的連接不再是完全規(guī)則的。仍然考慮N=25 的集群規(guī)模,選擇強(qiáng)度ω=0.01。初始策略分布如圖5 所示,每個(gè)柵格代表一個(gè)平臺(tái),白色柵格表示策略A,灰色柵格表示策略B,初始時(shí)刻各平臺(tái)隨機(jī)采取策略A 或B,持兩類策略的平臺(tái)各占總數(shù)的近50%。
圖5 一般拓?fù)渖系某跏疾呗苑植?/p>
演化結(jié)果如圖6 所示。
圖6 一般拓?fù)渖系牟呗匝莼邎D
其中,圖6(a)表示第1 輪博弈后的策略分布,盡管還未達(dá)到演化穩(wěn)定,但相比于圖5 的初始狀態(tài),已有部分平臺(tái)實(shí)現(xiàn)了策略轉(zhuǎn)換;圖6(b)顯示經(jīng)過(guò)多輪的博弈迭代后,演化穩(wěn)定時(shí),策略在一般拓?fù)渖辖徊娣植肌R虼?,本文所提模型在一般拓?fù)渖弦嗫蓪?shí)現(xiàn)分工合作之目標(biāo)。
上述模型及方法具有問(wèn)題通用性和領(lǐng)域普適性,不僅適用于集群火力打擊任務(wù),還可推廣到一般軍事、生物、社會(huì)領(lǐng)域的分工合作問(wèn)題中。通過(guò)設(shè)計(jì)合理的博弈機(jī)制,滿足收益約束,即可實(shí)現(xiàn)集群的自主演化與分工合作。
本文針對(duì)無(wú)人集群分工合作問(wèn)題,基于演化博弈理論框架建立了結(jié)構(gòu)化集群分工合作模型,并以“雪堆博弈”為切入點(diǎn),理論推導(dǎo)模型的演化動(dòng)力學(xué)過(guò)程及分工合作形成的條件;最后以集群火力打擊任務(wù)為想定,仿真了規(guī)則圖及一般拓?fù)渖系募翰呗匝莼^(guò)程,仿真結(jié)果驗(yàn)證了理論推導(dǎo)的正確性及模型方法的合理性。在實(shí)際的無(wú)人集群協(xié)作控制中,通過(guò)設(shè)計(jì)合理演化博弈機(jī)制及收益參數(shù),可達(dá)到對(duì)集群分工合作管控目的。本文結(jié)論為相關(guān)理論向?qū)嶋H應(yīng)用轉(zhuǎn)化提供了初步和有意義的探索。
本文假定集群結(jié)構(gòu)為預(yù)設(shè)的靜態(tài)拓?fù)?,且博弈類型為?jīng)典的2×2 博弈。然而,現(xiàn)實(shí)問(wèn)題往往面臨網(wǎng)絡(luò)拓?fù)涞膭?dòng)態(tài)變化及多策略的多維切換,如何將理論方法推廣到動(dòng)態(tài)網(wǎng)絡(luò)上的多策略博弈等更復(fù)雜的情況,實(shí)現(xiàn)對(duì)集群協(xié)作的更加精確有效控制,是下一步的研究方向。