国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于URWPGSim2D啟發(fā)式博弈策略設(shè)計(jì)

2016-06-14 19:59李生武肖兆強(qiáng)楊為民
電腦知識(shí)與技術(shù) 2016年12期
關(guān)鍵詞:多目標(biāo)協(xié)作

李生武+肖兆強(qiáng)+楊為民

摘要:針對(duì)北京大學(xué)機(jī)器魚仿真平臺(tái)URWPGSim2D 中“搶球博弈”項(xiàng)目控制目標(biāo)數(shù)量多,仿真機(jī)器魚之間的對(duì)抗性與團(tuán)隊(duì)協(xié)作性強(qiáng),復(fù)雜多變的競(jìng)賽規(guī)則與模擬環(huán)境,設(shè)計(jì)一套穩(wěn)定,有效且對(duì)抗性強(qiáng)的控制策略,實(shí)現(xiàn)仿真魚的協(xié)同分工,最終獲得比賽勝利。由于仿真環(huán)境的復(fù)雜性與不確定性,為提高控制策略的高效性,提出先對(duì)仿真魚進(jìn)行任務(wù)分工;其次依據(jù)仿真周期數(shù)將比賽進(jìn)行階段劃分,再次根據(jù)場(chǎng)地中目標(biāo)水球的位置信息將場(chǎng)地進(jìn)行區(qū)域劃分,最后利用啟發(fā)函數(shù)計(jì)算目標(biāo)球優(yōu)先級(jí)。然后綜合考慮這四個(gè)因素,給出多仿真魚協(xié)同搶球的高效策略。該策略在“2015國(guó)際水中機(jī)器人大賽”中獲得一等獎(jiǎng)的成績(jī),充分證明了該優(yōu)化策略的有效性及魯棒性。

關(guān)鍵詞:仿真魚;搶球博弈;協(xié)作;啟發(fā)函數(shù);多目標(biāo);優(yōu)先級(jí)

中圖分類號(hào): TP242.6 文獻(xiàn)標(biāo)志碼: A 文章編號(hào):1009-3044(2016)12-0075-05

以北京大學(xué)作為發(fā)起人聯(lián)合眾多科研機(jī)構(gòu)同開發(fā)了水中機(jī)器人URWPGSim2D (under robot water polo game simulation 2D)仿真平臺(tái),該仿真系共統(tǒng)具有實(shí)時(shí)性強(qiáng),逼真性高和人機(jī)交互性強(qiáng)的特點(diǎn),有效地解決了實(shí)體機(jī)器魚在研究過程中遇到的問題,降低了實(shí)體魚的研究難度。

在2015年5月發(fā)布的新的仿真平臺(tái)URWPGSim2D 3.0中,搶球博弈項(xiàng)目的球門位置與模型均未發(fā)生變化,而目標(biāo)球的位置,目標(biāo)球分值及項(xiàng)目規(guī)則均有較大變化。平臺(tái)版本的更新使得在制定策略的時(shí)候需要更多的考慮單個(gè)目標(biāo)球?qū)Ρ荣惖梅值挠绊懀覍?duì)機(jī)器魚的運(yùn)輸有效性提出了更高的要求。因此本文分別對(duì)制約策略有效性的四個(gè)因素進(jìn)行了優(yōu)化,得到了一種在新平臺(tái)下更為有效的智能策略。

1 水中機(jī)器人2D仿真簡(jiǎn)介

1.1 URWPGSim2D平臺(tái)簡(jiǎn)介

URWPGSim2D包括服務(wù)(URWPGSim2DServer)和客戶端(URWPGSim2DClient)兩大部分。服務(wù)端模擬水中環(huán)境,控制和呈現(xiàn)仿真過程及結(jié)果,向客戶端發(fā)送實(shí)時(shí)仿真環(huán)境和過程信息;半分布式客戶端模擬水中機(jī)器人隊(duì)伍,全分布式客戶端模擬單個(gè)水中機(jī)器人,加載比賽或?qū)嶒?yàn)策略,完成決策計(jì)算過程,向服務(wù)端發(fā)送決策結(jié)果[1]。其整體結(jié)構(gòu)如圖1所示:

1.2 搶球博弈項(xiàng)目簡(jiǎn)介

水中機(jī)器人2D仿真搶球博弈采用3000mm*2000mm的標(biāo)準(zhǔn)比賽場(chǎng)地。2D仿真搶球博弈項(xiàng)目的仿真環(huán)境包括4條被分為兩支隊(duì)伍的仿真魚,9個(gè)擁有不同分值的仿真水球和2個(gè)由矩形障礙物組成的球門。隨著多次大賽的成功舉行,為了提高比賽對(duì)抗的激烈性和機(jī)器魚團(tuán)隊(duì)之間的協(xié)同性,開發(fā)人員將平臺(tái)做了如下更新(如圖2,圖3)所示。

1.3 計(jì)分規(guī)則

1) 水球分值:在圖3中場(chǎng)地四個(gè)角落的目標(biāo)球分值均為一分,場(chǎng)地中心附近的三個(gè)目標(biāo)球分值均為三分,其余兩個(gè)球的分值均為兩分。

2) 勝負(fù)標(biāo)準(zhǔn):?jiǎn)螆?chǎng)比賽,在6000個(gè)仿真周期內(nèi)得分多的隊(duì)伍獲勝,若分?jǐn)?shù)相同則率先進(jìn)球的隊(duì)伍獲勝。

3) 進(jìn)球得分:仿真水球被頂入球門時(shí),該球門對(duì)應(yīng)的隊(duì)伍得到相應(yīng)分?jǐn)?shù),每個(gè)球在一場(chǎng)比賽中如果被多次頂入同一隊(duì)伍的球門,不重復(fù)計(jì)分被頂出不扣分。

2策略設(shè)計(jì)思想

2.1 策略運(yùn)行原理

仿真平臺(tái)開始運(yùn)行后,平臺(tái)就會(huì)以40ms為周期循環(huán)執(zhí)行策略,以6000仿真周期總數(shù)逐步減少。這樣的循環(huán)執(zhí)行方式可以有效地提高仿真系統(tǒng)的實(shí)時(shí)性,使用者先在客戶端工程中編寫策略,在編譯通過后生成后綴名為dll的動(dòng)態(tài)鏈接庫,開發(fā)者定義的函數(shù)模塊和平臺(tái)的部分信息都被封裝在了該dll文件中。在比賽時(shí)雙方在同一個(gè)服務(wù)器端加載各自策略的動(dòng)態(tài)鏈接庫,準(zhǔn)備完成之后即可經(jīng)行比賽。

2.2任務(wù)調(diào)度

在筆者所提出的策略中每條己方仿真魚都有兩種任務(wù)的動(dòng)態(tài)調(diào)度,一種任務(wù)是己方運(yùn)球得分,另一種任務(wù)是破壞對(duì)方得分。

處于運(yùn)球任務(wù)的仿真魚根據(jù)選球函數(shù)計(jì)算出來的優(yōu)先級(jí)確定運(yùn)輸目標(biāo),將目標(biāo)球迅速的運(yùn)輸?shù)郊悍角蜷T。

處于破壞任務(wù)的仿真魚的是為干擾對(duì)方,破壞對(duì)方的運(yùn)球狀態(tài),抑制對(duì)方的得分。

2.3 區(qū)域劃分

受制于仿真魚智能水平的限制,仿真魚并不能主動(dòng)對(duì)仿真場(chǎng)地障礙物和邊界做出響應(yīng)動(dòng)作,因此會(huì)嚴(yán)重影響仿真魚的動(dòng)作準(zhǔn)確度和運(yùn)輸效率。因此筆者對(duì)比賽場(chǎng)地做了一定的劃分,一方面可以在不同的區(qū)域賦予仿真魚不同的動(dòng)作策略以提高仿真魚的場(chǎng)地適應(yīng)能力,另一方面仿真魚可以根據(jù)不同區(qū)域中目標(biāo)球權(quán)值的不同可以智能選擇最有利的得分區(qū)域作為自己行動(dòng)的目標(biāo)位置。

Zone 0為主要搶奪區(qū)域。此區(qū)域中目標(biāo)球較多且單個(gè)目標(biāo)球分值較大,需要綜合運(yùn)用多種策略使己方迅速占領(lǐng)優(yōu)勢(shì)地位。

Zone 1,Zone 3為己方球門轉(zhuǎn)角區(qū)域。當(dāng)己方仿真魚進(jìn)入此區(qū)域后在參考目標(biāo)點(diǎn)A,M1,B或G,M3,H(右半場(chǎng)則為C,M2,D或E,M4,F(xiàn))的指引下迅速的完成運(yùn)輸球從Zone 0到Zone 2或Zone 0到Zone3的任務(wù)。為防止仿真魚將目標(biāo)球帶入場(chǎng)地死角產(chǎn)生僵持現(xiàn)象所以需檢測(cè)函數(shù),判斷是否滿足條件后進(jìn)而調(diào)用相應(yīng)的處理模塊解決問題。

Zone 2為己方球門區(qū)域。在此區(qū)域己方魚易得分,加載射門函數(shù),完成射門任務(wù)。

Zone 5為敵方球門區(qū)域。在此區(qū)域?qū)Ψ揭子诘梅?。?duì)于己方來說,基于對(duì)得分規(guī)則和運(yùn)輸代價(jià)的考慮,己方應(yīng)在在保證除Zone 5外的區(qū)域中無剩余目標(biāo)球的前提下才去考慮運(yùn)輸Zone 5中的目標(biāo)球。

Zone 4,Zone 6為敵方球門轉(zhuǎn)角區(qū)域。在此區(qū)域不利于己方仿真魚的搶球動(dòng)作,且容易在此區(qū)域與敵方因?yàn)闋?zhēng)奪目標(biāo)球?qū)⒛繕?biāo)球頂入死角陷入僵持階段,所以在此區(qū)域采取防守策略,通過干擾對(duì)方或者堵塞對(duì)方進(jìn)入Zone 5的路徑來達(dá)到防守目的。

2.4 仿真周期控制

搶球博弈項(xiàng)目共10分鐘,比賽平臺(tái)設(shè)置的仿真周期即每個(gè)仿真循環(huán)周期毫秒數(shù)(如100ms),轉(zhuǎn)換得到該比賽項(xiàng)目的總仿真周期數(shù)(10*60*1000/100=6000);比賽是通過倒計(jì)時(shí)的方式經(jīng)行的,筆者在此將依據(jù)仿真周期將比賽主要分為兩個(gè)階段。

進(jìn)攻階段,此階段為仿真周期數(shù)從6000遞減至1800之間時(shí)間段。

破壞階段,此階段為仿真周期數(shù)從1800遞減至結(jié)束比賽之間的時(shí)間段。

3 策略設(shè)計(jì)與實(shí)現(xiàn)

3.1 仿真魚協(xié)作與任務(wù)調(diào)度

本文中提到的任務(wù)調(diào)度是由于比賽場(chǎng)上動(dòng)態(tài)信息觸發(fā)而引起的,筆者認(rèn)為將場(chǎng)地中仿真魚的實(shí)時(shí)狀態(tài)作為觸發(fā)信息極具代表性。在該策略中將仿真魚所處的狀態(tài)分為如下程序段所舉出的5個(gè)狀態(tài)。

3.1.2 仿真?zhèn)€體控制策略

在比賽開始后的50個(gè)仿真周期內(nèi)己方仿真魚M(M的取值為0,1)完成初始動(dòng)作,之后判斷仿真比賽階段。

若當(dāng)前階段為破壞階段,以仿真魚M與對(duì)方球門距離為參考,若距離對(duì)方球門最近則去對(duì)方球門附近干擾對(duì)方得分,若不是則轉(zhuǎn)為進(jìn)攻狀態(tài)。

若當(dāng)前階段為攻擊階段,仿真魚M選擇目標(biāo)球后,首先判斷己方球門是否有多于2個(gè)三分球,若滿足條件再根據(jù)仿真魚M到對(duì)方球門的距離指派具體任務(wù);若不滿足條件則繼續(xù)執(zhí)行運(yùn)輸目標(biāo)球的任務(wù)??刂屏鞒倘鐖D6所示。

新的平臺(tái)設(shè)置了3個(gè)三分球,因此對(duì)三分球的控制直接影響著比賽結(jié)果。根據(jù)以往策略,敵我雙方都為了避免與對(duì)方因爭(zhēng)奪三分球過多浪費(fèi)時(shí)間,采取一次性運(yùn)輸分值為1或2分的目標(biāo)球,以求迅速得分占領(lǐng)優(yōu)勢(shì)而對(duì)于三分球的處理則在比賽較后階段才會(huì)去考慮。這樣不能夠及時(shí)得到三分球的控制權(quán),因此存在被對(duì)方利用三分球得分逆轉(zhuǎn)的巨大風(fēng)險(xiǎn)。因此本策略摒棄此種設(shè)計(jì)思想,對(duì)三分球的處理如下:比賽開始階段,己方兩條仿真魚直接選擇3個(gè)三分球中的兩個(gè),在保證至少一個(gè)三分球能夠順利運(yùn)輸?shù)郊悍角蜷T的前提下,在選球策略的指引下獲得下一個(gè)三分球的控制權(quán)。當(dāng)己方球門中三分球大于1個(gè)時(shí),指派一條仿真魚做防守動(dòng)作防止對(duì)方爭(zhēng)奪;另一條仿真魚繼續(xù)選球運(yùn)輸??刂屏鞒虉D如圖6所示。

3.2 選球策略

有效的選球策略在比賽中不僅能夠提高隊(duì)伍的協(xié)作能力,而且能夠提高己方的得分速率與得分質(zhì)量,這在實(shí)時(shí)計(jì)時(shí)性對(duì)抗比賽中對(duì)比賽結(jié)果有著至關(guān)重要的影響作用。本文提出一種以權(quán)值評(píng)估為核心的啟發(fā)函數(shù),該函數(shù)綜合考慮了仿真魚、球門和目標(biāo)球之間的距離關(guān)系,旋轉(zhuǎn)代價(jià)和目標(biāo)球 分值這四大要素。啟發(fā)函數(shù)形式如下。

3.2.1 [Ts,v]的計(jì)算

在URWPGSim2D平臺(tái)中由于仿真水環(huán)境的特殊性,魚即使沒有速度也難以做到相對(duì)靜止,會(huì)在水波的影響下發(fā)生位移。在設(shè)置了一個(gè)目標(biāo)點(diǎn)后,仿真魚到達(dá)該點(diǎn)后并不會(huì)立即停下,而是會(huì)沿著之前的方向運(yùn)動(dòng)一段距離。以此這里設(shè)定一個(gè)偏移量[μ] ,并近似認(rèn)為偏移量是在之前的運(yùn)動(dòng)方向上。偏移量[μ][μ]與速度檔位VCode之間的對(duì)應(yīng)關(guān)系如表1所示:

3.2.2 [Aq,ω] 計(jì)算

由于仿真魚的動(dòng)作存在延遲性,導(dǎo)致實(shí)際旋轉(zhuǎn)角度會(huì)受到上一時(shí)刻角速度的影響,因此難以精確控制。現(xiàn)利用補(bǔ)償原理添加補(bǔ)償量,用來抵消前一時(shí)刻角速度對(duì)仿真魚旋轉(zhuǎn)的影響。

4 結(jié)束語

本文綜合任務(wù)調(diào)度,區(qū)域劃分,仿真周期控制和選球策略幾個(gè)方面制定了一種提出的突破常規(guī)的動(dòng)作策略,該策略摒棄了局部最優(yōu)的缺點(diǎn),使仿真魚對(duì)場(chǎng)上各種變量因素綜合評(píng)價(jià),智能決策做到隨機(jī)應(yīng)變。經(jīng)過多次實(shí)驗(yàn)驗(yàn)證表明:運(yùn)用上述策略可使己方在比賽過程中處于有利的主動(dòng)狀態(tài),較大的增加了己方的勝率。在本策略中主要以目標(biāo)球作為驅(qū)動(dòng)因素,缺少對(duì)另一方仿真魚動(dòng)作序列的檢測(cè),因此在對(duì)方變換策略后不能及時(shí)地做出響應(yīng)動(dòng)作。

參考文獻(xiàn):

[1] 中國(guó)水中機(jī)器人大賽官方網(wǎng)站.URWPGSim2D開發(fā)人員手冊(cè)[EB/OL].北京:北京大學(xué)智能控制實(shí)驗(yàn)室.(2010).http://robot.pku.edu.cn.

[2] Liu J, Dukes I, Hu H. Novel mechatronics design for a robotic fish[C]. Proc. 2005 IEEE/RSJ International Conference on Intelligent Robots andSystems,2005:2077-2082.

[3] Auzinger D.Djumlija G. Application of advanced technology packages for improved strip profile and flatness in hot-strip-mills[J].Iron and steel, 2004,39(11):132-133.

[4] 劉舒.多機(jī)器魚編隊(duì)控制[D].北京:華北電力大學(xué),2012.

[5] 龍海楠,李淑琴,安永躍.仿真機(jī)器魚搶球大作戰(zhàn)比賽策略的研究[J].計(jì)算機(jī)仿真,2013,30(7):312-316.

[6] 黎章. 多水下機(jī)器人協(xié)作控制[D].北京:北京大學(xué),2008:1-10.

[7] Anna Osborne,Stuart Baur,Katie Grantham.Simulation prototyping of an experimental solar house[J].Energies,2010,8(5) : 27-35.

[8] Leonardand,N.E,Virtual,E.F.Virtual leaders artificial potentials and coordinated control of groups[C].The 40th IEEE Conference on Decision and Control,2001:2968-2973.

[9] Denis L,Baggi.Theintelligence left in AI[J].AI & Society,2005(2):27-35.

猜你喜歡
多目標(biāo)協(xié)作
團(tuán)結(jié)協(xié)作成功易
狼|團(tuán)結(jié)協(xié)作的草原之王
協(xié)作
基于生態(tài)流量區(qū)間的多目標(biāo)水庫生態(tài)調(diào)度模型及應(yīng)用
基于多目標(biāo)的土木工程專業(yè)科研創(chuàng)新人才培養(yǎng)模式探索
加強(qiáng)京津冀立法協(xié)作
協(xié)作
可與您并肩協(xié)作的UR3
修文县| 巴林左旗| 濮阳市| 安溪县| 泽州县| 湘乡市| 嘉荫县| 南部县| 和顺县| 宜良县| 闽侯县| 彭山县| 塘沽区| 伊春市| 威海市| 镇远县| 永善县| 海晏县| 怀仁县| 临邑县| 亳州市| 广德县| 洞头县| 龙泉市| 收藏| 红河县| 金乡县| 庆云县| 望奎县| 民勤县| 绵竹市| 成安县| 新津县| 鄂伦春自治旗| 堆龙德庆县| 余干县| 修文县| 伊宁市| 阿克苏市| 七台河市| 东港市|