岳 偉,辛 弘,林 彬,劉中常,李莉莉
(1.大連海事大學(xué)船舶電氣工程學(xué)院,遼寧大連 116026;2.大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院,遼寧大連 116026;3.鵬城實(shí)驗(yàn)室網(wǎng)絡(luò)通信研究中心,廣東深圳 518052)
全球化背景下,監(jiān)管領(lǐng)海是國家安全和經(jīng)濟(jì)發(fā)展的重要保障.水下環(huán)境不同于陸地,具有信息匱乏和能見度低的特點(diǎn),近年來,自主水下機(jī)器人(autouomous underwater vehicle,AUV)在復(fù)雜環(huán)境下的定位、隱蔽及跟蹤等技術(shù)的發(fā)展使之能夠適配水下任務(wù)環(huán)境[1-3],吸引了學(xué)術(shù)界和工業(yè)界研究團(tuán)隊(duì)的高度關(guān)注,并在軍事領(lǐng)域得到廣泛的應(yīng)用,美國海軍制訂的“海軍無人潛航器主計(jì)劃”引領(lǐng)現(xiàn)在和未來的無人自主潛航器發(fā)展方向[4].但由于海域環(huán)境復(fù)雜、任務(wù)難度大、不確定性高以及AUV自身能力受限等因素,使得單AUV往往難以滿足任務(wù)需求,因此,利用MAUV協(xié)作完成任務(wù)是目前研究的重點(diǎn)方向[5].
水下環(huán)境中多自主式水下機(jī)器人(multi-autonomous underwater vehicle,MAUV)協(xié)同搜索作為MAUV協(xié)同任務(wù)中的熱點(diǎn),涉及MAUV任務(wù)分配和路徑規(guī)劃問題.通常根據(jù)搜索任務(wù)目的不同將其分為以下幾類:對固定區(qū)域無特定目標(biāo)的日常巡邏搜索,對存在危險(xiǎn)的特定區(qū)域內(nèi)有目標(biāo)的警戒搜索,以及對于發(fā)現(xiàn)部分目標(biāo)蹤跡區(qū)域有目標(biāo)的應(yīng)召搜索.在應(yīng)召搜索任務(wù)中,根據(jù)目標(biāo)的行動能力又劃分為靜態(tài)目標(biāo)搜索和動態(tài)目標(biāo)搜索.靜態(tài)目標(biāo)搜索是指目標(biāo)位移不發(fā)生改變,例如:失事飛機(jī)的殘骸、水下測深、測繪等.文獻(xiàn)[6]在概率估計(jì)的基礎(chǔ)上,建立不同的靜態(tài)目標(biāo)數(shù)學(xué)模型.但在實(shí)際任務(wù)中,考慮水下復(fù)雜環(huán)境和智能目標(biāo)行為決策等諸多因素的影響,目標(biāo)的位移行動會隨時(shí)間不斷變化,因此針對動態(tài)目標(biāo)搜索的研究具有更普遍的意義.由于動態(tài)目標(biāo)具備智能性、高度機(jī)動性,相對于靜態(tài)目標(biāo)的搜索任務(wù),動態(tài)目標(biāo)的搜索難度更為復(fù)雜,目前對于動態(tài)目標(biāo)搜索問題,大都轉(zhuǎn)化為概率搜索任務(wù)[7].如,文獻(xiàn)[8]結(jié)合蟻群算法開發(fā)一種混合元啟發(fā)式方法對MAUV進(jìn)行航跡規(guī)劃.文獻(xiàn)[9]結(jié)合目標(biāo)預(yù)警位置和地形因素,建立用來描述目標(biāo)隨著時(shí)間變化的等概率曲線模型.文獻(xiàn)[10]提出了用于搜救的無人水下航行器系統(tǒng)的可行性策略,為AUV應(yīng)用于搜索救援提供了理論與實(shí)際的解決方案.
搜索問題不僅僅是簡單地遍歷任務(wù)區(qū)域,考慮目標(biāo)具有智能決策能力時(shí)其行動將具有多種變化,增大預(yù)測目標(biāo)行為的難度.截至目前,對于搜索具有多種決策方案的智能目標(biāo),缺乏描述不同決策狀態(tài)下目標(biāo)行為的方法,且沒有建立相應(yīng)的目標(biāo)決策方案轉(zhuǎn)換模型.因此,針對智能目標(biāo)的決策狀態(tài)轉(zhuǎn)移影響下的集群協(xié)同搜索研究仍舊是一個(gè)極具有挑戰(zhàn)的難題.
對于決策轉(zhuǎn)移模型的研究,美國麻省理工情感實(shí)驗(yàn)室的Picard教授定義了智能體的情感計(jì)算[11],并在后續(xù)研究中通過多模態(tài)技術(shù)分析目標(biāo)情感[12],這對于定性研究智能體的決策模型提供了理論依據(jù).本文在文獻(xiàn)[11-12]的基礎(chǔ)上,從文獻(xiàn)[13]提出的現(xiàn)代化作戰(zhàn)中的推演技術(shù)出發(fā),針對目標(biāo)具有智能決策能力的問題,建立基于決策狀態(tài)轉(zhuǎn)移的目標(biāo)概率圖模型,并提出多狼群算法(improved multi-wolf pack algorithm,IMWPA),用于解決MAUV協(xié)同搜索智能目標(biāo)的路徑規(guī)劃問題,創(chuàng)新點(diǎn)如下:
1)針對在未知水下區(qū)域內(nèi)存在具有智能決策的動態(tài)目標(biāo),且目標(biāo)的決策狀態(tài)可能發(fā)生轉(zhuǎn)移.本文設(shè)計(jì)基于馬爾科夫鏈生成決策狀態(tài)轉(zhuǎn)移模型,將決策與智能目標(biāo)的行為相對應(yīng),建立了一種新穎的目標(biāo)概率圖模型;同時(shí)考慮環(huán)境對于傳感器的影響,設(shè)計(jì)新的傳感器光線受限的探測概率函數(shù);
2)設(shè)計(jì)新的實(shí)時(shí)自適應(yīng)代價(jià)系數(shù),動態(tài)調(diào)整實(shí)時(shí)多目標(biāo)適應(yīng)值函數(shù),相比于文獻(xiàn)[8]中的搜索任務(wù)適應(yīng)值函數(shù)的收益或代價(jià)權(quán)重系數(shù)為常量,本文提出的適應(yīng)值函數(shù)更符合搜索任務(wù)中的實(shí)際需求;
3)提出改進(jìn)的IMWPA算法,利用人工勢場法調(diào)整人工狼的奔襲步長,使尋優(yōu)過程更加靈活;建立新的多狼群框架,增設(shè)嚎叫環(huán)節(jié)用于聯(lián)絡(luò)狼群間的信息,防止探索空間的重復(fù);構(gòu)建人工狼淘汰規(guī)則,提出同時(shí)依據(jù)適應(yīng)值函數(shù)值及其增長量改進(jìn)狼群淘汰更新策略,防止搜索隨機(jī)性過大并保證狼群的多樣性.
本文具體結(jié)構(gòu)如下:第2節(jié)為問題描述,將任務(wù)區(qū)域環(huán)境柵格化,制定智能目標(biāo)模型的轉(zhuǎn)移以及目標(biāo)概率圖的更新規(guī)則,并建立受水下環(huán)境影響的傳感器探測概率模型;第3節(jié)結(jié)合AUV系統(tǒng)的約束條件,建立MAUV任務(wù)評價(jià)函數(shù),將其描述為實(shí)時(shí)適應(yīng)值函數(shù)的形式;第4節(jié)設(shè)計(jì)IMWPA并應(yīng)用于MAUV搜索系統(tǒng);第5節(jié)建立多個(gè)仿真場景,檢驗(yàn)IMWPA完成任務(wù)的可行性,并將IMWPA與其他搜索方法進(jìn)行對比,驗(yàn)證了算法的高效性;文章最后給出本文的結(jié)論.
定義的水下任務(wù)場景為:預(yù)警后消失的多個(gè)水下未知智能目標(biāo)根據(jù)自身的決策展開行動.MAUV系統(tǒng)則依據(jù)該預(yù)警坐標(biāo)并通過目標(biāo)的決策狀態(tài)的轉(zhuǎn)移描述目標(biāo)行動的變化,在復(fù)雜環(huán)境下根據(jù)決策狀態(tài)預(yù)測未來時(shí)刻目標(biāo)概率分布,并將其作為先驗(yàn)信息,然后利用IMWPA對MAUV搜索過程進(jìn)行路徑優(yōu)化,期望在水下復(fù)雜環(huán)境中以最優(yōu)指標(biāo)完成搜索任務(wù).
針對水下復(fù)雜環(huán)境進(jìn)行三維環(huán)境建模,考慮水下環(huán)境Ω,存在著未知準(zhǔn)確數(shù)量和位置的智能動態(tài)目標(biāo).將水下環(huán)境Ω柵格化成Lx×Ly×Lz個(gè)單位柵格,單位柵格的寬度由AUV的傳感器探測寬度Ds決定.將柵格根據(jù)坐標(biāo)(x,y,z)編號為Cellxyz.
MAUV系統(tǒng)采用主-從模式[14],且都安裝了水聲通信系統(tǒng)和其他通信設(shè)備,保證MAUV系統(tǒng)之間的通信[15].主AUV作為通信中繼點(diǎn),在每個(gè)決策周期內(nèi)主AUV都可以實(shí)現(xiàn)理想通信,且每隔一段時(shí)間主AUV需要浮出水面,通過GPS修正位置誤差,以實(shí)現(xiàn)高精度的搜索任務(wù);從AUV主要用于搜索,可在一定范圍內(nèi)與主AUV通信,從而實(shí)現(xiàn)MAUV搜索信息的一致性.
為避免AUV頻繁上浮或下潛,假設(shè)MAUV高度坐標(biāo)為Lz,且能夠完全掃描相同(x,y)坐標(biāo)的柵格,則
其中:Pxyzi表示柵格Cellxyzi目標(biāo)存在概率表示橫縱坐標(biāo)為(x,y)的柵格集合Cellxy對應(yīng)目標(biāo)存在的總概率,在tk時(shí)刻平面中Cellxy對應(yīng)的目標(biāo)概率為Pxy(tk).
考慮任務(wù)區(qū)域內(nèi)所有柵格在tk時(shí)刻存在兩種模式,即,MAUV未正在搜索和正在搜索的柵格,基于此,本節(jié)對目標(biāo)概率圖建模如下.
2.2.1 MAUV未搜索時(shí)概率圖更新模型
1)目標(biāo)決策狀態(tài)及其轉(zhuǎn)移模型.
由于預(yù)警后消失的目標(biāo)信息嚴(yán)重不足,僅能根據(jù)預(yù)警時(shí)的部分目標(biāo)狀態(tài)信息,預(yù)測目標(biāo)位置.本節(jié)建立基于馬爾科夫鏈的決策狀態(tài)轉(zhuǎn)移模型,設(shè)置五元組{D,π,M,S,An}表示n種決策狀態(tài)集合.π=(π1,π2,···,πn)1×n為初始決策狀態(tài)分布概率矩陣.M={M1,M2,Mj,···,Mg},j=1,2,···,g表示g種朝向某柵格的位移行為的集合,每種決策狀態(tài)下可對應(yīng)多種行為.S={S0,S1}為目標(biāo)對外界反應(yīng)集合,其中S0表示目標(biāo)認(rèn)為自身安全,對外界不作反應(yīng);S1表示目標(biāo)感知受到外界威脅,將作應(yīng)急反應(yīng).為決策狀態(tài)轉(zhuǎn)移概率矩陣,表示目標(biāo)在時(shí)間步受到反應(yīng)為Sl(l=0,1)時(shí)決策狀態(tài)之間的轉(zhuǎn)移概率矩陣.數(shù)學(xué)描述如下:
本文的決策轉(zhuǎn)移模型是基于馬爾科夫鏈的“無記憶性”的預(yù)測模型[16],該模型符合在任務(wù)中信息獲取不足,環(huán)境情況實(shí)時(shí)變化的特點(diǎn).即tk+1時(shí)刻的決策狀態(tài)D(tk+1)僅取決于tk時(shí)刻決策狀態(tài)D(tk)和tk時(shí)刻目標(biāo)感知到的外界狀態(tài)類型Sl.同時(shí),通過引入的決策狀態(tài)轉(zhuǎn)移矩陣解決動態(tài)智能目標(biāo)的決策在不同情況下變化的建模問題.當(dāng)目標(biāo)感知安全后或危險(xiǎn)時(shí),會采取不同的決策.
進(jìn)一步地,可以得出目標(biāo)在起始時(shí)刻t0經(jīng)過k步后的決策狀態(tài)轉(zhuǎn)移概率,表示在t0時(shí)刻的狀態(tài)Di在tk時(shí)刻轉(zhuǎn)變?yōu)镈j的概率.從t0時(shí)刻經(jīng)歷k步后的決策狀態(tài)轉(zhuǎn)移矩陣A(tk)等于這段時(shí)間內(nèi)所有狀態(tài)轉(zhuǎn)移矩陣連續(xù)相乘,即
其中Nl為智能動態(tài)目標(biāo)感知到外界威脅的次數(shù).
從起始時(shí)刻t0到tk時(shí)刻的決策狀態(tài)概率分布矩陣表示如下:
目標(biāo)預(yù)警后消失后,定義目標(biāo)概率計(jì)算公式為
其中:t0表示目標(biāo)消失的時(shí)間并將其作為初始時(shí)刻,(xT(t0),yT(t0))為目標(biāo)最后一次出現(xiàn)的柵格坐標(biāo).
3)目標(biāo)概率圖更新.
Cellxy對應(yīng)的行為集合M包括9種位移行為,如圖1所示.
圖1 朝向Cellxy的智能目標(biāo)位移Fig.1 Displacement of intelligent target towards toCellxy
智能目標(biāo)的決策周期為單位時(shí)間步,每個(gè)周期內(nèi)Cellxy在MAUV未搜索時(shí)目標(biāo)存在的概率的更新公式如下:
其 中:mij=P(Mj|D=Di)(i=1,2,···,n)(j=1,2,···,9),mij表示在決策狀態(tài)Di的情況下,目標(biāo)位于柵格Gj進(jìn)行位移Mj的概率,并且mij非負(fù),任意決策狀態(tài)下執(zhí)行所有位移的概率和為1.
模型搭建。把碳排放作為DEA分析模型的投入要素,假定規(guī)模報(bào)酬可變,建立投入導(dǎo)向型規(guī)模報(bào)酬可變(VRS)分析模型,分析在地區(qū)生產(chǎn)總值一定的情況下,碳排放、資本和勞動力如何變動,能夠?qū)崿F(xiàn)經(jīng)濟(jì)發(fā)展的最高效率。
圖2 IMWPA結(jié)構(gòu)圖Fig.2 Structure of IMWPA
2.2.2 MAUV正在搜索時(shí)的概率圖更新模型
在任務(wù)過程中,AUV的圖像識別傳感器會受到水下環(huán)境的影響光線弱的影響從而降低識別準(zhǔn)確率,本小節(jié)依據(jù)圖像傳感器接收到的光照反射強(qiáng)度建立傳感器探測概率與虛警概率模型,如下所示:
其中Pd∈[0,1]為探測概率,表示柵格真實(shí)存在目標(biāo),但傳感器僅能以Pd的概率檢測到目標(biāo).ρχ代表傳感器檢測到的反射光強(qiáng)度;lρχ表示光強(qiáng)度對探測概率的影響系數(shù);反射光強(qiáng)度ρχ1,ρχ2,ρχ3為常數(shù)且ρχ1>ρχ2>ρχ3,當(dāng)反射光強(qiáng)度小于ρχ3時(shí),傳感器失去探測識別能力.
其中Pf∈[0,1]為虛警率,表示柵格不存在目標(biāo),但傳感器卻以Pf的概率顯示檢測到目標(biāo).該式表明傳感器在反射光強(qiáng)度大于ρχ1不會出現(xiàn)虛警情況,反射光強(qiáng)度小于ρχ3時(shí),傳感器失去探測識別能力,對于探測結(jié)果不予信任.
MAUV傳感器系統(tǒng)確定柵格Cellxy存在目標(biāo)的概率由AUVs,s=(1,2,···,Ns)在檢測到Cellxy存在目標(biāo)事件和該柵格是否實(shí)際存在目標(biāo)事件θxy(tk)共同決定.基于貝葉斯檢測規(guī)則,設(shè)計(jì)AUVs對于tk時(shí)刻搜索Cellxy的概率更新規(guī)則函數(shù)如下:
2.2.3 總體目標(biāo)概率圖更新
結(jié)合式(6)與式(11)可以構(gòu)建隨著任務(wù)時(shí)間推移和MAUV探測情況而更新的總體任務(wù)區(qū)域內(nèi)的目標(biāo)概率圖,如下所示:
基于此,下一節(jié)給出MAUV搜索任務(wù)的適應(yīng)值函數(shù).
AUV在執(zhí)行任務(wù)時(shí),受到運(yùn)動特性、機(jī)械結(jié)構(gòu)、行動效率等多種條件制約.本章以動態(tài)目標(biāo)搜索任務(wù)的實(shí)時(shí)多目標(biāo)適應(yīng)值函數(shù)F(tk)描述搜索性能指標(biāo),并綜合考慮機(jī)動性約束Ck,避碰約束Cd,以及危險(xiǎn)區(qū)約束Cs進(jìn)行航跡優(yōu)化.
3.1.1 機(jī)動性約束Ck
規(guī)定每艘AUV機(jī)動性約束為以下形式:
其中:φ(tk)表示tk時(shí)刻AUV的實(shí)時(shí)轉(zhuǎn)向角度,φmax表示AUV的最大轉(zhuǎn)向角度.
3.1.2 避碰約束Cd
規(guī)定AUV之間需滿足實(shí)時(shí)避碰約束條件為
其中:dab(tk)表示第a艘AUV和第b艘AUV之間的距離,dmin表示AUV之間的最小安全距離.
3.1.3 危險(xiǎn)區(qū)約束Cs
為了避免MAUV進(jìn)入危險(xiǎn)區(qū),對危險(xiǎn)區(qū)約束Cs描述如下:
其中:(xi(tk),yi(tk))為第i艘AUV的實(shí)時(shí)位置,GD為危險(xiǎn)區(qū)柵格.
考慮在實(shí)際任務(wù)過程中,總概率會隨著MAUV系統(tǒng)探測逐漸下降,最終陷入代價(jià)始終超過收益的困境,本文根據(jù)實(shí)際情況將MAUV系統(tǒng)tk時(shí)刻的協(xié)同優(yōu)化問題描述為實(shí)時(shí)多目標(biāo)適應(yīng)值函數(shù)
其中:RP(tk)表示概率收益;JO(tk)表示重復(fù)路徑代價(jià);JE(tk)表示能量損耗代價(jià);JA(tk)表示航跡調(diào)整代價(jià);JD(tk)表示進(jìn)入危險(xiǎn)區(qū)域的代價(jià);ω(tk)為動態(tài)自適應(yīng)代價(jià)權(quán)重系數(shù);用每個(gè)柵格的平均概率值表示;計(jì)算方法如下:
其中∑Pxy(tk)表示對tk時(shí)刻任務(wù)區(qū)域中所有柵格的概率求和.
3.2.1 概率收益RP(tk)
每次探測都會將對應(yīng)柵格的目標(biāo)存在概率作為任務(wù)區(qū)域的探測情況,并將此刻探測的柵格概率作為已確定的探測情況,即MAUV探測的柵格概率值越高,區(qū)域內(nèi)所剩未確定探測情況越少,任務(wù)區(qū)域的探明情況越明朗.每一時(shí)刻MAUV概率收益RP(tk)的計(jì)算方式如下所示:
其中kp表示概率收益系數(shù).
3.2.2 路徑重復(fù)代價(jià)JO(tk)
本文引入JO(tk)減少碰撞危險(xiǎn)同時(shí)增加搜索效率,表示方法如下:
其中:ko表示路徑重復(fù)代價(jià)系數(shù),La表示AUVa搜索路徑中覆蓋柵格集合,card(·)函數(shù)表示集合中相同元素個(gè)數(shù).
3.2.3 能量損耗代價(jià)JE(tk)
本文引入JE(tk)描述AUV執(zhí)行任務(wù)中的能量損耗.如下所示:
其中:Jk(tk)為動力電池電量損耗代價(jià),Jf(tk)表示控制電池電量損耗代價(jià).
3.2.4 航跡調(diào)整代價(jià)JA(tk)
本文引入JA(tk)描述航跡平滑度,表達(dá)方式如下:
其中ka為航跡調(diào)整代價(jià)系數(shù).
3.2.5 危險(xiǎn)航跡代價(jià)JD(tk)
MAUV與危險(xiǎn)區(qū)較近的航跡以JD(tk)描述,如下所示:
其中:kD為MAUV危險(xiǎn)代價(jià)系數(shù),ND為危險(xiǎn)區(qū)域個(gè)數(shù),rid表示第AUVi與危險(xiǎn)區(qū)d的距離,r0和rs為危險(xiǎn)判定距離的下界和上界.
由于狼群在解空間搜索的行動中體現(xiàn)出的智能性,與MAUV協(xié)同搜索行為相似,如表1所示.同時(shí),WPA作為搜索中常用的啟發(fā)式算法,適用于搜索智能目標(biāo)[17].因此,本文提出一種IMWPA來對MAUV航跡規(guī)劃問題進(jìn)行求解.
表1 狼群行為與MAUV協(xié)同搜索相似點(diǎn)Table 1 Wolf behavior and MAUV collaborative search relation
步長因子決定了搜索的精細(xì)程度,由于步長因子固定,在行動中存在步長跨度過大越過最優(yōu)解,或者步長跨度過小耗費(fèi)算力的情況.IMWPA采用人工勢場法對解空間中的人工狼的步長進(jìn)行調(diào)整,設(shè)計(jì)步長因子如下:
其中:S0表示人工狼步長因子基礎(chǔ)值;λ表示勢場影響因子;Ui(I)表示第I次迭代時(shí)i狼所處位置的勢場函數(shù),設(shè)計(jì)如下:
其中ζ表示引力增益,設(shè)計(jì)為
其中:ki表示頭狼引力系數(shù)表示第I代人工狼i當(dāng)選頭狼次數(shù),Dw代表算法探索空間的維數(shù).
其中:μ表示斥力增益表示第I次迭代時(shí)i狼所處位置與其最近普通狼之間的距離,大于此距離將不會產(chǎn)生斥力.
IMWPA通過人工勢場法設(shè)置步長因子使得勢場函數(shù)值與步長因子負(fù)相關(guān)、與步長正相關(guān),利用不斷學(xué)習(xí)探索過程中較好的頭狼的探索規(guī)律,從而防止尋優(yōu)過程越過最優(yōu)解的同時(shí),改善尋優(yōu)搜索精細(xì)度.
嚎叫環(huán)節(jié)的執(zhí)行步驟如下:
1)子狼群WPξ接收其他子狼群的頭狼信息;
2)子狼群WPξ內(nèi)部判斷此刻的最優(yōu)解對應(yīng)的頭狼是否滿足全局性要求.即,若此頭狼h與其他狼群的頭狼探索范圍發(fā)生重復(fù),則根據(jù)式(28)對該函數(shù)值進(jìn)行懲罰;
3)比較氣味濃度得出新的頭狼,轉(zhuǎn)到步驟4;
4)判斷此頭狼是否滿足約束條件:若不滿足約束條件,刪除此頭狼信息,選擇次優(yōu)解,轉(zhuǎn)回步驟2;若滿足約束條件,轉(zhuǎn)到步驟5;
5)WPξ通過嚎叫將此頭狼h信息發(fā)布.
其中kz∈[0,1]代表探索空間重復(fù)懲罰系數(shù).
IMWPA作為多狼群算法,通過嚎叫環(huán)節(jié)實(shí)現(xiàn)狼群之間的信息共享,預(yù)防探索空間的重復(fù),改善算法全局性探索能力.
傳統(tǒng)狼群搜索的淘汰更新只根據(jù)氣味濃度大小采取末位淘汰機(jī)制,由于淘汰的數(shù)目大小會影響算法效果,IMWPA針對每次迭代時(shí)人工狼氣味濃度的數(shù)值和速率兩方面,擬定同時(shí)滿足這兩項(xiàng)條件將被淘汰:
1)數(shù)值角度:氣味濃度數(shù)值處于較小的R匹,R∈[(NW-Snum-1)/2γ,(NW-Snum-1)/γ],γ為群體更新比例因子;
IMWPA通過健全淘汰更新機(jī)制,防止因淘汰數(shù)目過多導(dǎo)致算法趨于隨機(jī)搜索的同時(shí),保證了狼群個(gè)體的多樣性.
基于IMWPA的MAUV搜索路徑規(guī)劃偽代碼如表2所示.
表2 基于IMWPA的MAUV搜索路徑規(guī)劃偽代碼Table 2 Pseudocode for MAUV search path planning based on IMWPA
為了驗(yàn)證IMWPA的可靠性及優(yōu)越性,本節(jié)在MATLAB中建立了基于智能決策目標(biāo)概率圖的MAUV協(xié)同搜索動態(tài)目標(biāo)的仿真環(huán)境.任務(wù)區(qū)域面積為40 km×40 km,AUV的有效探測半徑Ds=500 m,將任務(wù)區(qū)域均分成40×40個(gè)單位柵格,任務(wù)區(qū)域內(nèi)共設(shè)置10個(gè)動態(tài)目標(biāo).MAUV的實(shí)時(shí)變量為速率和轉(zhuǎn)向角,其中速率最大值vmax=2km/h,轉(zhuǎn)向角最大值φmax=45°,從任務(wù)區(qū)域的邊界出發(fā)進(jìn)入任務(wù)區(qū)域,AUV之間的最小距離dmin=1km,由于能耗和時(shí)間因素設(shè)定MAUV執(zhí)行任務(wù)的最大時(shí)間步數(shù)stepmax=200.IMWPA算法參數(shù)設(shè)置如表3所示.
表3 IMWPA仿真參數(shù)表Table 3 IMWPA simulation parameter table
在本場景中,已知目標(biāo)決策狀態(tài)及其位移轉(zhuǎn)移概率,設(shè)定智能目標(biāo)具有4種決策狀態(tài)以及9種位移行為.
最后一次預(yù)警時(shí)的目標(biāo)位置作為初始條件,將預(yù)警丟失的目標(biāo)視作全部搜索任務(wù)目標(biāo),如圖4(a)所示.通過式(5)計(jì)算在最后一次預(yù)警時(shí)間步tk=20后的多目標(biāo)概率分布圖作為MAUV先驗(yàn)信息,此時(shí)MAUV開始執(zhí)行任務(wù),此時(shí)多目標(biāo)概率圖如圖3(b)所示.
圖3 無危險(xiǎn)區(qū)場景下的先驗(yàn)信息Fig.3 Prior information without danger
多目標(biāo)概率圖根據(jù)式(12)進(jìn)行更新,并且MAUV的搜索路徑通過IMWPA進(jìn)行設(shè)計(jì).在任務(wù)結(jié)束時(shí),得到MAUV搜索路徑如圖4(a)所示,以及多目標(biāo)概率圖模型如圖4(b)所示.
圖4 無危險(xiǎn)區(qū)的任務(wù)執(zhí)行結(jié)果Fig.4 Task execution results without danger area
任務(wù)時(shí)間內(nèi)采取IMWPA、狼群算法、并行搜索以及隨機(jī)搜索幾種不同方法在動態(tài)目標(biāo)任務(wù)中的路徑圖,分別如圖5(a)-(d)所示.
從圖5中可對比看出,IMWAP方法下的MAUV軌跡相比WPA覆蓋范圍更廣,航跡平滑度更高,全局性更好.對比并行搜索和隨機(jī)搜索,IMWPA發(fā)揮了啟發(fā)式算法能夠根據(jù)適應(yīng)值函數(shù)進(jìn)行航跡規(guī)劃的優(yōu)點(diǎn).
圖5 不同方法下的MAUV搜索路徑圖Fig.5 MAUV search path graph in different method
任務(wù)執(zhí)行過程中的搜索概率收益、適應(yīng)值函數(shù)值和搜索目標(biāo)數(shù)對比,如圖6(a)-(c)所示.
圖6 無危險(xiǎn)場景的搜索指標(biāo)對比Fig.6 Comparison of search indexes for no risk scenes
從圖6(a)中可以看出,由于在任務(wù)前期階段(時(shí)間步)IMWPA與WPA的搜索概率收益相差無幾.而對比另兩種搜索方法則有較大領(lǐng)先.隨著任務(wù)到達(dá)中后期(時(shí)間步),IMWPA算法的搜索過程中探測的柵格概率逐漸與其他方法拉開差距.從概率收益的上升幅度可以看出,在AUV執(zhí)行任務(wù)期間,任務(wù)區(qū)域由最開始的完全未知情況(10個(gè)目標(biāo)的未確定的概率為10)到接近完全探明任務(wù)區(qū)域(未確定的概率僅為0.574).在圖6(b)的實(shí)時(shí)多目標(biāo)適應(yīng)值函數(shù)對比中,IMWPA的函數(shù)值在任務(wù)全程相較于WPA都有領(lǐng)先.在圖6(c)的搜索目標(biāo)數(shù)對比圖中,在時(shí)間步到達(dá)200時(shí)IMWPA能夠平均搜索到9個(gè)以上的目標(biāo).綜合圖6的3幅圖,表明IMWPA有效且高效地完成搜索任務(wù),在任務(wù)過程中始終執(zhí)行算法最優(yōu)的航跡規(guī)劃路線.
本節(jié)仿真環(huán)境的初始條件在場景1的基礎(chǔ)上增加設(shè)置針對MAUV的危險(xiǎn)區(qū),其余參數(shù)設(shè)置不變.先驗(yàn)多目標(biāo)概率圖仍然如圖3(b)所示.在任務(wù)過程中,采用IMWPA的MAUV搜索情況如圖7所示,方框中的區(qū)域?yàn)槲kU(xiǎn)區(qū).
圖7 有危險(xiǎn)區(qū)的任務(wù)執(zhí)行結(jié)果Fig.7 Task execution results with danger area
從圖7(a)中可以看出,AUV在執(zhí)行任務(wù)的過程中能夠有效避免進(jìn)入危險(xiǎn)區(qū)域.
本部分將對本文提出的算法IMWPA與狼群、粒子群和蟻群算法進(jìn)行對比分析.首先,給出任務(wù)過程中的實(shí)時(shí)適應(yīng)值函數(shù)對應(yīng)的4個(gè)代價(jià)指標(biāo)的平均值,如表4所示,從中可以看出IMWPA算法在減少重復(fù)路徑和能量損耗方面性能要弱于粒子群和蟻群算法,但在航跡調(diào)整和躲避危險(xiǎn)區(qū)域方面具有較好的性能,且從圖8(a)可以進(jìn)一步看出本文IMWPA發(fā)現(xiàn)目標(biāo)的概率為8.323,該指標(biāo)相比于狼群、粒子群和蟻群算法得到大幅度的提高.同時(shí)圖8(b)給出的實(shí)時(shí)多目標(biāo)的適應(yīng)值函數(shù),也可以看出IMWPA在多目標(biāo)的優(yōu)化上要好于其余3種啟發(fā)式算法.
表4 200決策周期內(nèi)JO,JE,JA和JD的平均值Table 4 Average value ofJO,JE,JAandJDwithin 200 decision cycles
圖8 有危險(xiǎn)場景的搜索指標(biāo)對比Fig.8 Comparison of search indexes for dangerous scenes
本文建立了智能目標(biāo)概率圖模型,并設(shè)計(jì)IMWPA解決MAUV協(xié)同搜索路徑規(guī)劃問題.根據(jù)馬爾科夫鏈構(gòu)造智能目標(biāo)決策狀態(tài)轉(zhuǎn)移模型,將目標(biāo)決策與目標(biāo)位移行為進(jìn)行關(guān)聯(lián),建立目標(biāo)概率圖.在搜索過程中,設(shè)計(jì)能夠針對不同光線反射強(qiáng)度采取不同的探測概率和虛警率的傳感器探測概率函數(shù).提出了基于人工勢場法改進(jìn)了步長的靈活度、增設(shè)多狼群間的信息交互環(huán)節(jié)以及完善狼群更新淘汰機(jī)制.最后通過多組對比仿真驗(yàn)證本文算法的有效性和實(shí)用性.