廖 晨
(蘭州理工大學(xué)電氣工程與信息工程學(xué)院 蘭州 730050)
標(biāo)簽多伯努利濾波器(Labeled Multi-Bernoulli,LMB)[4~5]作為多目標(biāo)跟蹤濾波器中的“集大成者”,是最具有研究意義和實(shí)用價(jià)值的濾波器算法。它是在有限集統(tǒng)計(jì)理論下(Finite set statistics,F(xiàn)ISST)[2],依據(jù)多假設(shè)思想,在多伯努利濾波器基礎(chǔ)上引入標(biāo)簽向量,有效加強(qiáng)了目標(biāo)與航跡之間的關(guān)聯(lián),避免了監(jiān)測區(qū)域內(nèi)當(dāng)目標(biāo)數(shù)目過多時(shí),由于目標(biāo)之間交叉、重疊而導(dǎo)致的航跡融合等問題,并直接解決了跟蹤過程中目標(biāo)之間無法區(qū)分識(shí)別的難題,且避免了復(fù)雜的數(shù)據(jù)關(guān)聯(lián),因此受到了廣泛關(guān)注。
同時(shí)隨著多源信息融合技術(shù)的發(fā)展,傳感器控制方案的合理選擇對于提升多目標(biāo)整體跟蹤系統(tǒng)的量測信息獲取質(zhì)量具有極大的現(xiàn)實(shí)意義,因此,多目標(biāo)跟蹤中的傳感器控制問題成為了廣大學(xué)者的研究焦點(diǎn)。一般而言,傳感器控制方法是在部分可觀測馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)[9~10]的理論框架下進(jìn)行研究的,它的核心思想可概括為根據(jù)一定的最優(yōu)控制準(zhǔn)則,建立可供參考同時(shí)便于量化的目標(biāo)評價(jià)函數(shù),通過控制所選定傳感器的運(yùn)行參數(shù)和動(dòng)作方式,最終動(dòng)態(tài)地選擇出使評價(jià)函數(shù)達(dá)到最優(yōu)的傳感器控制方案,從而確保最大程度地獲取最優(yōu)的量測信息。信息時(shí)代的到來,促使多目標(biāo)跟蹤技術(shù)迅猛發(fā)展,而復(fù)雜多變的現(xiàn)實(shí)跟蹤環(huán)境,使人們對其提出了更高的要求。因此當(dāng)傳感器控制方法應(yīng)用于大型跟蹤場景時(shí),例如軍事打擊及戰(zhàn)略防御領(lǐng)域時(shí),由于戰(zhàn)場多元化的軍事技術(shù)導(dǎo)致了海量數(shù)據(jù)的出現(xiàn),因而利用有限的傳感器資源最大化地獲取監(jiān)控區(qū)域信息,以及如何提高傳感器的控制效率和降低傳感器運(yùn)行成本的要求成為亟待解決的問題。因此,在上述背景條件下,研究多目標(biāo)下的傳感器控制方法可以大幅提升多目標(biāo)跟蹤系統(tǒng)的整體性能,這對于信息融合領(lǐng)域的發(fā)展具有深遠(yuǎn)意義。
本文重點(diǎn)和主要?jiǎng)?chuàng)新點(diǎn)是通過LMB濾波器的高斯混合(Gaussian Mixture,GM)實(shí)現(xiàn)方式,提出兩種基于信息論的傳感器控制方法。首先給出LMB濾波器的高斯混合實(shí)現(xiàn)過程;其次詳細(xì)推導(dǎo)了柯西施瓦茨(Cauchy-Schwarz)[7~8]散度在 LMB濾波器高斯混合實(shí)現(xiàn)下的評價(jià)函數(shù)解析解;同時(shí)為有效降低計(jì)算復(fù)雜度,利用多伯努利參數(shù)替代標(biāo)簽多伯努利參數(shù)進(jìn)行“去標(biāo)簽”的偽更新方法得到基于CS散度的傳感器控制方案;此外,基于戰(zhàn)術(shù)重要性標(biāo)繪(Tactical Significance Map,TSM)函數(shù)[21],提出以最大威脅度目標(biāo)信息增益最大化為準(zhǔn)則的傳感器控制方案;最后構(gòu)造仿真場景對比驗(yàn)證所提控制方案的有效性。
LMB濾波器,它是GLMB濾波器在特殊近似條件下的濾波算法。在GM-LMB濾波過程中,可以利用多個(gè)帶標(biāo)簽的獨(dú)立伯努利運(yùn)動(dòng)過程的加權(quán)形式來近似描述多目標(biāo)的概率密度分布,而每個(gè)伯努利過程的概率密度可以通過一組加權(quán)形式表達(dá)的高斯分量去實(shí)現(xiàn)。
因此,濾波過程中先驗(yàn)概率密度可以通過GM形式近似如下:
本文的研究內(nèi)容均是在POMDP理論框架下展開的,其中基于信息論的傳感器控制算法相關(guān)的核心要素可定義如下:首先,v是k時(shí)刻A12=A1+A2中所容許的任意一種控制方案,每一個(gè)v均對應(yīng)傳感器下一時(shí)刻的新位置。其次,pk(Xk|Z1:k)表示k時(shí)刻基于之前時(shí)刻累積量測信息下的多目標(biāo)后驗(yàn)概率密度函數(shù)。最后,通過建立評價(jià)函數(shù)R(v)來衡量傳感器的控制效果。因此,最優(yōu)的控制序列可表達(dá)為
評價(jià)函數(shù)R(v)表達(dá)為
由上式可看出,R(v)是用來衡量兩個(gè)概率密度函數(shù)之間差異性大小的評估指標(biāo),其中,fk+H(X|Z1:k)和fk+H(X|Zk+1:k+H(u))分別表示多目標(biāo)的先驗(yàn)、后驗(yàn)概率密度函數(shù),Zk(v)是每一種控制方案v對應(yīng)的理想量測集合。
柯西施瓦茲(Cauchy-Schwarz,CS)散度[20]在一定程度上可看作一種用來度量兩個(gè)集合之間距離大小的評估指標(biāo),可綜合衡量系統(tǒng)整體的信息增益變化程度。
本文為了降低在濾波更新步驟中的計(jì)算復(fù)雜度,采用“去標(biāo)簽”的處理辦法,將預(yù)測步驟中帶標(biāo)簽的多伯努利參數(shù)集的標(biāo)簽丟棄,利用多伯努利參數(shù)替代標(biāo)簽多伯努利參數(shù),進(jìn)行傳感器控制的偽更新,通過評價(jià)函數(shù)計(jì)算確定最終控制方案,之后傳感器在新的位置接收到實(shí)際量測信息,再進(jìn)行LMB更新步驟。
CS散度的評價(jià)函數(shù)表達(dá)如下:
“去標(biāo)簽”的偽更新過程中將預(yù)測部分的標(biāo)簽多伯努利參數(shù)集中的標(biāo)簽丟棄,無標(biāo)簽的預(yù)測多目標(biāo)概率密度則可表示為
無標(biāo)簽的多伯努利參數(shù)集在一定程度上可等同于MeMBer濾波的參數(shù)集,因此,可套用MeMBer濾波器的濾波過程。預(yù)測的多目標(biāo)概率密度參數(shù)集可表示為
通過Zk(v)對預(yù)測的無標(biāo)簽概率密度函數(shù)更新,得到多目標(biāo)概率密度近似表達(dá)式:
參照運(yùn)用兩個(gè)高斯分量的乘積表達(dá)式,即
最后參照文獻(xiàn)[15],評價(jià)函數(shù)式(5)可推導(dǎo)為
且zij和zjj′的計(jì)算過程類似于上式。通過式(15)可計(jì)算得到R(v),從而確定最終的傳感器控制方案uk,傳感器在當(dāng)前時(shí)刻的控制位置xs,k(uk)可以接收實(shí)際量測集合Zk(uk)。
TSM函數(shù)作為戰(zhàn)術(shù)重要性評估指標(biāo),因其綜合考慮了在目標(biāo)運(yùn)動(dòng)狀態(tài)中影響不同時(shí)刻目標(biāo)威脅程度的各種因素。因此,本節(jié)采用TSM函數(shù)來衡量各種目標(biāo)運(yùn)動(dòng)因素對戰(zhàn)場重要性評估指標(biāo)的貢獻(xiàn)程度。該方法全面且合理考慮了多種威脅因子的非線性關(guān)系,核心因素包括目標(biāo)的速度、航向及目標(biāo)與傳感器之間的相對距離。
綜上考慮,由目標(biāo)運(yùn)動(dòng)狀態(tài)構(gòu)建而成的威脅度評估指標(biāo)TSM函數(shù)的最終表達(dá)式如下:
選 定[- 1000m,1000m] ×[- 1000m,1000m] 為監(jiān)控區(qū)域,并在該區(qū)域中構(gòu)造場景對目標(biāo)進(jìn)行跟蹤,假設(shè)實(shí)驗(yàn)過程中目標(biāo)最大數(shù)量為4個(gè)。量測采樣周期為T=1s。場景中目標(biāo)運(yùn)動(dòng)狀態(tài)通過近常速運(yùn)動(dòng)模型來描述,狀態(tài)轉(zhuǎn)移密度可表示為
Fk為狀態(tài)轉(zhuǎn)移矩陣,Qk為噪聲協(xié)方差矩陣,In代表n×n的單位陣,σv=5m/s2。目標(biāo)運(yùn)動(dòng)狀態(tài)(位置、速度)為,目標(biāo)的存活概率為pS,k=0.99,檢測概率pD,k=0.98。新生目標(biāo)可用隨機(jī)有限集的形式來表達(dá),包含的多目標(biāo)概率密度集合為。
實(shí)驗(yàn)中只在傳感器所有允許的控制方案內(nèi)進(jìn)行選擇。用xs,k=[xs,k,ys,k]T表示k時(shí)刻傳感器所處的位置,按照“一步預(yù)測”理念,用Uk+1表示下一時(shí)刻傳感器所有容許的位置集合,那么:
實(shí)驗(yàn)中選擇NR=2,Nθ=8,因此共有17種可能的傳感器控制方案(包含傳感器在初始位置保持靜止的情況)。
仿真實(shí)驗(yàn)中共選取五種傳感器控制方案進(jìn)行對比,并且對每種方案分別進(jìn)行100次蒙特卡羅仿真實(shí)驗(yàn)。其中,方案一為“Stationary”控制方案,此方案令傳感器在初始位置始終保持靜默狀態(tài)。方案二為“Prior zigzag”控制方案,即傳感器按照預(yù)先設(shè)定好的軌跡運(yùn)動(dòng)。方案三為“Random control”控制方案,即在當(dāng)前時(shí)刻中從傳感器所有允許的控制方案中隨機(jī)選取一種。方案四為“Proposed CS control”的方案,即基于GM-LMB濾波器,通過求解先驗(yàn)、后驗(yàn)概率密度之間的CS散度為目的的傳感器控制方案。方案五是“Proposed Threaten control”的方案,即通過計(jì)算各個(gè)時(shí)刻每個(gè)目標(biāo)的TSM值,選取最大威脅度目標(biāo),從而實(shí)現(xiàn)以最大威脅度目標(biāo)的信息增益最大化為傳感器控制準(zhǔn)則的控制方案。實(shí)驗(yàn)中選用OSPA距離來衡量多目標(biāo)優(yōu)化算法的跟蹤性能,設(shè)定c=100m,p=1。
根據(jù)構(gòu)建的仿真場景,實(shí)驗(yàn)中多目標(biāo)的新生與消亡時(shí)刻、初始位置和速度等參數(shù)分別如表1所示。
表1 多目標(biāo)參數(shù)
圖1給出了多目標(biāo)真實(shí)運(yùn)動(dòng)軌跡及單次蒙特卡羅估計(jì)的跟蹤結(jié)果,總共有四個(gè)目標(biāo),其中目標(biāo)新生、消亡時(shí)刻分別標(biāo)注為方框和五角星。由圖可知,多目標(biāo)整體跟蹤效果良好。
圖1 多目標(biāo)運(yùn)動(dòng)軌跡圖
圖2為方案二“Prior zigzag”中傳感器運(yùn)行軌跡圖,即傳感器按照圖中預(yù)先設(shè)定好的軌跡運(yùn)行。圖3為多目標(biāo)整體系統(tǒng)位置估計(jì)的OSPA距離圖,由上圖中可以看到,所提出的方案四、五的跟蹤精度明顯好于其余三種方案,同時(shí),又以方案四效果最佳,這是因?yàn)椤癙roposed CS control”方案在跟蹤目標(biāo)時(shí)優(yōu)先考慮多目標(biāo)系統(tǒng)的綜合信息增益,是以整體信息增益最大化為原則的控制方案。而“Proposed Threaten control”方案則只注重跟蹤威脅度較大的目標(biāo),沒有兼顧區(qū)域內(nèi)其余威脅度較小的目標(biāo)運(yùn)動(dòng)帶來的信息增益,因此對于系統(tǒng)所有目標(biāo)跟蹤的性能不如方案四。綜上所述,“Proposed CS control”方案是針對系統(tǒng)整體跟蹤的最優(yōu)傳感器控制算法。
圖2 方案二中傳感器運(yùn)行軌跡圖
圖3 多目標(biāo)整體系統(tǒng)位置估計(jì)OSPA距離圖
表2為在濾波更新過程中通過“去標(biāo)簽化”偽更新后的傳感器控制方案和原始方法的平均運(yùn)行時(shí)間對比,表3則為OSPA距離均值的對比。結(jié)合兩表數(shù)據(jù),可以看出,在保證跟蹤精度性能的前提下,采取“去標(biāo)簽”的偽更新方法,可以降低濾波過程的計(jì)算復(fù)雜度,提高運(yùn)行效率。
表2 傳感器控制方案單次平均運(yùn)行時(shí)間表
表3 OSPA距離均值對比
圖4為“Proposed CS control”方案的傳感器運(yùn)行軌跡圖,是基于系統(tǒng)整體信息增益的控制方案。由上圖可知,隨時(shí)刻推移,傳感器運(yùn)行軌跡趨勢會(huì)發(fā)生變化,這是因?yàn)樵跒V波過程中伴隨著目標(biāo)的新生和消亡,會(huì)影響到跟蹤系統(tǒng)的整體信息增益,為了在每個(gè)時(shí)刻獲取最優(yōu)的量測信息,傳感器會(huì)通過調(diào)整自身的位置,盡可能始終處于最佳的觀測位置,從而實(shí)現(xiàn)以信息增益最大化為準(zhǔn)則的控制目的。
圖4 方案四中傳感器運(yùn)行軌跡圖
圖5和圖6為基于威脅度目標(biāo)的傳感器控制軌跡,其中叉號(hào)代表每個(gè)時(shí)刻威脅度最大的目標(biāo)。
圖5 方案五中傳感器運(yùn)行軌跡及最大威脅度目標(biāo)圖
圖6 方案五中傳感器運(yùn)行軌跡放大圖
在初始時(shí)刻,監(jiān)控區(qū)域內(nèi)只存在兩個(gè)目標(biāo),即目標(biāo)一和目標(biāo)二,目標(biāo)一朝向遠(yuǎn)離傳感器中心位置的方向移動(dòng),而目標(biāo)二朝向傳感器中心位置運(yùn)動(dòng),但由于運(yùn)動(dòng)目標(biāo)速度與距離的因素影響,目標(biāo)一的TSM函數(shù)值始終大于目標(biāo)四,是監(jiān)控區(qū)域內(nèi)威脅度最大的目標(biāo)。直至t=13s時(shí),目標(biāo)二隨時(shí)間推移,距離傳感器中心位置越來越近,取代目標(biāo)一,成為場景中最大威脅度目標(biāo),傳感器調(diào)整自身位置開始朝向目標(biāo)二運(yùn)動(dòng)。當(dāng)t=31s時(shí),目標(biāo)二消亡,目標(biāo)三威脅度變?yōu)樽畲?,傳感器適時(shí)調(diào)整自身軌跡向目標(biāo)三方向運(yùn)動(dòng)。而目標(biāo)四由于朝向遠(yuǎn)離傳感器中心的位置運(yùn)動(dòng),且在每個(gè)時(shí)刻都存在威脅度大于其的目標(biāo),因此,在監(jiān)控時(shí)刻內(nèi)未有時(shí)刻成為最大威脅度目標(biāo)。通過圖6,驗(yàn)證了“Proposed Threaten control”方案的有效性。這種控制方案基于戰(zhàn)術(shù)重要性評估準(zhǔn)則,考慮威脅度態(tài)勢,始終確保傳感器優(yōu)先跟蹤威脅度最大的目標(biāo)。
圖7為方案四“Proposed CS control”和方案五“Proposed Threaten control”針對最大威脅度目標(biāo)跟蹤的OSPA距離對比圖,由圖可知,方案五是針對最大威脅度目標(biāo)的最優(yōu)控制方案,其跟蹤效果優(yōu)于方案四,方案四則是針對系統(tǒng)整體的最優(yōu)控制方案。這也驗(yàn)證了在不同優(yōu)先級(jí)目標(biāo)跟蹤的復(fù)雜場景中,方案五具有更好的適用性,從而也說明了本章所提出的兩種傳感器控制方案在不同的多目標(biāo)跟蹤任務(wù)規(guī)劃中都具有各自的優(yōu)勢,針對不同的應(yīng)用場景中選取合適的控制方案才能達(dá)到最優(yōu)的效果。
圖7 基于最大威脅度目標(biāo)的OSPA距離圖
五種傳感器控制方案對于目標(biāo)勢(數(shù)目)的估計(jì)如圖8所示。由圖可知,所有方案對于目標(biāo)勢估計(jì)的結(jié)果均都接近于真實(shí)目標(biāo)數(shù)目,在目標(biāo)新生或消亡的時(shí)刻,目標(biāo)勢會(huì)發(fā)生短暫的偏差,隨后能迅速調(diào)整估計(jì)值。
圖8 多目標(biāo)勢估計(jì)圖
本文的主要工作和創(chuàng)新點(diǎn)在于基于LMB濾波器,在信息驅(qū)動(dòng)的傳感器控制框架下,通過提升量測信息獲取質(zhì)量,最終實(shí)現(xiàn)濾波器跟蹤性能的進(jìn)一步提高。首先,通過求取目標(biāo)先驗(yàn)、后驗(yàn)概率密度函數(shù)之間的CS散度,詳細(xì)推導(dǎo)了評價(jià)函數(shù)解析解。然后,在多伯努利更新過程中采用“去標(biāo)簽”化處理,通過偽更新步驟,大幅降低了計(jì)算量,并提高了運(yùn)行速度。其次,通過計(jì)算戰(zhàn)術(shù)重要性評估指標(biāo)——TSM函數(shù),實(shí)現(xiàn)基于監(jiān)控區(qū)域威脅度目標(biāo)跟蹤的傳感器控制目的。最后,合理設(shè)立仿真場景,根據(jù)跟蹤要求的側(cè)重點(diǎn)不同,驗(yàn)證了所提算法的有效性及實(shí)用性。