丁國勝,蔡民杰
(南京電子技術(shù)研究所,江蘇 南京 210039)
點跡-航跡關(guān)聯(lián)主要是完成航跡更新與航跡維持,也就是以確定航跡的預(yù)測值為中心,根據(jù)某種特定的準(zhǔn)則篩選符合條件的點跡,并利用點跡進(jìn)行濾波的過程。因此,點跡-航跡關(guān)聯(lián)主要涉及目標(biāo)跟蹤中常用的濾波算法,如最近鄰 (Nearest Neighbor, NN) 濾波、概率數(shù)據(jù)互聯(lián)(Probability Data Association, PDA)濾波、聯(lián)合概率數(shù)據(jù)互聯(lián)(Joint Probability Data Association, JPDA)濾波、多假設(shè)跟蹤(Multiple Hypothesis Tracking, MHT)濾波、交互多模型(Interacting Multiple Model, IMM)濾波及概率假設(shè)密度(Probabilistic Hypothesis Density, PHD) 濾波等。
多目標(biāo)點跡-航跡關(guān)聯(lián)技術(shù)一直都是研究熱點,學(xué)者利用目標(biāo)的運動特性和傳感器特點進(jìn)行分析,并取得了一定的成果。但隨著時代的發(fā)展,目標(biāo)受到了強(qiáng)雜波、強(qiáng)干擾等自然和人類行為等因素影響,很難有效辨別真實數(shù)據(jù)和受污染的數(shù)據(jù),尤其是目標(biāo)真實數(shù)據(jù)丟失時,關(guān)聯(lián)難度大大增加。不考慮虛警、漏警等傳統(tǒng)數(shù)據(jù)關(guān)聯(lián)問題,還可能因目標(biāo)做出高機(jī)動、交互運動等動作出現(xiàn)數(shù)據(jù)混亂、交叉等更加復(fù)雜的問題,這也是多目標(biāo)點跡-航跡關(guān)聯(lián)領(lǐng)域亟待解決的問題。
機(jī)器學(xué)習(xí)是當(dāng)前流行的人工智能手段,利用機(jī)器學(xué)習(xí)理論分析大量數(shù)據(jù)已經(jīng)較為普遍。RL技術(shù)是機(jī)器學(xué)習(xí)的一個分支,其主旨是在某一環(huán)境下作出能夠獲得最大預(yù)期收益的動作。RL起源于二十世紀(jì)六十年代,發(fā)展至今已取得很多成果,如Q學(xué)習(xí)、動態(tài)規(guī)劃、Policy Gradients、Deep-Q-Network等。
結(jié)合數(shù)據(jù)關(guān)聯(lián)和強(qiáng)化學(xué)習(xí)兩大技術(shù)的共同特點,利用人工智能的方式實現(xiàn)數(shù)據(jù)的高速處理,完成多目標(biāo)點跡-航跡關(guān)聯(lián),不僅有較高的工程實踐意義,也對國家國防建設(shè)有重要意義,這將可能會成為未來發(fā)展的一種趨勢。本文提出一種基于Q學(xué)習(xí)的多目標(biāo)點跡-航跡關(guān)聯(lián)算法,該方法在雜波環(huán)境下,以強(qiáng)化學(xué)習(xí)(RL)方法為基礎(chǔ),結(jié)合量測數(shù)據(jù)和目標(biāo)運動狀態(tài)信息,實現(xiàn)機(jī)動與非機(jī)動情況下多個目標(biāo)的點跡-航跡關(guān)聯(lián),為跟蹤濾波過程提供了較準(zhǔn)確的點跡數(shù)據(jù)。
傳感器提供的點跡數(shù)據(jù)中存在大量虛假信息,且傳統(tǒng)點跡-航跡關(guān)聯(lián)方法同時處理多個目標(biāo)量測數(shù)據(jù)時容易出現(xiàn)關(guān)聯(lián)混亂、目標(biāo)丟失等問題,因此,本文提出了基于RL的多目標(biāo)點跡-航跡關(guān)聯(lián)算法,有效解決了機(jī)動與非機(jī)動情況下多個目標(biāo)的點跡-航跡關(guān)聯(lián)問題。該算法首先基于量測數(shù)據(jù)和目標(biāo)狀態(tài)信息的特性,設(shè)置了狀態(tài)空間和行為空間;其次,利用目標(biāo)狀態(tài)預(yù)測值與量測數(shù)據(jù)的相關(guān)程度選擇當(dāng)前狀態(tài)的動作,并按照行為空間的選擇定義獎勵函數(shù);然后,對Q表進(jìn)行訓(xùn)練學(xué)習(xí),直到所有量測數(shù)據(jù)訓(xùn)練一遍后,停止迭代循環(huán),重新訓(xùn)練學(xué)習(xí);最后,由于雜波環(huán)境下目標(biāo)點跡-航跡關(guān)聯(lián)受雜波影響較大,尤其是當(dāng)目標(biāo)發(fā)生強(qiáng)機(jī)動時,機(jī)器對雜波的分辨能力減弱,訓(xùn)練學(xué)習(xí)后量測集合中仍然可能有雜波存在,大大影響了算法的關(guān)聯(lián)精度,因此,利用目標(biāo)運動的先驗信息,對學(xué)習(xí)結(jié)束后選擇的所有量測進(jìn)行再學(xué)習(xí),并更新Q表中對應(yīng)Q值。
建模是實現(xiàn)RL方法的首要步驟,模型實際是馬爾可夫決策(Markov decision process, MDP)過程。但不同于常規(guī)Q學(xué)習(xí)算法的是,一般的MDP過程是一個機(jī)器對應(yīng)一個過程,要處理多目標(biāo)點跡-航跡關(guān)聯(lián)問題,若將一個目標(biāo)看作一個機(jī)器,則應(yīng)該是多個MDP過程。然而,實際情況是目標(biāo)數(shù)未知,則MDP過程的數(shù)量也是未知的。因此,該方法將整個多目標(biāo)點跡-航跡關(guān)聯(lián)過程視作一個大的MDP過程,單個時刻一個機(jī)器可以在多個不同的狀態(tài)下選擇不同的動作,也可以在一個狀態(tài)下選擇多個不同動作,且狀態(tài)選擇動作的過程互不相關(guān)。
模型確定后,需要設(shè)置MDP過程的狀態(tài)集合和行為集合。由于多個目標(biāo)運動的實際環(huán)境比較復(fù)雜,狀態(tài)時刻受到環(huán)境影響,對機(jī)器訓(xùn)練學(xué)習(xí)的過程也造成了影響,因此,這里設(shè)置了兩個狀態(tài)集合。
第一個狀態(tài)集合是由每個時刻獲得的量測數(shù)據(jù)構(gòu)成:
={},=0,1,2,…
(1)
第二個狀態(tài)集合是由每個時刻的目標(biāo)狀態(tài)預(yù)測值構(gòu)成:
={,},=0,1,2,…
(2)
式中,是第個時刻的狀態(tài)預(yù)測值集合,是第個時刻的狀態(tài)協(xié)方差預(yù)測值集合。
集合為主狀態(tài)集合,集合為輔助狀態(tài)集合,的功能是輔助機(jī)器在狀態(tài)下選擇合適的動作。一般的RL方法中機(jī)器是隨機(jī)選擇動作的,雖然這樣會顯得機(jī)器更加智能,但是,在處理多目標(biāo)點跡-航跡關(guān)聯(lián)時,實際環(huán)境中雜波較多,機(jī)器會同時處于很多不同的狀態(tài),同樣面臨的選擇也會很多,這樣大大增加了機(jī)器找到正確點跡的時間,算法復(fù)雜度太高。因此,本方法設(shè)置了雙狀態(tài)集合,利用輔助機(jī)器選擇正確的動作轉(zhuǎn)移到下一個狀態(tài)。
模型的狀態(tài)轉(zhuǎn)移函數(shù)設(shè)為(,,),其計算方式與Q學(xué)習(xí)的狀態(tài)轉(zhuǎn)移函數(shù)相同。
動作選擇過程的流程如下:
(3)
(4)
=[][]
(5)
求出偏離程度后,作如下判斷:
≤
(6)
當(dāng)前,RL方法中獎勵函數(shù)的定義方式大致分兩種:終點(成功)獎勵和瞬時獎勵。多目標(biāo)點跡-航跡關(guān)聯(lián)過程沒有明確的終點,也沒有成功的標(biāo)志,因此,本方法采用瞬時獎勵的方式。獎勵函數(shù)的定義如下:
(7)
Q表的訓(xùn)練學(xué)習(xí)是Q學(xué)習(xí)算法的核心步驟,學(xué)習(xí)結(jié)果直接影響機(jī)器選擇動作。本方法每個時刻的Q表學(xué)習(xí)方式與Q學(xué)習(xí)算法相同,即
(,,,+1,+1)=(1-)(,,,+1,+1)+
(8)
(9)
式中,函數(shù)(·)表示求兩點間歐氏距離的公式。若滿足
(10)
(11)
(12)
本文方法分別在非機(jī)動和強(qiáng)機(jī)動情況下進(jìn)行測試,在單一情況下與NN算法和JPDA算法進(jìn)行對比,記本文方法為RL-MA算法。
2.1.1 仿真環(huán)境設(shè)置
假定探測區(qū)域內(nèi)有5個目標(biāo)在雜波環(huán)境下做勻速直線運動,這5個目標(biāo)的運動情況是:目標(biāo)1的初始位置為[600 m,-600 m],初始速度為[-12 m/s, 6 m/s];目標(biāo)2的初始位置為[-800 m,-200 m],初始速度為[26 m/s, 6 m/s];目標(biāo)3的初始位置為[600 m,-600 m],初始速度為[-25/3 m/s, 40/3 m/s];目標(biāo)4的初始位置為[-200 m, 800 m],初始速度為[5 m/s,-25 m/s];目標(biāo)5的初始位置為[-800 m,-200 m],初始速度為[20 m/s,-10 m/s]。目標(biāo)最小速度_min=10 m/s,最大速度_max=100 m/s。采樣周期=1,目標(biāo)的檢測概率為0.98,雜波服從均值為λ的泊松分布。蒙特卡羅仿真次數(shù)為100,每個仿真時間為80 s,單次蒙特卡羅仿真中訓(xùn)練次數(shù)為100。訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都是仿真雷達(dá)數(shù)據(jù),學(xué)習(xí)率為0.01,衰減因子為0.98。圖1是目標(biāo)真實運動軌跡情況,也是點航關(guān)聯(lián)結(jié)果的理論軌跡圖,圖中,紅色航跡為真實數(shù)據(jù),橫軸與縱軸的單位均為m(圖8與此圖例相同)。
圖1 理論軌跡圖
假設(shè)目標(biāo)的運動過程滿足狀態(tài)轉(zhuǎn)移方程
=-1+-1
(13)
量測數(shù)據(jù)滿足方程
=+
(14)
2.1.2 仿真結(jié)果與分析
圖2是單次蒙特卡羅仿真中雜波個數(shù)均值=1時的量測圖。圖中,黑色點跡為量測數(shù)據(jù),橫軸與縱軸的單位均為m(下文圖9與此圖例相同)。
圖2 λ=1時量測圖
本文使用最優(yōu)子模式分配(OSPA)計算三種算法的關(guān)聯(lián)誤差。圖3表示=1時三種算法的關(guān)聯(lián)誤差比較圖。圖中,黑色線表示NN算法,綠色線表示JPDA算法,紅色線表示RL-MA算法,橫軸表示仿真時間,單位為s,縱軸表示關(guān)聯(lián)誤差距離,單位為m(下文中圖5、6、7、10、11、12、13與此圖例相同)。
圖3 λ=1時三種算法的關(guān)聯(lián)誤差
從圖3可以看出,=1時NN算法的性能最差,而JPDA算法和RL-MA算法的性能都比較好,且關(guān)聯(lián)精度相差不大。
圖4~圖6分別表示=10、=30和=50時三種算法的關(guān)聯(lián)誤差比較圖。
圖4 λ=10時三種算法的關(guān)聯(lián)誤差
圖5 λ=30時三種算法的關(guān)聯(lián)誤差
圖6 λ=50時三種算法的關(guān)聯(lián)誤差
對比圖3~圖6可以明顯看出,隨著雜波強(qiáng)度增大,NN算法的性能依然最差,JPDA算法和RL-MA算法的性能沒有明顯下滑,關(guān)聯(lián)精度依然很高。
綜上,JPDA算法和RL-MA算法都能夠適應(yīng)非機(jī)動環(huán)境,受雜波影響較小,而NN算法性能較差。
2.2.1 仿真環(huán)境設(shè)置
假定探測區(qū)域內(nèi)有3個目標(biāo)在雜波環(huán)境下機(jī)動,這3個目標(biāo)的運動情況是:目標(biāo)1的初始位置為[450 m,-500 m],初始速度為[-50 m/s, 0 m/s];目標(biāo)2的初始位置為[800 m, 700 m],初始速度為[0 m/s,-50 m/s];目標(biāo)3的初始位置為[-900 m,-300 m],初始速度為[50 m/s, 0 m/s]。目標(biāo)最小速度_min=10 m/s,最大速度_max=100 m/s。采樣周期=1,目標(biāo)的檢測概率為0.98,雜波服從均值為的泊松分布。蒙特卡羅仿真次數(shù)為100,每個仿真時間為50 s,單次蒙特卡羅仿真中訓(xùn)練次數(shù)為100。訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都是仿真雷達(dá)數(shù)據(jù),學(xué)習(xí)率為0.01,衰減因子為0.98。圖7是目標(biāo)真實運動軌跡情況,也是點航關(guān)聯(lián)結(jié)果的理論軌跡圖。目標(biāo)的運動過程滿足狀態(tài)轉(zhuǎn)移方程(13),量測數(shù)據(jù)滿足方程(14)。
圖7 理論軌跡圖
2.2.2 仿真結(jié)果與分析
圖8是單次蒙特卡羅仿真中雜波個數(shù)均值=1時的量測圖。圖9表示=1時三種算法的關(guān)聯(lián)誤差比較圖。從圖8、9可以看出,=1時NN算法的性能最差,JPDA算法次之,RL-MA算法的性能最好,關(guān)聯(lián)誤差較低。
圖8 λ=1時量測圖
圖9 λ=1時三種算法的關(guān)聯(lián)誤差
圖10~圖12分別表示=10、=30和=50時三種算法的關(guān)聯(lián)誤差比較圖。對比圖9~圖12可以明顯看出,隨著雜波強(qiáng)度增大,NN算法和JPDA算法的性能依然很差, RL-MA算法的性能雖然有所下滑,但關(guān)聯(lián)精度仍然較高。綜上,只有RL-MA算法能夠適應(yīng)密集雜波下的強(qiáng)機(jī)動環(huán)境,性能較好。
圖10 λ=10時三種算法的關(guān)聯(lián)誤差
圖11 λ=30時三種算法的關(guān)聯(lián)誤差
圖12 λ=50時三種算法的關(guān)聯(lián)誤差
總的來說,相比NN算法和JPDA算法,RL-MA算法既能適應(yīng)非機(jī)動環(huán)境,也能夠適應(yīng)強(qiáng)機(jī)動環(huán)境,受雜波影響較小,具有較高的關(guān)聯(lián)精度。
本文針對密集雜波環(huán)境下的多目標(biāo)點跡-航跡關(guān)聯(lián)問題,提出了一種基于Q學(xué)習(xí)的多目標(biāo)點跡-航跡關(guān)聯(lián)算法。該算法的優(yōu)點如下:
1)基于量測數(shù)據(jù)和目標(biāo)狀態(tài)信息的特性,建立了符合多目標(biāo)點跡-航跡關(guān)聯(lián)的MDP模型,設(shè)置了狀態(tài)空間和行為空間,保證了算法的可靠性。
2)利用目標(biāo)狀態(tài)預(yù)測值與量測數(shù)據(jù)的相關(guān)程度選擇當(dāng)前狀態(tài)的動作,并按照行為空間的選擇定義獎勵函數(shù)。以特定規(guī)則輔助智能體選擇動作,避免了錯誤動作的重復(fù)選擇,加快找到正確量測速度的同時,提高了關(guān)聯(lián)結(jié)果的準(zhǔn)確性。
3)針對雜波環(huán)境下目標(biāo)點跡-航跡關(guān)聯(lián)受雜波影響較大,尤其是當(dāng)目標(biāo)發(fā)生強(qiáng)機(jī)動時,機(jī)器對雜波的分辨能力減弱,訓(xùn)練學(xué)習(xí)后量測集合中仍然可能有雜波存在的問題,利用目標(biāo)運動的先驗信息,對學(xué)習(xí)結(jié)束后選擇的所有量測進(jìn)行再學(xué)習(xí),并更新Q表中對應(yīng)Q值,提升了算法的有效性。
4)從算法復(fù)雜度方面來看,與NN算法和JPDA算法相比,雖然RL-MA算法的復(fù)雜度較高,但是,仿真結(jié)果表明,在強(qiáng)機(jī)動與非機(jī)動兩種情況下,RL-MA算法依然能夠保證點跡-航跡關(guān)聯(lián)過程的穩(wěn)定性和關(guān)聯(lián)結(jié)果的高精度性,其性能明顯優(yōu)于NN算法和JPDA算法,具有良好的工程應(yīng)用前景。