張昀普,單甘霖,段修生,王 猛
(1.陸軍工程大學石家莊校區(qū) 電子與光學工程系,河北 石家莊 050000;2.石家莊鐵道大學 機械工程學院,河北 石家莊 050000;3.中國人民解放軍63853部隊,吉林 白城 137000)
目前,防空系統中裝備著多種多樣的傳感器。為了實現對整個傳感器網絡的智能化控制,達到作戰(zhàn)效能最大化,需要對傳感器資源進行有效管理[1-2]。在偵察時,主動傳感器能夠獲得目標的完整量測信息,但會向外輻射電磁波,極易暴露自身位置,隱蔽性差。與之相比,被動傳感器雖然只能獲得角度信息,但其不向外輻射電磁波,具有良好的戰(zhàn)場生存能力。因此,如何對主/被動傳感器系統進行合理管理,使其在完成作戰(zhàn)任務的同時,降低輻射風險,已成為學者們的研究熱點。文獻[3]研究了基于輻射控制的單平臺主/被動傳感器管理方法,當被動傳感器滿足任務要求時,優(yōu)先調度被動傳感器;否則,調動主動傳感器。進一步,文獻[4]將該方法拓展到多機載平臺上來,提出一種時間和空間相結合的輻射控制方法,即從時間上優(yōu)先選擇滿足任務需求的被動傳感器,若所有被動傳感器均不滿足需求,則從空間上選擇受到目標威脅最小的主動傳感器執(zhí)行任務。然而,文獻[3-4]僅通過控制主動傳感器的開機次數來減少輻射風險,沒有量化傳感器的輻射,實際上不同傳感器的輻射代價是有差異的。文獻[5-6]研究了面向目標跟蹤的主/被動傳感器的調度方法,將使用一次主動傳感器的輻射代價量化為固定值,通過建立基于跟蹤誤差與輻射代價目標函數,制定了相應的調度策略,實現了輻射控制下對目標的持續(xù)跟蹤。但隨著傳感器使用次數的增長,其輻射代價不可能是線性增長的,僅僅將輻射代價量化為固定值是不準確的。文獻[7-8]提出采用傳感器截獲概率的香農熵量化輻射代價,通過敵我傳感器的相關參數計算截獲概率,并以截獲概率最小為傳感器管理的目標。然而在實際情況下,敵方設備的參數往往難以獲取,導致該方法的實際應用較難。
在求取最優(yōu)的傳感器管理方案時,主要有集中式[9-10]和分布式[11-12]兩種算法,集中式算法能夠獲得高質量的解,但其計算速度較慢,容易給傳感器系統帶來較大的通信壓力。相比之下,分布式算法計算速度快,更符合現代戰(zhàn)爭對作戰(zhàn)決策的實時性要求[12]。因此,如何針對不同的任務場景設計有效的分布式算法已成為傳感器管理中的一大關鍵問題。
針對上述問題,筆者面向主/被動傳感器系統協同目標跟蹤問題,提出一種主被動傳感器輻射控制的調度方法。首先建立部分可觀馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)的傳感器調度模型,采用輻射度影響(Emission Level Impact,ELI)[13-14]量化主動傳感器的輻射以彌補上述文獻的缺陷,并提出目標跟蹤精度和系統輻射代價的計算方法;然后綜合考慮跟蹤任務要求和輻射代價,構建了目標函數;最后設計了一種改進分布式拍賣算法以快速求解該調度問題。仿真實驗的結果證明了模型和算法的有效性。
POMDP方法是一種研究隨機環(huán)境下多階段決策的理論方法,基于該理論,傳感器調度模型描述如下。
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
定義k+1時刻系統輻射代價為在所有被調度的主動傳感器ELI值的期望之和,則根據式(2)和式(9),可得系統輻射代價為
(10)
其中,V=[1,2,…,Emax]。
(11)
根據式(9)和式(11),可求出被調度主動傳感器在k+1時刻的預測信念狀態(tài):
(12)
因此,得出整個系統在k+1時刻的輻射代價預測值為
(13)
考慮目標跟蹤任務場景,為了使傳感器系統能夠在較好地完成跟蹤任務的同時,降低輻射風險,文中建立如下的目標優(yōu)化函數:
(14)
拍賣算法由Bertsekas提出,用以解決資源分配問題,其主要思想是若干個買家對若干個拍品進行競標,并以某一方的利益最大化為目標進行多次循環(huán)拍賣;當所有拍品都被分配完畢,且整體的利益達到了最大化,則拍賣結束。其具有運算復雜度低、實現簡單的優(yōu)點,尤其適用于分布式調度問題的求解[16]。但在拍賣循環(huán)的過程中,需要設定一個價格浮動變量,該變量規(guī)定了各買方在新一輪拍賣時報價的最小浮動幅度,以防止拍賣進入死循環(huán),但其值往往難以確定。針對文中調度問題,筆者提出一種改進分布式拍賣算法,與傳統的拍賣算法相比,該算法不需要設定價格浮動變量,求解速度快,且更容易實現。該算法的具體步驟如下:
步驟1 初始化。得到k時刻目標的狀態(tài)。
步驟2 計算預測值。各傳感器計算在k+1時刻的輻射代價和對各目標的跟蹤精度預測值,主動傳感器的輻射代價可結合式(12)和式(13)計算,被動傳感器的輻射代價為零,跟蹤精度通過式(7)計算,如果傳感器不滿足目標跟蹤閾值約束,則將其輻射代價記為100(即一個極大值)。
步驟3 迭代。以目標為拍品,傳感器為買方,各傳感器對各目標的輻射代價為投標價格進行拍賣,各個拍品選擇出價最小的買方(如果有多個最小報價,則隨機選擇一個出價最小的買方),同時記錄各個拍品收到報價不為100的報價數,稱為有效報價數。
步驟4 買方決策。如果存在方案沖突,即多個拍品被同一個買方拍下(將這些拍品稱為沖突拍品),則該買方按以下3個原則進行決策以消解沖突:①如果買方對沖突拍品的報價不相等,則在未來迭代中該買方將只對此次接受最低報價的沖突拍品和其他非沖突拍品報價;②如果買方對沖突拍品的報價相等,則在未來迭代中該買方將只對此次收到有效報價數最少的沖突拍品和其他非沖突拍品報價;③如果所有沖突拍品收到的有效報價數也相等,則在未來迭代中該買方將只對預測跟蹤精度最優(yōu)的拍品和其他非沖突拍品報價。
步驟5 收斂檢驗。如果分配方案無沖突,則說明計算已收斂,轉到步驟6;否則,轉到步驟3,繼續(xù)拍賣。
步驟6 狀態(tài)更新。根據所求得的傳感器調度動作,獲取在k+1時刻的目標真實量測值和瞬時輻射等級,利用濾波方法更新目標狀態(tài),根據式(9)更新主動傳感器的ELI信念狀態(tài),算法結束。
算法收斂性證明:由于在迭代時,拍品和買方的配對方案可能存在沖突,但是由于買方能夠自主使得一些買方在未來的迭代中不再對該拍品投標,所以隨著迭代的進行,各個拍品的買方會越來越少,且同時競拍多個拍品的買方也會越來越少,存在沖突的可能性會越來越小,在有限次迭代之后,所有拍品都會被不同的買方拍下,算法收斂。
算法復雜度分析:算法的復雜度主要體現拍賣時報價的計算次數上,在第1次迭代時,需要所有買方計算對所有拍品的報價(包括跟蹤精度和輻射代價),但由于買方決策原則,使得在新一次迭代時,買方需要報價的拍品必然減少,即計算報價的次數必然減少。因此,可知每一次迭代時最多需計算MN次,所以算法的復雜度為O(MN),而根據文獻[11]可知,窮舉法的算法復雜度為O(M2N),相比之下,文中算法的復雜度較低。
假定在三維監(jiān)視空間內,我方部署4個傳感器平臺跟蹤敵方兩個空中目標。目標1為非機動目標,做勻速直線運動,其初始位置為(2,2,3) km,初始速度為(150,180,10) m/s。目標2為機動目標,其在10~25 s內以1 rad/s的速率向右轉彎,在25~40 s內以1 rad/s的速率向左轉彎,其余時間均做勻速直線運動,其初始位置為(10,-5,4) km,初始速度為(-200,140,0) m/s,規(guī)定對兩個目標跟蹤要求的精度閾值均為50 m。將主動傳感器的ELI狀態(tài)量化為{1,2,3}(1、2和3分別代表低、中和高3個輻射狀態(tài)等級),瞬時觀測輻射等級量化為{1,2,3}(1、2和3分別代表分別低、中和高3個瞬時輻射等級)。傳感器具體量測參數見表1,表中,δr、δθ和δφ分別表示傳感器的斜距離、方位角和高低角的量測標準差。為了不失一般性,設定量測精度高的主動傳感器更容易處于高輻射狀態(tài),各平臺上主動傳感器的ELI狀態(tài)轉移矩陣為
表1 傳感器參數
傳感器采樣間隔為1 s,仿真時間為60 s,蒙特卡羅次數為200次。為了驗證所提方法的有效性,采用4種經典調度方法進行對比:
方法1固定調度方法[10](Fixed Scheduling Method,FSM),一直使用固定的單平臺跟蹤目標,如果平臺上的被動傳感器跟蹤精度符合閾值要求,則調度被動傳感器;否則,調度誤差最小的傳感器。設定調度平臺2跟蹤目標1,調度平臺1跟蹤目標2,記為FSM 1。
方法2調度平臺1跟蹤目標1,調度平臺3跟蹤目標2,記為FSM 2。
方法3最近鄰調度方法[6](Closest Scheduling Method,CSM),調度與目標最近的傳感器平臺上的傳感器跟蹤目標。
方法4時間-空間結合調度方法[4](Time-Space Scheduling Method,TSSM),即輻射控制的調度方法。
為了驗證算法對目標跟蹤的效果,引入均方根誤差(Root Mean Squared Error,RMSE)作為衡量跟蹤精度的指標。
筆者采用窮舉法、貪婪算法和拍賣算法3種經典算法,以及多agent協商算法[12]和改進蜂群算法[17]兩種改進算法與文中算法進行對比,并采用性能比體現各個算法的求解質量,性能比定義為:各算法所得的指標與窮舉法所得的最優(yōu)指標相除。筆者以不滿足閾值的時刻數作為衡量跟蹤性能的指標,以目標函數值(輻射代價)作為衡量輻射性能的指標,其性能對比結果如表2所示??梢钥闯觯P者提出的算法在跟蹤性能比和輻射性能比上均為最優(yōu),且運算時間較短,說明筆者提出的算法能夠在較短的時間內尋找出高質量的傳感器調度方案,尋優(yōu)性能較好,體現出該算法的先進性。
表2 算法性能對比
圖1 不同調度方法下歸一化輻射值
在整個仿真時間內,不同調度方法下系統歸一化輻射值如圖1所示,不同方法下目標位置RMSE如圖2所示,文中方法對應調度動作如圖3所示。結合圖1和圖2可以看出,FSM 1、FSM 2和CSM無法在完成跟蹤任務和控制輻射代價上獲得很好的平衡,這是由于FSM和CSM的本質都屬于單平臺調度方法,每一時刻的可供選擇的傳感器少,當被動傳感器不可用時,就只能調度固定的主動傳感器,容易使主動傳感器的ELI狀態(tài)處于高輻射等級,從而產生較高的輻射代價。TSSM方法在調度時,不進行輻射代價的預測,無法根據不同的閾值要求進行相應的輻射控制。而結合圖3可以看出,文中方法能夠靈活切換各平臺上的傳感器跟蹤目標,使得兩個目標的位置RMSE都基本符合閾值要求,且能產生最低的輻射代價,驗證了文中方法能夠在滿足跟蹤任務要求的同時,進行有效的輻射控制,體現出文中方法在調度性能上的優(yōu)勢。進一步,從歸一化數值大小可以看出,累積ELI值和輻射代價值基本一致,說明文中所提利用信念狀態(tài)計算輻射代價的方法能夠準確衡量傳感器的ELI值,在實際中既使不能預測到下一時刻傳感器的ELI值,但可以預測傳感器輻射代價,并以此為依據控制系統輻射量,驗證了文輻射模型的有效性。
圖2 目標位置RMSE曲線
圖3 文中方法對應的調度動作
筆者研究了面向目標跟蹤任務的主被動傳感器調度問題,旨在使傳感器系統在完成跟蹤任務的同時,降低輻射風險。為解決之前文獻中對傳感器輻射量化不準確的問題,采用輻射度影響量化主動傳感器的輻射狀態(tài),并基于POMDP方法建立了傳感器調度模型,給出了目標跟蹤精度和輻射代價的預測公式,綜合考慮跟蹤任務需求和輻射代價建立了目標優(yōu)化函數,提出了一種改進分布式拍賣算法以求解該調度問題。仿真實驗驗證了該算法和模型的有效性和合理性。