張笑博, 吳 迪, 朱岱寅
(南京航空航天大學(xué)電子信息工程學(xué)院雷達成像與微波光子技術(shù)教育部重點實驗室, 江蘇南京 211106)
視頻合成孔徑雷達(Video Synthetic Aperture Radar, ViSAR)是由美國Sandia國家實驗室提出的一種具有動態(tài)監(jiān)測能力的高幀率成像模式,可實現(xiàn)對目標區(qū)域全天時、全天候的持續(xù)觀測,直觀地反映目標的位置及運動參數(shù)等重要信息。因此,運動目標的檢測與跟蹤一直是ViSAR研究領(lǐng)域的熱點。
在ViSAR圖像序列中,目標運動使圖像出現(xiàn)散焦,同時其多普勒頻移導(dǎo)致動目標在成像時出現(xiàn)偏移,并在其真實位置上留下了陰影。因此,可利用陰影信息實現(xiàn)對動目標的檢測。國內(nèi)外學(xué)者已經(jīng)研究了基于陰影的檢測方法的魯棒性。文獻[3]采用單高斯模型對圖像序列進行統(tǒng)計,然后通過背景差分實現(xiàn)動目標陰影的檢測。文獻[4]將低秩稀疏分解應(yīng)用在ViSAR中,并通過實測數(shù)據(jù)驗證了該方法的有效性。上述方法均建立在SAR圖像配準的基礎(chǔ)上,且配準效果極大地影響了檢測性能。文獻[5]采用快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based Convolutional Neural Networks, Faster R-CNN)檢測動目標陰影,然后利用滑窗密度聚類算法和雙向長短期記憶網(wǎng)絡(luò)抑制虛警和提高檢測率,該方法在美國Sandia國家實驗室公布的ViSAR片段上取得了較好的檢測效果。文獻[6]在Faster R-CNN的基礎(chǔ)上,引入特征金字塔結(jié)構(gòu)(Feature Pyramid Networks, FPN)和K-means算法在多尺度特征圖上檢測目標,提高了小目標的檢測性能。文獻[7]從SAR圖像與光學(xué)圖像的差異考慮,提出了一種不需要預(yù)訓(xùn)練模型的船舶檢測方法。文獻[8-10]基于YOLO(You Only Look Once)網(wǎng)絡(luò)進行了不同的改進,在SAR圖像檢測上取得了良好的效果。
動目標陰影在ViSAR圖像序列間具有較強的相關(guān)性。如果一個動目標陰影在某一幀被檢測到,那么在相鄰幀對應(yīng)位置周圍會較大概率檢測到該目標。對動目標的跟蹤可以有效提高檢測性能的魯棒性。目前在多目標跟蹤(Multi-Object Tracking, MOT)算法中最流行的是檢測后跟蹤(Tracking by Detection)范式算法,即先檢測目標,再將檢測結(jié)果與已存在軌跡關(guān)聯(lián)。由于基于深度學(xué)習(xí)的檢測方法具有良好的性能,多目標跟蹤算法主要完成檢測結(jié)果的關(guān)聯(lián)及檢測性能的改進。
綜上所述,針對ViSAR動目標檢測技術(shù),需要研究一種不依賴預(yù)訓(xùn)練模型,能夠從零開始深度學(xué)習(xí)的動目標陰影檢測算法。此外,為彌補單幀檢測算法的缺陷,需要結(jié)合ViSAR時間維度的信息設(shè)計多目標跟蹤算法提升檢測性能。據(jù)此,本文提出了一種基于深度學(xué)習(xí)與多目標跟蹤算法的ViSAR多運動目標陰影檢測算法。首先,設(shè)計了一種從零開始深度學(xué)習(xí)的網(wǎng)絡(luò)模型,實現(xiàn)動目標陰影的單幀檢測。由于單幀檢測結(jié)果中存在部分虛警和漏警,采用了基于卡爾曼濾波和幀間數(shù)據(jù)關(guān)聯(lián)的多目標跟蹤算法對檢測結(jié)果進行跟蹤,提高了算法的魯棒性。
在深度網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)深度的加深,梯度消失和梯度爆炸也越來越明顯,使得網(wǎng)絡(luò)難以訓(xùn)練。為了緩解這一問題,通過直接映射的方式將淺層特征與深層特征連接,使得反向傳播的梯度信號可以直接傳遞到淺層中。文獻[14]提出一種密集連接結(jié)構(gòu)的密集塊(Dense Block)。該結(jié)構(gòu)的示意圖如圖1所示。在密集塊中,第層的輸入是之前所有的特征層:
=([,,,…,-1])
(1)
式中,[,,,…,-1]表示第0層至第-1層特征在通道維度上的連接,(·)表示批歸一化、激活函數(shù)ReLU和卷積運算。這種密集的連接方式使得每一層都能夠直接獲取輸入信號和損失函數(shù)的梯度,從而實現(xiàn)深度監(jiān)督。這種深度監(jiān)督是從零開始深度學(xué)習(xí)的關(guān)鍵。
圖1 密集塊結(jié)構(gòu)示意圖
本文在現(xiàn)有從零開始深度學(xué)習(xí)研究成果的基礎(chǔ)上,借鑒DSOD網(wǎng)絡(luò)的設(shè)計思想,設(shè)計了用于動目標陰影檢測的深度網(wǎng)絡(luò)。網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,主要包含3個模塊。第一個模塊由3個3×3卷積層和1個2×2最大池化層組成,用于提取SAR圖像的低級特征。這種小尺度卷積級聯(lián)的連接方式有效降低了輸入圖像的信息損失。第二個模塊主要由密集塊組成。密集塊能夠充分利用各特征層的信息,每一層都可以在原有特征層的基礎(chǔ)上添加新的特征,使模型的參數(shù)量大大降低。密集塊間的連接有兩種形式。第一種連接方式由1×1卷積層和2×2的最大池化層組成。這種連接方式的目的是對特征圖降采樣。神經(jīng)網(wǎng)絡(luò)中淺層的感受野較小,但包含了豐富的圖像信息,有利于小目標的檢測。隨著網(wǎng)絡(luò)層數(shù)的加深,感受野逐漸變大,特征圖的尺度也越來越小。為了防止動目標陰影特征丟失,需要增加深層特征的通道數(shù)量。另一種連接方式只包括了1個1×1卷積層。由于特征圖尺度過小不利于動目標陰影的檢測,為了在不改變特征圖尺度的情況下增加網(wǎng)絡(luò)深度,使用了1×1卷積層連接相鄰的密集塊。第三個模塊為特征學(xué)習(xí)與復(fù)用模塊,其結(jié)構(gòu)如圖3所示。在此模塊中,一半特征是通過兩個卷積從上一層特征學(xué)習(xí)而來,其中1×1卷積用于對輸入降維,降低后續(xù)學(xué)習(xí)的計算量。而另一半特征是直接對上一層特征下采樣得到的。下采樣由2×2的最大池化層和1×1卷積層完成,其中池化操作用于對特征下采樣,保證不同尺度特征連接時大小匹配。因此特征學(xué)習(xí)與復(fù)用能夠在預(yù)測時融合多尺度特征,提高了檢測的準確率。網(wǎng)絡(luò)具體的參數(shù)如表1所示。
圖2 動目標陰影檢測網(wǎng)絡(luò)結(jié)構(gòu)示意圖
表1 動目標陰影檢測網(wǎng)絡(luò)參數(shù)
檢測時沿用文獻[17]提出的多尺度預(yù)測算法,本文共使用了4個不同尺度的特征層,每個特征層設(shè)置了5種不同長寬比的先驗框,分別為{1, 2, 3, 1/2, 1/3},其中長寬比為1的先驗框設(shè)置了兩種尺寸。
圖3 特征學(xué)習(xí)與復(fù)用模塊結(jié)構(gòu)示意圖
基于深度學(xué)習(xí)的單幀檢測方法仍然存在一定的缺陷。由于SAR圖像的特征簡單,場景中與動目標陰影特征相似的弱散射區(qū)域易被誤判為動目標,造成不必要的虛警。另一方面,由于目標的運動,陰影區(qū)域的形狀和灰度是時變的,這導(dǎo)致了檢測中的漏警。考慮到相鄰幀間動目標陰影的位置具有較強的相關(guān)性,本文提出了一種多運動目標陰影跟蹤算法。該方法通過卡爾曼濾波和逐幀數(shù)據(jù)關(guān)聯(lián)算法跟蹤動目標陰影,有效地提高了檢測性能。
首先,采用線性勻速模型對動目標陰影的運動建模,單個動目標的運動狀態(tài)由以下八維狀態(tài)空間描述:
(2)
式中,和表示動目標中心的橫縱坐標,和分別表示動目標的縱橫比和長度,剩余4個變量依次表示,,,的變化速率。當(dāng)檢測結(jié)果與跟蹤關(guān)聯(lián)時,使用坐標信息(,,,)更新跟蹤器狀態(tài),相應(yīng)的速度分量通過卡爾曼濾波求解得出。反之,若沒有檢測相關(guān)聯(lián),通過線性勻速模型預(yù)測動目標的運動狀態(tài)。
在將檢測結(jié)果分配給現(xiàn)有的跟蹤時,每個目標在當(dāng)前幀的參數(shù)(,,,)通過卡爾曼濾波估計。然后通過計算每個檢測與現(xiàn)有目標估計參數(shù)的交并比(Intersection-Over-Union, IOU)得到代價矩陣。在此基礎(chǔ)上,檢測與跟蹤的關(guān)聯(lián)問題可以通過匈牙利算法(The Hungarian Algorithm)求解。此外,若IOU小于預(yù)設(shè)門限將取消檢測的分配。
動目標跟蹤處理的流程圖如圖4所示,整個跟蹤流程由4個跟蹤狀態(tài)組成。代表狀態(tài)轉(zhuǎn)換函數(shù)。“試探性跟蹤”為任意目標跟蹤的初始狀態(tài)。一旦有目標初次被檢測到,跟蹤器將進入“試探性跟蹤狀態(tài)”,同時利用其坐標信息(,,,)進行初始化,初始速度設(shè)置為零。當(dāng)跟蹤器被連續(xù)更新三幀時,跟蹤狀態(tài)將轉(zhuǎn)換為“穩(wěn)定跟蹤”。未能連續(xù)三幀與檢測關(guān)聯(lián)的跟蹤器將被刪除,從而抑制了檢測中的虛警。如果穩(wěn)定的跟蹤器在連續(xù)的三幀中沒有被更新,跟蹤器的狀態(tài)將轉(zhuǎn)換為“候選跟蹤”。只要有檢測與候選的跟蹤器關(guān)聯(lián),跟蹤狀態(tài)就返回至“穩(wěn)定跟蹤”。這可以有效防止跟蹤對象身份的切換。若在幀內(nèi),“候選跟蹤”未能轉(zhuǎn)換為“穩(wěn)定跟蹤”,跟蹤器將被刪除。這種策略能夠限制跟蹤器的數(shù)量,降低長時間未更新出現(xiàn)的跟蹤誤差。
圖4 多目標跟蹤處理流程圖
本節(jié)利用美國Sandia國家實驗室公布的視頻SAR數(shù)據(jù)對上述理論進行驗證,場景中沿道路方向運動的陰影即為待檢測目標。在整個成像片段中共提取了440幀SAR圖像,其中300幀SAR圖像作為訓(xùn)練集,140幀SAR圖像作為測試集。為增強模型的泛化性,采用常用的數(shù)據(jù)增強處理如水平翻轉(zhuǎn)、旋轉(zhuǎn)等操作對原始數(shù)據(jù)集進行擴充。網(wǎng)絡(luò)訓(xùn)練時,設(shè)置初始學(xué)習(xí)率為0.001,利用隨機梯度下降法(Stochastic Gradient Descent,SGD)訓(xùn)練網(wǎng)絡(luò)。為了進一步優(yōu)化模型,學(xué)習(xí)率在整個訓(xùn)練集迭代500次后下降為初始值的0.01倍。上述實驗的硬件平臺為Intel i9-10900X和NVIIA TITAN RTX 24G。
學(xué)習(xí)率和損失函數(shù)曲線如圖5所示,其中紅色曲線表示訓(xùn)練過程損失函數(shù)的變化,藍色曲線表示學(xué)習(xí)率。模型在訓(xùn)練8 000步后收斂。
圖5 網(wǎng)絡(luò)模型訓(xùn)練過程
圖6為基于深度神經(jīng)網(wǎng)絡(luò)的動目標檢測結(jié)果。圖6(a)中正確檢測到的動目標陰影用紅色矩形框標記,漏檢的動目標陰影用綠色矩形框標記。而在圖6(b)中,檢測結(jié)果存在一個由弱散射區(qū)域引起的虛警??梢钥闯?,基于深度學(xué)習(xí)的檢測算法能夠檢測到大部分的動目標,但檢測結(jié)果仍存在部分漏警和虛警。為了進一步分析本文方法的有效性,表2比較了本文檢測算法與SSD,F(xiàn)aster R-CNN和YOLO在測試集上的表現(xiàn)。TP表示正確檢測目標的個數(shù),F(xiàn)P表示虛警個數(shù),F(xiàn)N表示漏警個數(shù)。由于ViSAR圖像中動目標陰影的尺寸過小,在光學(xué)圖像上廣泛應(yīng)用的模型SSD和YOLO并不能取得較為滿意的檢測結(jié)果。盡管Faster R-CNN取得了良好的檢測概率,但隨之帶來了較高的虛警。圖7給出了不同檢測方法在兩幀ViSAR圖像上的檢測結(jié)果。綜合表2和圖7,可以看出與經(jīng)典的深度學(xué)習(xí)檢測算法相比,本文提出的從零開始深度學(xué)習(xí)的檢測算法性能更加優(yōu)異。
(a) 檢測存在漏警 (b) 檢測存在虛警圖6 基于深度神經(jīng)網(wǎng)絡(luò)的動目標檢測結(jié)果
表2 檢測算法對比
(a) 本文檢測方法 (b) Faster R-CNN (c) SSD (d) YOLO 圖7 動目標陰影檢測方法對比
對動目標陰影進行跟蹤時,算法中的參數(shù)與分別設(shè)置為0.3和40。為了評價跟蹤算法的性能,在本文檢測算法的基礎(chǔ)上,將提出的多目標跟蹤算法與Deepsort、TBD進行了比較,如圖8所示。從圖中可知,多目標跟蹤算法能夠提升檢測性能。但TBD中出現(xiàn)了較多的漏警,提升效果較差。Deepsort設(shè)置的跟蹤器活動時間過長,一旦有目標的跟蹤狀態(tài)出現(xiàn)變換,容易出現(xiàn)多個跟蹤器跟蹤同一個目標,造成不必要的虛警。進一步地,表3對跟蹤性能進行了定量的分析。表3中Frag表示在跟蹤過程中出現(xiàn)中斷而形成的軌跡片段的數(shù)量。IDSW表示目標被正確跟蹤時跟蹤序號的變化次數(shù)。FP與FN的定義與表2相同。Frag與IDSW越小表示跟蹤性能越優(yōu)異。MOTA表示多目標跟蹤的準確度,其定義如下:
(3)
式中,表示真實動目標的總數(shù)量。MOTA越高,跟蹤性能越好。從表中可知,TBD的漏警較高,因而跟蹤到的片段較少,F(xiàn)rag的值較低。由于TBD對檢測質(zhì)量要求過高,在ViSAR圖像上跟蹤不準確,跟蹤過程中虛警個數(shù)反而上升。Deepsort將目標的運動信息與圖像深度特征結(jié)合用于多目標跟蹤,在光學(xué)圖像處理中取得了優(yōu)異的跟蹤效果。與SAR圖像相比,光學(xué)圖像有著豐富的特征,如色彩、紋理、邊緣等,圖像信息能夠改善跟蹤效果。而SAR圖像中動目標陰影是由雷達回波能量空白造成的,圖像特征并不復(fù)雜。而且SAR圖像場景較大,在圖像中動目標間的距離較近。引入圖像信息可能會使目標的跟蹤狀態(tài)混亂,導(dǎo)致效果變差。本文跟蹤算法中的漏警主要是由三幀確定跟蹤的策略引起的,當(dāng)一個新目標進入場景,需要使用前兩幀的檢測結(jié)果確認跟蹤。對比可知,本文提出的算法在跟蹤動目標陰影時更加有效,采用本文跟蹤算法后,檢測性能有了顯著的提升。
(a) 真值圖 (b) 本文跟蹤方法 (c) TBD (d) Deepsort 圖8 動目標陰影跟蹤方法對比
表3 跟蹤性能比較
本文提出了一種基于深度學(xué)習(xí)與多目標跟蹤算法的ViSAR多運動目標陰影檢測方法,該方法首先采用一種從零開始深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)實現(xiàn)動目標陰影的初步檢測,然后利用一種基于卡爾曼濾波和幀間數(shù)據(jù)關(guān)聯(lián)的多目標跟蹤算法對動目標陰影進行跟蹤,從而提高了檢測的性能。ViSAR實測數(shù)據(jù)處理結(jié)果驗證了本文方法的有效性。