融合輕量級YOLOv4與KCF算法的紅外艦船目標識別

2021-07-13 03:37:50謝曉方劉厚君張龍杰張龍云

兵器裝備工程學報 2021年6期

謝曉方，劉厚君，張龍杰，孫濤，張龍云

(1.海軍航空大學，山東煙臺 264001； 2.山東大學，濟南 250000)

現(xiàn)代海戰(zhàn)中，準確識別出敵方艦船并利用精確制導技術對其摧毀是削弱敵方海軍戰(zhàn)斗力的關鍵。紅外制導由于具備全天候、高隱蔽、抗云霧等優(yōu)勢，在反艦導彈制導過程中作為末段制導主要方式，發(fā)揮著關鍵性作用[1-2]。在紅外制導體系中，對紅外圖像中艦船目標的準確識別是關鍵所在，艦船目標識別的質量決定了制導過程的水平。

在復雜海天背景下對紅外艦船目標進行有效的檢測和穩(wěn)定的跟蹤顯得尤為困難：一方面，紅外圖像是單通道灰度圖像，與可見光圖像相比圖像的紋理信息相對較少；另一方面，還存在海天線、魚鱗波，以及目標自身姿態(tài)、尺度變化帶來的干擾，很難通過一種識別手段準確的對艦船目標進行識別。因此必須盡可能利用多個和多類傳感器所收集到的多種目標屬性信息、使用多種識別方法，綜合給出準確的目標屬性，進行目標綜合識別[3]。

目標識別算法的一大難點在于目標特征的提取。傳統(tǒng)的目標識別算法都是基于人工設置參數(shù)的方式提取特征[4-6]，但是通過這種方式提取的特征是非常低層次的特征，只適用于有明顯特征且背景單一的情形，但是在實際應用中，往往待檢測目標特征多變、背景復雜且存在干擾，很難通過人工特征提取完成目標識別。近年來，在深度學習理論的推動下，深度神經網絡的出現(xiàn)解決了這一難題，它借助于深度卷積層自動提取圖像的高維特征信息，對目標識別有較強的泛化能力。目前基于深度學習的目標檢測算法分為兩類：一類是以Fast R-CNN[7]、Faster R-CNN[8]為代表的基于分類的目標檢測算法：首先通過RPN網絡生成包含待檢測目標的候選區(qū)域(region proposal)[9]，然后對這些候選區(qū)域進行分類和位置回歸得到檢測結果；另一類是以YOLO[10-12]、SSD[13]為代表的基于回歸的目標檢測框架，相比于前者，取消了候選區(qū)域生成機制，直接利用CNN卷積特征，產生目標的類別概率和位置坐標值，因此有著更快的檢測速度，適合端到端的部署應用。

鑒于反艦導彈末制導時間短的特點，識別算法應能穩(wěn)定持續(xù)地跟蹤關鍵目標。上述基于深度學習的檢測算法雖然精度高，但是檢測是基于單幀圖像獨立進行，缺乏對視頻幀中目標連續(xù)運動信息的捕捉，當檢測值低于閾值時，目標的檢測框會消失，無法穩(wěn)定連續(xù)的跟蹤目標，而基于相關濾波理論的目標跟蹤算法(meanshift[14]、CSRT[15]、KCF[16])彌補了這一不足，該類算法將目標模型和背景信息同時考慮在內，在視頻首幀中框選目標，在框選位置對比目標模型和背景信息的差異，訓練得到一個二分類器，該分類器能夠計算圖像像素點的響應值；對于后續(xù)視頻幀，用訓練的分類器在采樣位置與圖像進行相關操作得到各像素點的響應值，選擇響應值最強的位置點作為新的目標位置。通過上述方式對目標進行重定位，實現(xiàn)了穩(wěn)定且連續(xù)的跟蹤。但是此類算法將背景信息引入跟蹤模型，存在一定的局限性：一旦目標丟失或被遮擋，采樣時會引入大量的背景信息，在模型更新時產生誤差，隨著誤差的積累，跟蹤框會逐漸漂移而導致跟蹤失敗。

為在紅外圖像中準確檢測出艦船目標的同時，還能夠穩(wěn)定連續(xù)的對其跟蹤，本文提出了一種融合輕量級YOLOv4[17]與KCF[16]算法的紅外艦船目標識別方法。利用YOLOv4算法對紅外視頻中艦船目標進行特征提取，給出目標類型，確定目標的檢測框；根據(jù)YOLOv4框選的目標區(qū)域，采用KCF算法進行實時目標跟蹤。另外在跟蹤過程中，通過檢測算法實時對跟蹤框進行校正，解決由于紅外導引頭抖動、導彈快速機動造成的艦船目標丟失以及背景誤差累積造成跟蹤框漂移的問題。

1 融合檢測與跟蹤算法的目標識別

1.1 輕量級YOLOv4目標檢測算法

YOLOV4目標檢測算法是最近推出的一種基于深度學習的端到端的實時目標檢測算法，在MS coco數(shù)據(jù)集上利用Tesla V100顯卡進行測試，可以達到43.5%mAP(65.7% AP)的精度，且達到65FPS的速度，相比于第三代算法YOLOv3，精度AP和速度FPS分別提升了10%和12%，提升效果顯著。

YOLOv4實時目標檢測模型由3部分組成：CSPDarknet53、SPP +PANeT和YOLO Head。網絡模型結構如圖1(a)所示。

CSPDarknet53作為YOLOv4算法的主干網絡，負責對原始圖像進行特征提取，輸出3個尺度的特征圖：圖1(a)中的featuremap1-3。CSPDarknet53是在Darknet53[10]的基礎上將原有的殘差塊改為CSP(cross stage partial)網絡結構[18]。如圖1(b)所示，與傳統(tǒng)的殘差網絡相比， CSP殘差網絡將淺層特征映射為2個部分，一部分經過級聯(lián)殘差網絡，另一部分直接與級聯(lián)殘差網絡的輸出進行合并，這種先分離后合并的方式極大減少了網絡參數(shù)，而且能夠在輕量化的同時保證準確性、降低計算瓶頸與內存成本。

SPP+PANet負責將主干網絡提取的3個尺度的特征圖進行特征融合，其中SPP[19]為空間金字塔池化層(spatial pyramid pooling)，將featuremap3按照5×5、9×9、13×13、1×1四個尺度進行最大池化(1×1未作處理)，通道合并為一個特征圖后通過1×1全連接層降維，目的是增加網絡的感受野，分離出顯著的上下文特征；PANet[20]提出了一種 bottom-up的信息傳播路徑增強方法，通過卷積+上采樣實現(xiàn)自下向上的特征提??；通過下采樣實現(xiàn)自上向下的特征提取。通過反復的特征提取實現(xiàn)了featuremap1-featuremap3的特征交互。

YOLO Head利用特征融合后的特征圖進行預測。YOLO Head在3個檢測尺度上，將輸入的整幅圖像分成S×S、(2S)×(2S) 、(4S)×(4S)的網格，每個網格負責所在區(qū)域的預測，預測結果包括相對網格左上頂點的偏移量(x_offset、y_offset)；檢測框的尺寸(h和w)；目標位置信息的置信度(confidence)和分類結果(C)，輸出的通道維度N=3×(4+1+C)。之后通過圖像交并比(IOU)和非極大抑制(NMS)[10]篩選檢測框，剔除重復的檢測框。

由于紅外圖像為單通道灰度圖像，與可見光三通道圖像相比，可利用的有效特征信息相對較少，因此可以將特征提取網絡進行壓縮，在保證檢測精度的同時進一步提升網絡檢測的實時性。本文采取的方法是將CSPDarknet53中的CSP殘差模塊(256，8) 、CSP殘差模塊(512，8)和CSP殘差模塊(1 024，4)的網絡級聯(lián)次數(shù)減半，分別改為CSP殘差模塊(256，4) 、CSP殘差模塊(512，4)和CSP殘差模塊(1 024，2)。裁剪后的特征提取網絡減少了20個卷積層和10個殘差層，結構更加緊湊。在網絡輸入圖像分辨率為416×416時，計算量由59.585 BFLOPS下降到50.722BFLOPS，節(jié)省了約15%的內存成本。

卷積×2、×3和×5分別代表2層、3層和5層卷積層；殘差模塊中的M和n分別代表卷積核的個數(shù)以及該層的級聯(lián)次數(shù)；1×1、3×3分別指該層采用為1×1、3×3大小的卷積核；3×3/2指該層采用大小3×3、步長為2的卷積核。

注：卷積×2、×3和×5分別代表2層、3層和5層卷積層；殘差模塊中的M和n分別代表卷積核的個數(shù)以及該層的級聯(lián)次數(shù)；1×1、3×3分別指該層采用為1×1、3×3大小的卷積核；3×3/2指該層采用大小3×3、步長為2的卷積核。

1.2 KCF算法

KCF算法是一種典型的判別類方法，它將目標的跟蹤問題巧妙地對圖像中目標和背景的二分類問題，借助嶺回歸方法[16]將非線性問題轉化為高維的線性空間中，簡化了計算；另外引入循環(huán)矩陣，利用其頻域對角化的性質，將計算從時域轉換到頻域，結合快速傅里葉變換，提升了運算速度。

KCF算法可以分為建立模型、在線匹配、模板更新3個環(huán)節(jié)。

1) 建立模型

通過嶺回歸的方式建立目標函數(shù)：

f(xi)=wHxi

(1)

目標是最小化采樣數(shù)據(jù)與下一幀真實目標位置的距離：

(2)

式(2)對w求微分，令導數(shù)為0，損失函數(shù)即可取得最小值：

w=(XHX+λI)-1XHy

(3)

利用循環(huán)矩陣對角化的性質得到w在傅里葉域的表示：

(4)

針對大多數(shù)情況下w的求解都是非線性問題，通過引入高斯核函數(shù)φ(x)，將w的求解轉化為高維空間中的高維權值α：

α=(φ(x)·φ(x)H+λI)-1y=(K+λI)-1y

(5)

其中K=φ(x)φH(x)，表示核空間的核矩陣。

α在頻域的表示：

(6)

2) 在線匹配

定義Kz是在核空間表示采樣樣本與訓練樣本相似度的核矩陣，將采樣樣本與訓練樣本作相關操作，得到響應值的頻域表示：

(7)

3) 模板更新

采樣并結合過去時刻的模型參數(shù)，利用雙線性插值的方法加入到模型參數(shù)的更新過程：

(8)

(9)

1.3 檢測跟蹤

YOLOv4算法的優(yōu)勢在于通過深層卷積網絡對目標特征進行提取，能夠有效檢測出紅外圖像中的弱小目標；另外，YOLOv4是基于多尺度的目標檢測，克服了檢測過程中目標變尺度帶來的影響，提高了目標檢測的準確性與魯棒性。但是，基于深度學習的檢測算法對于前期的訓練樣本有很高的要求，如果待檢測視頻序列中的目標及背景與訓練樣本存在較大差異，檢測算法則無法檢測到目標，從而不能穩(wěn)定連續(xù)地跟蹤目標。

KCF算法的優(yōu)勢在于采用了在線訓練的策略，不需要事先準備大量的目標樣本對模型進行訓練。在跟蹤過程中基于視頻當前幀訓練一個目標檢測器，使用該檢測器確定下一幀目標位置，然后以新的目標位置更新檢測器，如此迭代實現(xiàn)了對目標的連續(xù)跟蹤。但是當目標出現(xiàn)尺度變換、遮擋、快速移動時，采樣會引入大量背景信息，模型更新過程中累計誤差，使得跟蹤框漂移導致跟蹤失敗。

針對2種算法的不足，本研究提出了一種融合輕量級YOLOv4與KCF算法的紅外艦船識別方法，識別流程如圖2所示。

首先，讀取到的視頻幀序列(圖2(a))分兩路進入目標檢測線程與目標跟蹤線程；在目標檢測線程，用YOLOv4算法對紅外圖像中的艦船進行目標檢測(圖2(b))，經過特征提取、特征融合和最后的分類、回歸確定目標的類型、置信度和檢測框(圖2(c))；在目標跟蹤線程，首先將檢測算法得到的檢測框作為目標區(qū)域構造訓練樣本，完成KCF算法的初始化(圖2(d))；將后續(xù)視頻幀采樣的測試樣本與訓練樣本作相關操作計算響應值，將響應值峰值Max_res與預定的閾值比較，若低于閾值，認為跟蹤目標失敗，此時停止參數(shù)更新，重新利用檢測框進行跟蹤初始化；若高于閾值，認為跟蹤目標成功，以響應值峰值對應的位置點作為新的跟蹤框位置，繼續(xù)迭代更新目標跟蹤框(圖2(e))；將目標檢測線程與目標跟蹤線程得到的目標位置信息進行融合比較：判別同一目標的檢測框和跟蹤框是否同時存在，如果同時存在，比較兩者的置信度track_conf和detect_conf，選擇置信度高的作為最終的目標識別結果(圖2(f))。

圖2 融合YOLOv4檢測與KCF跟蹤的艦船目標識別流程框圖

2 實驗與分析

2.1 實驗平臺環(huán)境

實驗紅外圖像采集平臺采用320×240分辨率非制冷焦平面探測器，焦距50 mm，工作波段7.5～13.5 μm的紅外熱像儀。訓練網絡模型使用的硬件平臺為Core i9-9980XE@3.00 GHz 處理器，128 GB內存，TITAN V 12 GB顯卡的圖形工作站。軟件平臺為Win10，CUDA10.0，CUDNN7.5.0，TensorRT7.0.0，VS2017，Pycharm2019，Pytorch1.3.1，torchvision0.4.2，OpenCV4.1.2 (CUDA編譯)。

2.2 紅外圖像數(shù)據(jù)集

由于開源的艦船紅外圖像數(shù)據(jù)集很少，因此本文使用HF-160-2型紅外熱像儀拍攝的5個艦船視頻自制紅外圖像數(shù)據(jù)集。以近距(100～200 m)、中距(200～500 m) 、遠距(500～1 000 m)對貨輪(cargo) 、游艇(yacht)和帆船(sailing boat)3種類型的艦船進行拍攝，包含了大、中、小3種尺度，特別采集了一定數(shù)量存在目標快速運動、建筑物遮擋的紅外艦船圖像，以測試目標識別模型的環(huán)境適應性和魯棒性。自制數(shù)據(jù)集包括3 000幅艦船紅外圖像，選取其中2 500幅作為訓練集，500幅作為測試集，選取其中一段視頻用于測試模型的跟蹤穩(wěn)定性與幀率，數(shù)據(jù)集的部分樣本圖像如圖3所示。

圖3 不同距離拍攝的艦船紅外圖像

2.3 目標檢測網絡訓練

由于自建的紅外數(shù)據(jù)集與其他開源的圖像數(shù)據(jù)集差異較大，因此采用重新學習的方式訓練YOLOv4網絡模型。訓練采用Adam算法，動量momentum=0.949，初始學習率learning_rate = 0.001 5，訓練迭代次數(shù)steps=5 500，在step=4 000和5 000時，學習率在前一階段學習率的基礎上衰減10倍；訓練批尺寸batch=64，每個batch分組subdivisions=16，每次向網絡中輸入batch/subdivisions=4張圖像以減輕顯存占用的壓力；輸入圖像尺寸為416×416，在Nvidia TITAN V 顯卡(顯存12G)部署網絡進行訓練，占用顯存 7.6G。訓練過程中損失函數(shù)loss和訓練集上的均值平均精度mAP的變化曲線如圖4。

由圖4可知，當step=4 800時，網絡模型趨于穩(wěn)定，經過5 500次的迭代訓練，最終模型的loss收斂到0.113 8，mAP為86.7%。

圖4 損失函數(shù)loss和均值平均精度mAP的變化曲線

2.4 評價指標

選取檢測準確率P(precision)、召回率R(recall)和調和均值H(harmonic mean)作為檢測精度的評價指標：

(10)

(11)

(12)

式中：Tp為正確檢測出艦船的數(shù)量；Fp為將非艦船目標檢測為艦船目標的數(shù)量；Fn為未能檢測到艦船目標的數(shù)量。

選取目標跟蹤框與人工標定框的中心位置誤差(center location error，CLE)和跟蹤框與標定框的重疊率(overlap rate，OR)以及目標丟失次數(shù)作為跟蹤穩(wěn)定性的評價指標：

(13)

(14)

其中：(xi，yi)和(xgt，ygt)分別為第i幀中跟蹤框與標定框的中心位置；Rt和Ra分別為跟蹤框與標定框框選的目標區(qū)域。然后選取閾值thres，當OR>thres時認為跟蹤成功；當?shù)陀陂撝?，則認為跟蹤失敗，失敗次數(shù)加1，并初始化目標跟蹤框，重新跟蹤目標。

關于閾值thres的選取，如果取值太小，即使跟蹤框Rt與Ra只有少部分重疊，未能框選住目標，卻判定為跟蹤成功，如圖5(a)所示；如果取值太大，即使跟蹤框Rt能較好地與Ra重疊，完全框選住目標，卻判定為跟蹤失敗，使得跟蹤判定失敗的次數(shù)大大增加，需要不斷重新初始化跟蹤框，不盡合理。經過多次實驗測試，thres取0.5時效果較好，能夠保證Rt較完整框選住目標的同時，盡量減少判定跟蹤失敗的次數(shù)。

圖5 thres取不同值對跟蹤判定結果的影響示意圖

另外選取處理視頻序列的平均幀速(avg Fps)作為衡量檢測跟蹤速度的指標。

2.5 艦船目標識別結果及分析

選取處理視頻序列的平均幀速(avg Fps)作為衡量檢測跟蹤速度的指標。圍繞目標檢測的精度、目標跟蹤的穩(wěn)定性以及檢測跟蹤的速度3個方面，將融合輕量級YOLOv4與KCF的識別算法(yolo-kcf)與傳統(tǒng)的目標跟蹤算法(meanshift、CSRT)以及基于深度學習的目標跟蹤算法(centerTrack)[21]進行比較。其中對原始YOLOv4網絡和CenterNet網絡使用相同的數(shù)據(jù)集與訓練參數(shù)進行訓練。

首先，在紅外圖像測試集上選取近、中、遠不同尺度的艦船目標，將裁剪后的YOLOv4網絡與原始YOLOv4網絡、CenterNet網絡進行測試，結果如圖6所示。

圖6 不同神經網絡對紅外圖像艦船目標的識別結果示意圖

圖6可見，在測試的3幅艦船紅外圖像中，原始的YOLOv4網絡和裁剪的YOLOv4網絡均能正確檢測出艦船目標；CenterNet在最后一幅圖中將背景干擾誤檢為帆船(sailing_boat)，說明YOLOv4算法在對小尺度的目標檢測方面更具優(yōu)勢。表1給出了3種網絡在艦船紅外測試集上的檢測精度指標。

表1 檢測精度評價指標 %

根據(jù)表1可知，CenterNet網絡由于在紅外測試集中誤檢測數(shù)Fp較大，從而導致P較低，影響了總體的檢測精度；經過裁剪后的YOLOv4網絡模型與原始的YOLOv4網絡模型相比，檢測的準確率P和召回率R分別下降了1.5和2.3個百分點，檢測精度下降不大。

另外，為了驗證本文提出的識別方法在復雜環(huán)境下的魯棒性，特別選取了一段遠距離拍攝、熱像儀快速轉動鏡頭、紅外視景中存在建筑物遮擋的視頻，對各算法目標跟蹤的穩(wěn)定性與幀速進行測試。測試視頻中包含13 027幀紅外圖像，圖7展示了其中6幀的測試結果。在第1 000幀，目標運動平穩(wěn)，4種方法均能有效跟蹤目標；在鏡頭快速轉動的第3 709和9 995幀，目標的位置快速移動，meanshift的跟蹤框發(fā)生較大漂移，無法成功跟蹤目標，CSRT和centerTrack可以跟蹤貨輪和游艇，但未能跟蹤帆船，只有yolo-kcf實現(xiàn)了對三類目標的穩(wěn)定跟蹤；在有建筑物遮擋的第5 723和6 322幀，受建筑物的影響，目標與背景的紅外輻射對比度發(fā)生了較大變化， meanshift、CSRT與centerTrack的跟蹤均受到了影響，但是yolo-kcf仍能夠穩(wěn)定地跟蹤目標；在游艇與帆船存在重疊的第11 554幀，meanshift跟蹤框發(fā)生了較大漂移，centerTrack只成功跟蹤了游艇，而未識別出帆船，CSRT和yolo-kcf雖識別出了帆船，但是跟蹤框發(fā)生了微小漂移。

從表2可以看出，本文提出的yolo-kcf算法與其他算法相比，CLE最小、OR最高，目標跟丟的次數(shù)最少，跟蹤穩(wěn)定性最強。從算法運行的效率來看，本文方法目標跟蹤的平均幀率僅次于meanshift算法，有較高的實時性。

表2 復雜背景下不同算法的跟蹤性能指標

3 結論

本研究充分利用檢測算法檢測準確度高、跟蹤算法跟蹤效果穩(wěn)定的特點，提出了一種融合輕量級的YOLOv4與KCF算法的紅外艦船識別方法。根據(jù)紅外圖像特征有效信息少的特點，對原始YOLOv4網絡進行裁剪壓縮得到輕量級的YOLOv4檢測網絡，利用訓練得到的檢測網絡對紅外視頻中艦船目標進行特征提取，給出目標類型并確定目標的檢測框；將檢測框框選的目標位置信息作為KCF多目標跟蹤算法的初始化信息，并行運行YOLOv4檢測算法與KCF跟蹤算法，比較2種算法得到目標框的置信度，選取置信度大的目標框作為最終的識別結果。通過實驗與傳統(tǒng)目標跟蹤算法(menashift與CSRT)和基于深度學習的目標跟蹤算法(centerTrack)對比測試，本文提出的方法在檢測精度、跟蹤穩(wěn)定性和實時性均取得了最優(yōu)或次優(yōu)的結果，具有較強的魯棒性與實時性，適合復雜背景條件下的艦船紅外目標識別。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡