吳曉強(qiáng), 曾朝陽
(陸軍工程大學(xué) 野戰(zhàn)工程學(xué)院, 江蘇 南京 210007)
近年來,隨著基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)技術(shù)的引入,機(jī)器視覺目標(biāo)檢測的效率和準(zhǔn)確率得到大幅度提升,已經(jīng)越過了應(yīng)用的技術(shù)門檻, 正在廣泛領(lǐng)域得到普及和應(yīng)用。在這樣的背景下,基于機(jī)器視覺的軍事目標(biāo)檢測也日益受到研究者的重視。多年來,軍事目標(biāo)的自動(dòng)檢測技術(shù)一直是國防技術(shù)領(lǐng)域的研究重點(diǎn), 但礙于準(zhǔn)確性和效果沒有達(dá)到滿意的效果, 很長時(shí)間沒有得到大范圍廣泛應(yīng)用?,F(xiàn)在,隨著深度學(xué)習(xí)技術(shù)的引入,這些問題不復(fù)存在,因此, 基于機(jī)器視覺的目標(biāo)檢測技術(shù)在軍事上的推廣越來越受到重視。 Zheng 等[1]構(gòu)建密集反卷積網(wǎng)絡(luò)提取目標(biāo)深層次的語義信息對偽裝人員進(jìn)行檢測;Fang 等[2]構(gòu)建強(qiáng)語義膨脹網(wǎng)絡(luò)檢測架構(gòu), 進(jìn)一步提高偽裝人員的檢測效果;鄧小桐等[3]通過改進(jìn)RetinaNet 檢測網(wǎng)絡(luò),對偽裝人員進(jìn)行檢測。
不過,與普通的目標(biāo)檢測相比,軍事目標(biāo)探測有其自身的特殊性,比如戰(zhàn)場環(huán)境的復(fù)雜多變,敵對雙方的欺騙和攻擊等,都使得軍事目標(biāo)探測面臨更加復(fù)雜的情況。 而最根本的區(qū)別在于, 軍事目標(biāo)的探測方和所有方總是敵對的雙方, 因此探測方所需要用來訓(xùn)練檢測模型的數(shù)據(jù)不易獲得。 而基于神經(jīng)網(wǎng)絡(luò)的機(jī)器視覺系統(tǒng)的能力從根本上依賴所訓(xùn)練的數(shù)據(jù),當(dāng)數(shù)據(jù)不完備時(shí),檢測系統(tǒng)的能力就會(huì)受到影響。 當(dāng)然,目標(biāo)的探測方可以為檢測系統(tǒng)建設(shè)必要的數(shù)據(jù)集, 以反映假想的戰(zhàn)場環(huán)境和敵方目標(biāo)的特性。 盡管如此,真實(shí)的戰(zhàn)場仍會(huì)出現(xiàn)難以預(yù)測的情況,比如敵方采取的臨時(shí)偽裝措施, 敵方對探測平臺(tái)的攻擊等。 這些不曾預(yù)想的情況究竟會(huì)對目標(biāo)檢測系統(tǒng)造成多大的影響? 為回答這個(gè)問題,本文設(shè)想了敵方攻擊導(dǎo)致探測距離變遠(yuǎn)(導(dǎo)致圖像分辨率降低)和敵方設(shè)置了偽裝措施(導(dǎo)致目標(biāo)顯著性降低)兩種情形,通過對比分析這兩種情況出現(xiàn)和不出現(xiàn)的檢測結(jié)果, 試圖說明戰(zhàn)場環(huán)境中不可知因素對機(jī)器視覺目標(biāo)探測的影響。 毫無疑問,這種影響對目標(biāo)檢測技術(shù)和隱身偽裝技術(shù)都非常重要。
根據(jù)當(dāng)前目標(biāo)檢測算法的發(fā)展現(xiàn)狀, 可將其分為三大類。 一類是基于候選區(qū)域的目標(biāo)檢測算法, 如R-CNN[4]、SPP-Net[5]、Fast R-CNN[6]、Faster R-CNN[7]、Mask R-CNN[8]和R-FCN[9]等。 此類算法先對輸入圖像提取若干個(gè)候選區(qū)域,然后對候選區(qū)域進(jìn)行分類和預(yù)測,最后利用非極大值抑制((Non-Maximum Suppression,NMS)消除多余的目標(biāo)框。 二類是基于回歸的目標(biāo)檢測算法, 如YOLO[10]、YOLOv2[11]、YOLOv3[12]、YOLOv4[13]、SSD[14]、DSSD[15]和RetinaNet[16]等。 此類算法對輸入圖像直接進(jìn)行分類和回歸預(yù)測。第三類是基于anchor-free 的目標(biāo)檢測算法。此類檢測模型包含基于關(guān)鍵點(diǎn)的檢測和基于分類和回歸進(jìn)行改進(jìn)的檢測這兩種,如CornerNet[17]、CenterNet[18]和FCOS[19]等。
本文以Faster R-CNN、YOLOv4 和CenterNet 三種類型的目標(biāo)檢測算法為基礎(chǔ), 將該三種模型在單個(gè)目標(biāo)場景下進(jìn)行多輪迭代訓(xùn)練, 將迭代損失最小的權(quán)重值作為預(yù)測權(quán)重, 分別對分辨率降低前后和偽裝措施施加前后的測試集目標(biāo)進(jìn)行檢測。 本文所用的數(shù)據(jù)集是在野外現(xiàn)地采集,并對該數(shù)據(jù)集進(jìn)行了數(shù)據(jù)擴(kuò)展。
由于當(dāng)前沒有公開的偽裝后的軍事車輛數(shù)據(jù)集,因此針對當(dāng)前實(shí)驗(yàn)任務(wù),為貼近實(shí)際的戰(zhàn)場偵察環(huán)境,在野外條件下,采集了348 張偽裝后的軍事目標(biāo)圖片數(shù)據(jù),圖像大小為5472×3048,此圖片數(shù)據(jù)滿足以下兩個(gè)特點(diǎn):
(1)圖片數(shù)據(jù)包含不同明暗程度,不同俯仰,不同遮擋程度的目標(biāo)。
(2)圖片數(shù)據(jù)包含不同尺度的目標(biāo),即從不同高度,不同距離對圖像數(shù)據(jù)進(jìn)行采集。
(3)通過翻轉(zhuǎn),旋轉(zhuǎn),裁剪,變形,縮放,顏色增強(qiáng)等數(shù)據(jù)增強(qiáng)的方式,將原圖片數(shù)據(jù)庫擴(kuò)展至1740 張,并采用PASCAL VOC 數(shù)據(jù)集標(biāo)注方式, 對擴(kuò)展后的圖片數(shù)據(jù)進(jìn)行標(biāo)注。 擴(kuò)展數(shù)據(jù)集統(tǒng)一標(biāo)注為Car, 擴(kuò)充的圖像及其標(biāo)注如圖1 所示,其 中 圖(a)和 圖(b) 為選取的訓(xùn)練集中的兩張圖片,圖(c)和圖(d)分別為其對應(yīng)的標(biāo)注圖片。
圖1 數(shù)據(jù)集標(biāo)注Fig.1 Dataset annotation
對擴(kuò)展后的軍事目標(biāo)數(shù)據(jù)集中的測試集圖像數(shù)據(jù),進(jìn)行不同分辨率的圖像處理,得到當(dāng)前的不同分辨率的測試集。 圖像分辨率按照原圖大小進(jìn)行等比例縮小之后,再擴(kuò)大至原圖大小, 圖像寬度分別設(shè)置為600、500、400、300、200 和100, 經(jīng)過縮小后的圖像,再擴(kuò)張成原圖尺寸大小,不同分辨率圖像如圖2 所示,其中圖(a)、圖(b)、圖(c)、圖(d)、圖(e)和圖(f)分別為寬度設(shè)置分別是100、200、300、400、500和600 下的不同分辨率測試集下的標(biāo)注圖片。
圖2 不同分辨率數(shù)據(jù)集標(biāo)注Fig.2 Different resolution dataset annotation
對擴(kuò)展后的軍事目標(biāo)數(shù)據(jù)集中的測試集圖像數(shù)據(jù),施加偽裝措施。 通過對圖像目標(biāo)周圍的背景特征進(jìn)行提取,將提取的背景特征對圖像進(jìn)行不同程度的遮擋。本文選擇測試集1 進(jìn)行遮擋,形成遮擋測試集。 遮擋數(shù)據(jù)集標(biāo)注如圖3 所示。 其中圖(a)和圖(b)分別為選取的遮擋數(shù)據(jù)集下的兩張標(biāo)注圖片。
圖3 遮擋數(shù)據(jù)集標(biāo)注Fig.3 Occlusion dataset annotation
本實(shí)驗(yàn)所使用的Faster R-CNN、YOLOv4 和Center-Net 三種目標(biāo)檢測模型, 均是以Tensorflow 作為基礎(chǔ)框架,使用的電腦配置內(nèi)存128GB,CPU 為i9-10980XE,并使用NVIDIA TITAN V 進(jìn)行模型訓(xùn)練的加速并行運(yùn)算。使得模型迭代運(yùn)行速度大大提升,模型訓(xùn)練誤差能夠較快的收斂。 對擴(kuò)展后的偽裝目標(biāo)數(shù)據(jù)集, 按照8:1:1 的比例,將其分為訓(xùn)練集、驗(yàn)證集和測試集。
三個(gè)目標(biāo)檢測模型的訓(xùn)練, 為保證模型在不同背景下預(yù)測時(shí),具有較好的識別準(zhǔn)確率。 選擇模型多輪迭代訓(xùn)練后的最低損失權(quán)重作為該檢測模型的預(yù)測權(quán)重。Faster R-CNN 目標(biāo)檢測網(wǎng)絡(luò)模型經(jīng)過多輪迭代訓(xùn)練后,損失最低值在0.507 左右, 損失收斂曲線見圖4。YOLOv4 檢測模型經(jīng)過多輪迭代訓(xùn)練后, 損失最低值在3.955 左右,損失收斂曲線見圖5。 CenterNet 檢測模型經(jīng)過多輪迭代訓(xùn)練后,損失最低值在0.615 左右,損失收斂曲線如圖6 所示。
圖4 Faster R-CNN 訓(xùn)練損失Fig.4 Faster R-CNN Training loss
圖5 YOLOv4 訓(xùn)練損失Fig.5 YOLOv4 Training loss
圖6 CenterNet 訓(xùn)練損失Fig.6 CenterNet Training loss
2.3.1 實(shí)驗(yàn)一
將三個(gè)訓(xùn)練好的目標(biāo)網(wǎng)絡(luò)模型,在驗(yàn)證集上進(jìn)行測試,由于該數(shù)據(jù)集統(tǒng)一標(biāo)注為Car 這一類,因而,只需通過計(jì)算模型在驗(yàn)證集上的平均準(zhǔn)確率(Mean Average Precision,MAP)來衡量模型訓(xùn)練的好壞,平均準(zhǔn)確率(MAP)越高,即該檢測模型的性能越好。 平均準(zhǔn)確率(MAP)從精確率(Precision)和召回率(Recall)兩個(gè)方面進(jìn)行衡量。
擴(kuò)展后的偽裝目標(biāo)數(shù)據(jù)集1740 張, 測試集為即174張。 由于在設(shè)置時(shí),測試集為隨機(jī)選取數(shù)據(jù)集的10%,因而將在Faster R-CNN、YOLOv4 和CenterNet 三個(gè)模型上的測試集分別命名為測試集1、測試集2 和測試集3。
三個(gè)目標(biāo)檢測模型在各自的測試集上的檢測結(jié)果如表1 所示。 從表1 各檢測模型在各自測試集上的檢測結(jié)果可以看出,三個(gè)目標(biāo)檢測模型檢測效果較好。
表1 不同模型檢測結(jié)果對比圖表Tab.1 Comparison of test results of different models
2.3.2 實(shí)驗(yàn)二
分別對測試集1、測試集2 和測試集3 這三個(gè)數(shù)據(jù)集按照原圖寬高比,進(jìn)行圖像分辨率的調(diào)整。為了體現(xiàn)圖像不同分辨率之間的差異, 將其原圖像寬高調(diào)整為100×56、200×112、300×168、400×225、500×281 和600×337。 然后再將圖像擴(kuò)展至原圖比例尺寸。
利用Faster R-CNN、YOLOv4 和CenterNet 三個(gè)目標(biāo)檢測模型在擴(kuò)展后的分辨率數(shù)據(jù)集上對Car 這一類目標(biāo)進(jìn)行測試,并計(jì)算該模型在不同分辨率的圖像數(shù)據(jù)集上的MAP。
從表2、表3 和表4 的檢測結(jié)果可知,F(xiàn)aster R-CNN、YOLOv4 和CenterNet 三個(gè)目標(biāo)檢測模型在各自不同分辨率測試集上的檢測結(jié)果, 隨著測試集圖像分辨率的不斷下降,檢測精度也在不斷下降。 從此檢測數(shù)據(jù)可以看出,檢測模型在充分訓(xùn)練的情況下, 在敵方攻擊導(dǎo)致探測距離變遠(yuǎn)(導(dǎo)致圖像分辨率降低)時(shí),對目標(biāo)檢測模型檢測結(jié)果具有一定的影響。
表2 Faster R- CNN 的檢測結(jié)果Tab.2 Test results of Faster R- CNN
表3 YOLOv4 的檢測結(jié)果Tab.3 Test results of YOLOv4
表4 CenterNet 的檢測結(jié)果Tab.4 Test results of CenterNet
2.3.3 實(shí)驗(yàn)三
對測試集1 中的圖像目標(biāo)顯著性進(jìn)行調(diào)整, 即降低目標(biāo)與周圍背景之間的差異。目標(biāo)與背景差異越大,即顯著性越高。 反之。 具體操作:通過對圖像目標(biāo)周圍的背景特征進(jìn)行提取, 將提取的背景特征對圖像進(jìn)行不同程度的遮擋。 本文選擇測試集1 進(jìn)行遮擋,形成遮擋數(shù)據(jù)集。利用Faster R-CNN、YOLOv4 和CenterNet 三個(gè)目標(biāo)檢測模型在遮擋數(shù)據(jù)集上對Car 這一類目標(biāo)進(jìn)行檢測。
各模型的檢測圖如圖7 所示,其中圖(a)、圖(b)和圖(c)分別為Faster R-CNN、YOLOv4 和CenterNet 在遮擋數(shù)據(jù)集上的識別圖片。 模型在遮擋測試集上的檢測結(jié)果如表5 所示,從表中數(shù)據(jù)可以看出,通過對目標(biāo)圖像設(shè)置偽裝措施(導(dǎo)致目標(biāo)與背景的顯著性差異降低),模型檢測的MAP 值明顯降低。
圖7 模型識別Fig.7 Model recognition
表5 不同模型檢測結(jié)果對比Tab.5 Comparison of test results of different models
為考察戰(zhàn)場環(huán)境因素對機(jī)器視覺目標(biāo)檢測的影響, 本文基于三種目標(biāo)檢測模型, 對比分析了分辨率降低和偽裝措施增加前后檢測結(jié)果的變化。 根據(jù)實(shí)驗(yàn)二、實(shí)驗(yàn)三的檢測結(jié)果,分別從分辨率和顯著性兩個(gè)方面, 對基于機(jī)器視覺下的目標(biāo)檢測模型的影響進(jìn)行了分析。
從實(shí)驗(yàn)二的模型檢測結(jié)果中可以看出, 通過對測試集圖像進(jìn)行的分辨率調(diào)整, 檢測模型對軍事車輛偽裝目標(biāo)的MAP 也在變化。
從實(shí)驗(yàn)三的模型檢測結(jié)果中可以看出, 通過對測試集圖像施加偽裝措施。 導(dǎo)致測試集圖像與背景的顯著性差異變小,模型檢測的MAP 也在降低。
結(jié)果表明,對經(jīng)過多次迭代、訓(xùn)練效果良好的檢測模型,隨著分辨率的逐漸降低和偽裝目標(biāo)顯著性的改變,模型探測結(jié)果也受到極大影響。 這樣的結(jié)果對目標(biāo)檢測和軍事偽裝都有很好的參考意義。