吳晗 張志龍 李楚為 李航宇
摘 要:????? 深度卷積神經(jīng)網(wǎng)絡模型在很多計算機視覺應用中取得了非常出色的結(jié)果,如何利用深度學習技術完成復雜戰(zhàn)場環(huán)境下的輔助制導和瞄準點定位,是我軍贏得現(xiàn)代信息化戰(zhàn)爭的關鍵。針對該問題,本文提出了一種時敏目標的類型與瞄準點識別算法,用于改善對時敏目標檢測的質(zhì)量,并為后續(xù)模塊提供作戰(zhàn)軍事資源各個部件的打擊價值。該算法對YOLOv3主干網(wǎng)絡進行重新設計,使用深度可分離卷積神經(jīng)網(wǎng)絡的殘差塊對輸入圖像進行特征提取,然后將得到的特征圖送入注意力模型,為含有目標部件等重要語義信息的特征圖賦予相應的權值,最后將經(jīng)注意力機制模型處理后的特征圖送入回歸網(wǎng)絡進行時敏目標的類型與瞄準點識別。在COCO與VOC數(shù)據(jù)集上的實驗結(jié)果表明,本文算法使用的特征提取網(wǎng)絡與注意力模型有效提升了深度卷積神經(jīng)網(wǎng)絡對常見目標的檢測精度(mAP); 在所建立的戰(zhàn)場軍事資源模型數(shù)據(jù)集上的實驗結(jié)果表明,本文算法可實現(xiàn)對非合作時敏目標的瞄準點精準識別。
關鍵詞:???? 時敏目標; 目標檢測; 瞄準點識別; 深度學習; 注意力模型; YOLOv3; 神經(jīng)網(wǎng)絡
中圖分類號:???? TJ760; TN957.51
文獻標識碼:??? A
文章編號:???? 1673-5048(2022)02-0024-06
DOI: 10.12132/ISSN.1673-5048.2020.0260
0 引? 言
戰(zhàn)場目標是指復雜戰(zhàn)場環(huán)境下需要打擊的作戰(zhàn)對象,特指在一定的時間與空間范圍內(nèi)存在,具有重要戰(zhàn)略、戰(zhàn)役或戰(zhàn)術價值的實體目標。時敏目標是指必須在有限的攻擊窗口內(nèi)發(fā)現(xiàn)、定位、識別和瞄準的目標。時敏目標瞄準點選擇是指依據(jù)我方作戰(zhàn)目的、武器裝備性能及所獲取的戰(zhàn)場情報資料,在戰(zhàn)時國際法的框架約束內(nèi),對戰(zhàn)場時敏目標進行檢測、分析、評估、排序后,從中選出重點打擊目標的過程。
隨著人工智能技術的興起,大量具有一定自主意識的人工智能載體被投入到復雜戰(zhàn)場環(huán)境中輔助作戰(zhàn),人們希望研究智能化程度較高的目標檢測識別算法,準確智能地從人工智能偵察設備攝取的序列圖像中發(fā)現(xiàn)各類移動目標,并輸出提示或告警信息,以緩解操作員的心理負擔。
時敏目標的瞄準點識別過程實質(zhì)為目標檢測任務中的部件識別過程。在現(xiàn)代信息化戰(zhàn)爭中,戰(zhàn)場局勢瞬息萬變,不同的戰(zhàn)術作戰(zhàn)軍事資源的各個部件具有不同的打擊價值,如何有效地進行時敏目標的瞄準點識別是鎖定并制導摧毀目標的關鍵步驟。
目標檢測是計算機視覺領域中一個重要的研究方向,不同于圖像分類與語義分割任務,目標檢測任務既需要識別復雜背景下的目標類別,也需要回歸目標邊界框位置信息。傳統(tǒng)意義上的目標檢測算法主要分為兩類: 基于目標結(jié)構(gòu)知識的啟發(fā)式方法與基于特征的方法。
啟發(fā)式方法是根據(jù)目標的結(jié)構(gòu)知識提出的,往往針對目標的一些特殊結(jié)構(gòu),采取濾波的方法,進行相應的特征提取。提取的特征包括直線特征、點特征和特殊結(jié)構(gòu)特征等。例如,在飛機檢測方面,利用飛機結(jié)構(gòu)知識建立的圓周頻率濾波算法[1]和數(shù)學形態(tài)學濾波算法來進行飛機檢測; 在艦船檢測方面,通過分析線段的空間關系檢測港內(nèi)艦船[2], 通過尾跡檢測艦船,基于形狀上下文檢測艦船[3]; 在車輛檢測方面,利用運動信息檢測圖像中的運動目標[4]等。
基于特征的目標檢測算法是通過在空域或變換域中提取特征來描述圖像,以達到對目標檢測識別的目的。常見的空域特征應用包括: HOG特征用于行人檢測[5]; Haar-like特征用于物體檢測和實時的人臉檢測[6]; SIFT特征用于描述機場,并用一種特征點匹配的方法進行目標檢測[7]等。常見的變換域方法包括: Ridgelet變換、小波變換、Gabor變換等,Ridgelet變換檢測道路邊緣,離散小波變換在SAR圖像中檢測艦船等。雖然傳統(tǒng)意義上的目標檢測算法可在計算資源占用較小的情況下實現(xiàn)檢測識別,但在復雜背景條件下,其整體識別率不高、泛化能力不強且魯棒性較弱[8]。
在2012年的ImageNet競賽中,AlexNet[9]算法在圖像分類領域取得了質(zhì)的飛躍,其將一千類圖像的分類正確率提升至84.7%。自此,深度學習(Deep Learning)就開始被廣泛地應用于目標檢測識別任務。無論是以Faster R-CNN[10]和Mask R-CNN[11]為代表的雙階段目標檢測算法,還是以SSD[12]和YOLO[13]為代表的單階段目標檢測算法,都在大規(guī)模目標檢測數(shù)據(jù)集上取得了優(yōu)秀的識別性能。針對單/雙階段目標檢測算法的檢測速率與精度平衡問題,Tian等提出的FCOS算法[14]采用語義分割的思想來實現(xiàn)目標檢測任務,其基于Anchor-free的策略能在節(jié)省大量計算資源的情況下獲得較高的目標檢測識別率。
深度學習中的注意力機制借鑒了人腦系統(tǒng)處理大量冗余信息的視覺注意力思維方式[15],即視覺信息處理過程中著重關注包含信息量最為豐富的區(qū)域,抑制次要區(qū)域信息對整體的影響。Hu等的SE模型[16]通過對深度網(wǎng)絡提取的特征圖進行壓縮與釋放操作,使得深度模型給予高響應通道特征更大權值。Woo等的CBAM模型[17]通過對深度網(wǎng)絡提取的特征圖進行池化與并行編碼,使得特征圖中對應語義信息豐富的區(qū)域得到更高程度的響應,這種策略讓網(wǎng)絡模型可在額外占用一定計算資源的情況下,提高目標檢測的識別精度。
本文提出了一種時敏目標的類型與瞄準點識別算法。該算法對YOLOv3主干網(wǎng)絡進行重新設計,使用深度可分離卷積神經(jīng)網(wǎng)絡的殘差塊對輸入圖像進行特征提取,然后將得到的特征圖送入注意力模型,其對含有目標部件等重要語義信息的特征圖賦予相應的權值,最后將經(jīng)注意力模型處理后的特征圖送入回歸網(wǎng)絡進行時敏目標的類型與瞄準點識別。經(jīng)注意力機制處理后的深度模型可更加關注輸入圖像中包含目標部件等重要語義信息的區(qū)域,從而可實現(xiàn)高精度、魯棒性強的時敏目標瞄準點識別。
1 相關工作
瞄準點識別的過程實質(zhì)是目標的部件識別過程。目前主流的部件識別算法仍是將目標部件作為一種目標類型,經(jīng)過標注、訓練等強監(jiān)督學習步驟后,分類與回歸出目標的類型與邊界框信息。雖然這類方法可在一定程度上取得較好的部件檢測性能,但仍陷入了單/雙階段目標檢測算法的檢測速率與精度平衡問題,且由于沒有利用特征圖中目標各個部件的上下文信息,其檢測精度有待進一步提升。
針對上述算法的問題,有學者提出了基于目標關鍵點特征的部件檢測算法[18-19],其利用目標部件之間的相互位置關系來提升目標部件的識別性能。如圖1所示,這類算法首先將目標部件視為關鍵點特征,并且利用級聯(lián)深度卷積神經(jīng)網(wǎng)絡,實現(xiàn)包含豐富語義信息的目標關鍵位置檢測,然后利用這些關鍵位置定位結(jié)果來優(yōu)化Faster R-CNN候選框篩選機制和輸出策略,從而降低了目標檢測模型的網(wǎng)絡復雜度,實現(xiàn)較高精度的部件檢測性能。這類算法雖然可以實現(xiàn)較高魯棒性的目標檢測,但是,其并未有效降低算法所需的計算資源,而由于Faster R-CNN算法檢測速度過于緩慢,更難以滿足復雜戰(zhàn)場環(huán)境下嵌入式設備部署所需求的高效性與實時性。
在保證目標檢測精度的基礎上,盡可能地提升時敏目標瞄準點檢測識別的速率,本文提出了一種基于注意力機制的部件識別算法,通過對含有目標部件等重要語義信息的特征圖賦予相應的權值,網(wǎng)絡最終的輸出會更多地受到輸入圖像中目標部件的影響。由于特征提取網(wǎng)絡與回歸網(wǎng)絡處于一個端到端的模型之中,并且所使用的通道注意力機制可在不占用額外計算資源的情況下自學習特征響應,因此,本文算法可以在高算力設備支持下實現(xiàn)實時目標檢測。
2 網(wǎng)絡結(jié)構(gòu)的設計
本文算法采用瓶頸結(jié)構(gòu)(Bottleneck)所構(gòu)成的殘差塊,對輸入圖像進行特征提取;? 然后將得到的特征圖送入注意力模型,其對含有目標部件等重要語義信息區(qū)域的特征圖呈現(xiàn)高響應回歸;? 最后將注意力模型處理后的特征圖送入常用分類回歸網(wǎng)絡,進行時敏目標的類型與瞄準點識別。其整體流程圖如圖2所示。
2.1 特征提取
本文算法所設計的特征提取網(wǎng)絡包含多個殘差塊,其將可見光域的圖像集合中的某圖像fkc(i,? j)進行多層次
特征提取得到特征圖Fkz(i, j)。如圖3所示,每個殘差塊由1*1的深度可分離卷積核(卷積步長stride為1)和3*3的深度可分離卷積核(卷積步長stride為2)加上殘差結(jié)構(gòu)組成,F(xiàn)ilter(過濾器)數(shù)目先減半后恢復,以便于更好地提取特征。
經(jīng)典特征提取網(wǎng)絡一般通過增加卷積網(wǎng)絡的層數(shù)來增強模型的泛化能力,從而增強算法的識別性能,但是這種方法會使模型參數(shù)計算量增大,檢測速率也隨之降低,而一般的嵌入式AI設備根本無法滿足此類大型網(wǎng)絡對于存儲和計算資源的需求。深度可分離卷積核采用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積,在保持通道分離的前提下實現(xiàn)空間卷積,從而能有效利用參數(shù)來降低網(wǎng)絡模型的空間復雜度。深度可分離卷積將傳統(tǒng)的卷積分解為一個深度卷積與逐點卷積,其結(jié)構(gòu)如圖4所示。
2.2 注意力機制
本文的注意力模型整體結(jié)構(gòu)如圖5所示。首先,將特征提取網(wǎng)絡提取的特征圖Fkz(i, j)輸入至空間注意力模型,得到空間賦權特征圖F^kz(i, j); 然后,將提取的低層特征圖Fkz(i, j)與包含目標部件豐富語義信息的空間賦權特征圖F^kz(i, j),并行輸入至通道注意力模型中進行通道賦權。通道注意力模型可在不占用額外計算資源的情況下通過式(1)自學習高響應通道特征對應權值wz:
wz=eMzi, j∑z^ eMi, jz^, Mzi, j=F^kz(i, j)(1)
在空間賦權特征圖F^kz(i, j)中,某通道所包含的信息量越多,其對應的特征響應越大。注意力網(wǎng)絡最終的輸出為
F^^kz(i, j)=F^kz(i, j)+Fkz(i, j)*wz (2)
空間注意力模型結(jié)構(gòu)如圖6所示,首先,將特征圖Fkz(i, j)送入并行的全局平均池化層與全局最大池化層進行池化處理后,全局平均池化與全局最大池化可在不增加額外參數(shù)量的情況下, 提取特征圖的全局信息,隨后拼接得到對應的特征向量。其次,將拼接后的特征向量經(jīng)過多個1*1的卷積核(卷積步長為1且進行填充)進行卷積,通過使用1*1的卷積核壓縮輸入特征向量的通道數(shù),對特征向量所對應的空間區(qū)域進行區(qū)域響應激活,然后進行歸一化處理:
w(i, j)=sigmoid(w)=11+e-w(3)
學習到空間注意力權值w(i, j),最后將空間注意力權值與原始低層特征圖進行賦權得到空間賦權特征圖F^kz(i, j):
F^kzi, j=Fkz(i, j)*w(i, j)(4)
2.3 網(wǎng)絡輸出
本文算法并行輸出時敏目標的類型檢測框與瞄準點
識別框,且兩路輸出在網(wǎng)絡設計上有著相互促進的作用,即網(wǎng)絡的輸出項上存在激勵關系,在非極大值抑制(NMS)模塊中,時敏目標的瞄準點識別框?qū)⒂糜谛拚龝r敏目標的類型檢測框,從而使目標領域內(nèi)的置信度更高。反之亦然,其結(jié)構(gòu)如圖7所示。
3 實驗結(jié)果分析
本文實驗采用的硬件平臺為: Intel i5-9400 CPU@ 2.90 GHz; 兩塊NVIDIA 2080TI顯卡(11 G)、 16 GB內(nèi)存; 操作系統(tǒng)為Ubuntu 16.04; 深度學習框架為Pytorch與Tensorflow; 配置環(huán)境為CUDA 10.0, CUDNN 7.4。
3.1 目標檢測實驗結(jié)果分析
為了驗證本文算法對時敏目標類型檢測的適用性與性能,關閉網(wǎng)絡的瞄準點識別框輸出通道,并且在公開的Microsoft Common Objects in Context (COCO)數(shù)據(jù)集[20]與PASCAL-VOC2012數(shù)據(jù)集[21]上開展目標檢測精度評估實驗。其中所使用的COCO數(shù)據(jù)集包含80個目標類別,81 769張圖像作為訓練集,? 10 126張圖像作為驗證集,? 11 348張圖像作為測試集,平均每幅圖像有5個標簽信息。所使用的VOC數(shù)據(jù)集包含20個目標類別,總共包含5 515張圖像,平均每幅圖像有2個標簽信息。目標檢測精度評估實驗過程中的VOC數(shù)據(jù)集劃分為: 4 000張圖像作為訓練集,415張圖像作為驗證集,1 100張圖像作為測試集。
在目標檢測精度評估實驗過程中,本文算法使用的分類回歸網(wǎng)絡是YOLOv3算法中的YOLO-head結(jié)構(gòu)。表1與表2分別展示了在COCO數(shù)據(jù)集與VOC數(shù)據(jù)集上,本算法與當前主流目標檢測算法的目標檢測精度(COCO數(shù)據(jù)集測試IOU=0.75下的mAP; VOC數(shù)據(jù)集測試IOU=0.5下的mAP)與速度(FPS: 每秒檢測圖像數(shù))對比。實驗結(jié)果表明: (1)與當前主流目標檢測算法相比,本文算法具有較好的目標檢測性能; (2)本文算法可在提升目標檢測精度的同時保證檢測速率,基本可以滿足復雜戰(zhàn)場環(huán)境下嵌入式設備部署所需求的高效性與實時性。
3.2 瞄準點識別實驗結(jié)果分析
采用本實驗室所制備的戰(zhàn)場軍事資源模型數(shù)據(jù)集,該數(shù)據(jù)集包含18種戰(zhàn)場軍事資源模型,包含履帶、頂蓋與車輪三種瞄準點標注信息。數(shù)據(jù)集劃分情況為: 1 010張圖像作為訓練集,144張圖像作為驗證集,289張圖像作為測試集,分辨率均為1 920×1 080。
在瞄準點識別算法的訓練過程中,對訓練數(shù)據(jù)采用數(shù)據(jù)增強處理。對訓練樣本采取平移、翻轉(zhuǎn)、選擇、飽和度變換與顏色變換等,從而讓有限的訓練樣本產(chǎn)生更大的訓練價值,使得神經(jīng)網(wǎng)絡具有更強的泛化能力。
在深度學習的研究中,利用類別激活圖(CAM)[22]的梯度權重激活映射,對卷積神經(jīng)網(wǎng)絡的分類與回歸結(jié)果進行解釋,因為其可以在輸入的圖片中粗略地顯示出模型預測出的類別所對應的重要性區(qū)間。
本文在戰(zhàn)場軍事資源模型數(shù)據(jù)集上開展對時敏目標的類型與瞄準點識別評估,分三個部分進行實驗:
(1) 將本文注意力模型級聯(lián)的特征提取網(wǎng)絡的輸出與僅作特征提取的殘差塊輸出做CAM可視化分析,結(jié)果如圖8所示。CAM可視化結(jié)果表明,經(jīng)過注意力機制改進的神經(jīng)網(wǎng)絡模型最終的輸出結(jié)果,將受到包含目標部件等關鍵信息區(qū)域的影響。
(2) 在本文建立的戰(zhàn)場軍事資源模型數(shù)據(jù)集上,開啟/關閉網(wǎng)絡的瞄準點識別框輸出通道,進行瞄準點識別模型的訓練與對比測試。表3顯示了本文算法多路輸出和單路輸出的部件檢測精度(測試IOU=0.5下的mAP)與速度(FPS: 每秒檢測圖像數(shù))對比,可以看出,本文算法的目標類型與瞄準點識別過程具有相互促進作用。
(3) 在本文建立的戰(zhàn)場軍事資源模型數(shù)據(jù)集上進行瞄準點識別模型的訓練與測試。表4顯示了本文算法與基于目標關鍵點特征的部件檢測算法[17]等的部件檢測精度(測試IOU=0.5下的mAP)與速度(FPS: 每秒檢測圖像數(shù))對比??梢钥闯?,本文算法具有較好的瞄準點識別綜合性能。
圖9展示了本文算法在測試集上的目標瞄準點識別結(jié)果。可以看出,在輸入圖像含多個目標重要部件的情況下,本文算法仍具有良好的瞄準點識別效果。
4 結(jié)? 論
本文提出了一種時敏目標的類型與瞄準點識別算法。該算法可在不額外占用計算資源的情況下,通過注意力模型自學習高響應特征來影響神經(jīng)網(wǎng)絡模型最終的分類與回歸結(jié)果。在公開的COCO數(shù)據(jù)集、VOC數(shù)據(jù)集與本文建立的戰(zhàn)場軍事資源模型數(shù)據(jù)集上進行實驗,結(jié)果表明: 本文算法可在提升目標檢測精度的同時,保證檢測速率; 在輸入圖像包含多個目標部件的情況下,本文算法仍具有良好的瞄準點識別效果。下一步將繼續(xù)優(yōu)化瞄準識別算法的特征提取網(wǎng)絡結(jié)構(gòu),以實現(xiàn)在復雜背景條件下的目標多類瞄準點特征的自適應提取。
參考文獻:
[1] An Z Y,? Shi Z W,? Teng X C,? et al. An Automated Airplane Detection System for Large Panchromatic Image with High Spatial Resolution[J]. Optik,? 2014,? 125(12): 2768-2775.
[2] Lin J L,? Yang X B,? Xiao S J. A Line Segment Based Inshore Ship Detection Method[C]∥ International Conference on Remote Sen-sing,? 2010: 261-269.
[3] Sreedevi Y,? Reddy B E. Ship Detection from SAR and SO Images[C]∥ International Conference on Advances in Computing,? 2013: 1027-1035.
[4] Kirchhof M,? Stilla U. Detection of Moving Objects in Airborne Thermal Videos[J]. ISPRS Journal of Photogrammetry and Remote Sensing,? 2006,? 61(3/4): 187-196.
[5] Dalal N,? Triggs B. Histograms of Oriented Gradients for Human Detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,? 2005: 886-893.
[6] Viola P,? Jones M J. Robust Real-Time Face Detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154.
[7] Tao C,? Tan Y H,? Cai H J, ?et al. Airport Detection from Large IKONOS Images Using Clustered SIFT Keypoints and Region Information[J]. IEEE Geoscience and Remote Sensing Letters,? 2011,? 8(1): 128-132.
[8] Girshick R,? Donahue J,? Darrell T,? et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition,? 2014: 580-587.
[9] Krizhevsky A,? Sutskever I,? Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]∥Advances in Neural Information Processing Systems ,? 2012: 76-83.
[10] Ren S Q,? He K M,? Girshick R,? et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence,? 2015: 1137-1149.
[11] He K M,? Gkioxari G,? Dollar P,? et al. Mask R-CNN[C]∥IEEE International Conference on Computer Vision (ICCV) ,? 2017.
[12] Liu W,? Anguelov D,? Erhan D,? et al. SSD: Single Shot MultiBox Detector[C]∥European Conference on Computer Vision,? 2016: 21-37.
[13] Redmon J,? Divvala S,? Girshick R,? et al. You only Look Once: Unified,? Real-Time Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),? 2016: 779-788.
[14] Tian Z,? Shen C H,? Chen H,? et al. FCOS: Fully Convolutional One-Stage Object Detection[C]∥IEEE/CVF International Conference on Computer Vision (ICCV),? 2019: 9626-9635.
[15] 李楚為,? 張志龍,? 楊衛(wèi)平. 結(jié)合布爾圖和灰度稀缺性的小目標顯著性檢測[J]. 中國圖象圖形學報,? 2020,? 25(2): 267-281.
Li Chuwei,? Zhang Zhilong,? Yang Weiping. Salient Object Detection Method by Combining Boolean Map and Grayscale Rarity[J]. Journal of Image and Graphics,? 2020,? 25(2): 267-281.(in Chinese)
[16] Hu J,? Shen L,? Albanie S,? et al. Squeeze-and-Excitation Networks[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018: 2011-2023.
[17] Woo S,? Park J,? Lee J Y,? et al. CBAM: Convolutional Block Attention Module[C]∥European Conference on Computer Vision,? 2018: 3-19.
[18] 吳建雄. 基于卷積神經(jīng)網(wǎng)絡的車輛部件檢測[D]. 武漢: 華中科技大學,? 2017.
Wu Jianxiong. Detection of Vehicle Parts Based on Convolution Neural Network[D]. Wuhan: Huazhong University of Science and Technology,? 2017. (in Chinese)
[19] 舒娟. 基于深度學習的車輛部件檢測[D]. 武漢: 華中科技大學,? 2017.
Shu Juan. Vehicle Component Detection Based on Deep Learning[D]. Wuhan: Huazhong University of Science and Technology,? 2017. (in Chinese)
[20] Lin T Y,? Maire M,? Belongie S,? et al. Microsoft COCO: Common Objects in Context[C]∥European Conference on Computer Vision,? 2014.
[21] Everingham M, van Gool L,? Williams C K I,? et al. The Pascal Visual Object Classes (VOC) Challenge[J]. International Journal of Computer Vision,? 2010,? 88(2): 303-338.
[22] Zhou B L,? Khosla A,? Lapedriza A,? et al. Learning Deep Features for Discriminative Localization[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),? 2016: 2921-2929.
Recognition Algorithm for Types and Aiming
Points of the Time-Sensitive Target
Wu Han, Zhang Zhilong*, Li Chuwei, Li Hangyu
(National Key Laboratory of Science and Technology on ATR,
National University of Defense Technology, Changsha 410073, China)
Abstract: Deep convolutional neural network model has achieved excellent results in many computer vision applications. How to use deep learning technology to complete auxiliary guidance and aiming points positioning in complex battlefield environment is the key for army to win the modern information war. To solve this problem, this paper proposes a recognition algorithm for types and aiming point of the time-sensitive target to improve the quality of time-sensitive target detection, and provides the strike value of various components of military resources for subsequent modules. This algorithm redesigns the YOLOv3 trunk network and uses the residual block of the depth-wise separable convolutional neural network to extract the features of the input image, then sents the obtained feature maps into the attention model, and assigns corresponding weights to feature maps with important semantic information such as target components. Finally, feature maps processed by the attention model is sent into the regression network for the recognition of time-sensitive target types and aiming points. The experimental results on COCO and VOC data sets show that the feature extraction network and attention module used in this algorithm effectively improve the mean average precision of deep convolutional neural network in common target detection. The experimental results on the data set of the battlefield military resource model established in this paper show that this algorithm can accurately recognize the aiming points of non-cooperative time-sensitive targets.
Key words:? time-sensitive targets; target detection; aiming point recognition; deep learning; attention model; YOLOv3; neural network