翟宏亮
(1. 中煤科工集團南京設計研究院有限公司,江蘇 南京 211800)
無人機作為現(xiàn)代測繪的重要技術手段,相較遙感衛(wèi)星影像和傳統(tǒng)航空攝影測量等方式具有采集頻率高,單次采集成本較低等獨特優(yōu)勢。在城市規(guī)劃、線路檢查以及應急測繪等多種應用場景中,利用無人機遙感技術對區(qū)域內目標進行實時自動化檢測是代替?zhèn)鹘y(tǒng)人工篩選的高效解決方案[1]。截至目前,大部分目標檢測模型有著深層次的結構與復雜的連接通道,在實際檢測過程中會產生大量的參數(shù)和冗余計算,故而對硬件的算力和內存需求較高,這就限制了模型的應用場景[2-5]。本文則以能流暢運行在內存和算力有限的無人機設備上為目標,構建了輕量化無人機遙感影像多目標檢測系統(tǒng)。
本文提出的輕量級無人機遙感影像多目標檢測系統(tǒng),主要由圖像預處理模塊和目標實時檢測模型組成。其中目標實時檢測模型采用端到端的目標檢測架構,主要包括輕量級特征提取骨干網(wǎng)絡和多尺度特征金字塔兩部分,完整的系統(tǒng)流程如圖1所示。
圖1 輕量化檢測系統(tǒng)結構圖
圖像預處理系統(tǒng)主要針對實時采集的圖像進行圖像濾波去噪,顏色校正以及尺寸歸一化處理;輕量級特征提取骨干網(wǎng)絡利用疊加的特征提取層和尺寸下采樣層提取來實現(xiàn)對不同尺度目標的特征提取處理。多尺度特征金字塔主要負責將不同尺度的特征圖進行上采樣以及張量拼接,通過混合特征來增強不同尺度特征圖中的信息復雜度,然后通過末端的檢測輸出來實現(xiàn)對目標檢測結果位置及類別信息的輸出。
訓練數(shù)據(jù)集中圖像的質量對于模型的檢測性能有著直接的影響[6]。因此,使用圖像預處理模塊對原始影像進行增強來獲取顏色信息更豐富,噪點更少,背景更多樣化的圖像參與訓練,以提高訓練后模型的檢測精度以及在多種場景下的泛化能力。
對于輸入的三通道圖像,首先進行尺寸歸一化便于后續(xù)的圖像處理和訓練,然后利用直方圖均衡化算法分別對每個顏色通道進行處理,以獲取顏色均衡的圖像,然后通過高斯濾波器來實現(xiàn)對圖像的降噪,處理結果如圖2所示。
圖2 圖像預處理結果
1.2.1 輕量級特征提取骨干網(wǎng)絡
端到端的目標檢測模型分為特征提取模塊和特征強化金字塔模塊兩個部分[7]。常規(guī)目標模型中特征提取模型是由不同采樣步長的小型卷積核以及激活函數(shù)等疊加組成的大型深層次網(wǎng)絡結構,這類結構在實際的檢測過程中會產生海量的計算參數(shù),因此需要較大內存的計算設備來保證其運行[8]。因此,保證系統(tǒng)在特征提取過程中保持較好性能同時,不會出現(xiàn)較多參數(shù),本文采用深度可分離卷積核[9]來進行特征提取,然后采用1×1 的常規(guī)卷積核對圖像進行2 倍下采樣。深度可分離卷積和常規(guī)卷積核的計算量對比公式如式(1)所示。
式中,C`和C分別為深度可分離卷積和常規(guī)卷積核一次計算所產生的計算量;Fin為輸入特征圖的尺寸;M為輸入特征圖的通道數(shù);Fps為卷積核的平面尺寸;N為輸出特征圖的通道數(shù)。除了卷積操作以外,本文還采用分組卷積[10]來進一步降低特征提取計算過程中的計算量。但分組卷積的所有特征提取步驟都在組內完成的,這就導致不同分組間的特征被隔離開,降低了拼接后特征圖的泛化能力。為了恢復不同卷積通道間的信息交流,在通道拼接后連接通道混排對分組后的獲得的特征圖進行重組,來提高特征圖的泛化性。本文所使用的損失函數(shù)由類別損失Lclass、置信度損失Lcconf、邊界框損失Lbound三部分,具體如公式(2)、(4)所示。
式中,α和γ分別為緩解正負樣本不平衡與難易樣本不平衡問題的超參數(shù),經(jīng)過多次調參選取α=5 ,γ=2;Y?ybc為中心區(qū)域圖,Yybc為預測的中心區(qū)域圖。N為中心區(qū)域正樣本總個數(shù),用于規(guī)范化分類損失。
式中,j為正樣本點索引;Ox?j y?j和Bx?j y?j分別為偏移量回歸與邊界框回歸在中心區(qū)域點(x?j,y?j)處的預測值。
1.2.2 多尺度特征金字塔
為獲取到信息更為豐富的特征圖,在特征提取骨干網(wǎng)絡的末端連接多尺度特征金字塔[10]。根據(jù)目標在無人機影像中的大小特點以及實際運行過程中的內存消耗,本文提出采用連續(xù)的自下而上的特征圖金字塔結構,每層的操作均為步長為2 的上采樣層。對于不同尺度大小的檢測圖像,輸入到不同層的金字塔末端進行檢測,在獲得多個近似結果后,采用非極大值抑制(NMS)算法獲取唯一的最佳檢測框。
以開源數(shù)據(jù)集VisDrone2019-DET 為基礎對多目標檢測模型進行訓練和測試。該數(shù)據(jù)集發(fā)布于2019年,是“Vision Meets Drone:A Challenge”挑戰(zhàn)賽使用的比賽數(shù)據(jù)集,由天津大學機器學習與數(shù)據(jù)挖掘實驗室的AISKYEYE 團隊收集并發(fā)布。本文采用圖像扭曲、翻轉和目標擴增3 種手段來獲取樣本容量更大、目標屬性更豐富的數(shù)據(jù)集。為了更高效地對模型進行訓練擬合,首先在大型計算設備上完成對模型的訓練,然后將模型部署在低功耗的輕量設備上實現(xiàn)模型的實際測試,具體訓練和測試配置如表1 和表2 所示。對模型迭代5 000次后,完成訓練。
表1 訓練環(huán)境配置表
表2 測試環(huán)境配置表
在測試集上的部分檢測結果如圖3 所示。為測試模型的性能,在相同的運算環(huán)境下使用訓練數(shù)據(jù)集分別對本文構建模型,對Tiny-YOLOv3,Mobile-SSD 模型進行訓練。采用每一類目標的AP、所有類別目標的MAP、FPS以及訓練后權重文件的內存大小對模型進行綜合評價,最終的評價結果如表3所示。
表3 檢測精度及評價表
圖3 檢測結果示意圖
從圖3 中可以看出,本文所提出方法對于影像中不同分布位置,不同類別以及不同大小的目標均有比較好的檢測效果。
根據(jù)表3 的中評價結果可以看出,本文所提出模型在精度均值方面最高可以達到82.5/%,對于在遙感影像中個較小的非機動車目標也能夠達到76.4/%的檢測精度,平均精度均值可以達到79.45/%,相比Ti?ny-YOLOv3 和Mobile-SSD 在綜合檢測精度方面分別提高了21.2%和15.4%。在檢測速度方面,本文所提出模型在測試環(huán)境下可以達到37 FPS/m.s-1的檢測速度,說明本文所構建的檢測系統(tǒng)可以在低配置的硬件環(huán)境上達到實時檢測的效果。同時本文所提出模型再訓練后的權重文件大小僅有38.7 MB,非常適合于部署在輕量級的設備上。
針對一般的無人機低空遙感實時性強、機載設備計算能力有限等問題,提出能流暢運行在低算力計算設備上的輕量卷積神經(jīng)網(wǎng)絡,使用增強后的開源無人機遙感影像數(shù)據(jù)集VisDrone2019-DET 在大型計算設備上對模型進行訓練,然后在小內存低算力的硬件設備上對模型進行了性能測試,使用檢測精度,運行速度及訓練后模型權重文件大小等指標對模型進行綜合評價,得出以下結論:
1)本文構建的檢測系統(tǒng)對所有類別目標的綜合檢測精度能達到79.45/%,在同環(huán)境下相較Tiny-YOLOv3和MobileNet-SSD分別提高21.2%和15.9%,同時在多種場景泛化性能良好。
2)測試環(huán)境下的檢測速度可達37 FPS/m.s-1,訓練后權重文件大小僅有38.7 MB。
綜上所述,該系統(tǒng)可在低算力無人機機載硬件上對多尺度,多類別目標進行實時高精度檢測,意味著其能夠在智能交通管理,自然災害預警,以及軍事偵察等領域發(fā)揮廣泛作用。然而受限于數(shù)據(jù)集樣本有限,本次研究尚未針對夜晚等更多場景進行訓練和測試,未來將進一步研究通過數(shù)據(jù)采集以及生成對抗網(wǎng)絡組合的方法來獲取更多場景下的目標,以提高模型的泛化能力。