冒國(guó)韜,鄧天民,2,*,于楠晶
1.重慶交通大學(xué) 交通運(yùn)輸學(xué)院,重慶 400074
2.重慶大學(xué) 自動(dòng)化學(xué)院,重慶 400044
3.重慶交通大學(xué) 航運(yùn)與船舶工程學(xué)院,重慶 400074
隨著航空遙感技術(shù)的發(fā)展,無(wú)人機(jī)在軍事偵查、環(huán)境監(jiān)測(cè)及交通規(guī)劃等領(lǐng)域引起了廣泛關(guān)注,無(wú)人機(jī)圖像目標(biāo)檢測(cè)技術(shù)作為無(wú)人機(jī)圖像應(yīng)用的關(guān)鍵技術(shù)之一,能夠拓寬無(wú)人機(jī)的場(chǎng)景理解能力,在軍事和民用領(lǐng)域具有重要的應(yīng)用價(jià)值。然而,傳統(tǒng)目標(biāo)檢測(cè)方法由于手工特征設(shè)計(jì)繁瑣、魯棒性差及計(jì)算冗余等原因,難以滿足無(wú)人機(jī)圖像目標(biāo)檢測(cè)的需求。近年來(lái),以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為代表的深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)領(lǐng)域迎來(lái)了迅速發(fā)展[1],基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法憑借其強(qiáng)大的自適應(yīng)學(xué)習(xí)能力和特征提取能力,在檢測(cè)性能上遠(yuǎn)超傳統(tǒng)的目標(biāo)檢測(cè)方法,因此越來(lái)越多學(xué)者開始利用深度學(xué)習(xí)的方法進(jìn)行無(wú)人機(jī)圖像目標(biāo)檢測(cè)。當(dāng)前基于深度學(xué)習(xí)的無(wú)人機(jī)圖像目標(biāo)檢測(cè)方法可依據(jù)是否需要區(qū)域建議分為2 類:
1)基于區(qū)域建議的無(wú)人機(jī)圖像目標(biāo)檢測(cè)算法,此類方法通過(guò)提取若干候選區(qū)域的特征信息來(lái)對(duì)預(yù)設(shè)的候選目標(biāo)區(qū)域進(jìn)行分類與回歸,進(jìn)而獲取目標(biāo)的類別與位置,其中較為典型的有Faster R-CNN[2]、Mask R-CNN[3]、Cascade RCNN[4]等。近年來(lái),許多學(xué)者基于這類算法提出了針對(duì)無(wú)人機(jī)圖像目標(biāo)的檢測(cè)方法。例如,Liu 等[5]針對(duì)無(wú)人機(jī)圖像小目標(biāo)可獲取特征信息少的問(wèn)題,基于Faster R-CNN 網(wǎng)絡(luò)設(shè)計(jì)了一種多分支并行特征金字塔網(wǎng)絡(luò)(Multi-branch Parallel Feature Pyramid Networks, MPFPN)以捕獲更豐富的小目標(biāo)特征信息,此外,通過(guò)引入監(jiān)督空間注意力模塊(Supervised Spatial Attention Module, SSAM)減弱背景噪聲的干擾,有效提升了對(duì)無(wú)人機(jī)圖像小目標(biāo)的檢測(cè)性能,但對(duì)于訓(xùn)練圖像中從未標(biāo)注的物體存在誤檢的情況。Lin 等[6]在Cascade R-CNN 網(wǎng)絡(luò)的基礎(chǔ)上提出了多尺度特征提取骨干網(wǎng)絡(luò)Trident-FPN,同時(shí)引入注意力機(jī)制設(shè)計(jì)了一種注意力雙頭檢測(cè)器,有效改善了由于無(wú)人機(jī)圖像目標(biāo)尺度差異大對(duì)目標(biāo)檢測(cè)器帶來(lái)的不利影響,但區(qū)域建議網(wǎng)絡(luò)較大的計(jì)算開銷還有待改善。
2)基于回歸的無(wú)人機(jī)圖像目標(biāo)檢測(cè)算法,該類方法在不進(jìn)行區(qū)域建議的情況下完成端到端的目標(biāo)檢測(cè),直接通過(guò)初始錨點(diǎn)框?qū)δ繕?biāo)定位并預(yù)測(cè)類別,典型的有YOLO(You Only Look Once)系列算法[7]、單擊多盒檢測(cè)器(Single Shot MultiBox Detector,SSD)[8]及RetinaNet[9]等。為達(dá)到無(wú)人機(jī)圖像目標(biāo)實(shí)時(shí)檢測(cè)的目的,已有研究人員將基于回歸的目標(biāo)檢測(cè)算法應(yīng)用于無(wú)人機(jī) 圖 像 領(lǐng) 域。例 如,Zhang 等[10]提 出 一 種 基 于YOLOv3 的深度可分離注意力引導(dǎo)網(wǎng)絡(luò),通過(guò)引入注意力模塊并將部分標(biāo)準(zhǔn)卷積替換為深度可分離卷積,有效提升了對(duì)無(wú)人機(jī)圖像中小目標(biāo)車輛的檢測(cè)效果。Wang 等[11]提出了一種高效的無(wú)人機(jī)圖像目標(biāo)檢測(cè)器SPB-YOLO,首先利用設(shè)計(jì)的條形瓶頸(Strip Bottleneck, SPB)模塊來(lái)提高對(duì)不同尺度目標(biāo)的檢測(cè)效果,其次,通過(guò)基于路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet)[12]提出的特征圖上采樣策略,提高了檢測(cè)器在無(wú)人機(jī)圖像密集檢測(cè)任務(wù)中的表現(xiàn)。裴偉等[13]提出了一種基于特征融合的無(wú)人機(jī)圖像目標(biāo)檢測(cè)方法,通過(guò)引入不同分類層的特征融合機(jī)制以高效的結(jié)合網(wǎng)絡(luò)淺層和深層的特征信息,有效改善了SSD 目標(biāo)檢測(cè)算法存在的漏檢和重復(fù)檢測(cè)問(wèn)題,但由于更多的網(wǎng)絡(luò)層次和深度增加了較大的計(jì)算開銷,嚴(yán)重影響了目標(biāo)檢測(cè)實(shí)時(shí)性。
由于大視場(chǎng)下的無(wú)人機(jī)航拍圖像目標(biāo)往往呈現(xiàn)稀疏不均的分布,搜索目標(biāo)將會(huì)花費(fèi)更高的成本。此外,無(wú)人機(jī)航拍圖像的待檢目標(biāo)具有小尺度、背景復(fù)雜、尺度差異大及排列密集等特征,通用場(chǎng)景的目標(biāo)檢測(cè)方法很難取得理想的檢測(cè)效果?;诖耍疚奶岢鲆环N多尺度分割注意力單元(Multi-Scale Split Attention Unit,MSAU),分別從通道和空間2 個(gè)維度自適應(yīng)的挖掘不同尺度特征空間的重要特征信息,抑制干擾特征信息,通過(guò)將其嵌入基礎(chǔ)骨干網(wǎng)絡(luò),使網(wǎng)絡(luò)更具指向性的提取任務(wù)目標(biāo)區(qū)域的關(guān)鍵信息;進(jìn)一步的,本文結(jié)合加權(quán)特征融合思想提出一種自適應(yīng)加權(quán)特征融合方法(Adaptive Weighted feature Fusion,AWF),通過(guò)動(dòng)態(tài)調(diào)節(jié)各個(gè)特征層的重要性分布權(quán)重,實(shí)現(xiàn)淺層細(xì)節(jié)信息與深層語(yǔ)義信息的高效融合。最后,結(jié)合以上提出的MSAU 和AWF 兩種策略,本文設(shè)計(jì)了一種基于多尺度分割注意力的無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)算法(Multi-scale Split Attention-You Only Look Once,MSA-YOLO)。
MSA-YOLO 算法的核心思想是盡可能保證目標(biāo)檢測(cè)器實(shí)時(shí)檢測(cè)性能的前提下,著重關(guān)注如何挖掘有益于無(wú)人機(jī)圖像目標(biāo)檢測(cè)的關(guān)鍵特征信息,通過(guò)提出的多尺度分割注意力單元MSAU 和自適應(yīng)加權(quán)特征融合AWF 來(lái)提升基準(zhǔn)模型YOLOv5 在無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)中的表現(xiàn)。MSA-YOLO 算法的框架結(jié)構(gòu)如圖1所示,嵌入在骨干網(wǎng)絡(luò)瓶頸層(Bottleneck Layer)中的多尺度分割注意力單元MSAU 主要包括多尺度特征提取模塊、通道注意力模塊及空間注意力模塊3 個(gè)部分,首先通過(guò)多尺度特征提取模塊提取出豐富的多尺度特征信息,隨后利用并行組合的混合域注意力為多尺度特征層的不同特征通道和區(qū)域賦予不同的注意力權(quán)重,從大量多尺度特征信息中篩選出對(duì)無(wú)人機(jī)圖像任務(wù)目標(biāo)更重要的信息;自適應(yīng)加權(quán)特征融合AWF利用可學(xué)習(xí)的權(quán)重系數(shù)對(duì)3 個(gè)特征尺度的特征層進(jìn)行加權(quán)處理并實(shí)現(xiàn)自適應(yīng)的特征融合,進(jìn)而結(jié)合豐富的上下文信息強(qiáng)化目標(biāo)檢測(cè)器的表征能力。
圖1 MSA-YOLO 算法框架結(jié)構(gòu)圖Fig.1 Architecture of MSA-YOLO algorithm
在特征提取過(guò)程中,采用固定尺寸的卷積核只能提取到目標(biāo)局部的特征信息,無(wú)法通過(guò)不同感受野挖掘豐富的上下文信息,為有效利用不同尺度的特征空間信息,本文設(shè)計(jì)了一種多尺度特征提取模 塊(Multi-scale Feature Extraction Module,MFEM),通過(guò)多尺度卷積的方式來(lái)獲取不同尺度的特征信息。MFEM 的多尺度特征提取過(guò)程如圖2 所示,假定多尺度特征提取模塊MFEM 的輸入特征空間為X=[X1,X2,…,Xc]∈RC×H×W,通過(guò)split 切片操作將輸入特征空間X的通道平均切分為n個(gè)部分,若C表示該輸入特征的通道數(shù),則切片后各個(gè)部分Xi的通道數(shù)為C'=C/n,為了降低模塊的參數(shù)量,本文采用不同分組數(shù)量Gi且不同卷積核尺寸ki×ki的分組卷積提取多尺度的特征信息Fi∈RC'×H×W
圖2 多尺度特征提取模塊流程圖Fig.2 Flow chart of multi-scale feature extraction module
式中:(Xi,Gi)表示對(duì)特征圖Xi進(jìn)行分組數(shù)量為Gi且卷積核尺寸為ki×ki的卷積操作,為保證模型較小的計(jì)算開銷,本文將輸入特征空間切分為4 個(gè)部分,則設(shè)置n=4,分組卷積核尺寸ki分別為3、5、7、9,分組數(shù)量Gi分別為1、2、3、4。
各個(gè)部分的特征圖Xi在分別經(jīng)過(guò)不同尺寸的卷積核后獲得了不同尺度的感受野,并提取出不同尺度的特征信息Fi,對(duì)Fi進(jìn)行Concat 操作可以得到最終融合后的特征空間F∈RC×H×W
式中:Cat(·)表示對(duì)所有的特征圖進(jìn)行Concat操作。
本文的多尺度特征提取模塊在一定程度上彌補(bǔ)了卷積核尺寸單一對(duì)網(wǎng)絡(luò)特征提取能力的不利影響,對(duì)輸入特征空間進(jìn)行均勻分割,再分別利用4 種不同感受野的卷積核捕捉不同尺度的特征空間信息,最后將獲得的4 種不同尺度的特征信息進(jìn)行融合,使得融合后的特征空間F具備豐富的多尺度上下文信息,有利于交錯(cuò)復(fù)雜的無(wú)人機(jī)圖像檢測(cè)任務(wù)。
注意力機(jī)制中,所有特征信息會(huì)根據(jù)學(xué)到的注意力權(quán)重進(jìn)行加權(quán)處理,相關(guān)性較低的特征信息被賦予較低的權(quán)重,反之則被賦予較高的權(quán)重,以此弱化不重要信息的干擾,并分離出重要信息。按照注意力域的不同,一般可將注意力機(jī)制分為通道域注意力機(jī)制、空間域注意力機(jī)制及混合域注意力機(jī)制。通道注意力機(jī)制關(guān)注特征圖通道之間的遠(yuǎn)程依賴關(guān)系,空間域注意力機(jī)制聚焦于特征圖中對(duì)分類起決定作用的像素區(qū)域,混合域注意力機(jī)制則同時(shí)利用到空間域和通道域的信息,每個(gè)通道特征圖中的每個(gè)元素都對(duì)應(yīng)一個(gè)注意力權(quán)重。這些即插即用的注意力模型可以無(wú)縫集成到各種深度學(xué)習(xí)網(wǎng)絡(luò)中用以指導(dǎo)目標(biāo)檢測(cè)任務(wù)。
為更好地提取無(wú)人機(jī)圖像目標(biāo)的特征信息,弱化無(wú)關(guān)背景信息的干擾,本文結(jié)合通道域注意力和空間域注意力,提出了一種并行組合的混合域注意力,一方面沿著通道維度獲取通道間的遠(yuǎn)程相互依賴關(guān)系,另一方面通過(guò)強(qiáng)調(diào)空間維度感興趣的任務(wù)相關(guān)區(qū)域進(jìn)一步挖掘特征圖的上下文信息。本文設(shè)計(jì)的混合域注意力由擠壓激勵(lì)模 塊(Squeeze-and-Excitation Module,SEM)[14]和空間注意力模塊(Spatial Attention Module,SAM)[15]并行連接組成。通道注意力旨在通過(guò)生成一種可以維持通道間相關(guān)性的注意力權(quán)重圖來(lái)挖掘輸入與輸出特征通道之間的遠(yuǎn)距離依賴關(guān)系,SEM 和SAM 的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 SEM 和SAM 的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Network structure of SEM and SAM
假設(shè)通道注意力模塊SEM 的輸入特征空間為X=[X1,X2,…,Xc]∈RC×H×W,C表示該輸入特征的通道數(shù),H×W表示輸入特征的尺度大小,輸入特征空間的第c個(gè)通道用Xc∈RH×W表示。Fs(·)表示擠壓(Squeeze)映射,F(xiàn)e(·,W)表示激勵(lì)(Excitation)映射,F(xiàn)s(·)通常采用全局平均池化(Global Average Pooling,GAP)實(shí)現(xiàn),對(duì)輸入空間特征X進(jìn)行Fs(·)映射后獲得全局特征空間Z∈RC×H×W的第c個(gè)特征Zc:進(jìn)一步的,利用Fe(·,W)激勵(lì)操作來(lái)降低計(jì)算開銷,獲得高效的自適應(yīng)學(xué)習(xí)注意力圖。首先使用參數(shù)為W0,降維系數(shù)為r的全連接(Fully Connected,F(xiàn)C)層進(jìn)行降維操作獲得維度為C/r×1×1 的特征,通過(guò)ReLU 函數(shù)對(duì)特征進(jìn)行激勵(lì)操作δ,經(jīng)過(guò)參數(shù)為W1的FC 層后恢復(fù)原始的維度C×1×1,最后利用sigmoid 激活函數(shù)進(jìn)行歸一化后得到各個(gè)通道的注意力權(quán)重S,即
空間注意力模塊旨在利用輸入特征的空間信息生成空間注意力權(quán)重圖,并對(duì)輸入特征進(jìn)行空間域注意力加權(quán),進(jìn)而增強(qiáng)重要區(qū)域的特征表達(dá)。空間注意力模塊的輸入特征空間與通道注意 力 模 塊 的 輸 入 特 征 空 間X=[X1,X2,…,Xc]∈RC×H×W相同,分別沿著通道維度采用全局最大池化(Global Max Pooling,GMP)和全局平均池化(Global Average Pooling,GAP)壓 縮 后 得 到Xavg∈R1×H×W和Xmax∈R1×H×W這2 個(gè)特征圖,對(duì)2 個(gè)特征圖進(jìn)行concat操作后采用感受野較大7×7 卷積核進(jìn)行卷積操作F7×7conv,最后通過(guò)sigmoid 激活函數(shù)σ進(jìn)行歸一化后得到空間域注意力權(quán)重圖M∈R1×H×W:
空間注意力模塊SAM 將輸入特征的每個(gè)通道進(jìn)行相同的空間加權(quán)處理,忽視了通道域的信息交互;而通道注意力模塊SEM 則忽視了空間域內(nèi)部的信息交互,將一個(gè)通道內(nèi)的信息進(jìn)行全局加權(quán)處理。因此,本文將通道注意力模塊與空間注意力模塊通過(guò)并行的方式連接,旨在從全局特征信息出發(fā),沿著通道與空間2 個(gè)維度深入挖掘輸入特征內(nèi)部的關(guān)鍵信息,進(jìn)而篩選出任務(wù)相關(guān)的重要信息,弱化不相關(guān)信息的干擾。相比于級(jí)聯(lián)連接的組合方式,這種并行組合的方法無(wú)需考慮通道注意力模塊與空間注意力模塊的先后順序,2 種注意力模塊都直接對(duì)初始輸入特征空間進(jìn)行學(xué)習(xí),不存在特征學(xué)習(xí)過(guò)程中互相干擾的情況,從而使混合域注意力的效果更穩(wěn)定[16]。
混合域注意力同時(shí)考慮了空間注意力和通道注意力,在一定程度上豐富了特征信息,但無(wú)法有效地挖掘和利用不同尺度的特征空間信息。鑒于此,本文設(shè)計(jì)了一種能夠有效地建立多尺度注意力間長(zhǎng)期依賴關(guān)系的多尺度分割注意力單元MSAU,如圖4 所示。MSAU 主要由多尺度特征提取模塊MFEM、通道注意力模塊SEM 及空間注意力模塊SAM 組成,輸入特征空間X通過(guò)多尺度特征提取模塊捕捉不同尺度的特征信息,得到多尺度特征空間F,隨后,不同尺度的特征圖分別通過(guò)通道注意力模塊和空間注意力模塊得到多尺度注意力權(quán)重,最后利用并行組合的通道與空間2 個(gè)維度的多尺度注意力進(jìn)行注意力加權(quán)后得到最終輸出的特征空間Y。
圖4 多尺度分割注意力單元結(jié)構(gòu)圖Fig.4 Architecture of multi-scale split attention unit
假設(shè)多尺度分割注意力單元MSAU 的輸入特征空間為X=[X1,X2,…,Xc]∈RC×H×W,經(jīng)過(guò)多尺度特征提取模塊提取特征后得到多尺度特征空間F∈RC×H×W,隨后不同尺度特征圖Fi利用通道注意力模塊來(lái)獲得多尺度通道注意力權(quán)重Si:
式中:SEM(·)代表利用通道注意力模塊SEM 挖掘特征圖的通道注意力;Si為Fi的通道注意力權(quán)重值,因此整個(gè)多尺度通道注意力S可以表示為
式中:⊕表示Concat 操作;S為多尺度通道注意力權(quán)重。
為建立通道間的遠(yuǎn)程依賴關(guān)系,實(shí)現(xiàn)多尺度通道注意力之間的信息交互,進(jìn)一步利用Softmax 函數(shù)對(duì)通道注意力Si進(jìn)行重新標(biāo)定得到最終的通道注意力權(quán)重Hi:
式中:Softmax(·)表示Softmax 操作,用于獲取多尺度通道的重標(biāo)定權(quán)重Hi。
類似的,可以利用空間注意力模塊捕捉不同尺度特征圖Fi的多尺度空間注意力權(quán)重Mi:
式中:SAM(·)代表利用空間注意力模塊SAM 捕捉特征圖的空間注意力;Mi為Fi的空間注意力權(quán)重值,因此整個(gè)多尺度空間注意力M可表示為
式中:+表示add 操作;M為多尺度空間注意力權(quán)重。
隨后,利用Softmax 函數(shù)Softmax(·)對(duì)空間注意力Mi進(jìn)行重新標(biāo)定得到最終的空間注意力權(quán)重Pi:
最后,將SEM 和SAM 學(xué)習(xí)到的多尺度通道注意力權(quán)重向量Hi和多尺度空間注意力權(quán)重圖Pi與多尺度特征空間F∈RC×H×W進(jìn)行注意力加權(quán)Fscale得到輸出的多尺度特征空間Yi:
式中:?表示特征加權(quán)乘法運(yùn)算符號(hào)。Concat 操作能在不破壞原始特征圖信息的前提下,完整地維持特征表示,因此,最終得到的多尺度分割注意力單元MSAU 的輸出Y可表示為
MSAU 首先利用多尺度特征提取模塊有效提取了不同尺度特征空間的多維特征,隨后將其分別輸入并行組合的混合域注意力,為不同尺度特征空間賦予了不同的重要性權(quán)重。這種方法不僅能考慮到多尺度特征信息,同時(shí)使網(wǎng)絡(luò)能夠有選擇地處理關(guān)鍵信息,對(duì)目標(biāo)區(qū)域投入更多注意力資源,以獲取更多待檢目標(biāo)的細(xì)節(jié)信息。同時(shí),不同尺度特征空間的多尺度注意力權(quán)重會(huì)在模型訓(xùn)練過(guò)程中根據(jù)每輪輸入特征空間的重要性差異進(jìn)行自適應(yīng)的、精確的調(diào)整更新,通過(guò)將其嵌入骨干網(wǎng)絡(luò),進(jìn)而利用豐富的特征空間以指導(dǎo)無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)。
淺層網(wǎng)絡(luò)提取目標(biāo)紋理邊緣特征,具有更多的細(xì)節(jié)內(nèi)容描述;深層網(wǎng)絡(luò)則提取目標(biāo)豐富的語(yǔ)義特征,但同時(shí)削弱了對(duì)小目標(biāo)位置信息和細(xì)節(jié)信息的感知,以致丟失小目標(biāo)在特征圖中的特征信息[17]。PANet 將不同深度特征信息以平等關(guān)系跨層融合,忽略了不同特征層之間的關(guān)系,直接使用3 個(gè)特征尺度的輸出特征進(jìn)行目標(biāo)預(yù)測(cè),但不同深度特征層對(duì)任務(wù)目標(biāo)的貢獻(xiàn)其實(shí)是不同的,淺層網(wǎng)絡(luò)特征在小目標(biāo)檢測(cè)過(guò)程中占據(jù)著更重要的位置。針對(duì)以上問(wèn)題,本節(jié)設(shè)計(jì)了一種自適應(yīng)加權(quán)特征融合方法AWF,通過(guò)為各尺度特征層賦予不同比例權(quán)重,有效利用了3 個(gè)不同尺度特征層的淺層和深層特征,自適應(yīng)的強(qiáng)化特征金字塔中對(duì)任務(wù)目標(biāo)檢測(cè)更重要的特征信息,進(jìn)而融合豐富的特征信息以指導(dǎo)無(wú)人機(jī)圖像小目標(biāo)檢測(cè)任務(wù)。
AWF 在進(jìn)行最終的特征融合時(shí)采用了加權(quán)再相加的方式,因此,需要確保參與融合的特征層分辨率相同,且通道數(shù)也應(yīng)相同。對(duì)于特征金字塔的輸出特征Ln∈RCn×Hn×W n,其中n∈1,2,3,通過(guò)上采樣或下采樣將特征金字塔輸出特征Lm∈RCm×Hm×W m的特征圖分辨率和通道數(shù)都調(diào)整為與Ln相同,Lm→n∈RCn×Hn×W n表示調(diào)整后的特征。對(duì)于上采樣,首先使用1×1 卷積層來(lái)調(diào)整特征的通道數(shù),然后通過(guò)雙線性插值來(lái)提高分辨率;對(duì)于下采樣,則使用步長(zhǎng)為2 的最大池化層和3×3 卷積層同時(shí)改變特征的分辨率和通道數(shù)。將調(diào)整后的特征通過(guò)Concat 操作進(jìn)行整合后可表示為整個(gè)特征金字塔的輸出特征L∈R3Cn×Hn×W n:
隨后,使用Softmax 函數(shù)Softmax(·)和1×1卷積層F1×1conv得到權(quán)重矩陣W∈R4×Hn×W n:
最后,沿著通道維度將權(quán)重矩陣W切割為再沿著通道維度進(jìn)行擴(kuò)展后得到特征金字塔調(diào)整后特征Lm→n對(duì)應(yīng)的重要性權(quán)重參數(shù)αn,βn,γn∈RCn×Hn×W n,這些重要性權(quán)重參數(shù)來(lái)自前面特征層經(jīng)過(guò)卷積后的輸出,并通過(guò)網(wǎng)絡(luò)的梯度反向傳播變?yōu)榱丝勺赃m應(yīng)學(xué)習(xí)的參數(shù)。將其與對(duì)應(yīng)特征Lm→n加權(quán)融合后得到新的融合特征Fn:
由于加權(quán)特征融合的權(quán)重參數(shù)均源自前面3個(gè)尺度特征層的輸出,因此可學(xué)習(xí)的權(quán)重參數(shù)和特征是息息相關(guān)的,數(shù)據(jù)集實(shí)例樣本的特點(diǎn)則是影響貢獻(xiàn)衡量標(biāo)準(zhǔn)的主要因素,針對(duì)小目標(biāo)實(shí)例居多的無(wú)人機(jī)航拍圖像,則認(rèn)為淺層網(wǎng)絡(luò)中豐富的紋理和邊緣特征對(duì)無(wú)人機(jī)航拍目標(biāo)檢測(cè)任務(wù)具有更大的貢獻(xiàn),更有利于提取小目標(biāo)的類別及位置信息,因此淺層網(wǎng)絡(luò)特征層則會(huì)被賦予更高的權(quán)重值,而這樣一個(gè)有效的權(quán)重系數(shù)可以經(jīng)過(guò)不斷優(yōu)化的訓(xùn)練過(guò)程產(chǎn)生。在模型訓(xùn)練過(guò)程中,AWF 根據(jù)各尺度特征層對(duì)當(dāng)前任務(wù)目標(biāo)的貢獻(xiàn)大小來(lái)動(dòng)態(tài)的調(diào)節(jié)其權(quán)重值,充分挖掘了不同深度特征層的多維特征,可以更好地監(jiān)督網(wǎng)絡(luò)的特征融合過(guò)程,使融合后的特征兼顧強(qiáng)大的語(yǔ)義信息和豐富的幾何細(xì)節(jié)信息。
值得一提的是,這種自適應(yīng)加權(quán)的特征融合方法并不是能夠完全適用于任何目標(biāo)檢測(cè)任務(wù),在數(shù)據(jù)集整體實(shí)例的像素大小或各類目標(biāo)實(shí)例的特征未呈現(xiàn)出一種較為顯著的趨勢(shì)時(shí),可能很難達(dá)到較為理想的效果。
1)實(shí)驗(yàn)平臺(tái):本文實(shí)驗(yàn)采用的硬件配置為Nvidia RTX3060 GPU 和Intel i5-10400 2.90 GHz CPU,軟件環(huán)境為Windows10 系統(tǒng)下的Pytorch 深度學(xué)習(xí)框架。
2)數(shù)據(jù)集:本文實(shí)驗(yàn)所采用的數(shù)據(jù)來(lái)源于VisDrone無(wú)人機(jī)圖像目標(biāo)檢測(cè)公開數(shù)據(jù)集[18]。該數(shù)據(jù)集包括行人(指具有行走或站立姿勢(shì)的人)、人(指具有其他姿勢(shì)的人)、汽車、貨車、公共汽車、卡車、摩托車、自行車、遮陽(yáng)蓬三輪車及三輪車共10 個(gè)類別。VisDrone 數(shù)據(jù)集由288 個(gè)視頻剪輯而成,分為1 360×765 和960×540 像素2 種不同的圖像尺寸,總計(jì)提供了由不同高度的無(wú)人機(jī)捕獲的10 209 幅靜態(tài)圖像,其中包括6 471 幅訓(xùn)練集圖像、548 幅驗(yàn)證集圖像及3 190 幅測(cè)試集圖像,共計(jì)260 萬(wàn)個(gè)目標(biāo)實(shí)例樣本。
3)評(píng)價(jià)指標(biāo):為評(píng)估本文所提算法的有效性,選取模型規(guī)模、參數(shù)數(shù)量及每秒浮點(diǎn)運(yùn)算次數(shù)(Floating Point Operations,F(xiàn)LOPs)來(lái)評(píng)價(jià)模型的復(fù)雜程度,選取平均均值精度(mean Average Precision,mAP)作為模型對(duì)多個(gè)目標(biāo)類別綜合檢測(cè)性能的評(píng)價(jià)指標(biāo),采用平均精度(Average Precision,AP)來(lái)評(píng)價(jià)模型對(duì)單個(gè)目標(biāo)類別的檢測(cè)性能。
為了驗(yàn)證所提的多尺度分割注意力單元MSAU 和自適應(yīng)加權(quán)特征融合AWF 在無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)中的有效性,本文在VisDrone測(cè)試集上進(jìn)行了一系列的消融實(shí)驗(yàn),以YOLOv5為基線算法,mAP、模型規(guī)模、參數(shù)量及浮點(diǎn)運(yùn)算次數(shù)為評(píng)價(jià)指標(biāo),最終結(jié)果如表1 所示。
表1 VisDrone 測(cè)試集上的消融實(shí)驗(yàn)結(jié)果Table 1 Results of ablation experiment on VisDrone test set
消融實(shí)驗(yàn)的結(jié)果表明,將提出的多尺度分割注意力單元MSAU 嵌入基線算法的骨干網(wǎng)絡(luò)后,算法的模型規(guī)模和參數(shù)量分別增加了15 MB 和7.53M(1M=106),同時(shí)浮點(diǎn)運(yùn)算次數(shù)增加到140.9G(1G=109),取得了34.1%的mAP,檢測(cè)精度的提升也從側(cè)面反映出了MSAU 捕獲不同尺度特征信息的能力,正是由于其精準(zhǔn)高效的挖掘了特征空間在多尺度上的特征信息,因此能在確保模型較小計(jì)算復(fù)雜度的同時(shí)有效提升對(duì)無(wú)人機(jī)航拍圖像目標(biāo)的檢測(cè)效果;進(jìn)一步的,在基線算法基礎(chǔ)上采用所提的自適應(yīng)加權(quán)特征融合AWF 方法,相比基線算法僅增加了2.21M 的參數(shù)量和5.4G 的浮點(diǎn)運(yùn)算次數(shù),并取得了32.8%的mAP,AWF 在自適應(yīng)地融合了網(wǎng)絡(luò)深層與淺層的豐富語(yǔ)義信息和幾何信息后,能夠較為充分的捕獲無(wú)人機(jī)圖像目標(biāo)的特征信息。同時(shí),由于AWF 添加了3 個(gè)特征融合層,且每個(gè)特征融合層都利用到前面各個(gè)特征尺度的輸出特征,給網(wǎng)絡(luò)帶來(lái)了一定的計(jì)算開銷,但相比于基線算法采用Concat 的特征融合操作,加權(quán)再相加的特征融合方式可使融合后的特征空間維持在更低的通道數(shù),因此保持了良好的實(shí)時(shí)性能;與基線算法相比較,本文所提MSA-YOLO 算法的參數(shù)量和浮點(diǎn)運(yùn)算次數(shù)分別增加了9.6 M 和31.7 G,模型規(guī)模由于參數(shù)量的增高而上升到108 MB,mAP 則比基線算法提高了2.8%,達(dá)到34.7%。綜上所述,MSA-YOLO 算法在維持較小計(jì)算開銷的前提下獲得了更好的檢測(cè)性能,可以有效地指導(dǎo)無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)。
為證明MSA-YOLO 算法對(duì)無(wú)人機(jī)圖像各類目標(biāo)檢測(cè)的有效性,本文在VisDrone 測(cè)試集上與各種先進(jìn)的無(wú)人機(jī)圖像目標(biāo)檢測(cè)算法進(jìn)行對(duì)比 分 析,表2[19-24]為 各 算 法 對(duì)VisDrone 測(cè) 試 集10 類目標(biāo)的AP 值與mAP 值。從表2 中可以看出,MSA-YOLO 算法與其他先進(jìn)算法相比取得了最優(yōu)的綜合性能,比次優(yōu)的CDNet 高出0.5%的mAP。對(duì)于汽車、卡車及公共汽車等目標(biāo)類別取得了最優(yōu)的檢測(cè)性能,分別達(dá)到了76.8%、41.4%及60.9%的AP 值,對(duì)于行人、貨車、及摩托車等縱橫比較大且實(shí)例個(gè)數(shù)較少的目標(biāo)類別則分別達(dá)到了33.4%、41.5%及31.0%的較優(yōu)AP 值,在目標(biāo)實(shí)例個(gè)數(shù)較少的情況下能夠較為充分的挖掘其特征信息,由此可見本文提出的MSA-YOLO 算法在處理無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)時(shí)具有較大優(yōu)勢(shì),其檢測(cè)效果是十分可觀的。
表2 不同算法在VisDrone 測(cè)試集上的AP 與mAP 對(duì)比Table 2 Comparison of AP and mAP of different algorithms on VisDrone test set
為了驗(yàn)證MSA-YOLO 算法在實(shí)際場(chǎng)景中的檢測(cè)效果,選取VisDrone 測(cè)試集中實(shí)際檢測(cè)較為困難的圖像進(jìn)行測(cè)試,部分檢測(cè)結(jié)果如圖5 所示,可以看出,本文方法對(duì)不同拍攝角度下背景復(fù)雜且分布密集的無(wú)人機(jī)圖像展現(xiàn)出了較為優(yōu)異的檢測(cè)性能,能夠有效地抑制圖像背景噪聲信息的干擾,更具選擇性的挖掘有利于無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)的重要特征信息。為進(jìn)一步評(píng)價(jià)基線算法和MSA-YOLO 算法在處理無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)時(shí)的性能差異,本文在VisDrone測(cè)試集中隨機(jī)選取了小目標(biāo)樣例圖片進(jìn)行測(cè)試,并可視化對(duì)比分析,如圖6 所示。
圖5 MSA-YOLO 在VisDrone 測(cè)試集上的部分檢測(cè)結(jié)果Fig.5 Partial detection results of MSA-YOLO on VisDrone test set
本文分別抽取了晴天和夜間的小目標(biāo)樣例并對(duì)比了2 種算法的檢測(cè)結(jié)果,可以看出,MSAYOLO 算法有效提升了基線算法對(duì)小尺度目標(biāo)的檢測(cè)效果。通過(guò)圖6(a)與圖6(b)的對(duì)比發(fā)現(xiàn),基線算法錯(cuò)將站立的行人檢測(cè)為人,且存在大量行人目標(biāo)漏警的情況,而MSA-YOLO 算法則能夠精準(zhǔn)的進(jìn)行識(shí)別。對(duì)比圖6(c)和圖6(d)可以看出,在夜間低照度的情況下,基線算法受到背景噪聲信息的干擾出現(xiàn)了部分漏警,MSA-YOLO算法則通過(guò)弱化噪聲干擾、強(qiáng)化網(wǎng)絡(luò)感興趣的多尺度特征,從大量多尺度特征信息中分離出了有利于無(wú)人機(jī)圖像目標(biāo)檢測(cè)的信息,在面對(duì)復(fù)雜的背景信息時(shí)表現(xiàn)出了較強(qiáng)的抗干擾能力,有效改善了夜間的漏警情況??傮w而言,在處理無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)時(shí),MSA-YOLO 算法相比于基線算法有更明顯的優(yōu)勢(shì),對(duì)于小尺度、背景復(fù)雜及排列密集的無(wú)人機(jī)圖像目標(biāo)具備更強(qiáng)的辨識(shí)能力,有效避免了出現(xiàn)虛警、漏警等現(xiàn)象。
圖6 VisDrone 測(cè)試集上的小目標(biāo)檢測(cè)效果對(duì)比Fig.6 Comparison of small object detection effect on VisDrone test set
本文提出一種基于多尺度分割注意力的無(wú)人機(jī)圖像目標(biāo)檢測(cè)算法MSA-YOLO。針對(duì)無(wú)人機(jī)圖像背景復(fù)雜混亂的特點(diǎn),提出了多尺度分割注意力單元MSAU,在多個(gè)尺度上沿著空間和通道維度提取無(wú)人機(jī)圖像目標(biāo)的關(guān)鍵特征信息,同時(shí)弱化不相關(guān)的背景噪聲信息,有益于提高無(wú)人機(jī)圖像目標(biāo)檢測(cè)性能。針對(duì)無(wú)人機(jī)圖像小尺度目標(biāo)實(shí)例多,缺乏有效特征信息的問(wèn)題,提出了自適應(yīng)加權(quán)特征融合AWF 方法,通過(guò)自適應(yīng)學(xué)習(xí)的方式動(dòng)態(tài)調(diào)節(jié)各輸入特征層的權(quán)重,充分強(qiáng)調(diào)淺層細(xì)粒度特征信息在特征融合過(guò)程中的重要性,有效改善目標(biāo)檢測(cè)器對(duì)小目標(biāo)細(xì)節(jié)位置信息的感知能力。在VisDrone 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相比于現(xiàn)有的先進(jìn)無(wú)人機(jī)圖像目標(biāo)檢測(cè)方法,MSA-YOLO 算法在行人、貨車及摩托車類別上分別取得了第五、第三及第二的檢測(cè)效果,而在汽車、卡車及公共汽車這3 種目標(biāo)類別則上取得了最優(yōu)的檢測(cè)效果,能很好的應(yīng)對(duì)無(wú)人機(jī)圖像目標(biāo)檢測(cè)任務(wù)。