孫祎蕓,樊 臻?,董山玲,2,鄭榮濠,2,蘭 劍
(1.浙江大學(xué)電氣工程學(xué)院,浙江杭州 310027;2.浙江大學(xué)工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,浙江杭州 310027;3.西安交通大學(xué)電子與信息學(xué)部,陜西西安 710049)
當(dāng)前,世界各國(guó)都將海洋列為戰(zhàn)略發(fā)展領(lǐng)域,海洋目標(biāo)識(shí)別技術(shù)在軍民兩端均有良好的應(yīng)用前景.船舶作為海上交通、漁業(yè)捕撈、海洋資源開發(fā)、軍事偵察等諸多領(lǐng)域的重要載體,其識(shí)別任務(wù)有著重要的研究?jī)r(jià)值[1-3].
近些年來(lái),海洋船舶目標(biāo)識(shí)別已經(jīng)成為模式識(shí)別領(lǐng)域的研究熱點(diǎn).綜合國(guó)內(nèi)外船舶目標(biāo)識(shí)別研究現(xiàn)狀,所涉及的船舶圖像按照信息來(lái)源主要分為:合成孔徑雷達(dá)圖像、紅外圖像、可見光圖像等.合成孔徑雷達(dá)不受天氣、光照等外界環(huán)境的影響,可以獲取全天候的遠(yuǎn)距離海域船舶圖像,但由于斑點(diǎn)噪聲,它的識(shí)別精確度較差,容易產(chǎn)生較多錯(cuò)誤的識(shí)別;紅外船舶圖像的獲取同樣不依賴于外界光線,具有全天候的特點(diǎn),但紅外船舶圖像對(duì)于船舶細(xì)節(jié)信息的表現(xiàn)一般,多數(shù)紅外船舶圖像分辨率較低,不能反映目標(biāo)色彩信息[4];在近距離海域,可見光船舶圖像的分辨率高且獲取代價(jià)低,相比較紅外圖像與合成孔徑雷達(dá)圖像,可以直觀地展示船舶目標(biāo)的細(xì)節(jié)信息,例如目標(biāo)的紋理圖案、邊緣輪廓以及顏色模塊等[4],從而便于人眼直接觀察并作出分析判斷,但在夜間以及極端天氣條件下成像效果較差.因此,多種傳感器獲取的船舶圖像信息具有一定互補(bǔ)性.
在技術(shù)層面,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,許多研究者陸續(xù)將深度學(xué)習(xí)技術(shù)引入船舶目標(biāo)識(shí)別領(lǐng)域,基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的船舶識(shí)別技術(shù)已經(jīng)成為該領(lǐng)域的研究熱點(diǎn).Khellal等人在文獻(xiàn)[5]中提出了一種基于紅外圖像的船舶識(shí)別系統(tǒng),通過(guò)建立基于極限學(xué)習(xí)機(jī)(extreme learning machines,ELM)的新方法來(lái)學(xué)習(xí)紅外圖像中有用的CNN特征,并進(jìn)行快速準(zhǔn)確的分類.Li等人在文獻(xiàn)[6]中提出了基于CNN的船舶分類方法,并將該方法應(yīng)用于AlexNet和GoogleNet網(wǎng)絡(luò)構(gòu)建兩個(gè)模型,在ImageNet上利用預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí),該方法在船舶圖像上識(shí)別性能良好.Solmaz等人在文獻(xiàn)[7]中提出基于CNN的多任務(wù)學(xué)習(xí)框架,同時(shí)考慮深度特征學(xué)習(xí)與分類改進(jìn)損失函數(shù)以優(yōu)化模型分類性能.Huang等人在文獻(xiàn)[8]中融合可見光圖像深層與淺層特征對(duì)船舶圖像進(jìn)行分類,該方法利用CNN學(xué)習(xí)圖像深層特征,通過(guò)Gabor濾波器對(duì)提取的深層特征和淺層特征進(jìn)行融合完備,并利用SVM進(jìn)行分類識(shí)別.Shi等人在文獻(xiàn)[9]中提出了一種多特征集成的CNN船舶識(shí)別模型,該模型在光學(xué)圖像上較單特征識(shí)別模型有較大性能提升.Liu等人在文獻(xiàn)[10]中提出了一種基于跨層多任務(wù)的船舶目標(biāo)檢測(cè)CNN模型,該模型通過(guò)特征共享、聯(lián)合學(xué)習(xí)和跨層連接等策略,同時(shí)解決可見光船舶圖像的目標(biāo)分類、檢測(cè)、分割問題并取得良好性能.Zhang等人在文獻(xiàn)[11]中采用Mask RCNN深度學(xué)習(xí)算法,構(gòu)建了基于深度卷積神經(jīng)網(wǎng)絡(luò)的船舶目標(biāo)特征提取和識(shí)別模型,通過(guò)對(duì)比分析驗(yàn)證了該模型在目標(biāo)檢測(cè)和分類方面的性能更好,體現(xiàn)了像素級(jí)識(shí)別的巨大優(yōu)勢(shì).Chen等人在文獻(xiàn)[12]中提出了一種新穎的混合深度學(xué)習(xí)方法,該方法結(jié)合了改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)和基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法,顯著提升了小型船舶檢測(cè)精確度.
綜上所述,現(xiàn)有的海洋船舶識(shí)別算法大多使用單源傳感器獲取的圖像進(jìn)行識(shí)別,沒有考慮到綜合多傳感器獲取圖像來(lái)補(bǔ)充單源圖像的缺失信息.多傳感器信息融合可以為識(shí)別精確度的提高提供一種穩(wěn)健的方式.作為最常用的兩類信源,可見光傳感器和紅外傳感器獲取圖像的融合可以充分利用雙源圖像互補(bǔ)信息,有望提升目標(biāo)綜合識(shí)別性能.不同于一般的目標(biāo)識(shí)別問題,已經(jīng)證實(shí)多數(shù)船舶類內(nèi)差異較小,目標(biāo)識(shí)別算法對(duì)其進(jìn)行類別區(qū)分難度較大,尤其是所獲取船舶圖像復(fù)雜的背景將會(huì)為船舶識(shí)別帶來(lái)更大的挑戰(zhàn).目前較為先進(jìn)的多源融合識(shí)別模型算法數(shù)量較少且識(shí)別精度不足,有待進(jìn)一步改進(jìn)[13-15].
近年來(lái)發(fā)展的視覺注意力機(jī)制通過(guò)模仿人類視覺系統(tǒng),在進(jìn)行圖像處理時(shí)聚焦于圖像空間中重要信息部分而非全部圖像特征信息,CBAM注意力機(jī)制嵌入通道和空間注意力子模塊來(lái)增強(qiáng)空間及通道維度上的特征信息[16],NAM注意力機(jī)制利用訓(xùn)練模型權(quán)重的方差度量來(lái)突出顯著特征[17],GAM注意力機(jī)制提出了一種“全局”注意機(jī)制,保留信息以放大“全局”跨維度的相互作用[18],在所有3個(gè)維度上捕捉重要特征,該機(jī)制可以引導(dǎo)模型學(xué)習(xí)具有重要信息的圖像區(qū)域,幫助模型提取目標(biāo)圖像中具有區(qū)分度的關(guān)鍵特征信息.SimAM注意力機(jī)制無(wú)需引入額外參數(shù)為特征圖推導(dǎo)出注意力權(quán)值[19],而是基于著名的神經(jīng)科學(xué)理論提出優(yōu)化能量函數(shù)以計(jì)算注意力權(quán)值,該模塊能靈活高效地學(xué)習(xí)跨通道和空間變化的注意力權(quán)重.Mobile network坐標(biāo)注意力機(jī)制繼承了通道注意方法的優(yōu)點(diǎn),該機(jī)制模擬通道間的關(guān)系,同時(shí)利用精確的位置信息捕獲多尺度特征[20].綜上所述,將注意力機(jī)制引入CNN中可以抑制圖像中無(wú)用的特征信息,將學(xué)習(xí)的重點(diǎn)聚焦于船舶目標(biāo)區(qū)域.因此,本文提出了一種基于注意力機(jī)制的雙流對(duì)稱特征融合網(wǎng)絡(luò)模型,通過(guò)融合可見光與紅外圖像特征信息提高識(shí)別精確度.
本文的主要貢獻(xiàn)如下:
1)提出了一種基于級(jí)聯(lián)平均融合的多級(jí)融合方法,有效利用可見光和紅外兩種模態(tài)的互補(bǔ)信息,從而獲取更加全面的船舶特征描述;
2)將空間注意力機(jī)制引入特征融合模塊,增強(qiáng)融合特征圖中關(guān)鍵區(qū)域的響應(yīng),從而提升模型整體識(shí)別性能.
基于單源光學(xué)傳感器獲取的圖像極易受到光照條件與極端天氣影響,僅依靠單源傳感器圖像進(jìn)行船舶識(shí)別遇到極大的挑戰(zhàn),多源信息融合為船舶目標(biāo)的精確魯棒識(shí)別提供了一種很有前景的手段;另一方面,深度學(xué)習(xí)算法可以自適應(yīng)獲取圖像中更細(xì)致抽象的特征表示,而注意力機(jī)制可以獲取更具分辨性能的特征表示.因此,針對(duì)海洋船舶識(shí)別問題,本文提出了一個(gè)基于注意力機(jī)制的雙流對(duì)稱特征融合網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型主要由雙流對(duì)稱特征提取模塊、引入注意力機(jī)制的多級(jí)特征融合模塊和識(shí)別模塊組成.其中,特征提取模塊利用雙流對(duì)稱卷積網(wǎng)絡(luò)分別提取預(yù)處理后的可見光圖像特征與紅外圖像特征;基于注意力機(jī)制的融合模塊增強(qiáng)可見光和紅外圖像特征描述中的關(guān)鍵信息,并將增強(qiáng)后特征表達(dá)進(jìn)行多級(jí)級(jí)聯(lián)平均融合,改善模型特征表達(dá);識(shí)別模塊由3個(gè)全連接層和1個(gè)Softmax輸出層組成,船舶識(shí)別結(jié)果通過(guò)Softmax輸出層獲得.具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,本節(jié)將對(duì)該模型的設(shè)計(jì)進(jìn)行詳細(xì)闡述.
圖1 基于注意力機(jī)制的雙流對(duì)稱特征融合網(wǎng)絡(luò)總體架構(gòu)Fig.1 Architecture of two-stream symmetric feature fusion network based on attention mechanism
當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像特征提取上表現(xiàn)出一定的優(yōu)越性[21],選擇合適的CNN框架來(lái)有效提取船舶圖像特征是提高識(shí)別性能的重要前提.本文提出的雙流對(duì)稱特征融合模型選取VGG16網(wǎng)絡(luò)[22]的13個(gè)卷積層作為特征提取模塊主體結(jié)構(gòu),并行提取可見光圖像特征與紅外圖像特征.
如圖1所示,本文提出的融合模型特征提取模塊結(jié)構(gòu)由分別對(duì)可見光和紅外熱圖像進(jìn)行操作的兩個(gè)卷積網(wǎng)絡(luò)通道構(gòu)成.其中,每個(gè)特征提取通道由5個(gè)卷積層(Conv1-Conv5)和5個(gè)池化層(Max-Pool1-MaxPool-5)搭建而成.為充分利用雙源圖像特征提取通道不同卷積層輸出的特征描述,本文設(shè)計(jì)了基于注意力機(jī)制的多級(jí)融合模塊;在卷積層Conv3之后,引入空間注意力模塊(spatial attention module,SAM),隨后構(gòu)建第一級(jí)融合層FuseLayer1;在卷積層Conv5之后,引入SAM模塊并構(gòu)建第二級(jí)融合層FuseLayer2.融合層FuseLayer1輸出的特征圖輸入可見光特征提取通道繼續(xù)特征提取步驟,融合層FuseLayer2輸出的特征圖輸入卷積核2×2的最大池化層MaxPool5進(jìn)行特征降維,得到最終融合特征圖FeatureFuse.最后,利用三級(jí)全連接層構(gòu)建目標(biāo)識(shí)別模塊,為了防止網(wǎng)絡(luò)過(guò)擬合,在三級(jí)全連接層中引入Dropout技術(shù)[23],融合特征圖FeatureFuse經(jīng)過(guò)全連接層通過(guò)Softmax激活函數(shù)輸出識(shí)別的結(jié)果概率.特征融合網(wǎng)絡(luò)的具體結(jié)構(gòu)參數(shù)如表1所示.
表1 雙流對(duì)稱特征融合網(wǎng)絡(luò)總體參數(shù)表Table 1 Parameter table of two-stream symmetric feature fusion network
本文提出的特征融合網(wǎng)絡(luò)模型包括一個(gè)訓(xùn)練過(guò)程和一個(gè)測(cè)試過(guò)程.在訓(xùn)練過(guò)程中,該模型采用端到端的訓(xùn)練,選取配準(zhǔn)好的可見光圖像與熱紅外圖像對(duì)作為訓(xùn)練樣本,分別將224×224像素大小的可見光和紅外圖像并行輸入網(wǎng)絡(luò),特征提取網(wǎng)絡(luò)模塊使用VGG16預(yù)先訓(xùn)練的權(quán)重來(lái)訓(xùn)練,特征融合層以及全連接層使用隨機(jī)梯度下降(stochastic gradient descent,SGD)最優(yōu)化求解器訓(xùn)練,然后計(jì)算真實(shí)標(biāo)簽和Softmax函數(shù)得到的預(yù)測(cè)類標(biāo)簽的誤差.之后,通過(guò)反向傳播過(guò)程調(diào)整權(quán)重和偏差,以最小化誤差.最后,保存最優(yōu)模型.在測(cè)試階段,對(duì)同一個(gè)標(biāo)簽下的可見光圖像和紅外圖像也進(jìn)行相同預(yù)處理,輸入到雙流對(duì)稱特征融合網(wǎng)絡(luò)中提取特征,并調(diào)用最優(yōu)模型進(jìn)行特征測(cè)試,輸出船舶圖像的預(yù)測(cè)標(biāo)簽.
2.2.1 多級(jí)融合層構(gòu)建
兩個(gè)特征提取通道輸入的原始圖像大小均為224×224,經(jīng)過(guò)五級(jí)卷積層與池化層時(shí)逐漸降低分辨率并增加特征圖的通道數(shù)量.
以VAIS數(shù)據(jù)集[24]中一組可見光與紅外圖像數(shù)據(jù)對(duì)為例,將融合網(wǎng)絡(luò)模型雙流特征提取網(wǎng)絡(luò)不同卷積層輸出的特征圖可視化,可以得出淺層特征提取主要集中在特征紋理上,得到的特征圖更接近原始圖像,更深層次的提取更多地關(guān)注輪廓和形狀等特征,這些特征通常更抽象、更具備代表性.
VGG16網(wǎng)絡(luò)不同卷積層提取的特征圖對(duì)應(yīng)不同層次的語(yǔ)義信息和視覺細(xì)節(jié),基于不同層次下的特征圖搭建特征融合架構(gòu)將直接影響模型識(shí)別性能,因此,多光譜圖像下的船舶識(shí)別任務(wù)可以建模為卷積特征融合方法設(shè)計(jì).根據(jù)圖2-3的可視化表達(dá),可以看出卷積層Conv1和Conv2輸出的特征圖C1,C2主要捕捉低級(jí)視覺特征,如顏色、線段等;卷積層Conv3,Conv4和Conv5輸出的特征圖C3-C5相比淺層特征圖C1,C2包含更多語(yǔ)義信息,同時(shí)也保留部分視覺細(xì)節(jié).特征圖C5感受野較大,提取的特征包含最多抽象語(yǔ)義信息,有利于船舶識(shí)別,同時(shí),根據(jù)文獻(xiàn)[25],中間層特征融合方法可以獲得更為良好的識(shí)別性能,因此,本文首先利用雙流通道卷積層Conv5輸出的兩個(gè)特征圖C5實(shí)現(xiàn)特征融合.同時(shí),考慮到僅融合高階語(yǔ)義信息無(wú)法充分利用多光譜圖像信息,本文聚焦關(guān)注雙源圖像特征表達(dá)C3和C4的融合效果.
圖2 融合網(wǎng)絡(luò)模型雙流特征提取網(wǎng)絡(luò)不同卷積層輸出特征圖可視化(可見光圖像)Fig.2 Normalized confusion matrix of feature fusion model on the actual VAIS data set
圖3 融合網(wǎng)絡(luò)模型雙流特征提取網(wǎng)絡(luò)不同卷積層輸出特征圖可視化(紅外圖像)Fig.3 Normalized confusion matrix of feature fusion model on the actual VAIS data set
由于同一卷積層不同通道獲取的特征表達(dá)在描述船舶圖像時(shí)是彼此互補(bǔ)的,所以可以通過(guò)1:1的比例將該層輸出的所有通道的特征圖疊加獲得整體特征圖.圖4和圖5顯示了卷積層Conv3和Conv4輸出的多光譜整體特征圖和相應(yīng)融合后特征圖的可視化比較.圖4(c)和圖5(c)展示的融合特征圖特征描述均得到了豐富,但因?yàn)镃3特征圖特征壓縮量較C4特征圖更低,包含更多有利于船舶類別區(qū)分的特征細(xì)節(jié),同時(shí)也能兼顧提供語(yǔ)義信息,所以圖4(c)中融合特征圖增強(qiáng)包含的細(xì)節(jié)信息較多,對(duì)船舶區(qū)域的響應(yīng)更好,對(duì)后續(xù)的特征提取工作能起到更積極的作用.因此,在可見光特征提取網(wǎng)絡(luò)卷積層Conv3后設(shè)置融合層FuseLayer1,對(duì)雙流通道卷積層Conv3輸出的兩個(gè)特征圖實(shí)現(xiàn)特征融合,融合后特征圖繼續(xù)下一級(jí)特征提取,該融合層與卷積層Conv5后設(shè)置的融合層FuseLayer2組成特征融合模塊.
圖4 卷積層Conv3輸出的整體特征圖和相應(yīng)融合后特征圖的可視化比較Fig.4 Conv3 convolution layer output of the overall feature map and the corresponding fusion feature map visualization comparison
圖5 卷積層Conv4輸出的整體特征圖和相應(yīng)融合后特征圖的可視化比較Fig.5 Conv4 convolution layer output of the overall feature map and the corresponding fusion feature map visualization comparison
2.2.2 級(jí)聯(lián)平均融合算法
常見的特征融合方法有加性融合、最大融合、級(jí)聯(lián)融合等.將特征融合的表達(dá)式定義為
令X,Y分別表示待融合的特征表達(dá);F表示融合特征,X,Y,F∈RHWC,其中,H,W,C分別表示特征圖的高度、寬度和通道數(shù).
級(jí)聯(lián)融合直接級(jí)聯(lián)拼接所有特征圖作為融合結(jié)果,該融合方式可以應(yīng)用于任意維的特征圖.相較于加性融合和最大融合,級(jí)聯(lián)融合能夠更合理的保留輸入特征圖的所有元素,本文基于級(jí)聯(lián)融合引入平均模塊,設(shè)計(jì)級(jí)聯(lián)平均融合的方法.級(jí)聯(lián)平均融合首先級(jí)聯(lián)拼接所有特征圖,然后進(jìn)行1×1的卷積運(yùn)算以獲取最終的融合特征圖,可見光與紅外圖像下級(jí)聯(lián)平均融合用公式可以表示為
其中f1×1為卷積核大小1×1、數(shù)量為n的卷積操作.
本文設(shè)計(jì)的多級(jí)特征融合模塊中輸入第一級(jí)融合層的兩個(gè)特征圖大小均為56×56×256,級(jí)聯(lián)拼接后特征圖大小為56×56×512,平均融合后輸出的特征圖大小仍為56×56×256,詳細(xì)的融合過(guò)程如圖6所示.第二級(jí)融合層的兩個(gè)特征圖大小均為14×14×512,級(jí)聯(lián)拼接后特征圖大小為14×14×1024,平均融合后輸出的特征圖大小仍為14×14×512.
圖6 融合層FuseLayer1工作流程圖Fig.6 Flow chart of fusion layer FuseLayer1
注意力機(jī)制是一種模仿人腦的認(rèn)知機(jī)制.在深度卷積神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制可以使模型聚焦于感興趣的特征,從而增強(qiáng)貢獻(xiàn)率高的有用信息,抑制無(wú)用信息.注意力機(jī)制可以集成融入CNN網(wǎng)絡(luò)模型,與CNN模型一起訓(xùn)練.Woo等提出了一個(gè)簡(jiǎn)單但有效的注意力子網(wǎng)絡(luò)模塊CBAM[16],可以滿足空間復(fù)雜特征的重新整合標(biāo)定要求.CBAM注意力機(jī)制模塊由兩個(gè)獨(dú)立的部分串聯(lián)構(gòu)成,即通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM).
CAM模塊結(jié)構(gòu)如圖7所示,其工作原理用如下公式說(shuō)明:
圖7 CAM模塊構(gòu)建圖Fig.7 Construction diagram of CAM module
其中:?符號(hào)表示元素點(diǎn)乘,MCAM表示通道維度上的整合處理.
如圖7所示,CAM模塊在空間維度上進(jìn)行了壓縮,在進(jìn)行Squeeze操作時(shí)引入最大池化的思路,用最大響應(yīng)的信息對(duì)均值池化的信息進(jìn)行補(bǔ)充.
近些年來(lái),航海類專業(yè)學(xué)生畢業(yè)實(shí)習(xí)中頻繁發(fā)生權(quán)益被侵害的問題。這是由于雖然部分航海院校與企業(yè)簽訂了用人合同,但是部分企業(yè)出于經(jīng)濟(jì)利益考量,僅僅把畢業(yè)學(xué)生當(dāng)作臨時(shí)工和廉價(jià)勞動(dòng)力對(duì)待,接納學(xué)生實(shí)習(xí)的積極性較低,給學(xué)生安排的工作崗位技術(shù)含量較低,難以真正體現(xiàn)學(xué)生的專業(yè)水平,使學(xué)生的實(shí)習(xí)效果不佳,影響學(xué)生的職業(yè)發(fā)展,進(jìn)而發(fā)生權(quán)益保障問題。
SAM模塊相比起CAM模塊首先使用最大池化和均值池化操作對(duì)輸入的特征圖進(jìn)行壓縮操作處理,然后對(duì)輸出的特征圖在通道層面進(jìn)行壓縮操作處理,即通過(guò)兩次池化操作生成兩個(gè)二維特征向量,并將其按Concat操作進(jìn)行拼接,隨后將拼接得到的通道數(shù)為2的特征圖送入融合卷積層(network in network,NN)網(wǎng)絡(luò)進(jìn)行融合,通過(guò)卷積的方式保證輸出的維度與輸入的維度一致.SAM模塊結(jié)構(gòu)原理如圖8所示,具體工作原理如下公式說(shuō)明:
圖8 SAM模塊構(gòu)建圖Fig.8 Construction diagram of SAM module
其中:?符號(hào)表示元素點(diǎn)乘,MSAM表示空間維度上的整合處理,具體數(shù)學(xué)表達(dá)如下:
其中:σ為激活函數(shù),f3×3為3×3的卷積操作.
本文嘗試將CBAM注意力機(jī)制模塊集成到雙流對(duì)稱特征融合模型基礎(chǔ)網(wǎng)絡(luò)中,識(shí)別性能有所提升,對(duì)CBAM機(jī)制進(jìn)行分析,其中SAM模塊能將特征增強(qiáng)聚焦于空間維度上,從而將提取特征覆蓋到待識(shí)別船舶的更多部位,關(guān)注利于船舶識(shí)別的重點(diǎn)信息,例如船體的結(jié)構(gòu)與形狀等在艦船識(shí)別時(shí)起關(guān)鍵作用的特征區(qū)域,引入SAM機(jī)制模塊可以獲取待識(shí)別船舶圖像關(guān)鍵區(qū)域更強(qiáng)的特征響應(yīng);CAM模塊聚焦關(guān)注通道層面上哪些層會(huì)具有更強(qiáng)的反饋能力,在本文模型中通道計(jì)算復(fù)雜度較低,因此該模塊的引入在增加大量通道權(quán)重參數(shù)的情況下對(duì)關(guān)鍵特征增強(qiáng)增益較小.通過(guò)實(shí)驗(yàn)也可以證明CAM模塊對(duì)特征融合模型性能提升貢獻(xiàn)較小,但其集成至模型后會(huì)帶來(lái)一定程度的結(jié)構(gòu)冗余與時(shí)間消耗增加.
因此,本文僅保留SAM模塊并且將其集成至雙流特征提取網(wǎng)絡(luò)中.如圖9所示,SAM模塊具體部署位置為特征提取網(wǎng)絡(luò)卷積Conv3和Conv5輸出后,將獲得的可見光與紅外圖像整合特征分別與第2.2節(jié)提出的兩級(jí)融合層相結(jié)合,兩次融合輸出最終的融合特征圖輸入識(shí)別網(wǎng)絡(luò),以得到更精準(zhǔn)的船舶識(shí)別.
圖9 SAM模塊構(gòu)建圖Fig.9 Deployment of SAM module
本次實(shí)驗(yàn)使用的多光譜船舶數(shù)據(jù)來(lái)自VAIS數(shù)據(jù)集[16],該數(shù)據(jù)集是唯一可用的成對(duì)可見光和長(zhǎng)波紅外船舶圖像的公開數(shù)據(jù)集.該數(shù)據(jù)集使用的可見光相機(jī)為ISVI IC-C25;使用的長(zhǎng)波紅外相機(jī)為Sofradi-EC Atom 1024,光譜范圍為8-12 μm.數(shù)據(jù)集一共包括2865幅圖像(1623幅可見光圖像和1242幅紅外圖像),其中包含1088幅可見光和紅外成對(duì)圖像.該船舶數(shù)據(jù)集可以劃為6個(gè)粗粒度類別,分別為“cargo”,“medium-other”,“passenger”,“sailing”,“tug”和“small”.本文實(shí)驗(yàn)僅選取配準(zhǔn)后的1088對(duì)可見光和紅外圖像進(jìn)行實(shí)驗(yàn).用數(shù)據(jù)集作者文獻(xiàn)指定的方式劃分訓(xùn)練及測(cè)試樣本,劃分后的訓(xùn)練及測(cè)試樣本信息如表2所示.
表2 VAIS數(shù)據(jù)集信息Table 2 Dataset information of VAIS
本文采用的船舶識(shí)別評(píng)價(jià)指標(biāo)包括識(shí)別精度(accuracy,Acc)和每幅圖片平均模型構(gòu)建時(shí)間消耗(average model building time consumption per image,ATPI).
本文實(shí)驗(yàn)平臺(tái)處理器為Intel(R)Core(TM)i9-10900K CPU,用于深度CNN計(jì)算的圖形處理器為NVIDIA GeForce RTX 2080,計(jì)算環(huán)境是帶有Tensor-Flow后端的Keras環(huán)境.本文參數(shù)設(shè)置如下:采用小批量樣本方式訓(xùn)練模型,批量參數(shù)設(shè)置為16,訓(xùn)練迭代步數(shù)設(shè)置為6000;模型學(xué)習(xí)速率設(shè)置為0.0025,采用SGD算法優(yōu)化損失函數(shù),沖量參數(shù)設(shè)置為0.9;全連接層中Dropout參數(shù)均設(shè)置為0.5.除此之外,考慮到現(xiàn)有的VAIS數(shù)據(jù)量有限、原始數(shù)據(jù)集各類別數(shù)據(jù)量不均衡,在模型訓(xùn)練前,采用隨機(jī)翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、變換飽和度與對(duì)比度等方式對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),以提高模型泛化能力,防止模型過(guò)擬合,數(shù)據(jù)增強(qiáng)后的訓(xùn)練樣本信息如表3所示.
表3 VAIS數(shù)據(jù)增強(qiáng)后訓(xùn)練集信息Table 3 Training set information after VAIS data enhancement
為了驗(yàn)證本文提出的基于注意力機(jī)制的雙流對(duì)稱特征融合網(wǎng)絡(luò)模型算法性能,在相同的實(shí)驗(yàn)條件下,將該模型算法與基線算法以及其他先進(jìn)算法進(jìn)行比較.
為驗(yàn)證模型融合模塊性能,表4基于兩個(gè)評(píng)價(jià)指標(biāo)比較基線方法、其他特征融合方法以及本文提出的特征融合方法在VAIS數(shù)據(jù)集上的識(shí)別性能.
表4 各算法在VAIS數(shù)據(jù)集上識(shí)別性能Table 4 Recognition performance of each algorithm on VAIS data set
其中,本文選取的基線方法為VGG16算法,將紅外和可見光圖像并行輸入雙流網(wǎng)絡(luò)進(jìn)行特征提取,并且定義雙流對(duì)稱單級(jí)融合網(wǎng)絡(luò)(two stream-cascade feature fusion,TS-CFF)為僅在卷積層Conv5后構(gòu)建單級(jí)融合層FuseLayer2得到的識(shí)別網(wǎng)絡(luò),定義雙流對(duì)稱多級(jí)融合網(wǎng)絡(luò)(two stream-multiple cascade feature fusion,TS-MCFF)為分別在卷積層Conv3和Conv5后構(gòu)建多級(jí)融合層得到的識(shí)別網(wǎng)絡(luò);定義引入CBAM注意力機(jī)制的多級(jí)融合網(wǎng)絡(luò)(two stream-CBAM-multiple cascade feature fusion,TS-CBAM-MCFF)為將CBAM注意力機(jī)制引入融合模塊得到的識(shí)別網(wǎng)絡(luò);定義本文最終構(gòu)建的融合識(shí)別網(wǎng)絡(luò)模型為引入SAM注意力機(jī)制的多級(jí)融合網(wǎng)絡(luò)(two stream-SAM-multiple cascade feature fusion,TS-SAM-MCFF),即為將SAM空間注意力機(jī)制引入特征融合模塊得到的識(shí)別網(wǎng)絡(luò).
由表4可以看出:相比起使用單模態(tài)圖像進(jìn)行目標(biāo)識(shí)別,表中所有多模態(tài)圖像特征融合算法的識(shí)別精度都有了很大的提升,同時(shí)每幅圖像的平均模型構(gòu)建時(shí)間消耗ATPI的增加都在可接受范圍內(nèi),因此可以證實(shí)采用可見光和紅外圖像特征級(jí)融合能夠有效提升船舶識(shí)別模型識(shí)別精度.
由表4繼續(xù)分別對(duì)TS-MCFF算法、TS-CBAMMCFF算法與TS-SAM-MCFF算法在實(shí)驗(yàn)數(shù)據(jù)上的識(shí)別精確度與ATPI消耗進(jìn)行比較,可以分析得出,對(duì)于網(wǎng)絡(luò)架構(gòu)較為復(fù)雜的雙流對(duì)稱特征融合算法,在融合模塊中引入CBAM機(jī)制能改善識(shí)別精確度,但是CBAM機(jī)制中的CAM模塊對(duì)模型識(shí)別性能的提升幾乎沒有幫助,只能帶來(lái)結(jié)構(gòu)的冗余、增加APTI時(shí)間消耗.相比之下,只引入SAM空間注意力機(jī)制可以在降低ATPI的同時(shí)更有效提高算法模型目標(biāo)識(shí)別精度,這主要是因?yàn)镾AM模塊能強(qiáng)化特征圖空間關(guān)鍵位置的學(xué)習(xí),這將更有利于模型獲取船舶圖像區(qū)分性特征.
為驗(yàn)證本文提出的TS-SAM-MCFF模型算法在VAIS數(shù)據(jù)集各類別上的識(shí)別性能,表5比較了基線方法、其他特征融合方法與本文提出的特征融合方法在VAIS數(shù)據(jù)集各類別上的識(shí)別精確度.表格5中各算法識(shí)別精確度均為十次實(shí)驗(yàn)平均結(jié)果.如表5所示,與其他方法相比,本文所提出的TS-SAM-MCFF網(wǎng)絡(luò)模型在實(shí)際VAIS數(shù)據(jù)集上實(shí)現(xiàn)了最好的總體識(shí)別精度.
表5 各算法在VAIS數(shù)據(jù)集各類別上的識(shí)別精確度Table 5 Recognition accuracy of each algorithm on VAIS data set
最后,將TS-SAM-MCFF模型與近些年提出的其他先進(jìn)多源特征融合模型進(jìn)行性能比較,進(jìn)一步驗(yàn)證TS-SAM-MCFF的識(shí)別性能.對(duì)比方法包括4種基于VAIS數(shù)據(jù)集的多源特征融合識(shí)別模型:1)Gnostic field[24],2)CNN[24],3)Gnostic field+CNN[24],4)Multimodal CNN,以及3種基于VAIS數(shù)據(jù)集的可見光圖像識(shí)別模型:1)VGG16(基線),2)Gabor+CNN,3)Gabor+MS-CLBP.
從表6可以看出,TS-SAM-MCFF模型算法在可見光與紅外船舶圖像上的融合識(shí)別精確度較可見光船舶圖像識(shí)別精確度提高3.61%,較紅外船舶圖像識(shí)別精確度提高13.62%,總體來(lái)說(shuō)識(shí)別精確度提升顯著.此外,TS-SAM-MCFF與Gnostic field、CNN、Multimodal CNN等3種融合識(shí)別模型相比識(shí)別精確度有明顯提升,TS-SAM-MCFF與Gnostic field+CNN模型相比單模態(tài)識(shí)別精確度提升,雙模態(tài)圖像識(shí)別精確度近似持平,但是Gnostic field+CNN模型串聯(lián)組合4個(gè)分類模型實(shí)現(xiàn)決策級(jí)融合識(shí)別(即融合紅外圖像上Gnostic field、紅外圖像上CNN、可見光圖像上Gnostic field、可見光圖像上CNN的概率輸出),該模型訓(xùn)練與識(shí)別需要耗費(fèi)大量時(shí)間,而端到端的TS-SAMMCFF模型在大幅度降低模型構(gòu)建時(shí)間的同時(shí)近似達(dá)到該模型的識(shí)別精度,具有更良好的綜合性能.同時(shí),TS-SAM-MCFF模型在單模態(tài)圖像上的識(shí)別精確度優(yōu)于其他所有先進(jìn)的多光譜識(shí)別算法與單模態(tài)識(shí)別算法.
表6 其他先進(jìn)識(shí)別算法與提出的特征融合識(shí)別算法在VAIS數(shù)據(jù)集上識(shí)別性能比較Table 6 Comparison of other advanced recognition algorithms and feature fusion recognition algorithms on VAIS data set
TS-SAM-MCFF模型在VAIS數(shù)據(jù)集上識(shí)別的歸一化混淆矩陣如圖10所示,觀察圖10(c)可得,相比圖10(a)和(b),融合后各類別混淆明顯減少,主要的混淆發(fā)生在“medium-other”與“small”以及“mall”與“passenger”.“medium-other”識(shí)別精確度最低,與其他類別船舶混淆度較高的原因是該類別中包含多個(gè)細(xì)粒度,類間特征差異較其他類別更高,因此識(shí)別難度更高.“small”與“passenger”發(fā)生混淆的原因是這兩個(gè)類別較為相似,從視覺上看,兩個(gè)船舶類別區(qū)別度較低,需要結(jié)合其他語(yǔ)義特征進(jìn)行進(jìn)一步識(shí)別,這也是筆者未來(lái)的研究方向.
當(dāng)前海洋船舶識(shí)別算法大多基于單模態(tài)圖像進(jìn)行研究,識(shí)別精確度不甚理想,為了提高海洋船舶目標(biāo)識(shí)別性能,本文提出了一種基于注意力機(jī)制的雙流對(duì)稱特征融合網(wǎng)絡(luò)模型(TS-SAM-MCFF).該模型首先利用基于VGG16的雙流對(duì)稱特征提取網(wǎng)絡(luò)并行提取可見光和紅外圖像特征,然后利用多級(jí)融合模塊將兩個(gè)特征提取通道提取的特征圖進(jìn)行級(jí)聯(lián)平均融合,同時(shí),在融合模塊中集成SAM空間注意力機(jī)制增強(qiáng)融合特征關(guān)鍵信息,輸出更良好的融合特征表達(dá),最后利用全連接層和Softmax函數(shù)實(shí)現(xiàn)目標(biāo)識(shí)別.在樣本數(shù)量有限的情況下,通過(guò)數(shù)據(jù)增強(qiáng)與Dropout等技巧,緩解了過(guò)擬合現(xiàn)象,提升了模型的泛化能力.通過(guò)在VAIS多光譜實(shí)際數(shù)據(jù)集上的系列實(shí)驗(yàn)驗(yàn)證了本文提出模型的性能優(yōu)越性.因?yàn)槎嘣磮D像識(shí)別數(shù)據(jù)集較為缺乏,未來(lái)希望能自行構(gòu)建其他多源傳感器船舶數(shù)據(jù)集進(jìn)一步驗(yàn)證本文算法的魯棒性.同時(shí),本文構(gòu)建的融合識(shí)別模型能獲取更加詳細(xì)的待識(shí)別物體特征描述并有效增強(qiáng)待其重點(diǎn)區(qū)域特征響應(yīng),因此,該算法不僅能有效提升船舶識(shí)別精度,未來(lái)希望將其拓展到車輛、行人等其他具有挑戰(zhàn)性的目標(biāo)識(shí)別領(lǐng)域.