張凱悅,張 鴻
(1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430081;2.智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室(武漢科技大學(xué)),武漢 430081)
深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)的發(fā)展讓智能監(jiān)控的應(yīng)用越來越廣泛,航運(yùn)監(jiān)控圖像識(shí)別是對江海上運(yùn)輸能源的船舶的狀態(tài)進(jìn)行實(shí)時(shí)判斷,是深度學(xué)習(xí)在能源運(yùn)輸領(lǐng)域的應(yīng)用。當(dāng)航運(yùn)識(shí)別服務(wù)判斷出作業(yè)中的船舶處于異常狀態(tài)時(shí),可以及時(shí)地向指揮中心發(fā)出預(yù)警,實(shí)現(xiàn)對異常狀態(tài)船舶的快速定位。這極大地減輕了人力的負(fù)擔(dān),切實(shí)地保障了運(yùn)輸能源的安全。
航運(yùn)監(jiān)控圖像識(shí)別不僅具有通用圖像識(shí)別的難點(diǎn),而且具有航運(yùn)領(lǐng)域特有的困難和挑戰(zhàn)。江海上的霧氣、水面反射的陽光會(huì)干擾對識(shí)別主體有效特征的提取。在實(shí)際應(yīng)用過程中,由于攝像頭放置角度的問題,處于同一狀態(tài)類別的船舶的視覺特征差異很大。運(yùn)輸?shù)拿禾空瓷嫌晁疅嶂禃?huì)損失,在運(yùn)輸過程中需要覆蓋雨布,為了規(guī)范覆蓋雨布的行為,航運(yùn)圖像識(shí)別服務(wù)需要判斷船上的雨布是否完全蓋好,黑色的雨布和煤炭很容易混淆,因此,處于不同狀態(tài)類別的船舶視覺特征差異很小。經(jīng)過上面的討論可知,航運(yùn)監(jiān)控圖像識(shí)別具有類間差異小、類內(nèi)差異大和噪聲干擾多的問題。
已有的航運(yùn)監(jiān)控圖像識(shí)別模型C3D(Convolutional 3D)[1]是傳統(tǒng)的圖像識(shí)別模型,其將連續(xù)的圖片處理成一段視頻后輸入到三維卷積神經(jīng)網(wǎng)絡(luò),由于過多地關(guān)注時(shí)空特征且對圖像有效特征的提取能力較弱,識(shí)別結(jié)果容易受到天氣、背景、攝像頭角度的影響,識(shí)別性能較差。本文方法基于注意力機(jī)制,屬于細(xì)膩度圖像分類方法的范疇,能夠提取出航運(yùn)圖像中微小而有判別性的細(xì)節(jié)特征,有效解決了航運(yùn)監(jiān)控圖像類間差異小、類內(nèi)差異大和噪聲干擾多的問題。本文模型在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)框架的特征提取層之后訓(xùn)練一組1×1大小的卷積濾波器,用于提取出航運(yùn)圖像中具有判別性的區(qū)域,設(shè)計(jì)了一種多模塊的網(wǎng)絡(luò)結(jié)構(gòu),各模塊分別提取圖像全局紋理特征、局部判別性特征、融合特征,各個(gè)模塊的輸出分別輸入到各自的損失層計(jì)算損失。
概括地來說,本文的主要工作包括3個(gè)方面:
1)局部判別性特征的提取不需要手工的定位標(biāo)注或額外的目標(biāo)定位網(wǎng)絡(luò),使用弱監(jiān)督學(xué)習(xí)訓(xùn)練一組1×1大小的卷積濾波器實(shí)現(xiàn)對局部判別性特征的提取。
2)本文提出的模型使用多分支的網(wǎng)絡(luò)結(jié)構(gòu),綜合利用圖像的全局紋理特征和局部判別性特征,增強(qiáng)了卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中級(jí)表征的能力。
3)考慮到局部判別性特征和全局紋理特征的交互作用,本文設(shè)計(jì)了一個(gè)特征融合模塊用于融合局部判別性特征和全局紋理特征。
所提出的模型在真實(shí)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表示,該模型在預(yù)測精度上達(dá)到91.8%,可以有效地應(yīng)用到實(shí)際航運(yùn)監(jiān)控項(xiàng)目中。
由于航運(yùn)圖像類內(nèi)差異大、類間差異小、噪聲干擾多的特點(diǎn),將航運(yùn)圖像識(shí)別歸結(jié)到細(xì)膩度圖像識(shí)別的范疇。在傳統(tǒng)的計(jì)算機(jī)視覺研究中,圖像識(shí)別只是在粗粒度上判斷目標(biāo)對象的元類別,例如判斷一個(gè)目標(biāo)對象是貓還是狗。細(xì)膩度圖像識(shí)別是在元類別下對目標(biāo)對象進(jìn)行更加細(xì)致的劃分,例如區(qū)分不同種類的鳥、不同型號(hào)的汽車。與傳統(tǒng)的元類別級(jí)別的分類相比,細(xì)膩度圖像識(shí)別要困難得多,因?yàn)閺膶兕愔g的視覺差異是很微妙的,往往需要提取目標(biāo)對象高度局部化的判別性特征,例如不同種類的鳥的差異僅僅表現(xiàn)在鳥喙上的圖案或羽毛的紋理。因此,從存在細(xì)微差異的局部區(qū)域提取有效信息已經(jīng)成為解決細(xì)膩度圖像識(shí)別問題的關(guān)鍵[2-3]。
為了注意到圖像的局部特征,早期的工作利用手工的標(biāo)注框或注釋作為訓(xùn)練時(shí)的附加局部特征信息[4-5],然而專家注釋很難獲得并且很容易出現(xiàn)人為的錯(cuò)誤?;诰植啃畔⒌膮^(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Part based Region Convolutional Neural Network,Part-RCNN)方 法[6]擴(kuò)展了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region Convolutional Neural Network,RCNN)方法[7],在幾何先驗(yàn)條件下,它可以檢測到目標(biāo)對象并定位局部特征,然后從一個(gè)正則化表示中預(yù)測一個(gè)細(xì)粒度的類別。Lin 等[8]提出一種反饋控制框架Deep-LAC(Deep Localization,Alignment and Classification),將對齊和分類誤差反向傳播到定位模塊;還提出了用于連接定位模塊和分類模塊的閥門連接函數(shù)(Valve Linkage Function,VLF)。
為了減少額外的局部定位標(biāo)注成本,一些方法只需要圖像級(jí)別的標(biāo)注,于是不同的特征池化方法被提出。Lin 等[9-10]提出雙線性池化方法和改進(jìn)的雙線性池化方法,上述方法考慮到兩個(gè)不同位置特征的成對交互作用,兩個(gè)不同位置的特征通過矩陣外積的方式被融合。矩陣冪歸一化協(xié)方差池網(wǎng)絡(luò)(Matrix Power Normalized COVariance pooling ConvNets,MPNCOV)[11]通過矩陣平方的方式改進(jìn)了二階池化并且達(dá)到了當(dāng)時(shí)最高的預(yù)測準(zhǔn)確度。
空間變換卷積神經(jīng)網(wǎng)絡(luò)(Spatial Transformer Convolutional Neural Network,ST-CNN)[12]旨在通過學(xué)習(xí)適當(dāng)?shù)膸缀巫儞Q并在分類前對齊圖像來獲得精準(zhǔn)的分類性能,該方法還可以同時(shí)定位多個(gè)對象的各個(gè)部分。Fu 等[13]提出了循環(huán)注意力卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Attention Convolutional Neural Network,RA-CNN)來遞歸地預(yù)測一個(gè)注意力區(qū)域的位置并提取相應(yīng)的特征,該方法只關(guān)注一個(gè)局部區(qū)域;為了同時(shí)產(chǎn)生多個(gè)注意力區(qū)域,Zheng 等[14]提出了多注意力卷積神經(jīng)網(wǎng) 絡(luò)(Multi-Attention Convolutional Neural Network,MACNN),它可以同時(shí)定位多個(gè)局部區(qū)域,他們提出通道分組損失,通過聚類算法生成多個(gè)注意力區(qū)域。
然而上述方法只是單一地提取圖像全局特征或局部特征,沒有考慮全局特征和局部特征的交互作用。本文方法使用多分支的網(wǎng)絡(luò)結(jié)構(gòu)和一個(gè)特征融合模塊,綜合利用圖像全局特征和局部特征,實(shí)現(xiàn)了對圖像局部信息和全局信息的同步學(xué)習(xí)。
文獻(xiàn)[15]對卷積神經(jīng)網(wǎng)絡(luò)中間隱藏層提取到的特征可視化后發(fā)現(xiàn),隨著網(wǎng)絡(luò)層數(shù)的變深,提取到的特征從邊緣和角落逐漸變?yōu)榫植繀^(qū)域和整個(gè)目標(biāo)對象;文獻(xiàn)[16]發(fā)現(xiàn)通過對卷積層生成的所有特征圖進(jìn)行適當(dāng)?shù)募訖?quán)平均,可以有效地可視化輸入圖像的所有局部區(qū)域;文獻(xiàn)[17-19]對卷積神經(jīng)網(wǎng)絡(luò)的中間層進(jìn)行監(jiān)督,通過另一個(gè)全連接層和一個(gè)損失層來轉(zhuǎn)換全連接層的輸出,學(xué)習(xí)更多的局部區(qū)分性表示;文獻(xiàn)[20]提出單階段多尺度探測器(Single Shot MultiBox Detector,SSD),它將卷積濾波器和特定的寬高比的對象或特定的位置坐標(biāo)相關(guān)聯(lián)。
受到上述研究的啟發(fā),本文方法對卷積神經(jīng)網(wǎng)絡(luò)中間層提取到的特征進(jìn)行1×1的卷積特征映射和線性變換,提取圖像局部判別性特征。
本章將詳細(xì)介紹多尺度特征融合注意力網(wǎng)絡(luò)的整體框架和各模塊構(gòu)成。圖1 是多尺度特征融合注意力網(wǎng)絡(luò)的整體框架圖。它包含4 個(gè)并行的模塊:局部注意力提取模塊、局部注意力監(jiān)督模塊、全局紋理特征提取模塊、融合全局紋理特征和局部特征的特征融合模塊。
圖1 多尺度特征融合注意力網(wǎng)絡(luò)整體框架Fig.1 Overall framework of multi-scale feature fusion attention network
局部注意力提取模塊用于提取圖像局部判別性特征,生成局部注意力圖;局部注意力監(jiān)督模塊以監(jiān)督學(xué)習(xí)的方式保證局部注意力提取模塊提取區(qū)分性特征的能力;全局紋理特征提取模塊通過雙流卷積神經(jīng)網(wǎng)絡(luò)生成兩個(gè)特征圖,再以矩陣外積的方式融合兩個(gè)特征圖生成全局紋理特征圖;特征融合模塊使用雙線性池化融合全局紋理特征圖和局部特征圖。4個(gè)模塊的輸出分別輸入到各自的損失層計(jì)算損失,對4個(gè)損失進(jìn)行加權(quán)求和獲得總的損失。
圖2是將局部注意力可視化的效果圖。如圖2所示,通過局部注意力模塊提取到航運(yùn)監(jiān)控圖像中的吊塔、裸露的煤塊等具有判別性的有效區(qū)域特征,這些區(qū)域性特征經(jīng)過特征映射輸入到分類器,對于提升圖像識(shí)別的準(zhǔn)確性具有重要意義。例如:局部注意力模塊提取到吊塔,可以大概率判斷圖像的類別屬于船舶靠港;提取到裸露的煤塊,可以判斷圖像的雨布沒有蓋好。局部注意力提取模塊的核心組成部分是一組1×1×C大小的卷積濾波器和一個(gè)全局最大池化層。卷積特征的每個(gè)通道對應(yīng)于一個(gè)視覺模式[21],然而,由于缺乏一致性和魯棒性,這些特征映射不能充當(dāng)注意力映射[22]。受到文獻(xiàn)[21-23]的啟發(fā),本文根據(jù)特征通道的空間關(guān)系,通過1組1×1×C大小的卷積濾波器將特征映射轉(zhuǎn)化為局部注意力映射。將輸入圖像通過若干個(gè)卷積層和池化層,獲得尺寸為C×H×W的特征圖,其中C是特征圖的通道數(shù),H和W分別是特征圖的高度和寬度。假設(shè)1×1×C的卷積濾波器通過監(jiān)督學(xué)習(xí)已經(jīng)具有發(fā)掘局部區(qū)分性特征的能力,通過這個(gè)卷積濾波器對特征圖進(jìn)行卷積獲得注意力熱力圖,再對注意力熱力圖進(jìn)行全局最大池化,在注意力熱力圖上選取最大的響應(yīng)值,就可以獲得具有判別性特征的區(qū)域。
圖2 局部注意力模塊提取效果Fig.2 Effect of local attention extraction module
通過在1×1×C的卷積濾波器后接入1 個(gè)跨通道池化層和1 個(gè)Softmax 損失層,局部注意力監(jiān)督模塊以監(jiān)督學(xué)習(xí)的方式保證局部注意力模塊提取區(qū)分性特征的能力。局部注意力監(jiān)督模塊主要使用了跨通道平均池化算法。
將航運(yùn)圖像分成正常行駛、未蓋雨布、無效雨布、重載停泊、空倉停泊、船舶靠港等6 個(gè)類別,分類數(shù)目用M表示,M=6。對于某一個(gè)特定類別使用10 個(gè)局部注意力圖來表示,局部注意力圖的數(shù)目用k表示,k=10。因此一共需要kM個(gè)1×1 大小的卷積濾波器,kM個(gè)卷積濾波器生成kM個(gè)注意力圖。經(jīng)過特征提取器提取到的特征圖經(jīng)過kM個(gè)卷積濾波器卷積后,輸出維度為kM×H×W的特征矩陣F,H和W分別是生成的特征矩陣的高度和寬度。
特征矩陣F以集合的方式表示為:F=,經(jīng)過全局最大池化層,對每個(gè)特征矩陣求最大值,輸出的特征矩陣的維度變?yōu)閗M×1×1,輸出的特征矩陣用G表示,G=??缤ǖ榔骄鼗瘜訉⑤敵龅奶卣骶仃嚪殖蒑組,每組含有k個(gè)1×1 維的特征矩陣。每組用于表示一個(gè)特定的類別,如式(1)所示。再分別對每組的k個(gè)特征矩陣計(jì)算平均值,最終輸出1×M維的特征矩陣,用h表示。將h輸入到M路的Softmax 損失層計(jì)算損失以鼓勵(lì)卷積濾波器對某一特定類別產(chǎn)生較大的響應(yīng),Softmax損失公式如式(2)所示,hi和hj是h中的元素。
受到文獻(xiàn)[9]和文獻(xiàn)[24]的啟發(fā),本文使用雙流卷積神經(jīng)網(wǎng)絡(luò)提取圖像的全局紋理特征,雙流卷積神經(jīng)網(wǎng)絡(luò)通過對兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)提取到的特征進(jìn)行特征融合生成二階特征。文獻(xiàn)[9]的研究結(jié)果表明二階特征是一種有效的圖像紋理表示,因此本文模型使用雙流卷積神經(jīng)網(wǎng)絡(luò)提取圖像全局紋理特征,圖3是全局紋理特征提取模塊的示意圖。
圖3 全局紋理特征提取模塊示意圖Fig.3 Schematic diagram of global texture feature extraction module
下面將詳細(xì)闡述全局紋理特征提取的過程。qA(l,I)和qB(l,I)分別表示特征提取函數(shù)qA和qB對圖像I進(jìn)行特征提取后,在位置l提取到的特征。首先對兩個(gè)特征矩陣在同一位置的特征表示進(jìn)行雙線性組合,如式(3)所示:
假設(shè)經(jīng)過特征提取器獲得的特征圖的維度是H×W×C,H、W、C分別表示特征圖的高度、寬度、通道數(shù)。經(jīng)過雙線性組合,特征圖上的每一個(gè)位置對應(yīng)的特征矩陣的維度是C×C,在本文提到的算法中通道數(shù)是512,因此特征圖上的每一個(gè)位置對應(yīng)的特征矩陣的維度是512×512,特征向量的維度過大,需要對特征矩陣降維。
本文使用Sum Pooling 池化方法對每一個(gè)位置對應(yīng)的特征矩陣求和,將高維的特征矩陣投影到低維空間,如式(4)所示:
假設(shè)qA和qB提取的特征圖的維度分別是M×N和N×Q,經(jīng)過雙線性池化生成的特征圖?(I)的維度是M×Q,再將M×Q矩陣形式的特征表達(dá)轉(zhuǎn)換為向量x后輸入到分類器計(jì)算損失,如式(5)所示:
最后對特征向量進(jìn)行歸一化和正則化操作,生成特征向量z,如式(6)和式(7)所示。z就是需要的全局紋理特征表示。
為了使模型學(xué)習(xí)到全局紋理特征和局部特征的關(guān)系和交互作用,本文模型使用雙線性注意力池化[25]融合全局紋理特征圖和局部特征圖。特征融合過程如圖4 所示。FH×W×N是使用特征提取器獲得的全局紋理特征圖,H、W和N分別表示特征圖的高度、寬度和通道數(shù)。AH×W×M是使用2.1 節(jié)提到的局部注意力提取模塊獲得的局部特征圖。局部特征圖指向圖像的特定部位。
圖4 特征融合模塊示意圖Fig.4 Schematic diagram of feature fusion module
將每一個(gè)全局紋理特征圖Fk與局部特征圖Α作Hadamard 積進(jìn)行特征融合,生成融合特征圖PM×N×H×W,M個(gè)全局紋理特征圖與N個(gè)局部特征圖融合后生成M×N個(gè)融合特征圖,雙線性注意力融合的計(jì)算式如式(8)所示:
使用全局最大池化對生成的融合特征圖降維,用g(Pk)表示池化過程,池化過程如式(9)所示:
最后對生成的融合特征表示進(jìn)行歸一化和正則化處理。
上述4 個(gè)模塊的輸出分別輸入到各自的損失層計(jì)算損失值,總的損失值是4 個(gè)模塊的損失的加權(quán)和,總的損失函數(shù)如式(10)所示:
其中:Losspart是局部注意力提取模塊的損失,Lossglobal是全局紋理特征提取模塊的損失,Lossfuse是特征融合模塊的損失,Losssup是局部注意力監(jiān)督模塊的損失。
損失函數(shù)為交叉熵?fù)p失(Cross Entropy Loss Error,CE),交叉熵?fù)p失用于計(jì)算兩個(gè)概率分布之間的差異。交叉熵?fù)p失的公式如式(11)所示:
其中:yi是真實(shí)標(biāo)簽;pi是預(yù)測概率。
使用Softmax 函數(shù)計(jì)算某特定類別的預(yù)測概率,模型的損失函數(shù)結(jié)合了Softmax 函數(shù)和交叉熵?fù)p失函數(shù),損失函數(shù)公式如式(12)所示:
其中:y是真實(shí)值是分類器輸出的分類向量;N是類別數(shù)目。
本文將航運(yùn)過程中累積的監(jiān)控視頻制作成航運(yùn)圖像數(shù)據(jù)集,數(shù)據(jù)集一共有126 336張圖像。根據(jù)航運(yùn)監(jiān)控項(xiàng)目的業(yè)務(wù)需求和船舶的運(yùn)動(dòng)狀態(tài),將航運(yùn)圖像分成6 個(gè)類別,分別是正常行駛、無效雨布、未蓋雨布、重載停泊、船舶靠港、空倉停泊。圖5 是航運(yùn)監(jiān)控圖像數(shù)據(jù)集示例圖像。然而在劃分?jǐn)?shù)據(jù)集的過程中,空倉停泊類別的圖像數(shù)量較少,因此對空倉停泊類別的圖像進(jìn)行了隨機(jī)的平移、縮放、水平翻轉(zhuǎn)以擴(kuò)充空倉圖像類別的數(shù)據(jù),使得數(shù)據(jù)集的分布均勻。
圖5 航運(yùn)監(jiān)控圖像數(shù)據(jù)集示例圖像Fig.5 Example images of shipping monitoring image dataset
實(shí)驗(yàn)環(huán)境的軟硬件配置如下:Intel Core i9-9900k CPU 3.6 GHz處理器,Nvdia GeForce RTX 2080Ti 12 GB顯卡,64GB內(nèi)存。操作系統(tǒng)是Windows Server 2019,編程語言是Python 3.6.8,深度學(xué)習(xí)框架是Pytorch 1.5.0。
本文使用十折交叉驗(yàn)證法進(jìn)行模型的訓(xùn)練,將數(shù)據(jù)集均分為10 份,在訓(xùn)練過程中,依次地將其中1 份作為測試集,其余9份作為訓(xùn)練集,訓(xùn)練結(jié)束后得到10個(gè)模型,最終的性能指標(biāo)是10 個(gè)模型的性能指標(biāo)之和的平均值。每張圖像在輸入到模型前被預(yù)處理為448×448 大小。在模型訓(xùn)練過程中使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化算法,初始學(xué)習(xí)率設(shè)置為0.1,動(dòng)量(momentum)設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為1E-4,batch size 設(shè)置為32,使用GPU 訓(xùn)練300個(gè)epoch。
選用了其他常用的圖像識(shí)別模型與本文的模型進(jìn)行對比,這些模型包括:
1)微調(diào)的視覺幾何組網(wǎng)絡(luò)(Fine-Tuned Visual Geometry Group Network,F(xiàn)T VGGNet)[26],VGGNet 通過反復(fù)堆疊3×3 大小的卷積核和2×2 大小的池化層構(gòu)建整個(gè)網(wǎng)絡(luò),在保證感受野大小不變的情況下,減少網(wǎng)絡(luò)參數(shù)。
2)微調(diào)的殘差網(wǎng)絡(luò)(Fine-Tuned Residual Network,F(xiàn)T ResNet)[27],ResNet模型通過殘差連接的方式解決網(wǎng)絡(luò)模型中不同層級(jí)的特征組合問題或者說淺層信息的遠(yuǎn)距離傳輸問題。
3)C3D[1]:將時(shí)序上連續(xù)的圖像制作成視頻段,使用三維卷積核提取視頻段的時(shí)空特征。
4)雙流卷積神經(jīng)網(wǎng)絡(luò)(Bilinear Convolutional Neural Network,B-CNN)[9]:用雙線性池化融合兩個(gè)分支的特征輸出。
5)RA-CNN[13]:循環(huán)注意力卷積神經(jīng)網(wǎng)絡(luò)模型,以遞歸的方式關(guān)注同一個(gè)注意力區(qū)域。
6)MA-CNN[14]:多尺度注意力卷積神經(jīng)網(wǎng)絡(luò)模型,可以同時(shí)關(guān)注多個(gè)注意力區(qū)域。
7)判別濾波器組卷積神經(jīng)網(wǎng)絡(luò)模型(Discriminative Filter Learning within a Convolutional Neural Network,DFL-CNN)[23]。
8)判別關(guān)鍵域深度學(xué)習(xí)模型(Discriminating key domains and deep Learning Convolutional Neural Network,DL-CNN)[28]。
9)基于特征重標(biāo)定的生成對抗模型(Feature Recalibration Generative Adversarial Network,F(xiàn)R-GAN)[29]。
本文使用準(zhǔn)確率作為模型評價(jià)標(biāo)準(zhǔn),對預(yù)測結(jié)果進(jìn)行統(tǒng)計(jì)后,準(zhǔn)確率計(jì)算式如式(13)所示:
其中:TP(True Positive)是將正類預(yù)測為正類的數(shù)目;FN(False Negative)是將正類預(yù)測為負(fù)類的數(shù)目;FP(False Positive)是將負(fù)類預(yù)測為正類的數(shù)目;TN(True Negative)是將正類預(yù)測為負(fù)類的數(shù)目。
3.4.1 不同模塊組合識(shí)別準(zhǔn)確率的對比
為了驗(yàn)證多尺度特征融合網(wǎng)絡(luò)的有效性和檢驗(yàn)?zāi)P椭胁煌K的貢獻(xiàn)大小,單獨(dú)使用網(wǎng)絡(luò)中某一模塊或某些模塊進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,不同模塊的簡稱表示如下:
表1 本文模型不同模塊在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比 單位:%Tab.1 Experimental results of different modules of the proposed model on the dataset unit:%
1)G Only:只使用全局紋理特征提取模塊。
2)P Only:只使用局部注意力提取模塊。
3)G+P:使用全局紋理特征提取模塊和局部注意力提取模塊。
4)G+P+Sup:使用全局紋理特征提取模塊、局部注意力提取模塊和局部注意力監(jiān)督模塊。
5)G+P+Sup+Mix:使用完整的多尺度融合注意力網(wǎng)絡(luò)模型。
實(shí)驗(yàn)結(jié)果表明,與單獨(dú)使用模型某個(gè)分支或某些分支相比,完整的多尺度融合注意力網(wǎng)絡(luò)模型的識(shí)別性能最優(yōu),證明了4 個(gè)分支的協(xié)同作用有利于學(xué)習(xí)與理解圖像的有效特征。單獨(dú)使用全局紋理特征提取模塊的識(shí)別準(zhǔn)確率最低,證明局部注意力機(jī)制在圖像識(shí)別模型中產(chǎn)生了重要的作用。
不同模塊組合的準(zhǔn)確率隨迭代次數(shù)的變化曲線如圖6所示。
圖6 使用不同模塊組合的準(zhǔn)確率變化情況Fig.6 Variation of accuracy by using different combinations of modules
從圖6 可以看出,從整體上看,使用不同的模塊組合進(jìn)行訓(xùn)練,準(zhǔn)確率都在逐漸上升,而使用完整的多尺度融合注意力網(wǎng)絡(luò)模型,曲線變化最平穩(wěn),波動(dòng)最小,并且完整的多尺度融合注意力網(wǎng)絡(luò)模型能到達(dá)到最高的識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文提出的多尺度融合注意力網(wǎng)絡(luò)模型在訓(xùn)練過程中更加穩(wěn)定,并能達(dá)到最好的收斂效果。
3.4.2 不同模型識(shí)別準(zhǔn)確率的對比
本文將提出的模型與其他主流的圖像識(shí)別模型在航運(yùn)監(jiān)控圖像數(shù)據(jù)集上進(jìn)行了對比驗(yàn)證,實(shí)驗(yàn)結(jié)果如表2 所示。實(shí)驗(yàn)結(jié)果顯示,本文提出的模型和其他的9 個(gè)對比模型相比,本文提出的模型表現(xiàn)出最優(yōu)的識(shí)別性能。
表2 不同模型在數(shù)據(jù)集上不同類別情況的準(zhǔn)確率對比 單位:%Tab.2 Accuracy comparison of different models on different situations of the dataset unit:%
本文提出的模型和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型VGG-Net和ResNet相比,識(shí)別準(zhǔn)確率分別提高了6.4個(gè)百分點(diǎn)和5.6個(gè)百分點(diǎn),識(shí)別性能提升較大,這是因?yàn)閭鹘y(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型中級(jí)表征學(xué)習(xí)能力較差,只能學(xué)習(xí)到圖像的淺層次特征,本文提出的模型引入了注意力機(jī)制,模型的注意力可以聚焦到最具有區(qū)分性的區(qū)域,加強(qiáng)了卷積神經(jīng)網(wǎng)絡(luò)對中級(jí)表征的學(xué)習(xí)能力。
B-CNN模型融合兩個(gè)特征提取器輸出的特征圖得到圖像的全局紋理表示,本文提出的模型在B-CNN 模型的基礎(chǔ)上增加了提取局部區(qū)分性特征的子網(wǎng)絡(luò),本文模型既學(xué)習(xí)到全局紋理特征,又學(xué)習(xí)到局部區(qū)分性特征,因此相較于B-CNN 模型,本文提出的模型表現(xiàn)出更優(yōu)的識(shí)別性能。
RA-CNN 模型以遞歸的方式關(guān)注同一個(gè)區(qū)分性區(qū)域,而本文模型能夠同時(shí)提取多個(gè)區(qū)分性區(qū)域,綜合利用多個(gè)區(qū)分性區(qū)域的特征。
MA-CNN 模型進(jìn)行分類時(shí)只利用到圖像的局部區(qū)分性特征,而本文模型使用多流的網(wǎng)絡(luò)結(jié)構(gòu),不僅利用到局部區(qū)分性特征,還利用到全局紋理特征。
DFL-CNN 模型以非對稱式多流的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)學(xué)習(xí)圖像的局部區(qū)分性特征和全局紋理特征,而本文模型相較于DFL-CNN 模型,增加了1個(gè)特征融合子網(wǎng)絡(luò),能夠?qū)W習(xí)到整體特征和局部特征內(nèi)在的聯(lián)系。
DL-CNN 模型對圖像進(jìn)行語義分割,分割出判別性的關(guān)鍵區(qū)域,但其對關(guān)鍵區(qū)域的劃分比較粗糙,對于未蓋雨布等關(guān)鍵區(qū)域較大的類別識(shí)別效果較好,但對于關(guān)鍵區(qū)域較小的類別識(shí)別效果劣于本文模型。
FR-GAN 模型使用生成對抗算法學(xué)習(xí)有效特征,但生成對抗算法的鑒別器的訓(xùn)練比較困難,而本文模型訓(xùn)練更容易且表現(xiàn)出更優(yōu)的分類性能。
針對已有的航運(yùn)監(jiān)控圖像識(shí)別模型無法解決航運(yùn)監(jiān)控圖像的特征提取容易受到噪聲和拍攝角度的影響的問題,本文提出了一種基于注意力機(jī)制和多尺度特征融合的航運(yùn)監(jiān)控圖像識(shí)別模型。該模型使用多分支的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),既學(xué)習(xí)到圖像局部區(qū)分性特征,又學(xué)習(xí)到圖像全局紋理特征。局部區(qū)分性特征的提取不需要額外的人工標(biāo)注,通過一組卷積濾波器和全局最大池化層,發(fā)掘出圖像中若干個(gè)區(qū)分性區(qū)域。為了有效提取圖像全局紋理特征,在全局紋理特征提取模塊中使用雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和雙線性特征組合算法??紤]到全局特征和局部特征的交互作用,本文方法使用雙線性注意力池化算法融合圖像局部特征和全局特征。實(shí)驗(yàn)結(jié)果表明,本文模型的識(shí)別準(zhǔn)確率優(yōu)于其他對比模型,可以有效地應(yīng)用于航運(yùn)監(jiān)控圖像識(shí)別任務(wù)。然而,本文提出的模型參數(shù)數(shù)量較多,模型訓(xùn)練容易受到計(jì)算資源的限制并且模型較難擬合,在接下來的工作中將探索如何對模型進(jìn)行適當(dāng)?shù)募糁蛪嚎s以減少參數(shù)數(shù)量。