, ,
(1.江西理工大學(xué)信息工程學(xué)院,江西贛州 341000;2.贛南師范大學(xué)物理與電子信息學(xué)院,江西贛州 341000)
合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)具有全天時(shí)、全天候工作能力,在軍事和民用領(lǐng)域具有非常重要的意義。SAR自動(dòng)目標(biāo)識(shí)別(Automatic Target Recognition, ATR)[1]技術(shù)一直是SAR領(lǐng)域的研究熱點(diǎn)。早期的SAR-ATR主要有3類方法:模板匹配法[2]、基于模型的方法[3]和機(jī)器學(xué)習(xí)方法。模板匹配法通過(guò)將提取的目標(biāo)特征與樣本庫(kù)進(jìn)行匹配以識(shí)別目標(biāo),識(shí)別方法簡(jiǎn)單,但需要采集大量的實(shí)測(cè)樣本,難以實(shí)現(xiàn)?;谀P偷姆椒o(wú)須采集大量的實(shí)測(cè)樣本,但需要建立目標(biāo)的三維模型和電磁散射模型,并根據(jù)模型參數(shù)對(duì)目標(biāo)進(jìn)行預(yù)測(cè),該方法計(jì)算量大,難以滿足實(shí)時(shí)性要求。機(jī)器學(xué)習(xí)方法需先獲取目標(biāo)的特征[4-5],后用分類器對(duì)特征進(jìn)行分類,常用的分類方法有SVM[6],AdaBoost[7]等。該類方法比前兩類方法效果好,但對(duì)不同的目標(biāo)需設(shè)計(jì)不同的特征提取方法。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在SAR-ATR方面取得了較大的進(jìn)展。Morgan等率先將CNN應(yīng)用于SAR-ATR中,并用MSTAR數(shù)據(jù)驗(yàn)證了該方法的性能。Michael等針對(duì)CNN的訓(xùn)練方法進(jìn)行了研究,實(shí)驗(yàn)表明較好的初始值和修正的隨機(jī)梯度下降法有助于獲得更高的識(shí)別率。Housseini等提出了一種結(jié)合CNN和卷積自編碼的識(shí)別方法,該方法能夠在保持CNN原有識(shí)別率的情況下,有效減少運(yùn)算時(shí)間[8]。Wagner利用CNN提取數(shù)據(jù)特征,然后將這些特征送入SVM分類器中進(jìn)行分類[9]。Zhao等受遞歸神經(jīng)網(wǎng)絡(luò)的啟發(fā),提出了Highway Unit Network,在沒(méi)有數(shù)據(jù)人工擴(kuò)充的情況下對(duì)CNN進(jìn)行訓(xùn)練[10]。Chen等用卷積層替換CNN中的全連接層,降低了過(guò)擬合風(fēng)險(xiǎn)[11]。
CNN的應(yīng)用發(fā)展又反過(guò)來(lái)進(jìn)一步推動(dòng)其結(jié)構(gòu)的發(fā)展。一個(gè)標(biāo)準(zhǔn)的CNN結(jié)構(gòu)中,前面若干層由交替的卷積層、池化層堆疊而成,后面若干層為全連接層。CNN的結(jié)構(gòu)在計(jì)算機(jī)視覺(jué)領(lǐng)域得到改進(jìn),Springenberg等將CNN結(jié)構(gòu)中的池化層和全連接層都用卷積層代替,提出了全卷積神經(jīng)網(wǎng)絡(luò)(All Convolutional Neural Network, A-CNN),并分析了池化層可用卷積層代替的原因,實(shí)驗(yàn)結(jié)果驗(yàn)證了A-CNN的可行性[12]。文獻(xiàn)[11]已證明CNN結(jié)構(gòu)中,卷積層取代全連接層能夠獲得比原CNN更好的分類效果。本文將A-CNN應(yīng)用到SAR-ATR中,針對(duì)公布的MSTAR數(shù)據(jù)集,提出了基于A-CNN的SAR圖像目標(biāo)分類方法,并與基于CNN的SAR圖像分類方法進(jìn)行對(duì)比。
一個(gè)標(biāo)準(zhǔn)的CNN結(jié)構(gòu)如圖1所示,前面若干層由交替的卷積層、池化層堆疊而成,后面若干層為全連接層。將輸入層經(jīng)過(guò)堆疊的卷積層和池化層后,能獲取目標(biāo)的特征,再將這些特征通過(guò)全連接層映射到類別空間,則可實(shí)現(xiàn)目標(biāo)的識(shí)別和分類。
1) 卷積層
(1)
2) 池化層
考慮第l層卷積層之后的池化層,池化尺寸為G×G,步長(zhǎng)為s,則池化輸出后的特征圖的每個(gè)像素單元為
(2)
式中,p表示p范數(shù)。特別地,當(dāng)p→∞時(shí),則式(2)為常用的最大池化。
3) 全連接層
(3)
式中,f(·)表示激活函數(shù)。
A-CNN結(jié)構(gòu),即是在CNN結(jié)構(gòu)基礎(chǔ)上,用卷積層取代池化層和全連接層。
1) 卷積層取代池化層
文獻(xiàn)[13]考慮了卷積層取代池化層的兩種方案,本文考慮其中的一種,即用與池化層具有相同尺寸、步長(zhǎng)的卷積層取代它。在第1.1節(jié)中,式(1)卷積運(yùn)算主要是乘法和加法運(yùn)算,式(2)主要是加法運(yùn)算。對(duì)比式(1)和式(2)可知,式(2)可由式(1)變換得到。
進(jìn)一步地,分別考慮卷積和池化運(yùn)算前后數(shù)據(jù)尺寸的變化。對(duì)卷積運(yùn)算而言,假定輸入到卷積層的數(shù)據(jù)尺寸為W×H×I,其中,W為數(shù)據(jù)的寬,H為數(shù)據(jù)的高,I為特征圖的通道數(shù)。卷積核大小為k×k,卷積步長(zhǎng)為S,卷積核的數(shù)量為I,卷積過(guò)程中補(bǔ)0的數(shù)量為P。經(jīng)過(guò)卷積后,其輸出數(shù)據(jù)尺寸為W′×H′×I′,則
W′=(W-k+2P)/S+1
(4)
H′=(H-k+2P)/S+1
(5)
I′=I
(6)
對(duì)池化運(yùn)算而言,若輸入到卷積層的數(shù)據(jù)尺寸也為W×H×I,其中,W為數(shù)據(jù)的寬,H為數(shù)據(jù)的高,I為特征圖的通道數(shù)。池化尺寸為k×k,池化步長(zhǎng)為S,池化過(guò)程中補(bǔ)0的數(shù)量為P。經(jīng)過(guò)池化后,其輸出數(shù)據(jù)尺寸的計(jì)算公式和式(4)~式(6)相同。
2) 卷積層取代全連接層
由式(1)和式(3)可知,卷積層和全連接層都是主要完成乘加運(yùn)算。即使兩者輸入和輸出的數(shù)據(jù)維度不相同,它們之間也可以相互轉(zhuǎn)化。文獻(xiàn)[14]已證明了卷積層替換全連接層,不僅減少了參數(shù)運(yùn)算量,而且降低了過(guò)擬合的風(fēng)險(xiǎn)。
本文針對(duì)公布的MSTAR數(shù)據(jù)集,提出了基于A-CNN的SAR圖像目標(biāo)分類方法,其處理流程如圖2(b)所示。為了便于比較A-CNN和CNN的性能,給出相應(yīng)的基于CNN的SAR圖像目標(biāo)分類方法處理流程如圖2(a)所示。
在圖2(a)中,共有4個(gè)卷積層和最大池化層、3個(gè)全連接層。其中,在4個(gè)卷積層中,前兩個(gè)是補(bǔ)0卷積,以使得卷積后輸出特征圖的大小與輸入相同;后兩個(gè)是不補(bǔ)0的有效卷積,其輸出特征圖的空間大小與卷積核大小有關(guān)。卷積前、后數(shù)據(jù)尺寸的關(guān)系如式(4)和式(5)。首先,輸入大小為87×87的SAR圖像。第一次經(jīng)過(guò)大小為3×3的補(bǔ)0卷積后,得到16個(gè)大小為87×87的特征圖,再經(jīng)過(guò)大小為3×3、步長(zhǎng)為2的池化層后,得到16個(gè)大小為43×43的特征圖。第二次經(jīng)過(guò)大小為3×3的補(bǔ)0卷積后,得到32個(gè)大小為43×43的特征圖,再經(jīng)過(guò)大小為3×3、步長(zhǎng)為2的池化層后,得到32個(gè)大小為21×21的特征圖。第三次經(jīng)過(guò)大小為3×3的不補(bǔ)0卷積核后,得到64個(gè)大小為19×19的特征圖,再經(jīng)過(guò)大小為3×3、步長(zhǎng)為2的池化層后,得到64個(gè)大小為9×9的特征圖。第四次經(jīng)過(guò)大小為3×3的不補(bǔ)0卷積核后,得到128個(gè)大小為7×7的特征圖,再經(jīng)過(guò)大小為3×3、步長(zhǎng)為2的池化層后,得到128個(gè)大小為3×3的特征圖。最后,將這些特征圖進(jìn)行展開(kāi)后,輸入到全連接層。經(jīng)過(guò)第一個(gè)全連接層得到1×1×512的張量,經(jīng)過(guò)第二個(gè)全連接層仍得到1×1×512的張量,再經(jīng)過(guò)第三個(gè)全連接層得到1×1×10的張量,張量中每一個(gè)元素分別代表該圖像所屬類別的概率。
與圖2(a)相比,一方面,圖2(b)中用卷積層取代了圖2(a)中所有的池化層。卷積核的大小為3×3、步長(zhǎng)為2。顯然,卷積層每次取代池化層后,輸出特征圖的大小、輸出特征圖的通道數(shù)都和取代前池化層的輸出保持一致。另一方面,圖2(b)中用卷積層取代了圖2(a)中的3個(gè)全連接層。卷積核的大小為3×3、步長(zhǎng)為1。經(jīng)計(jì)算,該卷積層輸出仍為1×1×10的張量,張量中每一個(gè)元素分別代表該圖像所屬類別的概率。
本文采用美國(guó)空軍實(shí)驗(yàn)室公布的MSTAR數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集由10類地面車輛的SAR圖像組成,如裝甲車、坦克、火箭發(fā)射車等。有關(guān)10類車輛的型號(hào)、類型、圖像數(shù)量及采集參數(shù)等如表1所示。
表1 MSTAR數(shù)據(jù)集
由于A-CNN訓(xùn)練過(guò)程中,需要大量有標(biāo)簽數(shù)據(jù)來(lái)調(diào)節(jié)擬合網(wǎng)絡(luò)參數(shù),而MSTAR數(shù)據(jù)集有限,因此,本文采用人工方法來(lái)擴(kuò)充數(shù)據(jù)集。
首先,為了盡可能使得擴(kuò)展后的數(shù)據(jù)集包含目標(biāo)的主要信息,將大小為128×128的原始SAR圖像隨機(jī)采樣[11,14]成大小為87×87大小的切片,以保證每個(gè)切片包含目標(biāo)的完整信息。經(jīng)過(guò)隨機(jī)采樣成切片后,每類目標(biāo)的訓(xùn)練樣本數(shù)量擴(kuò)充為原來(lái)的(128-87+1)×(128-87+1)=1 764倍。
然后,對(duì)每類目標(biāo)選擇3 200幅大小為87×87的樣本圖像,其中2 700幅用于訓(xùn)練,500幅用于驗(yàn)證。為了使所選的圖像包含每個(gè)方位角的信息,對(duì)每幅SAR圖像,在其擴(kuò)充后的1 764幅圖像中隨機(jī)選取floor(3 200/n)+1幅作為該圖像的擴(kuò)充數(shù)據(jù),其中n為該類數(shù)據(jù)集原有圖像數(shù)量。以裝甲車BMP-2為例,原有圖像共233幅,經(jīng)數(shù)據(jù)擴(kuò)充后,每幅圖像可擴(kuò)充為1 764幅,從這1 764幅中隨機(jī)選擇floor(3 200/233)+1幅作為該圖像的擴(kuò)充數(shù)據(jù)。
此外,在A-CNN訓(xùn)練時(shí),為了使網(wǎng)絡(luò)能夠快速收斂,對(duì)SAR圖像數(shù)據(jù)作了減均值預(yù)處理。
在對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充和預(yù)處理后,采用圖2中基于A-CNN和基于CNN的SAR圖像目標(biāo)分類方法分別進(jìn)行處理。實(shí)驗(yàn)中,使用俯仰角為17°的數(shù)據(jù)集作為訓(xùn)練集,俯仰角為15°的數(shù)據(jù)集作為測(cè)試集,如表1所示。訓(xùn)練過(guò)程中,采用隨機(jī)梯度下降算法優(yōu)化最小損失函數(shù),動(dòng)量設(shè)為0.95,權(quán)重衰減系數(shù)為0.005,初始學(xué)習(xí)速率為0.001。當(dāng)驗(yàn)證集的精度和損失不再發(fā)生變化時(shí),將學(xué)習(xí)速率降為初始速率的1/10[13]。依照此規(guī)則,直到學(xué)習(xí)速率降為10-7時(shí)停止訓(xùn)練。基于A-CNN的分類方法得到的混淆矩陣如表2所示,基于A-CNN和CNN的分類方法實(shí)驗(yàn)結(jié)果對(duì)比如表3所示。
表2 基于A-CNN的分類方法得到的混淆矩陣
表3 基于CNN和A-CNN的分類方法實(shí)驗(yàn)結(jié)果對(duì)比
表2結(jié)果表明,基于A-CNN的分類方法使得每類目標(biāo)被正確分類的概率都較高,分類的平均正確率達(dá)到99.41%。表3結(jié)果表明,對(duì)于各種型號(hào)的目標(biāo),基于A-CNN的分類正確率比基于CNN的更高;基于A-CNN的平均分類正確率比基于CNN的高出4.82%。實(shí)驗(yàn)結(jié)果驗(yàn)證了卷積層取代池化層和全連接層的優(yōu)勢(shì)。
為了更好地解釋其中使用卷積層替換池化層的優(yōu)勢(shì),對(duì)A-CNN的前4個(gè)卷積核權(quán)重和卷積后特征圖進(jìn)行了可視化分析,結(jié)果分別如圖3(a)和圖3(b)所示。由于空間有限,圖3(a)給出了部分的卷積核權(quán)重可視化結(jié)果。圖3(b)中前2個(gè)卷積后特征圖的可視化結(jié)果放大后分別如圖4(a)和圖4(c)所示。若將A-CNN第1個(gè)卷積層獲取的特征圖進(jìn)行池化處理,其可視化結(jié)果如圖4(b)所示。
圖4(a)中,可以發(fā)現(xiàn)2個(gè)特征圖為無(wú)用特征(紅色方框內(nèi))。由于圖4(b)是圖4(a)降采樣得到的結(jié)果,因此,與圖4(a)相對(duì)應(yīng)的2個(gè)特征圖仍為無(wú)用特征(紅色方框內(nèi))。而圖4(c)是用卷積取代池化的結(jié)果,與圖4(a)相對(duì)應(yīng)的2個(gè)特征圖變?yōu)橛杏锰卣?紅色方框內(nèi))。因此,用卷積層取代池化層,不僅能實(shí)現(xiàn)池化層的降維,而且能激活前一個(gè)卷積層獲取的無(wú)用特征(紅色方框內(nèi))。此外,由于卷積層后使用了ReLU激活函數(shù),因此,它比使用池化層具有更強(qiáng)的非線性能力。
進(jìn)一步地,將基于CNN和A-CNN分類方法得到的前四層特征圖進(jìn)行可視化,結(jié)果分別如圖5(a)和圖5(b)所示。圖5(a)中第1層卷積獲取的3個(gè)無(wú)用特征圖(紅色方框內(nèi)),經(jīng)過(guò)第2層池化后仍為無(wú)用特征圖。而圖5(b)中第1層卷積獲取的2個(gè)無(wú)用特征圖(紅色方框內(nèi)),經(jīng)過(guò)第2層卷積層后變?yōu)橛杏锰卣?紅色方框內(nèi))。類似地,圖5(a)中第3層卷積獲取的2個(gè)無(wú)用特征圖(紅色方框內(nèi)),經(jīng)過(guò)第4層池化后仍為無(wú)用特征圖。而圖5(b)中第3層卷積獲取的5個(gè)無(wú)用特征圖(紅色方框內(nèi)),經(jīng)過(guò)第4層卷積層后變?yōu)橛杏锰卣?紅色方框內(nèi))。
本文分別介紹了CNN結(jié)構(gòu)中卷積層、池化層、全鏈接層的輸出和輸入之間的關(guān)系,并分析了A-CNN結(jié)構(gòu)中用卷積層取代CNN結(jié)構(gòu)中池化層和全連接層的可行性。針對(duì)MSTAR數(shù)據(jù)集,提出了基于A-CNN的SAR圖像目標(biāo)分類方法。實(shí)驗(yàn)結(jié)果表明,基于A-CNN的分類方法比基于CNN的方法能獲得更高的分類正確率。此外,卷積后特征圖的可視化結(jié)果表明,卷積層取代池化層能夠?qū)⑶耙痪矸e層獲取的無(wú)用特征激活。