高春永,柏業(yè)超,王 瓊
(南京大學(xué)電子科學(xué)與工程學(xué)院,南京,210093)
合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)具有全天候、全天時(shí)、大幅寬、高分辨等多種優(yōu)點(diǎn),并有一定的地表穿透能力,SAR 圖像被廣泛應(yīng)用到海洋監(jiān)測、環(huán)境檢測、災(zāi)害檢測和軍事等方面[1-2],因其可發(fā)揮其他遙感方式不具備的獨(dú)特優(yōu)勢,越來越受到世界各國的重視.
SAR 圖像目標(biāo)識別是分析和解譯SAR 圖像的重要環(huán)節(jié),主要包括圖像數(shù)據(jù)預(yù)處理、特征提取以及分類器的設(shè)計(jì).SAR 圖像存在大量的相干斑噪聲,嚴(yán)重影響SAR 的圖像質(zhì)量,給后續(xù)的圖像目標(biāo)識別帶來巨大的挑戰(zhàn).預(yù)處理是在盡可能保留圖像的原始信息的同時(shí),對圖像進(jìn)行濾波和去噪[3];特征提取的目的是從每個(gè)圖像中提取具有鑒別性的特征,將提取的特征輸入已經(jīng)訓(xùn)練好的分類器進(jìn)行分類識別.傳統(tǒng)SAR 圖像特征提取方法是提取圖像的高維特征輸入訓(xùn)練好的分類器中,而降維方法主要包括線性判別分析(Linear Discriminant Analysis,LDA)[4]、主成分分析(Principal Component Analysis,PCA)[4]、t分布隨機(jī)鄰域嵌入算法(t-distributed Stochastic Neighbor Embedding,t-SNE)[5]等,分類器有支持向量機(jī)[6]、隨機(jī)森林[7]、K 最近鄰域[8]以及決策樹[9]等.隨著深度學(xué)習(xí)的不斷發(fā)展與應(yīng)用,將深度學(xué)習(xí)應(yīng)用到圖像識別分類成為一大熱點(diǎn).深度學(xué)習(xí)分有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí).監(jiān)督學(xué)習(xí)的圖像樣本是帶有標(biāo)簽的數(shù)據(jù),根據(jù)訓(xùn)練的結(jié)果調(diào)解分類器.目前主流的監(jiān)督學(xué)習(xí)算法是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[10-12],它將二維圖像作為網(wǎng)絡(luò)的輸入,經(jīng)過卷積層、池化層及全連接層等操作后,自動從圖像中提取抽象的特征,并通過權(quán)值共享大大減少權(quán)值參數(shù)數(shù)量,從而減小網(wǎng)絡(luò)的訓(xùn)練復(fù)雜度.無監(jiān)督學(xué)習(xí)的數(shù)據(jù)是無任何標(biāo)注的圖像樣本,即沒有任何先驗(yàn)信息,通過機(jī)器自己學(xué)習(xí)進(jìn)行分類,主要包括PCA、局部線性嵌入方法等,算法網(wǎng)絡(luò)主要包括自編碼、稀疏自編碼、降噪自編碼等.半監(jiān)督學(xué)習(xí)的輸入目標(biāo)圖像是少量帶有標(biāo)簽的數(shù)據(jù)樣本,其主要思想是通過利用數(shù)據(jù)分布上的模型假設(shè)來建立學(xué)習(xí)分類器對未標(biāo)簽圖像樣本劃分標(biāo)簽.半監(jiān)督學(xué)習(xí)需要解決如何利用已標(biāo)簽樣本和未標(biāo)簽樣本這一問題.隨著新理論的出現(xiàn)以及文本分類、計(jì)算機(jī)視覺和自然語言處理新應(yīng)用的發(fā)展,對半監(jiān)督學(xué)習(xí)的應(yīng)用也更加廣泛和深入.在半監(jiān)督學(xué)習(xí)成為熱門領(lǐng)域之后,利用無類標(biāo)簽的圖像樣本提高學(xué)習(xí)算法的識別準(zhǔn)確度以及加快學(xué)習(xí)速度的算法不斷出現(xiàn),涌現(xiàn)出大量改進(jìn)的半監(jiān)督學(xué)習(xí)方法.Nigam et al[13]將最大期望算法和樸素貝葉斯算法相結(jié)合,通過引入加權(quán)系數(shù)來動態(tài)調(diào)整無類標(biāo)簽的數(shù)據(jù)樣本的影響,提高了分類準(zhǔn)確率.Zhou and Goldman[14]提出基于協(xié)同訓(xùn)練的改進(jìn)算法,該算法不需要充分冗余的視圖,僅利用兩個(gè)不同類型的分類器即可完成學(xué)習(xí)目標(biāo).Shang et al[15]提出一種新的半監(jiān)督學(xué)習(xí)算法,能解決有類標(biāo)簽圖像樣本稀疏問題以及無類標(biāo)簽圖像樣本成對約束的問題.
本文提出一種改進(jìn)的半監(jiān)督階梯網(wǎng)絡(luò)的SAR 圖像目標(biāo)分類識別算法:首先將半監(jiān)督階梯網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,在半監(jiān)督階梯網(wǎng)絡(luò)解碼器中使用卷積網(wǎng)絡(luò)代替全連接網(wǎng)絡(luò),對圖像降噪和深度特征提取,最后完成圖像重構(gòu).為解決數(shù)據(jù)集樣本不均衡的問題,提高網(wǎng)絡(luò)的泛化性,對階梯網(wǎng)絡(luò)中各類別所占損失函數(shù)的權(quán)重進(jìn)行調(diào)節(jié),對少數(shù)分布不均衡的訓(xùn)練樣本增大損失函數(shù)權(quán)重以改善數(shù)據(jù)集樣本數(shù)量不平衡的問題.實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的算法在SAR 圖像十類目標(biāo)與四類目標(biāo)上的分類識別率均遠(yuǎn)高于原算法,且該算法的識別性能與數(shù)據(jù)增強(qiáng)后的算法識別性能相當(dāng),但處理過程更簡單,體現(xiàn)了該算法的優(yōu)越性.
半監(jiān)督階梯網(wǎng)絡(luò)是將階梯網(wǎng)絡(luò)在無監(jiān)督階梯網(wǎng)絡(luò)的基礎(chǔ)上與監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合來進(jìn)行目標(biāo)識別分類.半監(jiān)督階梯網(wǎng)絡(luò)在獲得編碼最高層特征后使用全連接感知器對含有標(biāo)簽的輸入數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,通過計(jì)算預(yù)測標(biāo)簽和真實(shí)標(biāo)簽之間的損失來獲得有監(jiān)督損失函數(shù);通過無噪聲通道各層數(shù)據(jù)與解碼器各層數(shù)據(jù)構(gòu)建無監(jiān)督損失函數(shù).有監(jiān)督損失函數(shù)與無監(jiān)督損失函數(shù)相加作為整個(gè)網(wǎng)絡(luò)的損失函數(shù),通過訓(xùn)練使網(wǎng)絡(luò)損失函數(shù)達(dá)到最小.
階梯網(wǎng)絡(luò)訓(xùn)練模型類似降噪自編碼,因階梯網(wǎng)絡(luò)中解碼器和編碼器間存在橫向連接,所以網(wǎng)絡(luò)中的每層解碼器對同一層的編碼器數(shù)據(jù)都要去噪和解碼,同時(shí)恢復(fù)同層編碼器丟失的部分特征信息.由于解碼器不能恢復(fù)數(shù)據(jù)的全部信息,因此每層都會產(chǎn)生相應(yīng)的損失分別為l層(0≤l≤L,L為階梯網(wǎng)絡(luò)層數(shù))的原始樣本和估計(jì)樣本,階梯網(wǎng)絡(luò)的訓(xùn)練目標(biāo)就是使每層疊加的總損失函數(shù)最小.
階梯網(wǎng)絡(luò)包含兩層半監(jiān)督階梯網(wǎng)絡(luò),如圖1所示,在原階梯網(wǎng)絡(luò)的頂層加入有監(jiān)督損失函數(shù).每層都對最后的損失函數(shù)有影響,通過訓(xùn)練每層的編碼器及解碼器來學(xué)習(xí)降噪函數(shù)由于損失函數(shù)需要有噪聲和無噪聲,因此網(wǎng)絡(luò)中編碼器需要運(yùn)行兩次,分別包含有噪聲路徑和無噪聲路徑.由于每層編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)之間存在橫向連接,網(wǎng)絡(luò)中的高層細(xì)節(jié)信息可以留給底層的網(wǎng)絡(luò)結(jié)構(gòu)來表示.
圖1 半監(jiān)督階梯網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 The structure diagram of semi-supervised ladder network
1.1 編碼器使用具有修正的線性單元全連接網(wǎng)絡(luò)作為編碼器用于監(jiān)督學(xué)習(xí),對除輸入層以外的每個(gè)預(yù)激活單元進(jìn)行批量歸一化(Batch Normalization),其中包括網(wǎng)絡(luò)的最頂層,目的是通過減少協(xié)移來改善收斂以及防止因減少去噪成本而使編碼器輸出為常數(shù)的情況.對于l=1,…,L,批量歸一化表示為:
其中,h(0)=x表示輸入SAR 圖像.
NB表示一個(gè)分量的批量歸一化,如式(3)所示:
如圖1 所示,階梯網(wǎng)絡(luò)包括有噪聲和無噪聲兩個(gè)路徑,有噪聲路徑生成無噪聲路徑生成z(l)和h(l).在每層的批量歸一化后為輸入加各向同性的高斯噪聲n.
監(jiān)督學(xué)習(xí)的損失函數(shù)是輸入圖像x(n),輸出噪聲標(biāo)簽t(n)匹配概率負(fù)對數(shù)的平均值,如式(8)所示:
在解碼器網(wǎng)絡(luò)中,原網(wǎng)絡(luò)使用全連接層對編碼器隱藏層數(shù)據(jù)特征進(jìn)行提取,通過批量歸一化后使用參數(shù)法對高斯?jié)撛谧兞咳ピ?在降噪過程中,降噪函數(shù)g被應(yīng)用來同時(shí)計(jì)算z(l+1),最后進(jìn)行結(jié)果的批量歸一化:
其中,矩陣V(l)與編碼器中W(l)的轉(zhuǎn)置維度相同,且矩陣u(l)與z(l)的維度也相同.
1.2 解碼器解碼器中無監(jiān)督學(xué)習(xí)損失函數(shù)是每個(gè)神經(jīng)元的均方重建誤差.批量歸一化有很多優(yōu)點(diǎn),但它會在有噪聲路徑和無噪聲路徑上產(chǎn)生噪聲,從而使降噪函數(shù)產(chǎn)生一定偏差.網(wǎng)絡(luò)中選定zpre作為降噪目標(biāo),且在損失函數(shù)中選擇批量歸一化后的z(l),過程如下所示:
其中,μ和σ分別是批量標(biāo)準(zhǔn)化的均值和方差,將zpre批量標(biāo)準(zhǔn)到z就可以重構(gòu)得到SAR 圖像.無監(jiān)督降噪損失函數(shù)可以表示為式(13):
其中,ml表示每一層網(wǎng)絡(luò)的寬度,N表示訓(xùn)練樣本數(shù)量,超參數(shù)λl決定去噪損失函數(shù)的乘數(shù).模型中使用后向傳播算法訓(xùn)練參數(shù)W(l),γ(l),β(l),V(l)來優(yōu)化網(wǎng)絡(luò)總損失函數(shù)C=Cc+Cd.
全連接網(wǎng)絡(luò)在特征提取時(shí)會丟失數(shù)據(jù)的位置信息,從而降低提取特征的參數(shù)敏感度,無法更好地恢復(fù)同層編碼器丟失的特征信息.由于其全相連的特性,該網(wǎng)絡(luò)容易造成數(shù)據(jù)訓(xùn)練的過擬合,從而降低網(wǎng)絡(luò)的泛化性能.
針對全連接網(wǎng)絡(luò)在解碼器網(wǎng)絡(luò)特征提取以及圖像去噪方面存在的弊端,本文提出使用CNN 代替全連接層對數(shù)據(jù)特征提取,能更好地完成圖像重構(gòu).和全連接網(wǎng)絡(luò)相比,CNN 在圖像特征提取以及SAR 圖像去噪方面有更大優(yōu)勢,主要表現(xiàn)為CNN 屬于局部連接網(wǎng)絡(luò),且其具有局部連接和全局共享的特性,因此訓(xùn)練過程中大量減少了網(wǎng)絡(luò)訓(xùn)練參數(shù).CNN 中的每個(gè)神經(jīng)元只對局部圖像進(jìn)行感知,再將局部信息綜合來獲得全局信息.CNN 在圖像特征提取過程中,通過訓(xùn)練不同卷積核的參數(shù),就可以自動提取目標(biāo)圖像的深度特征,更好地恢復(fù)數(shù)據(jù),完成圖像重構(gòu).因此,CNN 能在有效抑制SAR 圖像相干斑噪聲的基礎(chǔ)上更精準(zhǔn)地保留SAR 圖像的細(xì)節(jié)結(jié)構(gòu)信息.
本文的CNN 解碼器的結(jié)構(gòu)如圖2 所示,共有五層卷積層,各卷積層參數(shù)如圖所示,所有卷積層步長(Stride)均為1,經(jīng)過CNN 最終重構(gòu)建出64×64 的圖像.
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 The structure diagram of CNN
為了更好地體現(xiàn)解碼層中CNN 在SAR 圖像去噪和特征提取方面的優(yōu)越性,分別在原網(wǎng)絡(luò)以及改進(jìn)后的模型對圖像可視化.由于真實(shí)SAR圖像不可避免地存在相干斑噪聲,本文采用光學(xué)圖像模擬SAR 圖像訓(xùn)練網(wǎng)絡(luò).選擇MSTAR4 數(shù)據(jù)集中的一個(gè)測試圖像樣本進(jìn)行可視化,如圖3所示.利用原始圖像(圖3a)和SAR 圖像的相干斑噪聲特性,得到帶噪聲的仿真SAR 圖像(圖3b),將仿真帶噪聲圖像樣本分別輸入已經(jīng)訓(xùn)練好的原網(wǎng)絡(luò)和改進(jìn)后的網(wǎng)絡(luò)中,分別經(jīng)過兩種算法降噪,最終輸出圖像(圖3c 和圖3d).
圖3 兩種算法在圖像樣本去噪前后可視化對比Fig.3 The visual comparison of before and after denoising the image sample
為了衡量本文算法去除SAR 圖像噪聲的效果,分別計(jì)算兩種算法下峰值信噪比(Peak Signal to Noise Ratio,PSNR).PSNR是一種評價(jià)圖像質(zhì)量的客觀標(biāo)準(zhǔn),PSNR越大表明圖像去噪的效果越好.結(jié)果顯示,原算法的PSNR為18.09,本文算法的PSNR為19.27,證明本文算法和原算法相比,去噪后失真較小,說明CNN 在SAR 圖像去除相干斑噪聲效果以及圖像特征提取上確實(shí)優(yōu)于原算法,為CNN 在SAR 圖像目標(biāo)識別上優(yōu)于原網(wǎng)絡(luò)提供了理論支撐.
采用MSTAR 數(shù)據(jù)集十類目標(biāo)和四類目標(biāo)進(jìn)行實(shí)驗(yàn)來測試改進(jìn)前后半監(jiān)督階梯網(wǎng)絡(luò)性能.選取俯仰角為17°的圖像樣本作為訓(xùn)練集,選取俯仰角為15°的圖像樣本作為測試集.針對數(shù)據(jù)集不均衡的問題,同時(shí)采用旋轉(zhuǎn)和翻轉(zhuǎn)操作對訓(xùn)練圖像進(jìn)行數(shù)據(jù)增強(qiáng),并通過實(shí)驗(yàn)測試算法在增強(qiáng)后的數(shù)據(jù)集上的網(wǎng)絡(luò)性能.表1 給出十類目標(biāo)原始和數(shù)據(jù)增強(qiáng)后的訓(xùn)練樣本和測試樣本.實(shí)驗(yàn)同時(shí)測試四類目標(biāo)BMP2,T72,BTR60 和T62 在兩種算法上的分類識別率.所有圖像樣本均為在原始圖像中心裁剪64×64 像素模塊得到.
表1 十類目標(biāo)數(shù)據(jù)增強(qiáng)前后訓(xùn)練集與測試集Table 1 Training sets and testing sets before and after enhancement of ten kinds of target data
分別選取訓(xùn)練集數(shù)量總和的10%,20%,50%以及100%作為標(biāo)記樣本,在原算法以及本文算法中進(jìn)行監(jiān)督訓(xùn)練.圖4 為十類目標(biāo)在標(biāo)記樣本數(shù)為10%時(shí)分類識別混淆矩陣,其中圖4a 為SSLN 算法在十類目標(biāo)下的分類識別混淆矩陣,圖4b 為本文算法在十類目標(biāo)下的分類識別混淆矩陣.表2 為十類目標(biāo)在標(biāo)記樣本數(shù)10%時(shí)算法改進(jìn)前后在不同數(shù)據(jù)集下的分類識別率.可以看出,使用本文算法后,十類目標(biāo)中的大多數(shù)類別識別率高于原算法,僅有少數(shù)類別識別率稍低于原算法,這是由于本文算法以提升平均識別率、提升網(wǎng)絡(luò)泛化性為目標(biāo),個(gè)別類別準(zhǔn)確率會稍有下降.表3 為十類目標(biāo)和四類目標(biāo)在標(biāo)記樣本數(shù)10%時(shí)算法改進(jìn)前后的平均分類識別率,表中數(shù)據(jù)包括分類準(zhǔn)確率以及準(zhǔn)確率的波動誤差,實(shí)驗(yàn)數(shù)據(jù)為多次實(shí)驗(yàn)后取平均值所得.從表中數(shù)據(jù)對比得出,在原數(shù)據(jù)集下,本文算法平均分類識別率遠(yuǎn)高于SSLN 算法的平均分類識別率,且網(wǎng)絡(luò)泛化性能更好.雖然本文算法在十類目標(biāo)上的分類識別率略低于十類目標(biāo)數(shù)據(jù)增強(qiáng)后算法的分類識別率,但總體性能與之相當(dāng),且處理過程更加簡捷,體現(xiàn)了本文算法的優(yōu)越性.
圖4 十類目標(biāo)在標(biāo)記樣本數(shù)10%時(shí)不同算法下分類識別混淆矩陣圖Fig.4 The proposed algorithm classifies and identifies confusion matrix graphs under different datasets when the number of labeled samples is 10%
實(shí)驗(yàn)還得到標(biāo)記樣本率為20%,50%,80%以及100%時(shí)各類目標(biāo)在不同算法下的分類識別率.如圖5 所示,監(jiān)督率和識別率關(guān)系大致可以使用折線圖表示,可以看出,改進(jìn)后算法的識別準(zhǔn)確率優(yōu)于原算法.另外,為了提高網(wǎng)絡(luò)泛化性,本文算法將數(shù)據(jù)集不均衡跟網(wǎng)絡(luò)結(jié)合所取得的效果與數(shù)據(jù)集增強(qiáng)后的結(jié)果相當(dāng),而且處理簡捷方便,也證明了本文算法的優(yōu)越性.
本文提出改進(jìn)的SSLN 的SAR 圖像分類識別方法,使用卷積神經(jīng)網(wǎng)絡(luò)代替解碼器中全連接網(wǎng)絡(luò)對編碼層輸入的數(shù)據(jù)特征提取且更利于去除SAR 圖像相干斑噪聲,完成圖像重構(gòu).針對十類目標(biāo)訓(xùn)練集數(shù)量不均衡的情況,本文結(jié)合階梯網(wǎng)絡(luò),調(diào)節(jié)訓(xùn)練層中各類別損失函數(shù)權(quán)重以提高網(wǎng)絡(luò)的泛化性能.實(shí)驗(yàn)針對不同算法網(wǎng)絡(luò)測試得出,使用改進(jìn)的SSLN 算法在公開數(shù)據(jù)集MSTAR 上的分類識別準(zhǔn)確率優(yōu)于原算法,并增強(qiáng)了網(wǎng)絡(luò)的泛化能力.改進(jìn)后的半監(jiān)督階梯網(wǎng)路具有更高的分類精度,同樣適用于其他少數(shù)標(biāo)簽樣本的分類識別.
表2 十類目標(biāo)標(biāo)記樣本數(shù)10%時(shí)算法改進(jìn)前后在不同數(shù)據(jù)集下的分類識別率Table 2 The rates of classification and recognition at different datasets before and after the algorithm is improved,when sample size of ten target markers was 10%
表3 兩類目標(biāo)標(biāo)記樣本數(shù)為10%時(shí)算法改進(jìn)前后在不同數(shù)據(jù)集上的分類識別率Table 3 The classification and recognition rates of the two kinds of target markers on different datasets before and after the algorithm is improved when the number of target markers is 10%
圖5 各類目標(biāo)分類準(zhǔn)確率與監(jiān)督率分布圖Fig.5 Distribution of classification accuracy and supervision rate of various targets