,,,,
長(zhǎng)沙理工大學(xué) 電氣與信息工程學(xué)院,長(zhǎng)沙 410114
合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)系統(tǒng)具有全天時(shí)、全天候的特點(diǎn),能夠在任何天氣狀況下,全天時(shí)不間斷的有效獲取地面信息。星載SAR作為對(duì)地觀測(cè)的重要手段,已廣泛應(yīng)用于農(nóng)業(yè)、工業(yè)等領(lǐng)域。隨著星載SAR成像技術(shù)的不斷完善,海量的SAR數(shù)據(jù)需要處理,因此從大量基于復(fù)雜場(chǎng)景的數(shù)據(jù)集中獲取信息并完成識(shí)別、分割等任務(wù)成為了當(dāng)前的研究熱點(diǎn)[1-3]。圖像目標(biāo)識(shí)別的研究主要包含圖像預(yù)處理、特征提取、識(shí)別與分類三個(gè)方面。傳統(tǒng)的圖像目標(biāo)識(shí)別研究主要基于特征提取,如文獻(xiàn)[4]將應(yīng)用于人臉識(shí)別的非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)特征應(yīng)用于SAR目標(biāo)識(shí)別;文獻(xiàn)[5]將SAR圖像映射到流形空間,提取局部判別嵌入(Local Discriminant Embedding,LDE)特征,然后用于圖像目標(biāo)識(shí)別;基于特征提取的方法有主成份分析(Principal Component Analysis,PCA)[6]、單演信號(hào)描述[7]、支持向量機(jī)(Support Vector Machine,SVM)[8]等。以上方法提取的特征均基于人工設(shè)計(jì),需要大量的試驗(yàn)基礎(chǔ)和專業(yè)領(lǐng)域知識(shí),并且由于這些特征都是基于目標(biāo)的底層視覺特征,無(wú)法充分表征目標(biāo)的本質(zhì)屬性,因此在很多情況下無(wú)法獲得有用的特征,導(dǎo)致目標(biāo)識(shí)別效果不佳。2006年,文獻(xiàn)[9]揭開了深度學(xué)習(xí)(Deep Learning)發(fā)展的序幕。近年來(lái),深度學(xué)習(xí)的模型在圖像識(shí)別領(lǐng)域展現(xiàn)出了強(qiáng)大的學(xué)習(xí)能力,文獻(xiàn)[10]提出一種深度卷積神經(jīng)網(wǎng)絡(luò)將ImageNet數(shù)據(jù)的分類正確率提升了9%。隨后許多學(xué)者在不同的應(yīng)用背景下提出了多種深度學(xué)習(xí)模型如棧式消噪自動(dòng)編碼機(jī)[11]、深度置信網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等。卷積神經(jīng)網(wǎng)絡(luò)作為一種深度學(xué)習(xí)模型,由于其權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使得圖像可直接作為網(wǎng)絡(luò)的輸入,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域取得了廣泛的應(yīng)用,如人臉識(shí)別[12]、行為識(shí)別[13]、醫(yī)學(xué)圖像識(shí)別[14]等。
卷積神經(jīng)網(wǎng)絡(luò)源于人工神經(jīng)網(wǎng)絡(luò)的研究,是一種包含多隱層的多層感知器深度學(xué)習(xí)結(jié)構(gòu),這種多層的結(jié)構(gòu)通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。本文針對(duì)SAR圖像數(shù)據(jù)的目標(biāo)識(shí)別問題,提出一種基于遷移學(xué)習(xí)監(jiān)督式預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),試驗(yàn)結(jié)果表明該算法有效地改善和提升了網(wǎng)絡(luò)誤差收斂和識(shí)別精度。
卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),每層由多個(gè)二維平面組成,每個(gè)平面又包含多個(gè)獨(dú)立的神經(jīng)元。典型的卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層和全連接層3種類型的二維平面層構(gòu)成。卷積層通過(guò)卷積運(yùn)算,增強(qiáng)了原信號(hào)的特征;池化層也叫下采樣層,利用圖像局部相關(guān)性的原理,對(duì)輸入圖像進(jìn)行下采樣,在減少數(shù)據(jù)處理量的同時(shí)保留了特征信息;輸出層通過(guò)整合具有類別區(qū)分性的特征信息,實(shí)現(xiàn)分類器的效果。
(1)卷積層
在卷積層,將輸入圖像或上一層的特征圖與該層的卷積濾波器進(jìn)行卷積加偏置,通過(guò)一個(gè)非線性激活函數(shù)輸出卷積層的特征圖(feature map)。具體計(jì)算如下:
*xl-1+bi
(1)
cl=f(z)
(2)
式中:xl-1為上一層的輸出特征圖;z為經(jīng)卷積操作后的特征圖輸出;cl為通過(guò)非線性激活函數(shù)得到的卷積層最終特征圖輸出;k為卷積核;b為偏置;“*”為卷積計(jì)算(步長(zhǎng)為1);f(·)為非線性激活函數(shù)。在該算法中選擇ReLU函數(shù)作為非線性激活函數(shù)。常用的非線性激活函數(shù)如sigmoid和tanh由于其正負(fù)飽和區(qū)的梯度都接近于0,會(huì)出現(xiàn)梯度彌散,而ReLU函數(shù)在大于0的部分梯度為常數(shù),因此避免了梯度彌散的問題。同時(shí),采用ReLU函數(shù)作為非線性激活函數(shù),由于只有在輸入值為正時(shí)有輸出,其余均為零,使得網(wǎng)絡(luò)具有了適度的稀疏性,對(duì)于卷積層而言,提高了網(wǎng)絡(luò)對(duì)數(shù)據(jù)的表征能力,加快了網(wǎng)絡(luò)訓(xùn)練過(guò)程的收斂。
(2)池化層
在池化層,對(duì)卷積層的輸出特征圖進(jìn)行下采樣,實(shí)現(xiàn)數(shù)據(jù)的降維。最大值池化采用池化區(qū)域中的最大值作為下采樣輸出,避免了零元素對(duì)區(qū)域中數(shù)值較大元素的削弱。
rl=max(rl-1)
(3)
式中:rl-1為上一層的輸出特征圖中對(duì)應(yīng)的一個(gè)池化區(qū)域;rl為對(duì)應(yīng)池化區(qū)域的最大值池化輸出,多個(gè)區(qū)域輸出組合成最終的池化層輸出特征圖。
(3)輸出層
傳統(tǒng)的CNN采用全連接層作為網(wǎng)絡(luò)輸出層輸出分類結(jié)果,而CNN中大部分訓(xùn)練參數(shù)集中于全連接層,過(guò)多的網(wǎng)絡(luò)參數(shù)往往帶來(lái)過(guò)擬合的問題。在本算法中,采用卷積層替代全連接層作為CNN的輸出層,卷積層輸出為個(gè)數(shù)為N的特征圖(分別對(duì)應(yīng)樣本的N個(gè)類別),然后采用Softmax進(jìn)行歸一化。Softmax回歸模型是logistic回歸模型在多分類問題上的推廣,對(duì)于給定的輸入x,Softmax的假設(shè)函數(shù)定義如下:
(4)
式中:zk為第k個(gè)神經(jīng)元的輸出;wT和b分別為權(quán)重和偏置。由式(4)可以看出,Softmax回歸模型把神經(jīng)元的輸出構(gòu)造成概率分布,同時(shí)起到了歸一化的作用。該算法中損失函數(shù)定義為交叉熵?fù)p失函數(shù):
C=-∑kyklnzk
(5)
式中:yk為對(duì)應(yīng)于第k類的真實(shí)值,取值為0或1。
卷積神經(jīng)網(wǎng)絡(luò)中包含大量的待訓(xùn)練參數(shù),在訓(xùn)練開始階段這些參數(shù)通常采用隨機(jī)初始化的方式,這使得網(wǎng)絡(luò)的初始誤差會(huì)處于一個(gè)數(shù)值相對(duì)較大的位置,容易導(dǎo)致網(wǎng)絡(luò)收斂效果差和過(guò)擬合的問題。針對(duì)這一問題,提出一種基于特征選擇的遷移學(xué)習(xí)監(jiān)督式預(yù)訓(xùn)練方式,目的是為了獲得源域和目標(biāo)域中共有的特征表示,然后基于這些特征表示來(lái)實(shí)現(xiàn)知識(shí)遷移。
遷移學(xué)習(xí)是一種運(yùn)用已有的知識(shí)對(duì)不同但相關(guān)的領(lǐng)域進(jìn)行求解的機(jī)器學(xué)習(xí)方法,它放寬了傳統(tǒng)機(jī)器學(xué)習(xí)中的兩個(gè)基本假設(shè):1)用于學(xué)習(xí)的訓(xùn)練樣本和新的測(cè)試樣本應(yīng)滿足獨(dú)立且同分布的條件;2)必須有足夠多的訓(xùn)練樣本才能得到一個(gè)好的模型。遷移學(xué)習(xí)中包含源域(Source Domain)和目標(biāo)域(Target Domain),定義[15]如下:
D(s)={x,P(x)}
(6)
D(t)={x,P(x)}
(7)
式中:D(s)和D(t)分別為源域和目標(biāo)域;x和P(x)分別為1個(gè)域中的特征空間及其對(duì)應(yīng)的邊際概率分布。針對(duì)移動(dòng)與靜止目標(biāo)搜索識(shí)別(Moving and Stationary Target Acquisition and Recognition,MSTAR)數(shù)據(jù)集目標(biāo)識(shí)別任務(wù),為了建立一種小規(guī)模數(shù)據(jù)到大規(guī)模數(shù)據(jù)的特征遷移學(xué)習(xí),源域的源任務(wù)T(s)定義為三類目標(biāo)識(shí)別,目標(biāo)域的目標(biāo)任務(wù)T(t)定義為十類目標(biāo)識(shí)別。由于源域與目標(biāo)域的數(shù)據(jù)具有同分布特性,通過(guò)源任務(wù)獲得的預(yù)訓(xùn)練模型來(lái)初始化目標(biāo)任務(wù)中的網(wǎng)絡(luò)參數(shù),從而實(shí)現(xiàn)了源域到目標(biāo)域的特征信息遷移。
圖1為基于遷移學(xué)習(xí)監(jiān)督式預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)識(shí)別算法流程。算法具體步驟如下:
(1)源域預(yù)訓(xùn)練
將MSTAR中三類目標(biāo)數(shù)據(jù)集作為源域訓(xùn)練樣本,針對(duì)三類目標(biāo)識(shí)別任務(wù)進(jìn)行有監(jiān)督地訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),得到預(yù)訓(xùn)練模型。
(2)特征信息遷移
構(gòu)建與預(yù)訓(xùn)練模型具有相同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),將十類目標(biāo)識(shí)別作為目標(biāo)域的目標(biāo)任務(wù),將上一步獲得的預(yù)訓(xùn)練模型作為該網(wǎng)絡(luò)的初始參數(shù),采用十類目標(biāo)數(shù)據(jù)作為訓(xùn)練樣本對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào):
1)前饋網(wǎng)絡(luò):
①根據(jù)式(1)計(jì)算卷積,卷積結(jié)果通過(guò)式(2)的非線性激活函數(shù)得到卷積層的輸出特征圖cl;
②根據(jù)式(3)對(duì)特征圖cl進(jìn)行最大值池化,得到池化層的輸出特征圖;
③將先前層提取到的特征圖通過(guò)卷積層輸出對(duì)應(yīng)各類的特征圖,最后利用Softmax回歸模型,根據(jù)式(4)得到識(shí)別結(jié)果。
2)誤差反向傳播:
根據(jù)式(5)交叉熵?fù)p失函數(shù)計(jì)算梯度,采用誤差反向傳播的方法調(diào)整網(wǎng)絡(luò)的權(quán)值和偏置參數(shù),直到誤差收斂。
為了驗(yàn)證算法的有效性,采用美國(guó)國(guó)防高等研究計(jì)劃署支持的MSTAR公開數(shù)據(jù)集進(jìn)行試驗(yàn),MSTAR數(shù)據(jù)集是通過(guò)高分辨率的聚束式合成孔徑雷達(dá)采集到的靜止車輛的SAR切片圖像,包括多類目標(biāo)的SAR圖像數(shù)據(jù)。算法基于caffe平臺(tái)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),試驗(yàn)環(huán)境為:i7-6700(主頻3.4 GHz,四核),16 GB內(nèi)存,訓(xùn)練過(guò)程采用GPU加速。
本文算法采用一個(gè)包含5個(gè)卷積層和4個(gè)池化層的卷積神經(jīng)網(wǎng)絡(luò)。MSTAR數(shù)據(jù)集訓(xùn)練樣本可直接作為網(wǎng)絡(luò)的輸入,圖像尺寸縮放為88×88,最終輸出層輸出一個(gè)N維的向量,對(duì)應(yīng)于N個(gè)類別的概率分布。CNN網(wǎng)絡(luò)參數(shù)配置如表1所示。
算法基于遷移學(xué)習(xí)的監(jiān)督式預(yù)訓(xùn)練獲得預(yù)訓(xùn)練模型,采用MSTAR中數(shù)據(jù)規(guī)模較小的三類目標(biāo)數(shù)據(jù)作為源域訓(xùn)練樣本。三類目標(biāo)數(shù)據(jù)如表2所示,訓(xùn)練樣本為方位角17°下BMP2_SN9563、BTR70_C71、T72_SN132的SAR圖像數(shù)據(jù)。三類目標(biāo)識(shí)別框架如表1所示,其中N設(shè)置為3。
表2 三類目標(biāo)訓(xùn)練數(shù)據(jù)分布
針對(duì)源域的三類目標(biāo)識(shí)別任務(wù),采用小批量隨機(jī)梯度下降法(Mini-batch Stochastic Gradient Descent,MSGD)訓(xùn)練源域目標(biāo)網(wǎng)絡(luò),批處理數(shù)量(batchsize)設(shè)置為25,學(xué)習(xí)率設(shè)置為0.01。保存訓(xùn)練迭代60 000次時(shí)的網(wǎng)絡(luò)參數(shù)作為預(yù)訓(xùn)練模型。
為了實(shí)現(xiàn)源域到目標(biāo)域的特征信息遷移,在目標(biāo)域中構(gòu)建與源域相同的卷積神經(jīng)網(wǎng)絡(luò)框架,如表1(其中N=10)所示,網(wǎng)絡(luò)初始參數(shù)由源域獲得的預(yù)訓(xùn)練模型得到。目標(biāo)域中采用十類目標(biāo)識(shí)別樣本對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。在十類目標(biāo)數(shù)據(jù)包括BMP2、BTR70、T72、2S1、BRDM2、ZSU234、BTR60、D7、T62、ZIL131十類目標(biāo)數(shù)據(jù),訓(xùn)練樣本為方位角17°下的十類目標(biāo)SAR圖像數(shù)據(jù),測(cè)試樣本為方位角15°的十類目標(biāo)SAR圖像數(shù)據(jù)。十類目標(biāo)測(cè)試與訓(xùn)練數(shù)據(jù)分布如表3所示。
表3 十類目標(biāo)測(cè)試與訓(xùn)練數(shù)據(jù)分布
針對(duì)目標(biāo)域的十類目標(biāo)識(shí)別任務(wù),采用小批量隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò),batchsize設(shè)置為25;由于采用預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù),學(xué)習(xí)率設(shè)置為源任務(wù)的1/10,即0.001,最大迭代次數(shù)為60 000次,每迭代200次進(jìn)行一次測(cè)試。訓(xùn)練過(guò)程在迭代34 200次時(shí)測(cè)試正確率達(dá)到了99.13%,十類目標(biāo)的識(shí)別結(jié)果如圖2所示,其中對(duì)角線上以黑灰色框出的數(shù)字表示目標(biāo)識(shí)別正確的數(shù)目,其余表示識(shí)別錯(cuò)誤的數(shù)目及對(duì)應(yīng)錯(cuò)分類別。
為了更好地評(píng)測(cè)本文算法針對(duì)目標(biāo)域十類目標(biāo)識(shí)別的性能,構(gòu)建一個(gè)采用參數(shù)隨機(jī)初始化的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比。兩個(gè)網(wǎng)絡(luò)具有相同的卷積層和池化層,同樣采用卷積層作為網(wǎng)絡(luò)輸出層,訓(xùn)練過(guò)程采用相同的學(xué)習(xí)率和batchsize。兩個(gè)算法的十類目標(biāo)識(shí)別測(cè)試正確率對(duì)比如表4所示,由正確率對(duì)比可以看出本文算法的基于三類目標(biāo)監(jiān)督式預(yù)訓(xùn)練CNN比網(wǎng)絡(luò)參數(shù)隨機(jī)初始化的CNN識(shí)別精度提升了0.88%。
表4 測(cè)試正確率對(duì)比
由于兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練迭代10 000次以后已基本達(dá)到收斂,所以截取了訓(xùn)練迭代前10 000次兩個(gè)算法誤差收斂情況如圖3所示,由對(duì)比曲線可以看出基于監(jiān)督式預(yù)訓(xùn)練的CNN由于初始誤差較小,誤差的收斂速度和整體收斂情況均優(yōu)于參數(shù)隨機(jī)初始化的CNN。測(cè)試正確率截取了訓(xùn)練迭代前15 000次得到對(duì)比曲線如圖4所示,由對(duì)比曲線可以看出基于監(jiān)督式預(yù)訓(xùn)練的CNN在整個(gè)訓(xùn)練階段的測(cè)試正確率均高于參數(shù)隨機(jī)初始化的CNN,具有更高的識(shí)別精度。
本文算法是基于小規(guī)模數(shù)據(jù)到大規(guī)模數(shù)據(jù)特征信息遷移的思想,為了評(píng)測(cè)源任務(wù)中數(shù)據(jù)規(guī)模大小對(duì)目標(biāo)任務(wù)的影響,構(gòu)建了一個(gè)六類目標(biāo)識(shí)別作為源任務(wù)實(shí)現(xiàn)監(jiān)督式預(yù)訓(xùn)練的CNN,最終十類目標(biāo)識(shí)別的正確率如表4所示。由表4可得六類目標(biāo)預(yù)訓(xùn)練的最終識(shí)別精度高于網(wǎng)絡(luò)參數(shù)隨機(jī)初始化的CNN,但略低于三類目標(biāo)預(yù)訓(xùn)練的CNN,可能的原因是,與三類目標(biāo)預(yù)訓(xùn)練相比,六類目標(biāo)預(yù)訓(xùn)練的訓(xùn)練樣本數(shù)據(jù)分布及CNN輸出層結(jié)構(gòu)與十類目標(biāo)識(shí)別目標(biāo)任務(wù)的相似程度較高,使得這種特征信息遷移對(duì)目標(biāo)任務(wù)的影響較小。考慮一種極端情況,若采用十類目標(biāo)做預(yù)訓(xùn)練,而目標(biāo)任務(wù)也為十類目標(biāo)識(shí)別,這種預(yù)訓(xùn)練實(shí)際上起到的效果只是訓(xùn)練迭代次數(shù)的增加而已。由以上分析可得,基于小規(guī)模數(shù)據(jù)到大規(guī)模數(shù)據(jù)特征信息遷移的預(yù)訓(xùn)練方法,在確定預(yù)訓(xùn)練數(shù)據(jù)的分布與規(guī)模大小時(shí),不宜與目標(biāo)任務(wù)的訓(xùn)練數(shù)據(jù)具有過(guò)高的相似程度。
本文針對(duì)MSTAR數(shù)據(jù)集中的SAR圖像多類目標(biāo)識(shí)別問題,提出了一種基于遷移學(xué)習(xí)監(jiān)督式預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)。首先,建立一種以三類目標(biāo)識(shí)別作為源域、十類目標(biāo)識(shí)別作為目標(biāo)域的遷移學(xué)習(xí)模型;然后基于源域預(yù)訓(xùn)練模型進(jìn)行目標(biāo)域卷積神經(jīng)網(wǎng)絡(luò)的微調(diào),最終實(shí)現(xiàn)了源域到目標(biāo)域的特征信息遷移。通過(guò)這種遷移學(xué)習(xí)的方式,使得目標(biāo)域充分利用了源域預(yù)訓(xùn)練模型的特征信息,加快了卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程的誤差收斂速度,在目標(biāo)域的十類目標(biāo)識(shí)別精度達(dá)到了99.13%,相比于參數(shù)隨機(jī)初始化的卷積神經(jīng)網(wǎng)絡(luò),識(shí)別精度提升了0.88%。由于本文算法是從大規(guī)模數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)構(gòu)建源域樣本,從而實(shí)現(xiàn)特征遷移,故該方法不適用于小規(guī)模數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練。今后的研究方向可在源域數(shù)據(jù)樣本分布與規(guī)模大小的標(biāo)準(zhǔn)定義上展開。