国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度雙線性卷積神經(jīng)網(wǎng)絡(luò)的多角度下車型精細(xì)識(shí)別

2019-10-23 12:23:56劉虎周野袁家斌
計(jì)算機(jī)應(yīng)用 2019年8期
關(guān)鍵詞:多尺度卷積神經(jīng)網(wǎng)絡(luò)

劉虎 周野 袁家斌

摘 要:針對(duì)多角度下車輛出現(xiàn)一定的尺度變化和形變導(dǎo)致很難被準(zhǔn)確識(shí)別的問題,提出基于多尺度雙線性卷積神經(jīng)網(wǎng)絡(luò)(MS-B-CNN)的車型精細(xì)識(shí)別模型。首先,對(duì)雙線性卷積神經(jīng)網(wǎng)絡(luò)(B-CNN)算法進(jìn)行改進(jìn),提出MS-B-CNN算法對(duì)不同卷積層的特征進(jìn)行了多尺度融合,以提高特征表達(dá)能力;此外,還采用基于中心損失函數(shù)與Softmax損失函數(shù)聯(lián)合學(xué)習(xí)的策略,在Softmax損失函數(shù)基礎(chǔ)上分別對(duì)訓(xùn)練集每個(gè)類別在特征空間維護(hù)一個(gè)類中心,在訓(xùn)練過程中新增加樣本時(shí),網(wǎng)絡(luò)會(huì)約束樣本的分類中心距離,以提高多角度情況下的車型識(shí)別的能力。實(shí)驗(yàn)結(jié)果顯示,該車型識(shí)別模型在CompCars數(shù)據(jù)集上的正確率達(dá)到了93.63%,驗(yàn)證了模型在多角度情況下的準(zhǔn)確性和魯棒性。

關(guān)鍵詞:車型精細(xì)識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);雙線性卷積神經(jīng)網(wǎng)絡(luò);中心損失;多尺度

中圖分類號(hào):?TP391.4

文獻(xiàn)標(biāo)志碼:A

Fine-grained vehicle recognition under multiple angles based on multi-scale bilinear convolutional neural network

LIU Hu, ZHOU Ye*, YUAN Jiabin

College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing Jiangsu 210000, China

Abstract:?In view of the problem that it is difficult to accurately recognize the type of vehicle due to scale change and deformation under multiple angles, a fine-grained vehicle recognition model based on Multi-Scale Bilinear Convolutional Neural Network (MS-B-CNN) was proposed. Firstly, B-CNN was improved and then MS-B-CNN was proposed to realize the multi-scale fusion of the features of different convolutional layers to improve feature expression ability. In addition, a joint learning strategy was adopted based on center loss and Softmax loss. On the basis of Softmax loss, a category center was maintained for each category of the training set in the feature space. When new samples were added in the training process, the classification center distances of samples were constrained to improve the ability of vehicle recognition in multi-angle situations. Experimental results show that the proposed vehicle recognition model achieved 93.63% accuracy on CompCars dataset, verifying the accuracy and robustness of the model under multiple angles.

Key words:?fine-grained vehicle recognition; Convolutional Neural Network (CNN); Bilinear Convolutional Neural Network (B-CNN); center loss; multi-scale

0 引言

車型精細(xì)識(shí)別是智能交通系統(tǒng)的核心技術(shù)。所謂的車輛精細(xì)型號(hào)識(shí)別指的是對(duì)車輛的品牌、型號(hào)、年代的識(shí)別。通過現(xiàn)有技術(shù)自動(dòng)識(shí)別出車輛精細(xì)型號(hào),可以顯著提高交通執(zhí)法的效率。在與車輛相關(guān)的犯罪案件中,公安部門往往需要借助受害者對(duì)車輛特征的描述,從海量的交通圖像數(shù)據(jù)庫中檢索可疑車輛。不同于傳統(tǒng)的車牌識(shí)別,對(duì)車輛進(jìn)行精細(xì)識(shí)別得到汽車制造商和具體型號(hào)信息,有利于對(duì)車輛進(jìn)行在線或離線檢索和識(shí)別。此外,通過將識(shí)別得到的信息與車管所車輛的注冊(cè)信息進(jìn)行對(duì)比,可以快速鎖定假牌、套牌車,極大地提高相關(guān)案件的處理效率。在交通監(jiān)控中,與車輛型號(hào)相關(guān)的車輛流量統(tǒng)計(jì)在智能交通系統(tǒng)中發(fā)揮了更重要的作用:估計(jì)監(jiān)控點(diǎn)之間的行程時(shí)間并在高峰時(shí)段提供詳細(xì)的交通狀況可以很好地緩解交通擁堵。此外,車輛精細(xì)型號(hào)識(shí)別在智慧停車、智能車險(xiǎn)、高速公路智能收費(fèi)等領(lǐng)域有著重要應(yīng)用??傊S著監(jiān)控?cái)z像機(jī)的普及,車型精細(xì)識(shí)別具有重大的實(shí)用價(jià)值和經(jīng)濟(jì)價(jià)值[1]。

車型精細(xì)識(shí)別屬于細(xì)粒度圖像分類的一種。細(xì)粒度圖像分類是目前人工智能領(lǐng)域的熱門研究課題,涉及計(jì)算機(jī)視覺、模式識(shí)別、圖像處理、概率論與數(shù)理統(tǒng)計(jì)等多個(gè)學(xué)科, 引起了國內(nèi)外學(xué)者的廣泛關(guān)注。Xiao等[2]提出了兩級(jí)注意力(Two level attention)算法,該方法不需要人工標(biāo)注框等人工標(biāo)注信息。Liu和他的研究團(tuán)隊(duì)[3]提出了全連接層(Fully Convolutional Network,F(xiàn)CN)注意力模型,該模型是一種基于強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,可以自適應(yīng)地選擇多個(gè)任務(wù)驅(qū)動(dòng)的注意力區(qū)域。Simon等[4]提出了星座算法(Constellations),該算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)生成特征圖(Feature map)進(jìn)行了分析,選取響應(yīng)值高的區(qū)域作為關(guān)鍵點(diǎn),并基于關(guān)鍵點(diǎn)來提取局部區(qū)域信息。Lin等[5]提出了雙線性卷積神經(jīng)網(wǎng)絡(luò)(Bilinear CNN,B-CNN),該方法通過兩個(gè)子網(wǎng)絡(luò)相互協(xié)作共同完成區(qū)域檢測(cè)與特征提取的任務(wù)。不同于上述方法,B-CNN是一種端到端的模型,它將區(qū)域檢測(cè)與特征提取任務(wù)相結(jié)合,達(dá)到了相互促進(jìn)的目的。

目前,研究者針對(duì)車型精細(xì)識(shí)別問題提出了許多解決方法。Sullivan等[6]通過建立一個(gè)三維模型去模擬車輛的姿態(tài),利用三維模型信息得到車輛的姿態(tài)位置,并將其投影到二維平面,進(jìn)而提取二維平面的特征去實(shí)現(xiàn)車輛的匹配識(shí)別。而Li等[7]對(duì)Sullivan的工作進(jìn)行了改進(jìn),在擬合出了車輛的三維模型后,直接將車輛的3D信息用于分類。基于三維信息的車型識(shí)別可以在一定程度上降低多視角給識(shí)別帶來的影響,但該方法需要為每一種車型建立三維模型,隨著車型數(shù)量的增加,特征提取、圖像表示和模型匹配等環(huán)節(jié)將變得更加復(fù)雜,帶來巨大的計(jì)算開銷。隨著對(duì)車輛間細(xì)節(jié)識(shí)別需求的逐步增加,如何準(zhǔn)確描述車輛的細(xì)節(jié)、如何區(qū)分不同車輛之間的細(xì)微差別是當(dāng)前車輛識(shí)別的研究熱點(diǎn)和問題[8]。Fang 等[9]提出了一個(gè)由粗到精的卷積神經(jīng)網(wǎng)絡(luò)模型,并根據(jù)卷積神經(jīng)網(wǎng)絡(luò)最后一個(gè)卷積層的特征圖自動(dòng)定位局部區(qū)域并提取局部特征,將局部特征與車輛整體特征進(jìn)行融合,并訓(xùn)練支持向量機(jī)(Support Vector Machine,SVM)分類器。但是,上述方法都是針對(duì)限定角度下的車型精細(xì)識(shí)別。

為了解決多角度下車型精細(xì)識(shí)別問題,從建立提取能力強(qiáng)的網(wǎng)絡(luò)模型和使用基于中心損失的度量學(xué)習(xí)方法兩方面著手:首先對(duì)B-CNN算法進(jìn)行了改進(jìn),提出了多尺度雙線性卷積神經(jīng)網(wǎng)絡(luò)(Multi Scale B-CNN,MS-B-CNN),它對(duì)不同卷積層的特征進(jìn)行了多尺度融合,能提高特征表達(dá)能力;然后引入中心損失,對(duì)車輛圖像在特征空間內(nèi)加以約束,有效地引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)使得類內(nèi)距離較小、類間距離較大的特征。

1 相關(guān)知識(shí)

1.1 B-CNN

B-CNN的算法流程如圖1所示。

B-CNN模型由一個(gè)四元組組成:M=(fA, fB,p,c),其中fA和fB為基于卷積神經(jīng)網(wǎng)絡(luò)A和B的特征提取函數(shù),p是一個(gè)池化函數(shù),c是分類函數(shù)。特征提取函數(shù)可以看成一個(gè)函數(shù)映射,將輸入圖像I與位置區(qū)域L映射為一個(gè)c×D維的特征。輸入圖像在某一位置l處的雙線性特征可通過如下公式表示:

bilinear(l,I, fA, fB)=fA(l,I)TfB(l,I)

(1)

之后利用池化函數(shù)p將所有位置的雙線性特征進(jìn)行累加匯聚為一個(gè)雙線性特征,并用這個(gè)特征來描述輸入圖像的特征:

Φ(Ι)=∑ l∈L bilinear(l,I, fA, fB)

(2)

最后,分類函數(shù)c對(duì)提取到的特征進(jìn)行分類,可以采用SVM分類器或者邏輯回歸。

將B-CNN應(yīng)用于實(shí)際場(chǎng)景中是一個(gè)端到端的訓(xùn)練過程。模型的前半部分是基本卷積神經(jīng)網(wǎng)絡(luò)模型,因此只要求得后半部分的梯度值,即可完成對(duì)整個(gè)模型的訓(xùn)練[10]。對(duì)于每個(gè)位置l,特征提取函數(shù)fA和fB的輸出分別為 f 1與 f 2,那么在l處的雙線性特征是x= f T1 f 2。用dl/dx表示損失函數(shù)在x處的梯度值,通過鏈?zhǔn)椒▌t可得損失函數(shù)對(duì)A和B網(wǎng)絡(luò)輸出的梯度值:

dl dA =B? dl dx? T

(3)

dl dB =A? dl dx? T

(4)

關(guān)于B-CNN的直觀解釋是,網(wǎng)絡(luò)A的作用是對(duì)物體進(jìn)行定位,網(wǎng)絡(luò)B用于提取網(wǎng)絡(luò)A檢測(cè)到的對(duì)象的特征。兩個(gè)網(wǎng)絡(luò)相互協(xié)調(diào)作用,完成細(xì)粒度圖像分類過程中兩個(gè)最重要的任務(wù):區(qū)域檢測(cè)和特征提取[10]。

1.2 度量學(xué)習(xí)

度量學(xué)習(xí)又叫距離度量學(xué)習(xí),通過從給定的訓(xùn)練樣本集學(xué)習(xí),獲得可以有效反映數(shù)據(jù)樣本之間距離的度量矩陣。基于度量矩陣的新特征空間中,相同類別樣本的分布更緊密,而不同類別樣本的分布更松散。度量學(xué)習(xí)就是學(xué)習(xí)一個(gè)映射空間(Embedding Space),使具有相同標(biāo)簽的樣本在映射空間內(nèi)盡量靠近,具有不同標(biāo)簽的樣本在嵌入空間中盡量遠(yuǎn)離。

隨著深度學(xué)習(xí)的發(fā)展,度量學(xué)習(xí)也可以利用深度網(wǎng)絡(luò)對(duì)特征抽取的能力。針對(duì)某個(gè)二元組、三元組中不同的樣本,其對(duì)應(yīng)的深度網(wǎng)絡(luò)之間會(huì)共享參數(shù),并在最后一層計(jì)算樣本間的歐氏距離來度量特征表示的優(yōu)劣。不同的損失函數(shù)能夠考慮樣本之間的異構(gòu)性、類別之間的差異性,以及更全面地利用當(dāng)前通過網(wǎng)絡(luò)的樣本。學(xué)到的特征表示可以用于圖像細(xì)粒度分類、聚類,人臉識(shí)別等任務(wù)。

目前,最流行的度量學(xué)習(xí)方法是使用三元組損失(Triplet Loss)[11]和中心損失(Center Loss)[12]。

1.2.1 三元組損失

三元組損失最早被用在人臉識(shí)別任務(wù)中,每次在訓(xùn)練集中取出三個(gè)樣本組成三元組( x ai, x pi, x ni),第一個(gè)樣本 x ai被稱為Anchor,第二個(gè)樣本 x pi與 x ai是同類被稱為Positive,第三個(gè)樣本 x ni與 x ai是異類被稱為Negative。在這樣的三元組中,距離‖f( x ai)-f( x pi)‖2應(yīng)該較小,‖f( x ai)-f( x ni)‖2應(yīng)該較大。三元組損失希望如下式子成立:

‖f( x ai)-f( x pi)‖22+α<‖f( x ai)-f( x ni)‖22

(5)

即同類別樣本間的距離平方至少要比不同樣本間的距離平方小α。因此三元組的損失函數(shù)為:

Li=[‖f( x ai)-f( x pi)‖22+α-‖f( x ai)-f( x ni)‖22]+

(6)

其中,距離取平方是為了后續(xù)求導(dǎo)方便。

三元組損失直接對(duì)樣本特征向量間的歐氏距離進(jìn)行優(yōu)化,但是在訓(xùn)練的過程中,三元組的選擇是很有挑戰(zhàn)性的。如果每次都隨機(jī)選擇三元組,盡管模型可以正確地收斂,但是達(dá)不到最佳性能。如果加入“難例挖掘”,也就是說,每次選擇最難以區(qū)分的三元組進(jìn)行訓(xùn)練,模型又往往不能正確地收斂。對(duì)此,建議選取那些“半難”(Semi-hard)的數(shù)據(jù)進(jìn)行訓(xùn)練,這樣讓模型在可以收斂的同時(shí),又可以保持良好的性能。 此外,使用三元組損失訓(xùn)練模型通常還需要非常大的數(shù)據(jù)集,才能取得較好的效果。

1.2.2 中心損失

與三元組損失不同,中心損失沒有直接對(duì)距離進(jìn)行優(yōu)化,它保留了原有的分類模型,但又為每個(gè)類(在車型精細(xì)識(shí)別模型中,一個(gè)類就對(duì)應(yīng)一個(gè)車型)指定了一個(gè)類別中心。同一類別的圖像的特征向量都盡量靠近自己的類別中心,盡量遠(yuǎn)離不同類的類別中心。令輸入樣本為 x i,該樣本對(duì)應(yīng)的類別為yi,類別yi的類別中心為 c yi。那么中心損失函數(shù)的定義為:

Lcenter_loss= 1 2 ∑ N i=1 ‖ x i- c yi‖22

(7)

中心損失函數(shù)一個(gè)很重要問題就是類別中心 c yi的選擇。理論上來說,類別yi所有樣本特征向量的平均值是其最佳中心。可是這種方式并不切實(shí)際,如果使用這種方式,那么在每次迭代時(shí),都要對(duì)所有樣本計(jì)算一次 c yi,這會(huì)帶來極大的運(yùn)算成本。因此,正確的做法是,在初始階段,先隨機(jī)確定每個(gè)類的類別中心,然會(huì)針對(duì)每個(gè)batch進(jìn)行更新。此外,還需要設(shè)置類別中心學(xué)習(xí)率α來控制免錯(cuò)分類樣本對(duì)類別中心的計(jì)算帶來的干擾。式(8)與式(9)分別為Lcenter_loss關(guān)于 x i的梯度表達(dá)式和類別中心 c yi的更新公式:

Lcenter_lossx i = x i- c yi

(8)

Δ c j= ∑ m i=1 δ(yi=j)·( c j- x i) 1+∑ m i=1 δ(yi=j)

(9)

其中:δ(yi=j)是一個(gè)指示性函數(shù),yi等于j時(shí),其值為1,反之為0;α為區(qū)間[0,1]內(nèi)的一個(gè)值。

2 本文方案構(gòu)造

本文對(duì)B-CNN進(jìn)行了研究,提出了多尺度B-CNN算法MS-B-CNN。MS-B-CNN對(duì)不同卷積層的特征進(jìn)行了多尺度融合,以提高特征表達(dá)能力。此外,本章采用了基于中心損失與Softmax聯(lián)合學(xué)習(xí)的策略,在 Softmax基礎(chǔ)上分別對(duì)訓(xùn)練集每個(gè)類別在特征空間維護(hù)一個(gè)類中心,訓(xùn)練過程新增加樣本時(shí),網(wǎng)絡(luò)會(huì)約束樣本的分類中心距離,提高多角度情況下的車型識(shí)別的能力。圖2為MS-B-CNN結(jié)構(gòu)。

2.1 中心損失函數(shù)的引入

在多角度車型識(shí)別問題中,同一類型的車的圖片由于拍攝角度不同,映射到特征空間表示也不同,那么它們之間的距離也不盡相同,這可能會(huì)導(dǎo)致同一類別的車的圖像在特征空間內(nèi)形成了具有相對(duì)較大的類內(nèi)差異的簇。受到人臉識(shí)別的啟發(fā),本章將結(jié)合度量學(xué)習(xí),對(duì)車輛圖像在特征空間內(nèi)加以約束,有效地引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)使得類內(nèi)距離較小、類間距離較大的特征。

2.1.1 兩種損失函數(shù)的比較

三元組損失側(cè)重于增大類間距,中心損失注重減小類間距離。在車輛多角度識(shí)別中,類內(nèi)距離可能會(huì)大于類間距離,因此,減小車型的類內(nèi)差異顯得尤為重要。此外,在三元組損失中,三元組的構(gòu)造比較復(fù)雜,且依賴于難例樣本(Hard Sample),比較難收斂。而中心損失函數(shù)沒有復(fù)雜的構(gòu)造過程,計(jì)算簡單,易于收斂,因此本文將使用基于中心損失的度量學(xué)習(xí)。

然而,中心損失沒有對(duì)類間距進(jìn)行處理,因而可能導(dǎo)致不同類在映射空間出現(xiàn)重疊的情況。中心損失函數(shù)訓(xùn)練出的模型雖然有較好的可分性但是區(qū)分能力較差,在多角度車型精細(xì)識(shí)別問題中,同一類別的車在不同角度下可能出現(xiàn)類內(nèi)差距大于類間差距的問題,就必須要求多角度車型識(shí)別模型提取到的特征不僅要有可分性,還要有判別性。通過訓(xùn)練和學(xué)習(xí),可以減少或限制相似樣本之間的距離,并增加不同類別樣本之間的距離。

本文采用中心損失與Softmax損失聯(lián)合學(xué)習(xí)的方式。這樣,模型在中心損失函數(shù)和Softmax損失函數(shù)的聯(lián)合監(jiān)督下訓(xùn)練,通過Softmax損失使得不同類別的特征向量具有判別性,而中心損失又使同一類別下的特征向量具有內(nèi)聚性,不僅增強(qiáng)了特征向量類間的判別性,還增強(qiáng)了特征向量類內(nèi)的緊湊性。

2.1.2 Softmax損失與中心損失的聯(lián)合學(xué)習(xí)策略

經(jīng)典B-CNN中用的損失函數(shù)正是Softmax損失,Softmax層的輸出是一個(gè)向量,表示輸入圖像屬于每一類的概率。在車型識(shí)別問題中,假設(shè)有 k 個(gè)車型,那么Softmax的輸出是一個(gè)K維向量。對(duì)于 m 個(gè)樣本,為訓(xùn)練集及其所對(duì)應(yīng)的標(biāo)簽為: {( x (1),y(1)),( x (2),y(2)),…,( x (m),y(m))}。當(dāng)輸入樣本為 x (i)時(shí),其 k 個(gè)估計(jì)概率用如下公式表示:

其中, W 1, W 2,…, W k為網(wǎng)絡(luò)模型的參數(shù)。 1 ∑ k j=1 e W Tj x (i) 對(duì)輸出向量進(jìn)行了歸一化。在模型訓(xùn)練時(shí),采用梯度下降法對(duì)Softmax損失函數(shù)進(jìn)行優(yōu)化,其損失函數(shù)如下公式所示:

前文說到,本文采用中心損失與Softmax 損失聯(lián)合學(xué)習(xí)的方式,在增大類間距離的同時(shí)減小類內(nèi)距離,使其獲得的特征具有更強(qiáng)的識(shí)別能力,那么網(wǎng)絡(luò)的最終目標(biāo)函數(shù)形式可以表示為:

Lfinal= Lsoftmax_loss+λLcenter_loss=- 1 m? ∑ m i=1 ln e W Tl x (i) ∑ k l=1 e W Tl x (i) ?+ λ 2 ∑ m i=1 ‖ x i- c yi‖22

(13)

其中,λ是一個(gè)超參數(shù),為兩個(gè)損失函數(shù)間的調(diào)節(jié)系數(shù)。λ越小,類內(nèi)差異占整個(gè)目標(biāo)函數(shù)的比重就越小;λ越大,類內(nèi)差異占整個(gè)目標(biāo)函數(shù)的比重就越大,生成的特征就會(huì)具有明顯的內(nèi)聚性。

Softmax損失函數(shù)與中心損失函數(shù)聯(lián)合學(xué)習(xí)的算法流程如下:在訓(xùn)練時(shí),首先初始化網(wǎng)絡(luò)層中的參數(shù)θc、 W 以及{ c j | j=1,2,…,n}。同時(shí)還需要設(shè)置的參數(shù)有λ、α、總迭代次數(shù)T、當(dāng)前迭代次數(shù)t(初始化為0)以及學(xué)習(xí)率μ′。

那么,Softmax損失函數(shù)與中心損失函數(shù)聯(lián)合學(xué)習(xí)的具體步驟如下:

1)判斷網(wǎng)絡(luò)是否收斂,不收斂則執(zhí)行步驟2);

2)迭代次數(shù)t自加1,即t←t+1;

3)計(jì)算聯(lián)合損失Ltfinal=Ltcenter_loss+Ltsoftmax_loss;

4)通過式(14)對(duì)每一張圖片計(jì)算反向傳播誤差 Ltfinalx ti ;

5)通過式(15)更新參數(shù) W ;

6)通過公式 c t+1j= c tj-α·Δ c tj更新參數(shù) c j;

7)通過式(16)更新參數(shù)θc;

8)網(wǎng)絡(luò)收斂或達(dá)到最大迭代次數(shù),則結(jié)束循環(huán),否則從步驟1)開始重復(fù)執(zhí)行。

2.2 多尺度特征融合

卷積神經(jīng)網(wǎng)絡(luò)的多尺度特征融合在深度學(xué)習(xí)中具有重要的應(yīng)用。在CNN中,淺層結(jié)構(gòu)學(xué)習(xí)到了圖像的輪廓、紋理等特征,深層結(jié)構(gòu)學(xué)習(xí)到抽象的語義特征,如果將淺層特征和深層特征進(jìn)行融合,勢(shì)必會(huì)增強(qiáng)特征的表達(dá)能力。ResNet[13-14]的一個(gè)重要特性便是融合特性,其中的“短路連接”(Skip Connection)結(jié)構(gòu)相當(dāng)于將多個(gè)殘差單元進(jìn)行了并聯(lián),實(shí)現(xiàn)了不同尺度特征的融合。DenseNet[15]借鑒了ResNet的融合思想,不同層次間融合的跨度更大,且實(shí)現(xiàn)了通道之間的融合。受上述兩種網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā),本文對(duì)B-CNN中負(fù)責(zé)特征提取的子網(wǎng)絡(luò)B(VGGNet-16)進(jìn)行了改進(jìn),將最后一層卷積的輸出和前面卷積塊的卷積核的輸出作內(nèi)積,以此達(dá)到融合不同層次的特征的目的。VGG16由5個(gè)卷積模塊組成,表1展示了VGGNet-16[16]中5個(gè)卷積模塊的詳細(xì)參數(shù)。

需要值得注意的是,在傳統(tǒng)的VGG16中,Conv5_x模塊的最后一層是最大化池化層,本文將其省去,直接將Conv5_x最后一個(gè)卷積層的輸出與其他卷積模塊的最后一個(gè)卷積層的輸出進(jìn)行融合,即Conv5_3輸出的三維向量與Conv1_2、Conv2_2、Conv3_3、Conv4_3輸出的三維向量分別作內(nèi)積。

然而,由表1可知,Conv5_3輸出特征圖的大小為(14,14,512),Conv2_2、Conv3_3與Conv4_3輸出特征圖的尺寸與(14,14,512)差別太大,無法直接與Con5_3的輸出直接作內(nèi)積操作。Conv2_2輸出的通道數(shù)小于512,且長和寬大于14。本文在Conv1_2后添加一個(gè)含有512個(gè)1×1卷積核的卷積層Conv1_3,使其通道數(shù)達(dá)到512,又在其后添加一個(gè)尺寸為16×16的卷積核,步長為16的最大化池化層Max Pool5。因此,Max Pool5的輸出尺寸為(14,14,512)。

同理,Conv2_2添加一個(gè)含有512個(gè)1×1卷積核的卷積層Conv2_3,再添加一個(gè)卷積核尺寸為8×8,步長為8的最大化池化層Max Pool6。Conv3_3添加一個(gè)含有512個(gè)1×1卷積核的卷積層Conv3_4,再添加一個(gè)卷積核尺寸為4×4,步長為4的最大化池化層Max Pool7。由于Conv4_3的輸出通道數(shù)為512,僅需在其后添加一個(gè)卷積核尺寸為2×2,步長為2的最大化池化層Max Pool8即可。

令Conv5_3、Max Pool5、Max Pool6、Max Pool7與Max Pool8的輸出特征圖分別為 Fm 1、 Fm 2、 Fm 3、 Fm 4與 ?Fm 5,大小均為(14,14,512)。然后,通過通道位置變換(Transpose)和重新調(diào)整大?。≧eshape)后,如圖3所示, Fm 1的尺寸為(512,196), Fm 2、 Fm 3、 Fm 4、 Fm 5的尺寸為(196,512),經(jīng)過內(nèi)積操作后得到特征 ?bf 1、 bf 2、 bf 3和 bf 4。此外,子網(wǎng)絡(luò)A與子網(wǎng)絡(luò)B最后一層卷積層輸出作內(nèi)積得到特征 bf 0。 bf 0、 bf 1、 bf 2、 bf 3和 bf 4均為長度為262144(512×512)的一維向量。將這5個(gè)連接(Contact)在一起得到長度為1310720的一維向量。然后連接一個(gè)隱藏層節(jié)點(diǎn)數(shù)為8192的全連接層FC1,然后連接一個(gè)Dropout層,在訓(xùn)練時(shí)節(jié)點(diǎn)保留率為0.5,預(yù)測(cè)是為1。接下來是一個(gè)和前面一樣的全連接層FC2,隱藏層節(jié)點(diǎn)數(shù)為1024。

3 實(shí)驗(yàn)及結(jié)果分析

本節(jié)仍使用平均準(zhǔn)確率(Average Precision, AP)和平均召回率(Average Recall, AR)作為評(píng)價(jià)指標(biāo)。聯(lián)合損失函數(shù)中的超參數(shù)α默認(rèn)為0.5。

3.1 數(shù)據(jù)集介紹

本文使用CompCar[17]車型數(shù)據(jù)集,該數(shù)據(jù)集由香港中文大學(xué)的多媒體實(shí)驗(yàn)室制作,是目前最大的汽車開源數(shù)據(jù)集。從CompCars中選取了生活常見的117種車型,包括12018張訓(xùn)練圖片和3122張測(cè)試圖片,訓(xùn)練集和訓(xùn)練集中每個(gè)車型類別包含的樣本數(shù)量不一,但大致平衡。數(shù)據(jù)集中包含五個(gè)角度的車輛圖像:正面、側(cè)面、正側(cè)面、右側(cè)面、背面,如圖4所示。

3.2 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)所采用的計(jì)算機(jī)為Red Hat 4.8.3-9操作系統(tǒng),64GB內(nèi)存,處理器為Intel Xeon CPU E5-2609 v2 2.5GHz 且配置了NVIDIA Tesla K40m的圖形處理單元, Tesla K40m是基于Fermi CUDA(Compute Unified Device Architecture)架構(gòu)的GPU,12GB顯存,含有2880個(gè)CUDA 核心,雙精度浮點(diǎn)性能1.43Tflops,單精度浮點(diǎn)性能:4.29Tflops。

3.3 超參數(shù)λ的選取

λ在[0,1]區(qū)間內(nèi)變化,學(xué)習(xí)到了不同的模型。圖5為不同λ值下的車型識(shí)別平均正確率。λ=0和λ=1時(shí)結(jié)果相對(duì)最差:當(dāng)λ=0時(shí),車型識(shí)別的平均準(zhǔn)確率為85.52%,說明僅使用Softmax損失函數(shù)是不可取的;當(dāng)λ=1時(shí),車型識(shí)別平均準(zhǔn)確率為81.37%,說明此時(shí)模型過分側(cè)重于減少類內(nèi)差距,即側(cè)重于學(xué)習(xí)特征的“內(nèi)聚性”,而忽略了增大類間距,從而導(dǎo)致模型分類效果較差。當(dāng)λ取0.001時(shí),模型的分類正確率最高,達(dá)到了93.63%,此時(shí)模型在增大類間距和減小類內(nèi)距之間取得了很好的平衡。

3.4 多尺度融合對(duì)實(shí)驗(yàn)結(jié)果的影響

本實(shí)驗(yàn)將MS-B-CNN的分類結(jié)果和基于本框架但沒有多尺度特征融合的B-CNN的分類結(jié)果進(jìn)行了對(duì)比,結(jié)果如表2。由表2可以看出,使用經(jīng)典B-CNN算法的平均正確率為92.56%,平均召回率為89.70%;采用多尺度特征融合的方式后的平均正確率為93.63%,平均召回率為92.65%,兩個(gè)指標(biāo)均有所提升,從而驗(yàn)證了本文采用的多尺度融合方法的有效性。

3.5 中心損失對(duì)實(shí)驗(yàn)結(jié)果的影響

本節(jié)還對(duì)不同角度下的車型識(shí)別情況進(jìn)行了分析。由表3可看出,基于本文框架,車輛正面和背面圖像的識(shí)別準(zhǔn)確率為95.73%和95.26%,平均召回率為93.55%和94.04%,結(jié)果明顯好于其他三個(gè)角度,這說明車輛的正面和側(cè)面角度的圖像區(qū)分度較大,而前側(cè)面、后側(cè)面、側(cè)面角度圖像的區(qū)分度較小。角度復(fù)雜也是車輛識(shí)別算法進(jìn)行跨場(chǎng)景遷移和實(shí)際應(yīng)用的難題,因此本文結(jié)合基于中心損失的度量學(xué)習(xí)對(duì)車輛圖像在特征空間內(nèi)加以約束,有效地引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)使得類內(nèi)距離小、類間距離大的特征,來提高模型在多角度情況下的準(zhǔn)確性和魯棒性。通過對(duì)比實(shí)驗(yàn)可以看出,每個(gè)角度下車輛的識(shí)別準(zhǔn)確率和召回率都有了明顯提升,從而證明了本文方法的有效性。

4 結(jié)語

本文從建立提取能力強(qiáng)的網(wǎng)絡(luò)模型和使用基于中心損失的度量學(xué)習(xí)方法兩方面對(duì)多角度下車型精細(xì)識(shí)別進(jìn)行了研究,提出了MS-B-CNN,提高了特征表達(dá)能力, 并且采用Softmax損失和中心損失聯(lián)合學(xué)習(xí)的方式提高了多角度情況下的車型識(shí)別的能力。最終,本文方法在CompCars數(shù)據(jù)集中選取的117種常用車型中取得了93.63%的平均正確率。本文所研究的車型精細(xì)識(shí)別均是在車輛沒有被遮擋的情況,然而,在現(xiàn)實(shí)生活中,經(jīng)常出現(xiàn)車輛被遮擋的情況,因此,下一步將對(duì)遮擋情況下的車型精細(xì)識(shí)別進(jìn)行探究。

參考文獻(xiàn)

[1]?許可.基于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度車型識(shí)別[D]. 哈爾濱:哈爾濱工程大學(xué), 2015: 1. (XU K. Fine grained vehicle identification based on convolutional neural network [D]. Harbin: Harbin Engineering University, 2015: 1.)

[2]?XIAO T, XU Y, YANG K, et al. The application of two-level attention models in deep convolutional neural network for fine-grained image classification [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 842-850.

[3]?LIU X, XIA T, WANG J, et al. Fully convolutional attention networks for fine-grained recognition [J]. arXiv E-print, 2017: arXiv:1603.06765.

[4]?SIMON M, RODNER E. Neural activation constellations: Unsupervised part model discovery with convolutional networks [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1143-1151.

[5]?LIN T-Y, ROYCHOWDHURY A, MAJI S, et al. Bilinear CNNs for fine-grained visual recognition [J]. arXiv E-print, 2017: arXiv:1504.07889.

[6]?SULLIVAN G D, BAKER K D, WORRALL A D, et al. Model-based vehicle detection and classification using orthographic approximations [J]. Image and Vision Computing, 1997, 15(8): 649-654.

[7]?LI L-J, SU H, LI F, et al. Object bank: a high-level image representation for scene classification & semantic feature sparsification [C]// Proceedings of 2010 Conference and Workshop on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2010: 1378-1386.

[8]?張強(qiáng), 李嘉鋒, 卓力. 車輛識(shí)別技術(shù)綜述[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2018,44(3):126-136. (ZHANG Q, LI J F, ZHUO L. Review of vehicle recognition technology [J]. Journal of Beijing University of Technology, 2018, 44(3): 126-136.)

[9]?FANG J, ZHOU Y, YU Y, et al. Fine-grained vehicle model recognition using a coarse-to-fine convolutional neural network architecture [J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(7): 1782-1792.

[10]?羅建豪,吳建鑫.基于深度卷積特征的細(xì)粒度圖像分類研究綜述[J].自動(dòng)化學(xué)報(bào),2017,43(8):1306-1308. (LUO J H, WU J X. A survey on fine-grained image categorization using deep convolutional features [J]. Acta Automatica Sinica, 2017,43(8) :1306-1308.)

[11]??SCHROFF F, KALENICHENKO D, PHILBIN J, et al. FaceNet: A unified embedding for face recognition and clustering [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 815-823.

[12]?WEN Y, ZHANG K, LI Z, et al. A discriminative feature learning approach for deep face recognition [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9911. Berlin: Springer, 2016: 499-515.

[13]?HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.

[14]?HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9908. Berlin: Springer, 2016: 630-645.

[15]?HUANG G, LIU Z, MAATEN L van der, et al. Densely connected convolutional networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 2261-2269.

[16]?SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv E-print, 2015: arXiv:1409.1556.?[EB/OL].[2018-11-07].https://arxiv.org/pdf/1409.1556.pdf.

[17]?YANG L, LUO P, LOY C, et al. A large-scale car dataset for fine-grained categorization and verification[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3973-3981.

猜你喜歡
多尺度卷積神經(jīng)網(wǎng)絡(luò)
基于多尺度融合插值算法的風(fēng)資源監(jiān)測(cè)方法
海綿城市建設(shè)研究進(jìn)展與若干問題探討
一種基于多尺度數(shù)學(xué)形態(tài)學(xué)的心電信號(hào)去噪方法
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
多尺度高效用水評(píng)價(jià)
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
云環(huán)境下改進(jìn)的非授權(quán)用戶入侵行為分析及檢測(cè)研究
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
吴桥县| 华容县| 大足县| 大埔县| 沧州市| 龙门县| 繁峙县| 新乡市| 万全县| 西华县| 西充县| 漾濞| 昌平区| 车致| 九龙城区| 苗栗县| 囊谦县| 军事| 洛川县| 绥德县| 玉林市| 正阳县| 乌兰察布市| 宝清县| 大关县| 镇江市| 阿拉尔市| 金昌市| 蕉岭县| 佛学| 丹江口市| 盐山县| 永城市| 都兰县| 肥东县| 资源县| 聂荣县| 南漳县| 甘肃省| 彩票| 左权县|