国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Fg-CarNet的車輛型號精細分類研究

2018-11-01 08:02余燁金強傅云翔路強
自動化學報 2018年10期
關鍵詞:準確率卷積神經網絡

余燁 金強 傅云翔 路強

車牌、車標、車型等車輛特征識別是智能交通領域的重要研究分支,在違法犯罪車輛跟蹤[1]、交通流量統(tǒng)計[2]、收費站自動收費等方面發(fā)揮著重要的作用.由于盜牌、無牌、污損車牌車輛的存在,使得車牌識別不能發(fā)揮應有的作用.車標所占比例過小,用于描述車標特征的像素有限,且實際卡口監(jiān)控系統(tǒng)中的車標定位是一個尚無成熟解決方案的難題,此外,車標也容易被替換、污損,因此,車標可以作為車輛識別的輔助特征,而不是唯一特征.目前,車輛唯一不易被偽裝的特征是“車型”,其發(fā)揮的作用不可小覷.車型識別為事故逃逸、套牌、假牌車輛等的發(fā)現和追蹤提供輔助手段,為交通管理執(zhí)法部門提供重要判斷依據,因此具有巨大的研究價值和應用前景.

對車型的理解有兩種,車輛類型和車輛型號,車輛類型一般包含客車、卡車、轎車等分類,車輛型號指車輛的具體款式,例如,轎車中的大眾品牌,里面有帕薩特、途觀等型號.車輛型號識別是一個典型的精細分類問題,其研究面臨很大的挑戰(zhàn),這是因為:1)車輛型號種類繁多.當前路面上常見的車輛型號達1000多種以上,種類越多意味著分類難度越大.2)部分車輛型號區(qū)分度小.同一品牌中不同子型號的車輛存在外觀差異度極小的情況,且不同品牌中兩種子型號的車輛也存在外觀極其相似的情況.差異度小意味著類間方差小,需要提取更深層次、更抽象的特征才能實現其分類.3)圖像受環(huán)境干擾大.實際卡口監(jiān)控系統(tǒng)中獲取的車輛圖像,由于受周圍環(huán)境、天氣、光照等影響,干擾較大,增加了車輛型號識別的難度.

傳統(tǒng)基于手工設計的特征提取方式往往由于關注點片面、抽象能力不足,無法提取有區(qū)分度的特征對車輛型號進行描述.隨著Hinton等[3]提出無監(jiān)督逐層訓練方法以來,為訓練深層神經網絡提供了思路,且隨著近年來計算機硬件的發(fā)展,運算能力大大增加,使訓練更深層次的神經網絡成為可能,從而掀起了一股深度學習的熱潮.卷積神經網絡作為一種多層前饋深度學習模型,由于其可以直接以圖像為輸入,自動學習特征,從而避免了手工設計特征抽象能力、區(qū)分度不足的問題,在計算機視覺、圖像處理等眾多領域得到了廣泛應用,如目標跟蹤[4]、圖像分類[5]、語義分割[6]和行為識別[7]等.

在車輛型號識別中,考慮到實際智能交通系統(tǒng)中獲取的監(jiān)控圖像大部分是車輛正臉的照片,且車輛正臉部分是車輛最具有區(qū)分度的區(qū)域,因此,本文以車輛正臉照片為數據源,對車輛型號進行精細分類研究.

針對車輛正臉圖像的特點進行分析,由于車輛正臉圖像特征分布不均,尤其體現在上下兩部分上,為避免相同卷積核操作對上下兩部分特征提取粒度不同,以造成有用特征損失的問題,針對車輛型號的精細分類,設計了一種多分支多維度特征融合的卷積神經網絡模型Fg-CarNet(Convolutional neural networks for car fine-grained classification,Fg-CarNet).Fg-CarNet具有如下特點:1)針對車輛正臉圖像上下兩部分設計不同的子網絡,并對上層子網絡單獨設置輔助損失函數,使卷積神經網絡能夠在車臉圖像不同區(qū)域提取不同的且具有區(qū)分度的特征.2)利用上下子網絡中提取的不同特征的組合,以及多尺度卷積核特征的組合,進一步提高了卷積神經網絡的識別準確率.3)網絡中主要使用小尺寸卷積核來優(yōu)化網絡結構,同時加入全局均值池化的方法,使得網絡在準確率提高的同時降低了網絡參數的數量,從而降低了網絡過擬合的風險,提高了網絡的實用性.

1 相關工作

與車輛身份相關的識別工作主要分為三類:車輛類型、車輛品牌和車輛型號(如圖1所示).三者的分類精度由粗到細,隨著分類精細度的增加,分類的難度越來越大,實用性也越來越高.車輛類型識別即根據車輛的大小、形狀特征,將其歸為轎車、面包車、客車、卡車等類別,主要用于高速路口自動收費、違規(guī)車輛檢測等.常用的識別方法有:1)基于視頻中相鄰幾幀出現的車輛尺寸和線性特征,結合車道寬度,進行車輛類型的判斷[8].2)基于車輛模型的先驗知識,通過對各種環(huán)境下、各個角度、各種類型模型的匹配和參數調整來進行車輛類型的識別[9].3)使用特征描述子如GABOR[10]、Harris角點[11]和SIFT[12]等提取車輛特征(這里的車輛特征不僅包含視覺特征,也包含聲音信號特征),并使用分類器如SVM[13]進行分類識別.4)使用卷積神經網絡的方法自動學習車輛特征,并用于車輛類型的分類[14].由于不同類型車輛類間方差較大,且類型種類較少,現階段對車輛類型的識別已取得了很好的效果,識別率最高可達96.1%[14].

車輛品牌識別又稱車輛制造商識別,即判斷車輛是大眾、奧迪、起亞還是豐田.由于車輛標志是車輛品牌的唯一特征,因此目前車輛品牌主要基于車標的類型來進行判斷.文獻[15]提出使用增強SIFT特征對車標進行識別,在1200張屬于10種車輛品牌的車標樣本庫上進行測試,平均識別率可達91%.實際監(jiān)控系統(tǒng)中獲取的車標圖像受光照影響較大,為改善光照對車標識別的影響,文獻[16]提出了一種點對特征對車標進行識別,在對20種車標進行識別時,最高平均識別率可達95.7%.然而,文獻[16]并未對車標的定位進行研究.事實證明,大部分車標識別方法都對車標定位有較高依賴,定位好壞直接影響最后的識別結果.為避免這一問題,文獻[17]提出使用多示例學習方法為每種品牌車輛找到最具有區(qū)分性的特征,可以是車燈、車標、車輛邊緣部位特征或其組合,從而進行車輛品牌識別,在包含30種車輛品牌數據集上進行測試,識別率可以達到94.66%.

圖1 車輛身份相關的識別工作Fig.1 Recognition related to vehicle identity

與車輛類型識別和品牌識別相比,車輛型號識別難度更大,這不僅因為車輛型號種類繁多,更是因為不同車輛型號之間差異度過小,即類間方差小,難以找到有區(qū)分性的特征.文獻[18]提出了一種新的級聯分類器集合方案,通過加入拒絕策略,盡量減少誤分類樣本帶來的損失,提高了車型分類的準確率.文獻[19]將車輛按照固定的網格進行劃分,并對每個網格提取SURF特征點和HOG特征后訓練弱分類器,最后用貝葉斯平均將這些弱分類器集成實現對車輛的分類,在29類車型上取得了99%的準確率.對于這種精細分類問題,部分方法通過尋找目標上具有區(qū)分度的細節(jié)部位來進行分類[20?22].文獻[23]使用具有部位標定的車輛數據集訓練DPM 模型來定位車輛的關鍵區(qū)域,再對每個區(qū)域提取特征后實現對車型的精細分類.由于二維圖像所包含的信息有限,部分學者提出提取車輛的三維結構信息來輔助車輛的精細分類[24?25],利用車輛三維模型提供的車輛視角、車體各部位位置信息等,提高車輛精細分類的準確率.隨著深度卷積神經網絡在圖像分類中的成功應用[5],人們開始嘗試使用它來解決精細分類問題.在這類方法中,通常利用標定好的大量數據來訓練一個深度卷積神經網絡模型,基于此模型從輸入圖像中提取高度抽象且區(qū)分度高的特征,在網絡的全連接層中將提取的特征連接成特征向量,然后用分類器對得到的特征向量進行分類.文獻[26]在公布一個大型車輛數據集的基礎上,針對卡口監(jiān)控系統(tǒng)中拍攝的車輛正臉圖像,使用 Alexnet[5]、Overfeat[27]和 GoogLeNet[28]等深度卷積神經網絡(Convolutional neural network,CNN)模型對車輛型號的精細分類進行了研究.文獻[29]提出了一種多任務訓練網絡的方法,將Softmax Loss和Triplet Loss共同作為訓練目標,在同一CNN網絡中進行訓練,通過在損失函數中嵌入分級標簽信息,確保不同等級的類內方差小于類間方差,從而提高了車輛型號精細分類的準確率.文獻[30]將車型的精細識別問題視為一個逐步求精的過程,提出了一個由粗到精的卷積神經網絡模型,通過融合整體的特征以及局部具有區(qū)分度區(qū)域的特征實現車輛型號的精細分類.

在利用深度卷積神經網絡解決圖像分類問題時,一個好的CNN模型提取的特征對提高分類效果起到了至關重要的作用.為提高識別效果,經典的卷積神經網絡模型主要通過增加模型的深度和寬度來提取抽象程度更高的特征,如Alexnet、GoogLeNet和VGG-16[31]等.然而更深的網絡意味著需要更多的計算資源和更多的樣本來訓練,會造成訓練難度的增加,從而導致網絡性能下降的問題.本文針對真實卡口場景下的車輛型號精細識別問題,利用車輛正臉圖像特征分布的特點,設計了一個適用于車輛型號精細識別的模型Fg-CarNet,在使用較少網絡權值的前提下,獲得了較好的車型識別效果.

2 車輛精細分類卷積神經網絡模型

2.1 Fg-CarNet模型結構

卷積神經網絡是為識別二維形狀而特殊設計的多層感知器[32].典型卷積神經網絡的輸入層為原始圖像;隱層由卷積層和池化層組合交替排列組成,以減少網絡的權值數量,降低計算量;為逐步建立網絡空間和結構的不變性,在卷積層后增加激活函數層以提高網絡的非線性抽象能力;將前面幾層操作后獲得的特征圖在全連接層進行向量化,并將提取的特征映射為標簽,根據標簽進行物體類型的判斷.

針對車輛正臉圖像特征分布的特點,在基本卷積神經網絡結構的基礎上進行改進,考慮到車輛圖像上下兩部分特征的差異,設計了一種適用于車輛型號精細分類的卷積神經網絡模型Fg-CarNet,其模型結構如圖2所示,圖中數字表示特征圖的數量,即卷積核的數量,N表示網絡最終輸出的類別數.

Fg-CarNet的輸入圖像為分割出的車輛正臉圖像,沿圖像中線將其分割為上下兩部分,分別使用兩段不同的分支網絡UpNet和DownNet提取上下兩部分的特征,然后用特征融合網絡FusionNet對UpNet和DownNet中提取的特征進行多維度融合,進一步進行抽象并控制最終得到的特征規(guī)模,最后利用全局均值池化代替?zhèn)鹘y(tǒng)的全連接層,利用分類器得到網絡的輸出.

UpNet是為了提取車輛圖像上半部分粗輪廓特征而設計的一個淺層分支網絡.它由四個卷積層組成,每個卷積層后都緊跟著一個ReLU[5]激活函數層、一個Batch Normalize[33]層和一個最大值池化層.ReLU激活函數層進行特征映射;Batch Normalize層對輸出的結果進行規(guī)范化,以加速網絡的收斂;最大池化層則實現對特征的降維.本文將卷積層、激活函數層、Batch Normalize層和最大值池化層四層連在一起的結構定義為一個網絡的基本單元,則UpNet由4個這樣的基本單元組成.

DownNet是針對車輛下半部分圖像設計的深層子網絡,是UpNet結構的擴展,由于車輛圖像下半部分紋理特征密集,包含更多有區(qū)分度的信息,是車輛型號精細分類的關鍵特征所在,因此,DownNet在UpNet四個基本單元的卷積層后增加了一層卷積核大小為1×1的卷積層,在深層次卷積層對淺層次卷積層學習到的特征進行整合前,對淺層次的特征進行進一步的抽象,提高了網絡的表達能力.

FusionNet首先將UpNet和DownNet第一個基本單元和最后一個基本單元提取的特征圖進行上下組合,得到兩組完整的車輛特征圖,如圖2中上部虛框線所示.針對第一個基本單元的合并特征圖,使用一個基本單元進行特征提取,對應FusionNet中的第二層.此基本單元卷積核尺寸和步長與UpNet中使用的卷積核尺寸和步長不同,詳見表1.將FusionNet第二層得到的特征圖和UpNet、DownNet中第四個基本單元組合得到的特征圖疊加在一起,如圖2中下部虛框線所示,再用一個基本單元對融合的特征圖學習進一步特征提取,并用兩個1×1卷積層進行進一步的特征抽象和降維,最后利用全局均值池化得到最后的分類特征.

圖2 Fg-CarNet網絡結構示意圖Fig.2 Network structure diagram of the Fg-CarNet

表1 Fg-CarNet模型結構參數Table 1 Structural parameters of the Fg-CarNet

Fg-CarNet網絡的具體參數設置如表1所示,Convolution表示單獨的卷積層,Convolution/BN表示一個卷積層加一個BatchNormalize層,Convolution/Drop表示一個卷積層加一個Drop層,此外,每個卷積層后都有一個ReLU激活函數(表1中未明確列出).FusionNet中第一層的Concat層,輸入為UpNet中第一層與DownNet中第二層輸出特征圖,融合方式為對應層上下組合;FusionNet中第三層的Concat層,輸入為UpNet中第四層和DownNet中第八層輸出特征圖,融合方式為對應層上下組合;FusionNet中第四層的Concat層,其輸入為FusionNet中第二層卷積層和第三層Cancat層輸出特征圖,融合方式為特征層疊加.

2.2 分塊特征提取

實際卡口監(jiān)控系統(tǒng)中,攝像頭通常位于車輛上方,斜向下對迎面而來的車輛進行拍攝.被拍攝到的車輛部位從下到上依次包括車臉(車大燈、車標、霧燈、散熱器格柵和車牌)、引擎蓋、擋風玻璃和部分車頂,形成車輛正臉圖像.車臉是車輛特征最密集,最具有區(qū)分度的部位,具有豐富的紋理、形狀特征,通常位于正臉圖像下方.車輛正臉圖像中除車臉外的其他部位也提供了豐富的輪廓、形狀和位置信息,這些特征可以作為車臉特征的一個補充.

將車輛正臉圖像分為上下兩部分,則上下兩部分的特征存在如下關系:

1)下半部分的車臉所包含的特征多且細,區(qū)分度高,紋理特征密集,車燈、隔熱柵等形狀特征明顯.而上半部分的圖像以車輛擋風玻璃、車頂等為主,主要體現為輪廓特征,以及一些能反映細節(jié)的位置信息,紋理特征不明顯.

2)在夜晚及一些特殊環(huán)境中,車輛正臉上下兩部分所處的光環(huán)境也存在較大差異,且下半部分的車牌、散熱器格柵、大燈及車標等通常使用特殊的材質,對光的反射也與車輛上半部分差距較大,這使得上下兩部分在成像時存在亮度差異,導致了上下兩部分特征的區(qū)別.

如果使用卷積神經網絡模型直接對整幅車輛正臉圖像進行訓練,則在訓練過程中,卷積核會偏向于提取更有區(qū)分度的車臉部分特征來降低損失函數的值,最終學習到的網絡權重使網絡中的神經元對車輛正臉圖像的上下兩部分激活不平衡,導致上部分圖像的特征提取不足,甚至丟棄,整體學習到的特征區(qū)分度不足,從而降低準確率.

圖3是利用車輛正臉圖像訓練AlexNet、Goog-LeNet和本文提出的Fg-CarNet網絡模型后,分別用白天和夜晚的兩張圖像作為輸入,將正向傳播過程中卷積層的激活值進行可視化的結果.為確保可視化結果具有對比性,這里均選擇三個網絡結構中,經過一次特征提取和映射且輸出大小相近的層進行可視化,分別為:Alexnet的第一個卷積層、GoogLeNet的第一個池化層和Fg-CarNet中兩個子網絡的第一個池化層.分別提取上述層中特征圖的前16張,分為上下兩部分進行可視化.

圖3最左邊一列為白天和夜晚的2張輸入圖像,右邊3列分別為不同網絡模型提取的特征圖可視化結果,圖像中灰度值越高,越亮的部分表明神經元的激活程度越高.從整體上看,夜間車輛圖像在神經網絡中傳播時,神經元的激活度明顯低于白天的車輛圖像.從單張圖像在某個模型中提取的特征圖來看,車臉部分對應的神經元激活度明顯高于車正臉上半部分對應的神經元,這也證明了前文所述的觀點:車正臉具有上下兩部分特征分布不均勻的特點.從同一張圖像在不同神經網絡模型中提取的特征圖可以看出,AlexNet中神經元的激活度明顯低于另外兩種模型,特別是車正臉上半部分對應的神經元,大部分都處于激活度低或沒有被激活的狀態(tài);GoogLeNet中車臉部位對應神經元的激活度較AlexNet有明顯提高,但對于夜間車臉上半部分圖像,其神經元的激活度依然較低;而Fg-CarNet由于是對上下兩部分分開處理的,所以車臉上半部分圖像也能提取出有效的特征,即使是在夜間,也能保證神經元有較高的激活度.針對此類特征分布具有明顯空間結構且各部分特征粗細粒度不同的分類問題,一個好的特征提取器需要能夠統(tǒng)籌兼顧,將各種有用的信息聚合起來構成最終特征.鑒于此,我們采用了分塊特征提取的策略,即針對車輛圖像的上下兩部分,分別構建分支網絡UpNet和DownNet,用于對上下兩部分的特征分別進行提取.為在特征豐富的車臉部分提取更具區(qū)分度的特征,DownNet使用了比UpNet更長的網絡.在訓練階段,對UpNet添加了額外的輔助loss,強制UpNet能學到更具區(qū)分度的特征,使得網絡能夠從車臉上半部分圖像中提取到足夠豐富的特征.如圖3最右邊一列圖像所示,與AlexNet和GoogLeNet相比,本文提出的Fg-CarNet較好地改善了對車正臉上半部分特征提取的結果,即使是在夜間,車正臉上半部分對應的神經元依然有很好的激活度.值得注意的是,圖3中,AlexNet和GoogLeNet在同一車輛正面圖像上下兩部分進行特征可視化時,使用的是同樣的一組卷積核,而本文的Fg-CarNet由于設計了兩個子網絡分別提取車輛圖像的上下兩部分特征,所以各自用的卷積核是不同的.

圖3 三類神經網絡模型中層激活值可視化圖Fig.3 Visualization of the layer activations in three neural network models

2.3 多維度特征融合

2.3.1 上下子特征融合

如前所述,為對卡口車輛正臉圖像上下兩部分分別提取不同的特征,訓練階段Fg-CarNet學習了兩個分支網絡對其進行特征提取,之后會將兩個分支提取的特征合并為一個整體作為車輛的特征.設訓練過程中某次正向傳播UpNet得到的特征維度為N×C×Hup×W,DownNet得到的特征維度為N×C×Hdown×W,其中N表示每次訓練的batch_size,C表示通道數,即特征圖的個數,Hup,Hdown表示得到的特征圖的高度,W表示得到的特征矩陣的寬度,則合并后的特征維度為N×C×(Hup+Hdown)×W,此處不僅是特征維度的增加,由于上下兩層采用了不同的卷積核提取特征,因此,此處更是一種特征的組合.如圖4所示,傳統(tǒng)卷積神經網絡在正向傳播過程中,會將前一層卷積層產生結果的全部或部分作為輸入,而在Fg-CarNet中,UpNet和DownNet提取的特征之間可以有多種組合方式,設UpNet的特征圖數量為Nu,DownNet的特征圖數量為Nd,則可獲得的組合數為Nu×Nd.通過固定數量的卷積核得到多種組合的完整特征圖,提高了特征的利用率.針對車輛型號精細識別,這種組合方式可以將高激活度的車輛上半部分特征圖與車輛下半部分特征圖進行組合,使得整個車輛特征圖上的激活值都處于較高狀態(tài).

圖4 層之間特征傳播方式示意圖Fig.4 Feature propagation between layers

2.3.2 多尺度卷積特征融合

傳統(tǒng)CNN網絡結構通常在每一層設置相同尺寸的卷積核,對輸入進行計算后得到輸出并向下一層傳遞.不同于這種結構,本文對上下兩個子網絡提取的特征分別進行了低層(靠近輸入層的層)和高層(靠近輸出層的層)的融合,即在第2.3.1節(jié)上下子特征融合的基礎上,針對低層融合后的特征,使用一層具有較大卷積核的卷積層進行一次特征提取和降維,并將得到的特征再次與高層融合后的特征進行疊加,共同作為后面層的輸入.

多尺度卷積特征融合(如圖5所示)的優(yōu)點可以從兩方面來分析:1)Fg-CarNet網絡結構使用不同尺寸的卷積核進行特征提取,對同一輸入,一方面使用小尺寸的卷積核,逐層進行特征提取和映射,進行細粒度特征的提取;另一方面,使用大尺寸的卷積核,直接進行粗粒度特征的提取,保留更多的車輛輪廓信息.粗粒度和細粒度特征的融合,從不同尺度盡可能的保留了車輛正臉圖像的特征,提高了網絡的特征表達能力.2)如圖5中Loss標注線所示,在訓練網絡的過程中,訓練誤差可以從多個分支反向傳播回低層卷積層,優(yōu)化了信息的流動,可以有效避免因網絡過深產生的梯度消散,及導致低層卷積層得不到很好訓練的問題.

圖5 多尺度卷積特征融合Fig.5 Multiscale convolution feature fusion

3 實驗結果與分析

3.1 實驗數據集

為驗證Fg-CarNet神經網絡模型對卡口圖像中車輛精細特征提取的有效性,本文在文獻[26]提出的CompCars數據集上對模型提取的特征進行了分類測試.CompCars數據集是一個大規(guī)模的車輛數據集,包含來自互聯網和實際卡口監(jiān)控系統(tǒng)1716種型號的208826張車輛圖像.Fg-CarNet神經網絡模型主要針對卡口拍攝車輛正面圖像進行車輛型號的精細特征提取,故使用了CompCars中的卡口監(jiān)控數據集進行測試,這部分覆蓋了夜晚、雨天和霧天等復雜環(huán)境下共281個型號的44481張車輛圖像,其部分樣例如圖6所示.本文使用其中的70%作為訓練集,其他的30%作為測試集.

圖6 CompCars中監(jiān)控數據集樣例Fig.6 Sample images of the surveillance data in CompCars

3.2 實驗環(huán)境及設置

實驗的硬件環(huán)境如下:CPU為Intel Core i7-6700K;內存為32GB;顯卡為Nvidia GTX TITAN X;顯存為12GB.實驗所有模型均在開源框架CAFFE[34]下實現,CUDA版本為8.0.

在對UpNet和DownNet中基本單元提取特征進行融合的階段,要求兩個網絡產生的特征圖相互匹配,因此Fg-CarNet采用的輸入尺寸為256×256,使其更易于控制網絡傳播過程中特征圖的尺寸,便于網絡的設計.而實驗用到的其他網絡皆按網絡原有的要求輸入為224×224.在訓練和測試階段,各網絡都對輸入數據按照文獻[5]中方法做了除尺寸外相同的預處理,例如:在訓練Fg-CarNet網絡時,首先將數據集中所有樣本的大小歸一化為290×290,分別獲得圖像中心和四個拐角處共5張大小為256×256的圖像,再對獲得的圖像進行鏡像操作,獲得其水平翻轉后的圖像,由此,基于每個樣本可以獲得10張訓練圖像.最后,所有圖像均減去整個數據集的均值.測試階段僅通過裁剪獲得圖像中心大小為256的圖像,并減去圖像均值.實驗所用網絡模型的優(yōu)化策略均為帶有動量的分塊隨機梯度下降方法,其中動量設置為0.9,batch-size設置為128,初始學習率設置為0.001.采用分步降低的策略,每100k次迭代降低10倍,訓練階段共迭代300k次,故整個訓練階段學習率降低兩次.在測試階段,本文同樣對測試樣本進行擴增,截取圖像中心和四個拐角處共5張大小為256×256的圖像,再對獲得的圖像進行鏡像操作,獲得其水平翻轉后的圖像,對擴增后的10個樣本分別求置信度后取平均作為最后的結果.

3.3 Fg-CarNet在CompCars上的性能評估

表2顯示了使用本文提出的Fg-CarNet深度卷積神經網絡模型以及經典的AlexNet,GoogLeNet和Network in network[35](NIN)深度神經網絡模型在CompCars數據集上提取車輛特征,并使用樸素貝葉斯分類器、KNN分類器、邏輯回歸分類器、隨機森林分類器、SVM分類器和Softmax分類器對車輛進行分類的結果.從表2可以看出,AlexNet和NIN網絡模型提取的特征在車輛精細識別方面的識別率較低,GoogLeNet提取特征的表現則要高很多,而本文提出的Fg-CarNet模型提取的特征,除了使用隨機森林分類器外,使用其他分類器的準確率都要高于GoogLeNet,達到了98%以上.總體上看,Fg-CarNet的識別準確率是最高的.從分類器效果上來分析,Softmax分類器在各網絡模型提取特征上的分類效果都是最好的.

表2 卷積神經網絡模型在CompCars上使用不同分類器的識別率Table 2 Recognition rate of different CNN models using different classifiers on CompCars

卷積神經網絡中參數的數量反映了模型的擬合能力,參數越多越容易過擬合,泛化能力也越差,此外,參數越多需要的內存也越多,網絡的適用性會降低.使用CAFFE框架訓練卷積神經網絡后生成一個保存網絡結構參數的文件,表3以CAFFE生成的模型參數文件大小來反映各個網絡的參數規(guī)模,從表3可以看出,Fg-CarNet模型的參數數量遠低于其他三種模型,與AlexNet相比,參數數量下降了近40倍;與性能表現相近的GoogLeNet相比,參數數量減少了近6倍;與同樣采用了全局均值池化的Network in Network模型相比,參數規(guī)模也降低了1倍,然而性能卻得到了大大提升.

表3 各神經網絡模型參數的大小Table 3 The size of each CNN model parameters

3.4 與其他車型分類算法的比較

針對真實卡口拍攝車輛正臉圖像的精細分類,與其他針對多視角的車型分類方法有所不同,分類性能也有所差異,因此本文僅與針對卡口圖像中車輛正臉圖像進行精細分類的相關工作進行比較,比較結果如表4所示.由于CompCars監(jiān)控數據集中,屬于各類別車型的圖像數量差距較大,最少的僅14張,而最多的可達565張,為避免會忽略樣本數量少的類別中識別率不佳的情況,采用文獻[30]建議的用兩種評估方式分別對實驗結果進行評估.各自的計算公式如下:

其中,ti為每類中正確預測的樣本的數量,ni為每類樣本的數量,N為樣本的類別數.

表4 相關工作的識別結果Table 4 Report results of some related works

表4中,第1~3行是采用經典卷積神經網絡對CompCars監(jiān)控數據集進行分類的結果,從中可以看出,GoogLeNet的識別結果最好,其準確率1達到了98.5%,準確率2達到了97.9%.第4~6行是與文獻[18?19,30]中車型分類算法在CompCars監(jiān)控數據集上分類性能的比較,其中,文獻[18?19]的實驗結果均來自文獻[30].為了實驗的公平性,文獻[30]在CompCars監(jiān)控數據集上復現了文獻[18?19]的實驗,實驗結果表明,其所提方法在大規(guī)模車輛型號精細分類問題上性能不佳.文獻[30]提出的方法在CompCars監(jiān)控數據集上取得了較高的準確率,準確率1達到了98.63%,準確率2達到了98.29%.本文提出的方法與文獻[30]方法相比,準確率1更高,準確率2基本持平,說明本文方法在準確率方面優(yōu)于文獻[30]方法.此外,本文提出的Fg-CarNet模型是一個端到端的模型,可以直接快速地實現車輛型號的精細分類,而且由于使用了全局均值池化,大大降低了網絡中參數的數量,提高了網絡的可使用性.

3.5 分塊融合的性能評估

第2.2節(jié)指出,對車輛正臉圖像分成上下兩部分進行特征提取,可以強制特征不明顯的上半部分區(qū)域也提取出有助于車型分類的特征,并與下半部分區(qū)域提取的特征進行融合,以提高車輛型號精細分類的準確率.為驗證將車輛正臉圖像分成兩部分進行特征提取對車型識別帶來的影響,本文設計了一組對比實驗,實驗結果如表5所示.Fg-CarNet-Up和Fg-CarNet-Down分別為以卡口車輛正臉圖像的上半部分和下半部分作為輸入的網絡.為了保證公平性,減少因為網絡深度帶來的影響,Fg-CarNet-Up和Fg-CarNet-Down分別由Fg-CarNet網絡中的FusionNet刪除融合部分,保留基本的特征提取部分后與UpNet和DownNet相連接后獲得.從實驗結果可以看出,僅使用車輛的上半部分正臉圖像,準確率1為93.37%,準確率2為89.78%.而僅使用特征更豐富的車輛下半部分正臉圖像,準確率1達到了97.38%,但其準確率2較準確率1下降較多,這是因為當用Fg-CarNet-Down進行分類時,存在樣本較少的類別其準確率較低,從而導致了準確率2的降低.整體上,Fg-CarNet-Up的準確率均低于Fg-CarNet-Down的準確率,這也證明了本文的觀點,即車輛上半部分正臉圖像具有一定的區(qū)分性,但特征不及下半部分正臉圖像明顯.Fg-CarNet-Whole與Fg-CarNet-Down模型結構相同,但Fg-CarNet-Whole是以整張車輛正臉圖像作為輸入,準確率1的結果達到了98.02%,準確率2的結果達到了97.84%,與單獨使用上半部分或下半部分圖像進行車型分類相比,準確率得到了明顯提高.而Fg-CarNet由于對上下兩部分單獨采用不同的子網絡進行特征提取,并將各自提取的特征進行多維度融合,增強了網絡對車輛的特征描述能力,最終準確率1和準確率2與上述幾種相比均有提高.

表5 分塊融合的性能比較Table 5 Performance comparison of block fusion

3.6 網絡特征的可視化分析

為進一步分析分塊特征提取的效果,本文將GoogLeNet,AlexNet和Fg-CarNet基于Comp-Cars測試集提取的特征,使用t-SNE[36?37]方法降維到二維進行可視化,可視化結果如圖7所示,圖中一個點代表一個測試樣本,同樣灰度點表示同一類樣本.由于通常卷積神經網絡的最后一層是用于將特征映射到特定類別,因此此處我們選擇最后一層的前一層所提取特征進行可視化.圖7(a)中,樣本點整體呈現一種聚類趨勢,但重疊度較高,如圖中左下角部分,基本混雜在一起,這說明UpNet針對車輛上半部分圖像學習到了可用于車型分類的特征,但區(qū)分程度不夠;圖7(b)中,各類樣本能夠較好地聚在一起,具有明顯的區(qū)分界限,但類間距離不夠大,這也證明了第2.2節(jié)所述,車輛正臉下半部分圖像包含更多有區(qū)分度的特征,更有利于車型分類;從圖7(c)中對AlexNet提取特征進行可視化的結果可以看出,雖然AlexNet提取的特征整體類間差距較大,但類內差距也很大,這并不有利于分類;圖7(d)所示是對GoogLeNet提取特征進行可視化的結果,可以看出各類樣本點被很好地區(qū)分開來,且同一類樣本點緊湊的聚集在一起,然而類間差距依然不夠大;而融合了UpNet和DownNet的Fg-CarNet提取的特征如圖7(e)所示,各類區(qū)分明顯,類間差較大,說明Fg-CarNet提取的車輛特征能夠較好地將類與類之間區(qū)分開來,同時類內樣本聚合度較高,能夠實現較好的分類效果.

3.7 不同特征融合性能評估

在多尺度卷積特征融合階段,不同層特征的組合可能會產生不同的分類結果,為對不同組合下的分類性能進行評估,分別對不同組合情況下的模型識別率進行測試,測試結果如表6所示.其中,單元編號對應UpNet和DownNet中四個基本單元的編號.從表6可以看出,不同組合下模型的識別率區(qū)別不大,第一和第四個基本單元特征圖融合后的性能達到最優(yōu),為98.906%.模型7融合的參數最多,但分類性能并不是最優(yōu),融合了3個參數的模型4,5,6,其性能也沒有模型1的性能高,這說明并非融合的特征越多,分類性能就越高.融合的特征越多,可能會導致特征冗余,且網絡中的模型參數也會隨之增多.

4 結論

圖7 特征降維后可視化結果Fig.7 Visualization of features after dimension reduction

表6 不同基本單元特征組合下的識別結果Table 6 Recognition result based on different basic unit combinations

針對卡口圖像中車輛型號精細分類問題進行研究,提出了Fg-CarNet深度卷積神經網絡模型,以提取有區(qū)分度的特征,提高車輛型號精細分類的準確性.Fg-CarNet的主要特點是:1)采用分塊并行的方式,分別用UpNet和DownNet兩個分支網絡對車正臉圖像的上下兩部分進行特征提取,提高特征提取的有效性;2)對提取的車正臉圖像的上下兩部分特征進行了兩個維度的融合,提高了特征的表達能力;3)網絡使用小卷積核及全局均值池化代替了傳統(tǒng)的全連接網絡實現特征向結果的映射,大大地降低了模型的參數規(guī)模.實驗結果表明,本文提出的Fg-CarNet能夠以較少的參數提取具有區(qū)分度的車輛精細特征,在分類性能上表現優(yōu)異,具有實用價值.此外,本文提出的分區(qū)域特征提取和多維度特征融合的方法,對其他不同區(qū)域間關聯度低物體的精細分類問題也提供了思路.

猜你喜歡
準確率卷積神經網絡
基于遞歸模糊神經網絡的風電平滑控制策略
基于3D-Winograd的快速卷積算法設計及FPGA實現
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
卷積神經網絡的分析與設計
神經網絡抑制無線通信干擾探究
從濾波器理解卷積
基于神經網絡的中小學生情感分析
高速公路車牌識別標識站準確率驗證法