張 軍,張 婷,楊正瓴,朱新山,楊伯軒
(1.天津大學(xué) 電氣與自動(dòng)化工程學(xué)院,天津 300072;2.天津市過程檢測與控制重點(diǎn)實(shí)驗(yàn)室,天津 300072)
?
深度卷積神經(jīng)網(wǎng)絡(luò)的汽車車型識(shí)別方法*
張 軍1,2,張 婷1,2,楊正瓴1,2,朱新山1,2,楊伯軒1,2
(1.天津大學(xué) 電氣與自動(dòng)化工程學(xué)院,天津 300072;2.天津市過程檢測與控制重點(diǎn)實(shí)驗(yàn)室,天津 300072)
針對(duì)現(xiàn)有汽車車型識(shí)別方法計(jì)算量大、提取特征復(fù)雜等問題,提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的汽車車型識(shí)別方法。該方法借助于深度學(xué)習(xí),對(duì)經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)做出改進(jìn)并得到由多個(gè)卷積層和次抽樣層構(gòu)成的深度卷積神經(jīng)網(wǎng)絡(luò)。根據(jù)五種車型的分類結(jié)果,表明該方法在識(shí)別率方面較傳統(tǒng)方法有明顯的提高。實(shí)驗(yàn)還研究了網(wǎng)絡(luò)層數(shù)、卷積核大小、特征維數(shù)對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)的性能和識(shí)別率的影響。
深度學(xué)習(xí); 深度卷積神經(jīng)網(wǎng)絡(luò); 汽車車型識(shí)別; 特征提取
隨著人民生活水平的不斷提高,汽車數(shù)量日益增多,道路承載狀況與汽車增長量之間的矛盾愈發(fā)突出,由此產(chǎn)生的道路堵塞、交通環(huán)境惡化等問題,進(jìn)一步加劇了交通壓力[1]。汽車車型識(shí)別問題作為模式識(shí)別領(lǐng)域在智能交通系統(tǒng)方向的重要應(yīng)用,在交通監(jiān)控和管制、交通事故責(zé)任判定等方面有十分顯著的作用。
目前常用的汽車車型識(shí)別方法有:基于多傳感器的車型檢測方法[2],該方法原理簡單,實(shí)現(xiàn)容易,但對(duì)外界環(huán)境的適應(yīng)性不強(qiáng),故障率較高;基于尺度不變特征轉(zhuǎn)換(scale-invariant feature transform,SIFT)特征的車型識(shí)別方法[3~5],SIFT算法具有旋轉(zhuǎn)、尺度縮放和視角不變性,缺點(diǎn)是特征向量的維數(shù)過高,容易產(chǎn)生“維數(shù)災(zāi)難”;基于分類器的車型識(shí)別方法,常用到粒子群優(yōu)化(particle swarm optimization,PSO)算法、云模型理論[6]、遺傳算法等智能算法,但一般要求較大的訓(xùn)練樣本。
深度學(xué)習(xí)作為傳統(tǒng)機(jī)器學(xué)習(xí)的延伸和擴(kuò)展,已在眾多領(lǐng)域得到廣泛應(yīng)用[7~10]。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一種,延續(xù)了深度學(xué)習(xí)自動(dòng)學(xué)習(xí)提取特征的特點(diǎn),利用局部感受野和共享權(quán)值等方法,泛化能力強(qiáng),識(shí)別效率高,廣泛應(yīng)用于語音識(shí)別[11]、車牌識(shí)別[12]等方面。
本文提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)的汽車車型識(shí)別方法,用來區(qū)分貨車、大巴車、公交車、面包車和轎車五種車型。本文方法改進(jìn)了傳統(tǒng)車型識(shí)別方法,并通過實(shí)驗(yàn)證明有較好的識(shí)別率和一定的可行性。
卷積神經(jīng)網(wǎng)絡(luò)可視為一個(gè)多層網(wǎng)絡(luò),其結(jié)構(gòu)示意圖如圖1。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig 1 Structure diagram of convolution neural network
1.1 卷積層
一個(gè)卷積層可包含多個(gè)特征圖,特征圖中的每個(gè)神經(jīng)元與前一層的局域感受野連接,并與具有學(xué)習(xí)能力的卷積核進(jìn)行卷積獲取局部特征,由激活函數(shù)輸出得到該層的特征圖。激活函數(shù)通常為Sigmoid函數(shù)。一般地,卷積層的計(jì)算公式和激活函數(shù)分別為
(1)
(2)
式中 l為網(wǎng)絡(luò)層數(shù),k為卷積核,Mj為輸入層的感受野,b為每個(gè)輸出圖的一個(gè)偏置值,e為自然指數(shù),約取2.718 28。
1.2 次抽樣層
次抽樣層是對(duì)輸入進(jìn)行采樣操作,輸入的特征圖由池化操作后個(gè)數(shù)保持不變,但大小變?yōu)樵瓉淼?/n(假設(shè)的池化尺寸為n)。池化操作的主要目的是降低特征圖的分辨率,減小特征維數(shù)。次抽樣層的一般形式為
(3)
式中 down(·)為池化函數(shù),β為權(quán)重系數(shù)。
1.3 全連接層
在卷積層和次抽樣層之后,會(huì)連接一個(gè)或多個(gè)全連接層。卷積層和次抽樣層用于提取輸入圖像的特征,并將其全部反饋到全連接層進(jìn)行特征分類,由輸出層輸出最終結(jié)果。
2.1 DCNN的結(jié)構(gòu)模型
卷積神經(jīng)網(wǎng)絡(luò)的最早應(yīng)用是手寫字符的識(shí)別,用到的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)共有5層,卷積核大小為5×5,但不能將其直接應(yīng)用到車型識(shí)別中。經(jīng)過分析比較,主要有兩點(diǎn)原因:
1)手寫字符識(shí)別的輸入為Mnist樣本集,其內(nèi)容簡單,顏色單一,而車型識(shí)別的輸入來源于部分UIUC大學(xué)[13]車型識(shí)別庫圖片和真實(shí)采集的車型圖片,這些圖片背景復(fù)雜,經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)過小,無法提取有效特征。
2)Mnist樣本集為28×28,而車型識(shí)別的輸入經(jīng)過處理后為128×64,經(jīng)典網(wǎng)絡(luò)的5×5卷積核過小,卷積結(jié)果無法表達(dá)有效信息。
由以上分析可知,需要對(duì)網(wǎng)絡(luò)深度和卷積核大小等進(jìn)行修改。最終確定DCNN共有7層(不包括輸入層和輸出層),卷積核大小為9×9,全連接層神經(jīng)元個(gè)數(shù)為500左右,輸出層有5個(gè)神經(jīng)元輸出5種車型。
第一層是卷積層C1,每個(gè)神經(jīng)元與輸入圖像指定的一個(gè)9×9鄰域進(jìn)行卷積,特征圖大小變?yōu)?20×56,C1層包含30個(gè)不同的特征圖。
第二層是次抽樣層S2,S2是對(duì)C1層用2×2的鄰域進(jìn)行最大池下采樣得到,因此,特征圖大小為60×28,次抽樣不改變特征圖的數(shù)目。
第三層是卷積層C3,可得到C3層特征圖大小為52×20,特征圖個(gè)數(shù)變?yōu)?0個(gè)。
第四層是次抽樣層S4,用2×2的窗口進(jìn)行最大池下采樣,得到特征圖大小為26×10。
第五層是卷積層C5,同理可得C5層特征圖大小為18×2,特征圖個(gè)數(shù)為120個(gè)。
第六層是次抽樣層S6,用2×2的窗口得到特征圖大小為9×1。
第七層是全連接層F7,包含500個(gè)(不一定為準(zhǔn)確值,但靠近500)神經(jīng)元,和S6全連接。
由于對(duì)5種車型進(jìn)行分類,因此,輸出層包括5個(gè)神經(jīng)元。神經(jīng)元由徑向基函數(shù)單元(RBF)組成,RBF的輸出yi的計(jì)算公式為
(4)
2.2 汽車車型識(shí)別的實(shí)現(xiàn)方法
DCNN的汽車車型識(shí)別方法包括車型的訓(xùn)練和識(shí)別,現(xiàn)將車型識(shí)別的實(shí)現(xiàn)方法分為4個(gè)步驟,流程圖如圖2所示。
圖2 汽車車型識(shí)別流程圖Fig 2 Flow chart of vehicle model recognition
1)確定DCNN的結(jié)構(gòu):分別設(shè)定DCNN中各層的層數(shù),卷積核大小和分類器,其中卷積層和次抽樣層提取車型特征,分類器用于車型的分類識(shí)別。
2)采集圖像并進(jìn)行預(yù)處理:除UIUC大學(xué)車型識(shí)別庫的圖片外,為保證數(shù)據(jù)的多樣性,還包含不同的車型、地點(diǎn)(十字路口、高速公路等)、時(shí)間(白天、夜間等)和天氣(晴天、雨天等)的圖像。圖像采集好后需進(jìn)行預(yù)處理使圖像為128×64。
3)訓(xùn)練DCNN:利用(2)中的訓(xùn)練樣本訓(xùn)練改進(jìn)后的DCNN,將訓(xùn)練好的權(quán)重參數(shù)矩陣和偏移量賦值給該網(wǎng)絡(luò)的各層,則具有特征提取和分類功能。分類器采用Softmax分類器,計(jì)算車輛屬于不同類型的概率,計(jì)算公式
(5)
4)測試DCNN:經(jīng)過訓(xùn)練得到DCNN和分類器后,使用測試圖片測試網(wǎng)絡(luò),計(jì)算出車輛屬于不同類別的概率d1,d2,d3,d4,d5,選擇其中的最大值dj,則該車輛屬于第j種車型。
3.1 實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證本文DCNN的性能,實(shí)驗(yàn)采用UIUC大學(xué)車型識(shí)別庫圖片和天津獅子林大街黃網(wǎng)格區(qū)域拍攝的圖片作為實(shí)驗(yàn)圖片。實(shí)驗(yàn)共1 000張樣本圖,其中800張作為訓(xùn)練樣本(UIUC車型識(shí)別庫圖片100張,且全部作為訓(xùn)練樣本),200張作為測試樣本。由于拍攝圖片存在噪聲、失真及干擾等現(xiàn)象,經(jīng)預(yù)處理后部分訓(xùn)練樣本圖片如圖3所示。
圖3 各種車型的部分訓(xùn)練樣本圖片F(xiàn)ig 3 Images of part of training sample of various kinds of vehicle models
3.2 實(shí)驗(yàn)結(jié)果分析
本文分別對(duì)5種車型進(jìn)行研究,訓(xùn)練樣本包括貨車120輛,大巴車130輛,公交車170輛,面包車180輛,轎車200輛。為顯示本文方法的實(shí)驗(yàn)結(jié)果,采用SIFT算法和PSO算法作為對(duì)比,識(shí)別率結(jié)果如表1所示。由表1可知,本文方法的識(shí)別率明顯較高,比SIFT的識(shí)別率平均高約8 %,比PSO平均高約10 %。
表1 三種算法的識(shí)別率/%
基于DCNN的結(jié)構(gòu)特點(diǎn),本文對(duì)可能影響網(wǎng)絡(luò)性能的參數(shù)進(jìn)行研究。在網(wǎng)絡(luò)深度方面,分別取3,5,7,9,卷積核大小均為9×9,特征維數(shù)500左右。不同網(wǎng)絡(luò)層數(shù)的識(shí)別率如表2所示。當(dāng)網(wǎng)絡(luò)層數(shù)為3時(shí),網(wǎng)絡(luò)無法收斂;網(wǎng)絡(luò)層數(shù)為5,7,9時(shí),網(wǎng)絡(luò)收斂,其中7層網(wǎng)絡(luò)結(jié)構(gòu)具有較高的識(shí)別率。
表2 不同網(wǎng)絡(luò)層數(shù)的識(shí)別率
在卷積核大小方面,分別取5×5,7×7,9×9,11×11的卷積核進(jìn)行對(duì)比,網(wǎng)絡(luò)層數(shù)為7,特征維數(shù)500左右。不同卷積核大小的識(shí)別率如表3所示。當(dāng)卷積核大小為5×5時(shí)無法進(jìn)行特征提?。黄渌矸e核大小均能完成識(shí)別過程,9×9卷積核識(shí)別率最高且穩(wěn)定性好。
表3 不同卷積核的識(shí)別率
在特征維數(shù)方面,分別取5組不同值,網(wǎng)絡(luò)層數(shù)為7,卷積核大小為9×9。不同特征維數(shù)的識(shí)別率如表4所示。特征維數(shù)較小會(huì)使特征描述不充分,特征維數(shù)較大會(huì)產(chǎn)生過擬合。因此,應(yīng)根據(jù)實(shí)際樣本的特征和復(fù)雜度調(diào)整特征維數(shù),達(dá)到理想的分類效果。
表4 不同特征維數(shù)的識(shí)別率
本文對(duì)汽車車型識(shí)別的多種方法進(jìn)行深入研究,利用深度學(xué)習(xí),提出一種基于DCNN的汽車車型識(shí)別方法,并結(jié)合輸入圖像的尺寸、復(fù)雜性等特點(diǎn)對(duì)經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)做出改進(jìn)。本文詳細(xì)說明了DCNN的結(jié)構(gòu),對(duì)網(wǎng)絡(luò)層數(shù)、卷積核大小和特征維數(shù)進(jìn)行改進(jìn),使測試樣本的識(shí)別率能達(dá)到96.8 %,比SIFT算法和PSO算法的平均識(shí)別率分別高約8 %和10 %。實(shí)驗(yàn)還對(duì)DCNN的主要參數(shù)進(jìn)行對(duì)比研究,分析參數(shù)變化對(duì)識(shí)別率的影響。實(shí)驗(yàn)結(jié)果表明:本文提出的方法在輸入圖像的不同條件下識(shí)別率較高,對(duì)汽車車型識(shí)別問題魯棒性好,證明本文的方法學(xué)習(xí)能力較強(qiáng),具有一定的可行性和實(shí)用價(jià)值。
[1] 蔡伯根,趙濟(jì)民,王 劍,等.三軸AMR車輛檢測器的車型分類設(shè)計(jì)實(shí)現(xiàn)[J].交通運(yùn)輸系統(tǒng)工程與信息,2014,14(4):46-52.
[2] 楊三序.電容式傳感器在車輛檢測裝置中的應(yīng)用[J].傳感器技術(shù),2004,23(9):74-76.
[3] 華莉琴,許 維,王 拓,等.采用改進(jìn)的尺度不變特征轉(zhuǎn)換及多視角模型對(duì)車型識(shí)別[J].西安交通大學(xué)學(xué)報(bào),2013,47(4):92-99.
[4] Lowe D G.Distinctive image features from scale-invariant key points[J].International Journal of Computer Vision,2004,60(2):91-110.
[5] Lowe D G.Object recognition from local scale invariant feature-s[C]∥Proceedings of the International Conference on Computer Vision,Piscataway,NJ,USA:IEEE Computer Society,1999:1150-1157.
[6] 唐朝霞,俞揚(yáng)信,張 粵.基于粒子群算法和云模型的車型識(shí)別[J].微電子學(xué)與計(jì)算機(jī),2013,30(11):80-83.
[7] Sarikaya R,Hinton G E,Deoras A.Application of deep belief networks for natural language understanding[J].IEEE Transactions on Audio Speech and Language Processing,2014,22(4):778-784.
[8] Graves A,Mohamed A,Hinton G E.Speech recognition with deep recurrent neural networks[C]∥IEEE International Conference on Acoustic Speech and Signal Processing,ICASSP 2013,Vancouver,BC:IEEE,2013:6645-6649.
[9] Ciresan D,Meier U,Schmidhuber J.Multicolumn deep neural networks for image classification[C]∥Computer Vision and Pattern Recognition,Providence,RI:IEEE,2012:3642-3649.
[10] Dahl G E,Sainath T N,Hinton G E.Improving deep neural networks for LVCSR using rectified linear units and dropout[C]∥2013 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),IEEE,2013:8609-8613.
[11] Sainath T N,Mohamed A R,Kingsbury B,et al.Deep convolutional neural networks for LVCSRA[C]∥Proc of IEEE International Conference on Coustics,Speech and Signal Processing,2013:8614-8618.
[12] 趙志宏,楊紹普,馬增強(qiáng).基于卷積神經(jīng)網(wǎng)絡(luò)LeNet—5的車牌字符識(shí)別研究[J].系統(tǒng)仿真學(xué)報(bào),2010,22(3):638-641.
[13] UIUC.車型數(shù)據(jù)庫[EB/OL].(2010—06—01)[2012—03—17].http:∥vangogh.a(chǎn)i.uiuc.edu/silvio/3ddataset2.html.
張 軍(1964- ),男,天津人,碩士,副教授,主要從事智能交通系統(tǒng)、計(jì)算機(jī)視覺與圖像處理方面研究工作。
Vehicle model recognition method based on deep convolutional neural network*
ZHANG Jun1,2,ZHANG Ting1,2,YANG Zheng-ling1,2,ZHU Xin-shan1,2,YANG Bo-xuan1,2
(1.School of Electrical Engineering and Automation,Tianjin University,Tianjin 300072,China;2.Tianjin Key Laboratory of Process Measurement and Control,Tianjin 300072,China)
Aiming at problems of excessive calculation and complex feature extraction of existing vehicle model recognition methods,a vehicle model recognition method is proposed based on deep convolutional neural network(DCNN).With the aid of deep learning,improvement is made on classic convolutional neural network and DCNN made of multiple convolutional layers and time sampling layers is gained.According to classification results of the five models,it shows that this method has obvious increase than traditional methods in terms of recognition rates.The experiments also study on influences of number of network layer,size of convolutional kernel,characteristic dimension on performance of DCNN and recognition rates.
deep learning;deep convolutional neural network(DCNN);vehicle model recognition;feature extraction
10.13873/J.1000—9787(2016)11—0019—04
2016—01—21
天津市科技計(jì)劃基金資助項(xiàng)目(13ZXCXGX40400)
TP 391
A
1000—9787(2016)11—0019—04