陳小娥,楊薇薇
(福建船政交通職業(yè)學(xué)院信息工程系,福州 350007)
基于深度學(xué)習(xí)的車(chē)標(biāo)識(shí)別算法的研究與實(shí)現(xiàn)
陳小娥,楊薇薇
(福建船政交通職業(yè)學(xué)院信息工程系,福州 350007)
依據(jù)深度學(xué)習(xí)算法可以自主進(jìn)行特征學(xué)習(xí)和識(shí)別的特點(diǎn),提出一種基于Keras深度學(xué)習(xí)框架的車(chē)標(biāo)識(shí)別算法。將該方法將ResNet50和Inception V3兩模型相結(jié)合構(gòu)建訓(xùn)練網(wǎng)絡(luò),以此建立分類(lèi)器對(duì)車(chē)標(biāo)圖像進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)進(jìn)行比對(duì),提高了車(chē)標(biāo)識(shí)別的準(zhǔn)確率。
深度學(xué)習(xí);Keras框架;車(chē)標(biāo)識(shí)別;特征提取
隨著我國(guó)社會(huì)經(jīng)濟(jì)的飛速發(fā)展,人們的物質(zhì)生活水平越來(lái)越高,道路上機(jī)動(dòng)車(chē)的數(shù)量也越來(lái)越多。汽車(chē)使人們的生活越來(lái)越便捷,但與此同時(shí),隨著汽車(chē)數(shù)量的增多,也產(chǎn)生了一些不利影響,如道路擁堵、交通事故頻發(fā)等,給智能交通管理系統(tǒng)帶來(lái)了巨大的挑戰(zhàn)。
車(chē)輛識(shí)別是智能交通系統(tǒng)中的重要組成部分,目前車(chē)輛識(shí)別中的車(chē)牌識(shí)別技術(shù)已相對(duì)成熟,然而近幾年套牌、車(chē)牌磨損以及車(chē)牌遮擋等現(xiàn)象的出現(xiàn),需要我們進(jìn)一步提高車(chē)輛識(shí)別技術(shù)。于是,車(chē)標(biāo)作為車(chē)輛的一個(gè)重要特征,可以輔助人們進(jìn)行車(chē)輛識(shí)別。因?yàn)檐?chē)標(biāo)是車(chē)輛所有特征中最難以更改的重要標(biāo)志之一。將車(chē)標(biāo)作為研究對(duì)象,對(duì)車(chē)標(biāo)進(jìn)行識(shí)別,然后再與車(chē)牌識(shí)別相互結(jié)合,可進(jìn)一步提高車(chē)輛識(shí)別的準(zhǔn)確性。車(chē)標(biāo)識(shí)別技術(shù)為智能交通系統(tǒng)的發(fā)展和完善提供了一種新的理念和方向,成為近幾年車(chē)輛識(shí)別中的研究熱點(diǎn),將對(duì)車(chē)輛識(shí)別技術(shù)研究具有重大的推動(dòng)作用。
關(guān)于車(chē)標(biāo)識(shí)別,國(guó)內(nèi)外已有一些學(xué)者進(jìn)行了相關(guān)研究。傳統(tǒng)的方法主要以分析特征提取方法為主,然后采用一些分類(lèi)工具進(jìn)行分類(lèi)識(shí)別,如文獻(xiàn)[1]提出了一種基于SIFT描述子的車(chē)標(biāo)識(shí)別算法,SIFT特征對(duì)旋轉(zhuǎn)、尺度和一定視角與光照變化等圖像變化都具有不變性,可以準(zhǔn)確地表示車(chē)標(biāo)圖像,但計(jì)算量比較大。文獻(xiàn)[2-3]通過(guò)計(jì)算圖像的方向梯度直方圖作為特征值,然后利用SVM作為分類(lèi)器來(lái)實(shí)現(xiàn)車(chē)標(biāo)識(shí)別;文獻(xiàn)[4]通過(guò)Modest AdaBoost算法檢測(cè)車(chē)標(biāo)的位置,接著利用徑向Tchebichef矩進(jìn)行車(chē)標(biāo)識(shí)別。以上這些算法的車(chē)標(biāo)特征均是通過(guò)人工提取獲得,特征選取得好壞直接決定了識(shí)別準(zhǔn)確率的高低,有些圖像的特征不好表達(dá),操作起來(lái)也相對(duì)復(fù)雜。
近年來(lái),深度結(jié)構(gòu)學(xué)習(xí)(又稱(chēng)為深度學(xué)習(xí)或多層學(xué)習(xí))作為機(jī)器學(xué)習(xí)研究的一個(gè)新的領(lǐng)域,深受人們的關(guān)注,深度學(xué)習(xí)是一種通過(guò)多層表示來(lái)對(duì)數(shù)據(jù)之間的復(fù)雜關(guān)系進(jìn)行建模的算法,該算法可以有效利用復(fù)雜的非線性函數(shù)和非線性的復(fù)合函數(shù)來(lái)學(xué)習(xí)分布和分層的特征表示。文獻(xiàn)[5]采用了深度學(xué)習(xí)的方法,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)自主選取車(chē)標(biāo)特征進(jìn)行學(xué)習(xí)和識(shí)別。
本文提出一種基于Keras深度學(xué)習(xí)框架的車(chē)標(biāo)識(shí)別算法。該方法通過(guò)ResNet50和Inception V3兩模型導(dǎo)出特征向量,并將它們合并成一條特征向量進(jìn)行訓(xùn)練建模,獲得分類(lèi)器,然后通過(guò)實(shí)驗(yàn),將該算法與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器進(jìn)行對(duì)比,分析它們識(shí)別的錯(cuò)誤率情況。
2006年Hinton[6-7]在研討會(huì)上的兩篇論文中介紹了一種高效的無(wú)監(jiān)督學(xué)習(xí)算法,提出了“多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力”這一觀點(diǎn)。深度學(xué)習(xí)技術(shù)分為深度判別式模型(如深度神經(jīng)網(wǎng)絡(luò)DNN、遞歸神經(jīng)網(wǎng)絡(luò)RNN、卷積神經(jīng)網(wǎng)絡(luò)CNN等)和生成式/無(wú)監(jiān)督模型(如受限玻爾茲曼機(jī)RBM、深度置信網(wǎng)絡(luò)DBN、深度玻爾茲曼機(jī)DBM、正則化的自編碼器等)。CNN可以以圖像作為輸入,在計(jì)算機(jī)視覺(jué)或者圖像識(shí)別任務(wù)中非常有效。
1.1 傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)在目標(biāo)識(shí)別中的最初應(yīng)用由Y.LeCun等[8]人提出,圖1展示了文獻(xiàn)[8]中所描述的CNN的基本結(jié)構(gòu)。CNN的深度結(jié)構(gòu)中,每個(gè)模塊都是由卷積層(Convolution)和池化層(Max Pooling)組成。這些模塊通常是逐個(gè)疊加而成,卷積層共享權(quán)值,池化層對(duì)卷積層的輸出進(jìn)行降采樣,從而減少下面一層的數(shù)據(jù)率。由此可以把圖像作為直接的輸入,省去了煩瑣的特征提取過(guò)程。
圖1 初始卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
1.2 ResNet50模型
文獻(xiàn)[9]在現(xiàn)有訓(xùn)練深度網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種減輕網(wǎng)絡(luò)訓(xùn)練負(fù)擔(dān)的殘差學(xué)習(xí)框架,由此解決精準(zhǔn)度下降問(wèn)題。深度殘差網(wǎng)絡(luò)(ResNet)的出現(xiàn)為訓(xùn)練更深的網(wǎng)絡(luò)提供了方法,其主要特色是跨層連接。讓這些層不是通過(guò)每一個(gè)堆疊層直接適合一個(gè)所需的底層映射,而是適合殘差映射。擬合殘差由圖2的跨層連接所示,網(wǎng)絡(luò)試圖將x映射為F(x)+x,那么網(wǎng)絡(luò)的映射F(x)自然就趨向于F(x)=0。
1.3 Inception V3模型
Christian等[10]人發(fā)布了一個(gè)新版本的GoogleNet(Inception V3)模塊和相應(yīng)的架構(gòu),并且更好地解釋了原來(lái)的GoogleNet架構(gòu)。GoogleNet的原始思想包括通過(guò)構(gòu)建平衡深度和寬度的網(wǎng)絡(luò),最大化網(wǎng)絡(luò)的信息流,在進(jìn)入池化層之前增加特征映射;當(dāng)網(wǎng)絡(luò)層數(shù)深度增加時(shí),特征的數(shù)量或?qū)拥膶挾纫蚕鄬?duì)應(yīng)地增加;在每一層通過(guò)增加寬度以增加下一層之前的特征的組合;大卷積分解為小卷積,如圖3所示用兩層3×3卷積核代替原本5×5卷積核的Inception模塊示意圖[10]。
圖2 殘差學(xué)習(xí):一個(gè)構(gòu)建模塊
圖3 Inception模塊示意圖(用2個(gè)3×3卷積核代替1個(gè)5×5)
2.1 系統(tǒng)的構(gòu)建
車(chē)標(biāo)識(shí)別系統(tǒng)主要分兩部分構(gòu)成:一部分是訓(xùn)練模塊,一部分是識(shí)別模塊,如圖4所示。訓(xùn)練模塊包括訓(xùn)練圖片的輸入、深度網(wǎng)絡(luò)的訓(xùn)練構(gòu)建和最終分類(lèi)器模型的形成;識(shí)別模塊包括測(cè)試圖片的輸入、車(chē)標(biāo)識(shí)別和最終結(jié)果的輸出。
圖4 車(chē)標(biāo)識(shí)別系統(tǒng)流程圖
2.2 網(wǎng)絡(luò)的構(gòu)建
為了提高識(shí)別的正確率,本文考慮綜合各個(gè)不同網(wǎng)絡(luò)模型,主要考慮ResNet50和Inception兩種模型,如圖5所示為本文構(gòu)建的算法模型。ResNet50和Inception兩種網(wǎng)絡(luò)訓(xùn)練時(shí)導(dǎo)出特征向量的時(shí)間較長(zhǎng),因而算法具體實(shí)現(xiàn)時(shí)將導(dǎo)出的特征向量先保存下來(lái),以便后續(xù)的識(shí)別,減少計(jì)算量。
圖5 本文算法模型示意圖
2.3 實(shí)驗(yàn)與結(jié)果分析
本文采用基于Keras的深度學(xué)習(xí)框架搭建車(chē)標(biāo)識(shí)別網(wǎng)絡(luò)。Keras是一個(gè)高層神經(jīng)網(wǎng)絡(luò)API,Keras由純Python編寫(xiě)而成。Keras的底層庫(kù)使用Theano或TensorFlow,這兩個(gè)庫(kù)也稱(chēng)為Keras的反端,默認(rèn)使用Theano作用后端來(lái)進(jìn)行張量操作。車(chē)標(biāo)圖片來(lái)自于交通監(jiān)控拍攝、網(wǎng)上以及線下采集的車(chē)輛圖片,共有10種車(chē)標(biāo)圖片合計(jì)1 078張,其中訓(xùn)練集700張,測(cè)試集378張。圖6是部分車(chē)標(biāo)實(shí)例,分別為奧迪、寶馬、奔馳、大眾、東風(fēng)、豐田、福特、奇瑞、現(xiàn)代和雪佛蘭。
圖6 10類(lèi)車(chē)標(biāo)圖片實(shí)例
首先,用本文算法對(duì)車(chē)標(biāo)測(cè)試集進(jìn)行了測(cè)試,識(shí)別結(jié)果見(jiàn)表1所示。由表1可以看出,10種車(chē)標(biāo)整體的識(shí)別率達(dá)到了98.1%。對(duì)奧迪、寶馬、奔馳、福特等幾種常見(jiàn)的車(chē)標(biāo)識(shí)別效果較好。
將本文算法與參考文獻(xiàn)[5]的方法進(jìn)行實(shí)驗(yàn)對(duì)比,即將本文和文獻(xiàn)[5]共有的車(chē)別類(lèi)型進(jìn)行測(cè)試,測(cè)試結(jié)果見(jiàn)表2,從表中數(shù)據(jù)可以看出,本文對(duì)車(chē)標(biāo)識(shí)別的正確率有了一定的提高。實(shí)驗(yàn)中,大眾和東風(fēng)車(chē)標(biāo)的識(shí)別正確率較低,主要是因?yàn)闇y(cè)試集中較多大眾和東風(fēng)的車(chē)標(biāo)圖片大小較小且圖片本身的分辨率較低,對(duì)識(shí)別結(jié)果產(chǎn)生了一定的影響。
表1 車(chē)標(biāo)識(shí)別測(cè)試結(jié)果
表2 本文算法與文獻(xiàn)[5]的實(shí)驗(yàn)對(duì)比結(jié)果
本文提出了一種將ResNet50和Inception V3兩模型相結(jié)合的深度學(xué)習(xí)網(wǎng)絡(luò)。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,由多個(gè)模型導(dǎo)出的特征向量相結(jié)合進(jìn)行分類(lèi)器的設(shè)計(jì),提高了車(chē)標(biāo)識(shí)別的正確率。
[1] Psyllos AP,Kayafas E.Vehicle logo recognition using a SIFT-based enhanced matching scheme[J].IEEE Transactions on Intelligent Transportation Systems,2010,11(2):322-328.
[2] LLORCA D F, ARROYO R, SOTELO M A.Vehicle logo recognition in traffic images using hog features and SVM [C]//Proceedings of the 2013 16th International IEEE Conference on Intelligent Transportation Systems.Piscataway.NJ:IEEE, 2013:2229-2234.
[3] SUN Q, LU X, CHEN L, et al.An improved vehicle logo recognition method for road surveillance images [C] //Proceedings of the 2014 Seventh International Symposium on Computational Intelligence and Design.Piscataway.NJ:IEEE, 2014:373-376.
[4] SAM K-T, TIAN X-L.Vehicle logo recognition using modest AdaBoost and radial tchebichef moments [C] / / ICMLC 2012:Proceedings of the 2012 14th International Conference on Machine Learning and Computing.Singapore:IACSIT Press, 2012:91-95.
[5] 彭博,臧笛.基于深度學(xué)習(xí)的車(chē)標(biāo)識(shí)別方法研究[J].計(jì)算機(jī)科學(xué),2015,42(4):268-273.
[6] Hinton G,Salakhutdinov R.Reducing the dimensionality of data with neural networks[J].Science,2016,313(5786):504-507.
[7] Hinton G,Osindero S,Teh Y.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18:1527-1554.
[8] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[9] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:770-778.
[10] Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:2818-2826.
The Study and Implement of Vehicle Logo Recognition Algorithm Based on Deep Learning
CHEN Xiao-e,et al.
(DepartmentofInformationEngineering,F(xiàn)ujianChuanzhengCommunicationsCollege,F(xiàn)uzhou350007,China)
According to the algorithm of deep learning,the characteristic study and the characteristics of recognition can be operated by themselves.An algorithm of vehicle logo recognition based on Keras deep learning frame is proposed.This algorithm uses the combination of ResNet50 and Inception V3 models to make the training network to establish the classifier to recognize the vehicle logo images.The experiment result show that compared with the traditional convolution neural network classification method,it increases the recognition accuracy.
deep learning;Keras frame;vehicle logo recognition;feature extraction
2017-05-22
福建省中青年教師教育科研項(xiàng)目(JAT160704)
陳小娥(1984-),女(漢),福建永春,碩士 主要研究圖像處理。
10.3969/j.issn.1009-8984.2017.02.027
TP391.41
A
1009-8984(2017)02-0117-04
長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版)2017年2期