国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛品牌和型號(hào)識(shí)別

2017-11-01 08:58黎哲明蔡鴻明姜麗紅
關(guān)鍵詞:分類(lèi)器卷積車(chē)型

黎哲明, 蔡鴻明, 姜麗紅

(上海交通大學(xué) 軟件學(xué)院, 上海 200240)

基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛品牌和型號(hào)識(shí)別

黎哲明, 蔡鴻明, 姜麗紅

(上海交通大學(xué) 軟件學(xué)院, 上海 200240)

車(chē)輛品牌和型號(hào)的識(shí)別屬于細(xì)粒度分類(lèi)領(lǐng)域的一類(lèi)問(wèn)題, 與只針對(duì)不同物體的圖像識(shí)別相比, 待分類(lèi)的車(chē)輛品牌和型號(hào)之間差異較小, 分類(lèi)較困難.卷積神經(jīng)網(wǎng)絡(luò)在靜態(tài)圖像上具有強(qiáng)大的特征發(fā)現(xiàn)能力, 近年來(lái)在圖像分類(lèi)問(wèn)題中成果顯著.結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和開(kāi)源的大量標(biāo)注數(shù)據(jù)集設(shè)計(jì)出了完整的車(chē)型識(shí)別模型, 引入?yún)^(qū)域分割從而提高了識(shí)別的準(zhǔn)確率, 同時(shí)根據(jù)移動(dòng)互聯(lián)網(wǎng)的特性設(shè)計(jì)了交互方式.通過(guò)試驗(yàn)驗(yàn)證, 該方法可以有效地解決查詢(xún)圖片識(shí)別具體車(chē)輛品牌及型號(hào)的問(wèn)題.

車(chē)型識(shí)別; 細(xì)粒度分類(lèi); 卷積神經(jīng)網(wǎng)絡(luò); 區(qū)域分割; 圖像處理

車(chē)型識(shí)別有著廣泛的應(yīng)用前景, 如,在智能交通領(lǐng)域能夠利用車(chē)型識(shí)別對(duì)道路交通情況進(jìn)行統(tǒng)計(jì), 在汽車(chē)銷(xiāo)售領(lǐng)域可幫助潛在購(gòu)車(chē)用戶更好地了解感興趣的車(chē)輛信息.車(chē)型識(shí)別的范圍較廣, 不僅僅局限于數(shù)字和字母,而且由于無(wú)法對(duì)固定的區(qū)域進(jìn)行特征提取, 因此面臨著較大的挑戰(zhàn).

在車(chē)輛圖片識(shí)別領(lǐng)域研究中, 車(chē)輛所屬交通工具的分類(lèi)(bus、truck、van、small car)問(wèn)題的解決已取得了比較理想的成果.文獻(xiàn)[1] 利用圖像的SIFT(scale invariant feature transform)特征并結(jié)合支持向量機(jī)訓(xùn)練出分類(lèi)器, 有效完成車(chē)輛所屬交通工具的分類(lèi).文獻(xiàn)[2] 提出一種2階段分類(lèi)方法: 第1階段采用支持向量機(jī)、K近鄰、隨機(jī)森林和多層感知機(jī)4種分類(lèi)器接收Gabor和PHOG(pyramid histogram of oriented gradients)特征進(jìn)行分類(lèi), 這一階段的輸出可作為第2階段的輸入, 通過(guò)旋轉(zhuǎn)森林對(duì)未區(qū)分的結(jié)果進(jìn)行進(jìn)一步分類(lèi)處理.與上述研究相比, 精確分類(lèi)具體車(chē)輛品牌和型號(hào)(car make and model recognition)更具有挑戰(zhàn)性.待分類(lèi)的類(lèi)別之間差別細(xì)微, 屬于細(xì)粒度分類(lèi)問(wèn)題(fine-grained classification), 其對(duì)圖像特征的提取及分類(lèi)有著更高的精度要求.與車(chē)型識(shí)別類(lèi)似的研究中, 文獻(xiàn)[3-4]提出了結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與大量的訓(xùn)練數(shù)據(jù),分別實(shí)現(xiàn)對(duì)狗和花類(lèi)圖片的品種分類(lèi)的方法.目前, 針對(duì)精確分類(lèi)車(chē)輛品牌和型號(hào)的研究中, 文獻(xiàn)[5-6]分別對(duì)車(chē)輛前后視圖的特定區(qū)域進(jìn)行特征提取, 之后與標(biāo)注庫(kù)中的圖片匹配得到分類(lèi)結(jié)果; 文獻(xiàn)[7]提出了一種首先提取圖像的全局形狀特征以獲得與標(biāo)注圖像集的相似度, 再結(jié)合選定的局部直方圖特征相似度并計(jì)算相似度加權(quán)和, 以此改進(jìn)分類(lèi)效果的方法.

由以上研究現(xiàn)狀可知, 車(chē)型識(shí)別的研究主要存在以下兩個(gè)問(wèn)題: (1) 對(duì)于能夠滿足任意角度查詢(xún)圖片的條件下, 識(shí)別的粒度還停留在交通工具上的分類(lèi); (2) 能夠精確到具體車(chē)輛品牌和型號(hào)的分類(lèi)往往需要限定查詢(xún)圖片的拍攝角度, 只能從特定拍攝角度, 如前視圖或后視圖的圖像中完成車(chē)輛識(shí)別及分類(lèi)過(guò)程.因此, 如何實(shí)現(xiàn)對(duì)不同角度的圖片都能完成車(chē)型識(shí)別是一項(xiàng)極具挑戰(zhàn)的任務(wù).

針對(duì)上述兩個(gè)問(wèn)題, 本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的車(chē)型識(shí)別方法, 借助深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力, 取代傳統(tǒng)人工選擇的SIFT等特征及分類(lèi)器訓(xùn)練, 完成對(duì)細(xì)節(jié)特征的發(fā)現(xiàn), 以實(shí)現(xiàn)對(duì)不同角度查詢(xún)圖片的車(chē)型識(shí)別.同時(shí), 結(jié)合當(dāng)前更為普遍的移動(dòng)互聯(lián)網(wǎng)模式, 采用手機(jī)客戶端和云服務(wù)器的模式進(jìn)行系統(tǒng)設(shè)計(jì).本文工作包括以下3點(diǎn): (1) 利用卷積神經(jīng)網(wǎng)絡(luò)完成大量車(chē)型標(biāo)注圖像集的特征提取及分類(lèi)器訓(xùn)練, 實(shí)現(xiàn)對(duì)各種不同角度的車(chē)輛圖片進(jìn)行車(chē)型分類(lèi)的目標(biāo); (2) 通過(guò)區(qū)域識(shí)別等方法完成車(chē)輛區(qū)域和背景區(qū)域的切割, 去除背景噪聲達(dá)到提高識(shí)別精度的目標(biāo); (3) 針對(duì)移動(dòng)互聯(lián)網(wǎng)的特性通過(guò)圖像壓縮等技術(shù)減小客戶端與服務(wù)器的圖像傳輸成本, 提高響應(yīng)速度.

1 云環(huán)境下移動(dòng)端車(chē)型識(shí)別處理框架

移動(dòng)用戶的規(guī)模隨著互聯(lián)網(wǎng)的發(fā)展而高速增長(zhǎng), 移動(dòng)互聯(lián)網(wǎng)服務(wù)變得更加便捷和快速.但不論是基于特征選擇還是卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛圖片識(shí)別問(wèn)題均屬于計(jì)算密集型工作, 而移動(dòng)設(shè)備自身的計(jì)算和存儲(chǔ)能力有限, 且電池續(xù)航能力較差, 難以完成整個(gè)圖像處理和識(shí)別分類(lèi)的過(guò)程.

因此, 為了解決移動(dòng)設(shè)備便捷性與計(jì)算能力不足之間的矛盾, 采用移動(dòng)客戶端和云端服務(wù)相結(jié)合的模式.云環(huán)境下移動(dòng)端車(chē)型識(shí)別處理框架如圖1所示, 主要由應(yīng)用層和服務(wù)層兩部分組成.應(yīng)用層將查詢(xún)圖片傳輸?shù)椒?wù)層, 為了降低圖片傳輸?shù)牡却龝r(shí)間, 應(yīng)用層將在盡可能不丟失圖像信息的基礎(chǔ)上采用圖像壓縮技術(shù)減小查詢(xún)圖片的大小.服務(wù)層在收到查詢(xún)圖片后進(jìn)行的操作包括圖像預(yù)處理、車(chē)輛區(qū)域切割提取、模型分類(lèi)3個(gè)部分, 其中,車(chē)輛區(qū)域切割是為了將圖像中的車(chē)輛區(qū)域與背景區(qū)域分離, 減少背景像素帶來(lái)的噪聲干擾.

圖1 云環(huán)境下移動(dòng)端車(chē)型識(shí)別處理框架圖Fig.1 Mobile car make and model recognition processing framework in cloud environment

2 基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)型識(shí)別

2.1圖像采集及傳輸

應(yīng)用層面向使用移動(dòng)設(shè)備的用戶, 通過(guò)將直接拍攝車(chē)輛或者來(lái)源于互聯(lián)網(wǎng)的圖片作為查詢(xún)圖片提交給服務(wù)層處理.

為了減小圖片的傳輸成本, 在應(yīng)用層需要對(duì)查詢(xún)圖片進(jìn)行壓縮, 但又需要盡可能保證壓縮后的圖片質(zhì)量不被破壞以達(dá)到理想的識(shí)別效果.為了兼顧兩者, 本文采用谷歌在2017年開(kāi)發(fā)的Guetzli壓縮工具, 該工具可通過(guò)對(duì)圖片全局量化表進(jìn)行微調(diào), 對(duì)DCT(discrete cosine transform)系數(shù)的高頻部分實(shí)現(xiàn)有選擇的丟棄.試驗(yàn)證明, 該工具能在不損失圖片質(zhì)量的情況下達(dá)到最高35%的壓縮率, 可有效完成圖片壓縮.車(chē)輛圖片采用Guetzli壓縮前后的圖片如圖2所示, 壓縮前圖片的大小為488 KiB, 壓縮后可減小到320 KiB.

(a) 壓縮前

(b) 壓縮后

2.2圖像預(yù)處理

由于拍攝角度和光線等因素可能會(huì)造成拍攝的圖片質(zhì)量不高, 因此服務(wù)層在接收到來(lái)自應(yīng)用層的查詢(xún)圖片后需要對(duì)圖像做一些預(yù)處理, 主要的操作包括圖像去噪和圖像增強(qiáng)兩部分,這兩種操作均采用小波變換的方式實(shí)現(xiàn). 首先對(duì)圖像進(jìn)行小波變換, 得到圖像的不同頻率分量的小波變換系數(shù).其次, 對(duì)高頻系數(shù)進(jìn)行適當(dāng)?shù)脑鰪?qiáng)處理, 再進(jìn)行小波逆變換, 達(dá)到圖像的細(xì)節(jié)或邊緣增強(qiáng)的目的. 由于噪聲大多屬于高頻信息, 當(dāng)進(jìn)行小波變換之后, 噪聲信息大多集中在高頻子塊之中, 對(duì)這一部分系數(shù)進(jìn)行抑制, 可達(dá)到一定的噪聲去除效果.

2.3車(chē)輛區(qū)域分割

無(wú)論是車(chē)輛的訓(xùn)練圖片還是查詢(xún)圖片, 往往都包含著需要識(shí)別的車(chē)輛區(qū)域及其背景區(qū)域.對(duì)于車(chē)型識(shí)別, 所有背景區(qū)域都應(yīng)該作為噪聲去除.車(chē)輛區(qū)域分割要解決的主要問(wèn)題是確定車(chē)輛在圖片中的位置信息.

在傳統(tǒng)方法的實(shí)現(xiàn)中, 區(qū)域分割的解決基本都遵循“設(shè)計(jì)手工特征(hand-crafted feature)+分類(lèi)器”的思路.該過(guò)程包含區(qū)域搜索的步驟, 類(lèi)似于計(jì)算機(jī)用一個(gè)小的矩形窗口不斷在圖像上滑動(dòng)和縮放, 然后采用分類(lèi)器預(yù)測(cè)當(dāng)前滑動(dòng)窗口所在區(qū)域是否存在感興趣的對(duì)象.但是, 手工選擇的特定特征(如SIFT等)往往不能充分體現(xiàn)圖片的特征, 達(dá)不到理想的效果.隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)上的應(yīng)用, 研究發(fā)現(xiàn)將其與區(qū)域劃分結(jié)合后,卷積神經(jīng)網(wǎng)絡(luò)能夠更有效地解決區(qū)域分割這一問(wèn)題.rCNN(regions with CNN)即是一個(gè)基于上述思想而提出的區(qū)域分割算法[8], 流程包括以下4個(gè)步驟:

(1) 1張圖像生成1 000~2 000個(gè)候選區(qū)域;

(2) 對(duì)每個(gè)候選區(qū)域, 使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取;

(3) 提取的特征送入每一類(lèi)的SVM(support vector machine)分類(lèi)器, 判別是否屬于該類(lèi);

(4) 使用回歸器精細(xì)修正候選框位置.

其中, 候選區(qū)域的生成采用選擇性搜索方法[9], 該算法可在圖片中選出多個(gè)區(qū)域, 這些區(qū)域?qū)⒆鳛槲矬w識(shí)別的候選區(qū)域.對(duì)圖像進(jìn)行區(qū)域提取后, 將每個(gè)區(qū)域作為輸入, 利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取.采用開(kāi)源框架Caffe[10]進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練, 以ILSVRC圖像數(shù)據(jù)作為訓(xùn)練集.神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)共分為8層: 前5層為卷積層,其后 2層為全連接層, 最后1層為標(biāo)簽層.在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中, 為了適配網(wǎng)絡(luò), 將輸入圖像向下取樣為227像素× 227像素的大小, 將圖像按比例縮放至短邊為227像素, 然后截取長(zhǎng)邊中間227像素的部分.

由于選擇搜索算法對(duì)于每一張圖片都將產(chǎn)生大量的建議區(qū)域, 數(shù)量過(guò)多且互相重疊, 有許多冗余的區(qū)域, 因此在進(jìn)行物體識(shí)別后, 采用貪心的非極大抑制算法對(duì)區(qū)域進(jìn)行篩選, 具體算法如下:

Require:所有預(yù)測(cè)區(qū)域集合RS所有預(yù)測(cè)類(lèi)別列表C={C1,C2…Cn}每個(gè)區(qū)域的預(yù)測(cè)類(lèi)別列表及相應(yīng)分?jǐn)?shù)Ensure:保留的區(qū)域集合RS1Loop:對(duì)于每一個(gè)預(yù)測(cè)的類(lèi)Ci1.RSi={}2.將RS按Ci的預(yù)測(cè)分?jǐn)?shù)從高到低排序3.將最高的區(qū)域加入RS中4.計(jì)算其他區(qū)域與RSi中區(qū)域面積的交集并集之比IoU5.如果IoU均小于一定閾值,加入到RSi中End:RS1=RS1∪RS2∪...∪RSn

在本文中, 將閾值設(shè)為0.5, 實(shí)現(xiàn)對(duì)預(yù)測(cè)分?jǐn)?shù)非最大的區(qū)域進(jìn)行抑制, 從而避免區(qū)域的重復(fù)標(biāo)注.貪心的非極大抑制算法獲得的車(chē)輛區(qū)域分割結(jié)果如圖3所示, 其中圖3(a)為采用選擇性搜索生成的候選區(qū)域.隨后對(duì)這些候選區(qū)域通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并利用SVM進(jìn)行分類(lèi), 其中結(jié)果大于0.5的區(qū)域認(rèn)為是車(chē)輛區(qū)域.最后通過(guò)非極大抑制算法完成區(qū)域的合并, 得到如圖3(b)所示的輸出結(jié)果.

(a) 選擇性搜索方法

(b) 貪心的非極大抑制算法圖3 采用貪心的非極大抑制算法獲得的車(chē)輛區(qū)域分割結(jié)果Fig.3 Products of region segmentation using greedy non-maximum suppression algorithm

2.4基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)型分類(lèi)器實(shí)現(xiàn)

在完成對(duì)車(chē)輛區(qū)域和背景區(qū)域的分割之后, 將分割出的車(chē)輛區(qū)域作為輸入進(jìn)行分類(lèi)器的訓(xùn)練.

本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和斯坦福大學(xué)提供的標(biāo)注車(chē)輛圖片庫(kù)[11]中的16 185張圖片和196種車(chē)輛類(lèi)別進(jìn)行試驗(yàn), 用于解決車(chē)輛圖片的細(xì)粒度分類(lèi)問(wèn)題.采用的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)為AlexNet[12]的修改版, 一共包括8層: 5層卷積層和3層全連接層, 最后一層全連接層為輸出分類(lèi)層.第1層卷積層采用96個(gè)大小為11 × 11和步長(zhǎng)為4 ×4的卷積核, 得到的輸出再經(jīng)過(guò)池化操作后得到大小為27 × 27 × 96的輸出隱層, 同時(shí)也作為第2層卷積層的輸入.之后的操作與上述相似, 各卷積層的卷積核大小分別為5 ×5、3 × 3、3 × 3和3 × 3, 過(guò)濾器數(shù)量依次為256、384、384和256, 步長(zhǎng)均為1 × 1.其中, 第3和第4層卷積層將卷積后的結(jié)果直接作為下一層輸入, 而第2和第5層在卷積后還需要再進(jìn)行池化操作.池化層均采用大小為3 × 3和步長(zhǎng)為2 × 2的max pooling(特征最大匯總), 每次計(jì)算可以減少一半的神經(jīng)元, 起到減少計(jì)算量以及有效控制過(guò)擬合的作用.同時(shí)根據(jù)訓(xùn)練集的樣本類(lèi)別個(gè)數(shù),將最后全連接層的輸出大小修正為196.

模型采用ReLu函數(shù)代替?zhèn)鹘y(tǒng)的Logistics函數(shù)作為激活函數(shù), 使得前向傳播和利用偏導(dǎo)計(jì)算反向梯度都變得更容易, 避免了指數(shù)和除法之類(lèi)的復(fù)雜操作.同時(shí), 拋棄輸出為0的隱層神經(jīng)元, 以此增加網(wǎng)絡(luò)的稀疏性, 也在一定程度上達(dá)到緩解過(guò)擬合的作用.采用減法歸一化對(duì)卷積特征進(jìn)行歸一化操作. 減法歸一化是針對(duì)一個(gè)卷積特征而言, 反映了一個(gè)卷積特征中某個(gè)位置與鄰域位置的關(guān)系.減法歸一化的具體操作是將目標(biāo)位置與鄰域位置進(jìn)行加權(quán)和相減, 鄰域位置的權(quán)值大小與鄰域位置距離目標(biāo)位置的長(zhǎng)度有關(guān).

在訓(xùn)練之前, 首先采用貪心的非極大抑制算法將所有的標(biāo)注樣本進(jìn)行車(chē)輛區(qū)域與背景區(qū)域的分割, 并將車(chē)輛區(qū)域剪裁成224像素 × 224像素的大小以符合網(wǎng)絡(luò)輸入.數(shù)據(jù)集按照9∶1的方式分割為訓(xùn)練集和測(cè)試集. 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示, 訓(xùn)練集訓(xùn)練完成后利用測(cè)試集評(píng)估結(jié)構(gòu)的好壞.

圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Framework of CNN

2.5服務(wù)結(jié)果生成

通過(guò)訓(xùn)練完成的車(chē)型分類(lèi)器得到了具體車(chē)型后, 可結(jié)合網(wǎng)絡(luò)中的開(kāi)放數(shù)據(jù)獲得如車(chē)速、排量等基本信息.除此之外, 也可以采用主題模型LDA(latent dirichlet allocation)等方法對(duì)汽車(chē)論壇中的用戶評(píng)論數(shù)據(jù)進(jìn)行挖掘, 總結(jié)出關(guān)鍵字后提供給應(yīng)用層用戶, 使其獲得更多的相關(guān)信息.

3 系統(tǒng)實(shí)現(xiàn)及驗(yàn)證

3.1系統(tǒng)實(shí)現(xiàn)

基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)型識(shí)別系統(tǒng)實(shí)現(xiàn)界面如圖5所示, 分別包含安卓移動(dòng)客戶端的實(shí)現(xiàn)界面和后臺(tái)識(shí)別服務(wù)界面.

3.2試驗(yàn)環(huán)境

利用深度網(wǎng)絡(luò)開(kāi)源訓(xùn)練框架Caffe, 在Intel Corei7、GTX540環(huán)境下進(jìn)行訓(xùn)練, 數(shù)據(jù)集采用斯坦福開(kāi)源車(chē)輛數(shù)據(jù)集.

3.3試驗(yàn)結(jié)果對(duì)比與討論

本文試驗(yàn)方法與針對(duì)車(chē)輛后視圖[4]、前視圖[13]的車(chē)型分類(lèi)或是任意角度的交通類(lèi)型分類(lèi)[14]的識(shí)別結(jié)果對(duì)比如表1所示.

(a) 安卓移動(dòng)客戶端實(shí)現(xiàn)界面

(b) 后臺(tái)識(shí)別服務(wù)界面

項(xiàng)目本文系統(tǒng)文獻(xiàn)[4]文獻(xiàn)[13]文獻(xiàn)[14]準(zhǔn)確率/%92899197適用對(duì)象任意角度車(chē)輛后視圖車(chē)輛前視圖任意角度方法rCNN區(qū)域分割+卷積神經(jīng)網(wǎng)絡(luò)特征提取和分類(lèi)人工特征提取、匹配人工特征提取、匹配卷積神經(jīng)網(wǎng)絡(luò)或人工特征提取+SVM分類(lèi)器識(shí)別粒度車(chē)輛品牌、型號(hào)車(chē)輛品牌、型號(hào)車(chē)輛品牌、型號(hào)車(chē)輛交通類(lèi)型存在問(wèn)題訓(xùn)練時(shí)間較長(zhǎng)需要預(yù)先選定特征、受選擇的特征影響較大需要預(yù)先選定特征、受選擇的特征影響較大,測(cè)試集合較小識(shí)別粒度較大,只能精確到bus、truck等交通類(lèi)型

由表1可以看出, 本文系統(tǒng)在車(chē)輛交通類(lèi)型的識(shí)別上取得了非常好的效果, 可以保證較高準(zhǔn)確率的同時(shí)還不用對(duì)查詢(xún)圖像的拍攝角度作出限制.但在細(xì)粒度分類(lèi)應(yīng)用于具體車(chē)輛品牌和型號(hào)的研究中, 往往只能在某個(gè)特定角度的查詢(xún)圖片中取得不錯(cuò)的結(jié)果, 該現(xiàn)象的主要原因?yàn)槿鄙俅罅慷嘟嵌鹊臉?biāo)注樣本及人工選擇的特征泛化能力較弱.

本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、區(qū)域分割技術(shù)和公開(kāi)的大量標(biāo)注數(shù)據(jù)集, 解決了對(duì)任意拍攝角度的車(chē)輛圖片在品牌和型號(hào)上的細(xì)粒度分類(lèi)問(wèn)題, 其準(zhǔn)確率與傳統(tǒng)單視圖識(shí)別相當(dāng)甚至更好.

4 結(jié) 語(yǔ)

由于缺乏足量的標(biāo)注樣本和強(qiáng)大的車(chē)輛特征, 實(shí)現(xiàn)對(duì)任意角度的圖片精確到車(chē)輛品牌和型號(hào)的識(shí)別是一個(gè)尚未被充分研究的問(wèn)題.本文采用卷積神經(jīng)網(wǎng)絡(luò)模型, 憑借其在靜態(tài)圖片上展現(xiàn)出的強(qiáng)大的特征提取能力, 同時(shí)結(jié)合SVM分類(lèi)器的訓(xùn)練, 在車(chē)輛類(lèi)別分類(lèi)問(wèn)題的解決上取得了較優(yōu)的成果.利用rCNN預(yù)先分割出車(chē)輛區(qū)域, 減少背景區(qū)域?qū)Ψ诸?lèi)帶來(lái)的噪聲影響, 提高了車(chē)型識(shí)別的準(zhǔn)確率.

下一步工作將研究不同壓縮算法和預(yù)處理算法對(duì)圖像效果造成的影響; 嘗試使用更快速的rCNN模型提升區(qū)域分割環(huán)節(jié)的處理速度; 考慮不同網(wǎng)絡(luò)模型結(jié)構(gòu)對(duì)分類(lèi)準(zhǔn)確率的提高和影響.

[1] JANG D M, TURK M. Car-Rec: A real time car recognition system[C]//Applications of Computer Vision (WACV), 2011 IEEE Workshop on. IEEE. 2011: 599-605.

[2] ZHANG B. RELIABLE classification of vehicle types based on cascade classifier ensembles[J]. IEEE Transactions on Intelligent Transportation Systems, 2013, 14(1): 322-332.

[3] LIU J, KANAZAWA A, JACOBS D, et al. Dog breed classification using part localization[C]// European Conference on Computer Vision. Springer Berlin Heidelberg. 2012: 172-185.

[4] NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes[C]//Computer Vision, Graphics & Image Processing, 2008. ICVGIP’08. Sixth Indian Conference on. IEEE. 2008: 722-729.

[5] SANTOS D, CORREIA P L. Car recognition based on back lights and rear view features[C]//Image Analysis for Multimedia Interactive Services 2009. WIAMIS'09. 10th Workshop on. IEEE. 2009: 137-140.

[6] PETROVIC V S, COOTES T F. Analysis of features for rigid structure vehicle type recognition[C]//British Machine Vision Conference. 2004: 587-596.

[7] ABDELMASEEH M, BADRELDIN I, ABDELKADER M F, et al. Car make and model recognition combining global and local cues[C]//Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE. 2012: 910-913.

[8] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 580-587.

[9] UIJLINGS J R R, SANDE KEAV D, GEVERS T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171.

[10] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. ACM. 2014: 675-678.

[11] KRAUSE J, STARK M, Deng J, et al. 3d object representations for fine-grained categorization[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. 2013: 554-561.

[12] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference Neural Information Processing Systems. 2012: 1097-1105.

[13] 姚欽文. 基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)臉識(shí)別研究[D].杭州: 浙江大學(xué)計(jì)算機(jī)學(xué)院, 2016.

[14] HUTTUNEN H, YANCHESHMEH F S, CHEN K. Car type recognition with deep neural networks[C]//Intelligent Vehicles Symposium (IV). IEEE. 2016: 1115-1120.

(責(zé)任編輯:楊靜)

CarMakeandModelRecognitionBasedonConvolutionalNeuralNetwork

LIZheming,CAIHongming,JIANGLihong

(School of Software, Shanghai Jiao Tong University, Shanghai 200240, China)

The recognition of car make and model is a kind of problem of fine-grained classification area. It’s hard to classify them due to the subtle difference among classes compared to other common image recognition problems. While powerful feature-found ability of convolutional neural network(CNN) on static image has made remarkable achievements in the image classification problem. Therefore, a complete model based on CNN is designed by combining the large open source data sets, region segmentation is applied to raise the accurate while the interaction is designed according to the characteristics of mobile internet. Experiment shows that this method can effectively solve the problem.

car make and model recognition; fine-grained classification; convolutional neural network; region segmentation; image processing

TP 391

A

1671-0444 (2017)04-0472-06

2017-04-28

國(guó)家自然科學(xué)基金資助項(xiàng)目(61373030,71171132)

黎哲明(1992—),男,福建龍巖人,碩士研究生,研究方向?yàn)樾畔⒖梢暬? E-mail: lizheming@sjtu.edu.cn

蔡鴻明(聯(lián)系人),男,教授,E-mail: hmcai@sjtu.edu.cn

猜你喜歡
分類(lèi)器卷積車(chē)型
2022全球期待車(chē)型 TOP10
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種高速自由流車(chē)型識(shí)別系統(tǒng)
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于差異性測(cè)度的遙感自適應(yīng)分類(lèi)器選擇
基于實(shí)例的強(qiáng)分類(lèi)器快速集成方法
車(chē)型 (五)
2016年最值得期待的十款國(guó)產(chǎn)車(chē)型