崔華 劉云飛 宋鑫鑫 李盼儂
摘 要:卷積神經(jīng)網(wǎng)絡(luò)(CNN)在諸多圖像分類(如數(shù)字識(shí)別,人臉識(shí)別)方面都被證明有著非常出色的表現(xiàn),復(fù)雜圖像的分類識(shí)別需要經(jīng)過多個(gè)層次的信息特征認(rèn)識(shí)整合以及加工。另一方面對交通狀態(tài)進(jìn)行準(zhǔn)確識(shí)別,是科學(xué)制定主動(dòng)交通管理決策的基礎(chǔ),有利于及時(shí)疏導(dǎo)擁堵,提高道路運(yùn)行效率。文章在TensorFlow上使用了基于CNN的分類模型對圖片進(jìn)行交通擁堵識(shí)別,其是在國際大賽上較為出名的Cifar-10模型,并對網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行了調(diào)整優(yōu)化,有較高的準(zhǔn)確率和效率。
關(guān)鍵詞:CNN;交通圖像分類;TensorFlow;Cifar-10;二分類
中圖分類號:TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2018)04-0019-03
Abstract: Convolutional Neural Network (CNN) has proved to be very good in many kinds of image classification (such as digital recognition, face recognition). The classification and recognition of complex images need to go through multiple levels of integration and processing of information feature recognition. On the other hand, the accurate identification of traffic state is the basis of scientifically making active traffic management decisions, which is conducive to the timely relief of congestion and improve the efficiency of road operation. In this paper, a classification model based on CNN is used to identify traffic congestion in TensorFlow. One is the famous Cifar-10 model in international competitions. The network structure and parameters are adjusted and optimized, so it has high accuracy and efficiency.
Keywords: CNN; traffic image classification: TensorFlow; Cifar-10; binary classification
1 概述
近年來,私家車數(shù)量劇增,道路交通負(fù)荷日益增加,道路擁擠、行車?yán)щy現(xiàn)象非常嚴(yán)重,是國內(nèi)外各大中城市所面臨并亟待解決的問題。目前國內(nèi)外對道路交通運(yùn)行狀態(tài)的研究主要依據(jù)移動(dòng)型檢測器獲得的數(shù)據(jù)以及多源數(shù)據(jù)。移動(dòng)檢測器主要是GPS技術(shù)[4]和車載自組織網(wǎng)絡(luò)技術(shù)[5]。GPS技術(shù)可以獲取全面的車輛信息,但該技術(shù)需要的成本較大,并且有可能暴露個(gè)人隱私;車載自組織網(wǎng)絡(luò)技術(shù)可以獲得自身和所在區(qū)域的位置信息,但密集的車流環(huán)境下,控制信道不能保證安全信息的傳送;為了數(shù)據(jù)的互補(bǔ)性和全面性,交通部門采用多源數(shù)據(jù)融合技術(shù)[6],但多源數(shù)據(jù)的冗余性較嚴(yán)重。
圖像監(jiān)控的普及以及圖片具有可視化、監(jiān)控相機(jī)安裝維修不影響交通運(yùn)行等優(yōu)勢,基于靜態(tài)和動(dòng)態(tài)圖像的交通狀態(tài)識(shí)別成為研究主流。本文提出了用圖像處理技術(shù)來確定道路擁堵的方法。
2 Cifar模型的介紹
2.1 模型內(nèi)容
Cifar-10數(shù)據(jù)集總體由60000張32*32的RGB彩色圖片構(gòu)成,共10個(gè)分類。50000張訓(xùn)練,10000張測試(交叉驗(yàn)證)。這個(gè)數(shù)據(jù)集最大的特點(diǎn)在于將識(shí)別遷移到了普適物體,而且應(yīng)用于多分類(姊妹數(shù)據(jù)集Cifar-100達(dá)到100類,ILSVRC比賽則是1000類)。同已經(jīng)成熟的人臉識(shí)別相比,普適物體識(shí)別挑戰(zhàn)巨大,數(shù)據(jù)中含有大量特征、噪聲,識(shí)別物體比例不一。因而,Cifar-10相對于傳統(tǒng)圖像識(shí)別數(shù)據(jù)集,是相當(dāng)有挑戰(zhàn)的。Alex在2012年的AlexNet中,把所有Tanh/Logistic全換成了ReLu(卷積+隱層,Softmax要取概率)ReLu為網(wǎng)絡(luò)引入了大量的稀疏性,加速了復(fù)雜特征解離。非飽和的寬廣映射空間,加速了特征學(xué)習(xí)。
2.2 模型結(jié)構(gòu)
tensorboard顯示如下:
輸入層→卷積層→池化層→規(guī)范化層→卷積層→規(guī)范化層→池化層→全連接層→全連接層→softmax輸出層(如圖1)。
3 模型訓(xùn)練
3.1 模型訓(xùn)練的實(shí)質(zhì)
訓(xùn)練就是一個(gè)“特征學(xué)習(xí)”“參數(shù)尋優(yōu)”的過程,最常見的優(yōu)化算法是mini-batch的隨機(jī)梯度下降法(mini-batch是相對于online learning而言的),尋找使得損失函數(shù)值最小的模型參數(shù)。為了防止過擬合,這里的損失函數(shù)包含了正則化項(xiàng)。我們將Cifar-10最后輸出由10變?yōu)?。
利用各高速路,城市道路的視頻中采集樣本,在訓(xùn)練前將數(shù)據(jù)庫的交通圖片加上了0(暢通)與1(擁堵)的標(biāo)簽。分別各25000張,如圖2與圖3所示。
3.2 圖片的預(yù)處理
(1)統(tǒng)一裁剪到32*32像素大小,裁剪中央?yún)^(qū)域用于評估或隨機(jī)裁剪用于訓(xùn)練;(2)對圖像進(jìn)行翻轉(zhuǎn);(3)變換圖像的亮度;(4)變換圖像的對比度;(5)圖片會(huì)進(jìn)行近似的白化處理。endprint
其中,白化(whitening)處理或者叫標(biāo)準(zhǔn)化(standardization)處理,是對圖片數(shù)據(jù)減去均值,除以方差,保證數(shù)據(jù)零均值,方差為1,如此降低輸入圖像的冗余性,盡量去除輸入特征間的相關(guān)性。
3.3 簡述CNN特征提取原理
對圖像(不同的數(shù)據(jù)窗口數(shù)據(jù))和濾波矩陣(一組固定的權(quán)重:因?yàn)槊總€(gè)神經(jīng)元的權(quán)重固定,所以又可以看做一個(gè)恒定的濾波器filter)做內(nèi)積(逐個(gè)元素相乘再求和)的操作就是所謂的“卷積”操作,也是卷積神經(jīng)網(wǎng)絡(luò)的名字來源。
比如圖4中,圖中左邊部分是原始輸入數(shù)據(jù),圖中中間部分是濾波器filter,圖中右邊是輸出的新的二維數(shù)據(jù)。
中間濾波器filter與數(shù)據(jù)窗口做內(nèi)積,其具體計(jì)算過程則是:4*0+0*0+0*0+0*0+0*1+0*1+0*0+0*1+-4*2=-8
訓(xùn)練完成的模型會(huì)以model和enents的類型保存在logs的指定文件夾。
除了卷積部分該模型還用到了tf函數(shù)庫中的sess,ratio,training,resize,labels等函數(shù)。
3.4 模型性能評估部分
機(jī)器學(xué)習(xí)模型訓(xùn)練好之后,要在測試數(shù)據(jù)集上進(jìn)行測試,從而判斷模型的性能,常見的性能指標(biāo)有準(zhǔn)確率、損失率等。順便提及一下,有的機(jī)器學(xué)習(xí)模型在訓(xùn)練時(shí),會(huì)把數(shù)據(jù)集分成三部分,訓(xùn)練集(training dataset),正則集(validation dataset)和測試集(test dataset),正則集的作用也是為了防止過擬合,但我們這里通過對模型參數(shù)正則化來防止過擬合,因此就不用像這樣劃分?jǐn)?shù)據(jù)集了。用5000張測試樣本約為96%。
4 結(jié)束語
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是當(dāng)前圖像識(shí)別領(lǐng)域的研究熱點(diǎn),利用預(yù)訓(xùn)練的CNN網(wǎng)絡(luò)提取的圖像特征展示出了較強(qiáng)的圖像識(shí)別能力。該模型使用級聯(lián)2*2的卷積核降低參數(shù)數(shù)量防止過擬合。采用跨連卷積層和使用1*1卷積核的方法,融合不同尺度圖像特征。在下一步工作中,將進(jìn)一步選取其他模型和改變現(xiàn)有模型的參數(shù),以進(jìn)一步提高交通擁堵圖像目標(biāo)識(shí)別的準(zhǔn)確率。
參考文獻(xiàn):
[1]Yi Sun, Xiaogang Wang, Xiaoou Tang. Deep Learning Face Representation from Predicting 10,000 Classes. The IEEE Conference on Computer Vision and PatternRecognition(CVPR),2014,pp.1891-1898.
[2]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[3]曲景影,孫顯,高鑫.基于cnn模型的高分辨率遙感圖像目標(biāo)識(shí)別[J].國外電子測量技術(shù),2016,8.endprint