張璟
摘要:在真實(shí)路況行駛過程中發(fā)現(xiàn)并準(zhǔn)確識(shí)別周圍的交通標(biāo)志是自動(dòng)駕駛系統(tǒng)和輔助駕駛系統(tǒng)的研究重點(diǎn)。為解決經(jīng)典的VGG網(wǎng)絡(luò)在訓(xùn)練過程中需要消耗大量計(jì)算資源和參數(shù)量巨大的問題,提出了使用深度可分離卷積模塊,用其代替?zhèn)鹘y(tǒng)的卷積層減少了近9倍參數(shù)量且獲得了更多局部感受野,使用平均池化層取代全連接層進(jìn)一步壓縮了參數(shù)量。改進(jìn)的模型在真實(shí)場(chǎng)景下的交通標(biāo)志圖像數(shù)據(jù)集GTSRB的準(zhǔn)確率達(dá)到98.38%。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的模型提高了識(shí)別準(zhǔn)確率的同時(shí)減少模型參數(shù)量,具有實(shí)際意義。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);交通標(biāo)志牌檢測(cè);交通標(biāo)志牌識(shí)別;交通標(biāo)志牌分類;深度可分離卷積
中圖分類號(hào): TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)21-0195-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract:Finding and identifying the traffic signs in the real driving process is the research focus of the automatic driving system and the auxiliary driving system. To address the problem that the classical VGG network needs a lot of computational resources and parameters in the training process, a deep separable convolution module is proposed to replace the traditional convolution layer, which reduces the parameters by about 9 times and obtains multiple local receptive fields. The average pooling layer is used instead of the full connection layer to further reduce the parameters. The accuracy of GTSRB traffic sign image data set in real scene is 98.38%. The experimental results show that the improved model improves the recognition accuracy and reduces the number of model parameters, which is of practical significance.
Key words: convolutional neural network; traffic sign detection; traffic sign recognition; traffic sign classification; Separable convolution layer
1引言
具有指揮與規(guī)范意義的交通標(biāo)志是保證道路交通安全有序的重要部分,交通標(biāo)志牌通常用符號(hào),數(shù)字和文字等簡(jiǎn)短的內(nèi)容傳達(dá)信息。但容易受到自然條件下光線照射,雨水腐蝕及能見度等干擾情況的制約,所以道路標(biāo)志的準(zhǔn)確識(shí)別依然需要探索與研究。
交通標(biāo)志牌的顏色與形狀比較固定,主要是紅色、黃色和藍(lán)色等主要顏色與長(zhǎng)方形、三角形、圓形等輪廓形狀組成[1],所以傳統(tǒng)的識(shí)別方法主要通過顏色和形狀這兩種顯著的特征,但這些手工設(shè)計(jì)的特征提取方法在真實(shí)場(chǎng)景中各種因素影響下表現(xiàn)欠佳。
卷積神經(jīng)網(wǎng)絡(luò)的方法可以設(shè)計(jì)更加深的網(wǎng)絡(luò)并通過非線性模塊的疊加可以提取與組合更加抽象的圖像細(xì)節(jié)特征,在圖像識(shí)別領(lǐng)域十分有效。在2011年的德國(guó)交通標(biāo)志識(shí)別比賽中第一名的選手設(shè)計(jì)的基于的卷積神經(jīng)網(wǎng)絡(luò)的方法取得了99.46%的準(zhǔn)確率超過了最佳人類測(cè)試員99.22%與平均人類表現(xiàn)的98.84%的識(shí)別率[2]。卷積神經(jīng)網(wǎng)絡(luò)通過端到端的訓(xùn)練方式減少了人為因素的影響,通過權(quán)值共享和局部連接方式降低了冗余參數(shù)量并有空間不變形,具有較高的魯棒性。
2卷積神經(jīng)網(wǎng)絡(luò)
在ILSVRC-2012比賽中AlexNet模型取得了最高的準(zhǔn)確率,共包含5層卷積層和3層全連接層,并加入了ReLU激活函數(shù)、Dropout隨機(jī)失活和最大池化層方法解決了卷積神經(jīng)網(wǎng)絡(luò)深度加深導(dǎo)致的梯度彌散和過擬合問題。作為AlexNet的加深版本,VGG[3]依舊使用了5段卷積和3個(gè)全連接層,通過堆疊3*3的小卷積核增加了非線性模塊提取到更多細(xì)節(jié)特征的同時(shí)有效地降低了參數(shù)量。
2.1 VGG模型
VGG16卷積神經(jīng)網(wǎng)絡(luò)層數(shù)達(dá)到了16層,延續(xù)了AlexNet網(wǎng)絡(luò)5段卷積與3層全連接層的經(jīng)典結(jié)構(gòu),其中包含了13個(gè)卷積層和3個(gè)全連接層。如圖1所示,前2段卷積均使用了2個(gè)連續(xù)的局部感受野大小為3x3濾波器,后3段卷積則是3個(gè)線性堆疊的3x3的小卷積核并在卷積層之間加入ReLU激活函數(shù),通過組合小尺寸的濾波器加深了網(wǎng)絡(luò)深度可以提取到更加豐富的細(xì)節(jié)特征同時(shí)降低了參數(shù)量;接下來(lái)是3個(gè)全連接層連接所有的神經(jīng)元,分別是4096,4096通道數(shù)和最后一個(gè)用于圖像特征分類層,并通過SoftMax損失函數(shù)輸出分類結(jié)果。VGG16模型選擇了尺寸為2x2的池化層,相比較于AlexNet中3x3的較大池化層,加深了網(wǎng)絡(luò)中特征圖的寬度,提高了網(wǎng)絡(luò)對(duì)于空間形變的魯棒性但不可避免的增加了計(jì)算量。雖然VGG16識(shí)別率更高,收斂速度更快,但是仍然存在有一些缺點(diǎn)。VGG16的容量為528MB,其中最后3層的全連接層參數(shù)數(shù)量為123642856約占總參數(shù)量的89.36%,這些復(fù)雜的參數(shù)量需要較長(zhǎng)的訓(xùn)練時(shí)間和優(yōu)化方法用于模型的收斂與避免過擬合現(xiàn)象的發(fā)生,所以VGG16依然有改進(jìn)的必要性和可行性。
3基于改進(jìn)VGG16網(wǎng)絡(luò)的識(shí)別模型
改進(jìn)VGG16網(wǎng)絡(luò)的識(shí)別模型用深度可分離卷積層代替了傳統(tǒng)的卷積層,并在卷積層之間添加了歸一化層,使用全局平均池化層代替了全連接層。在傳統(tǒng)VGG16中通過組合卷積層增加網(wǎng)絡(luò)的深度以提高識(shí)別率,但是隨著網(wǎng)絡(luò)深度的加深導(dǎo)致參數(shù)量十分巨大,模型的收斂過程中會(huì)發(fā)生波動(dòng)且時(shí)間漫長(zhǎng),甚至出現(xiàn)了網(wǎng)絡(luò)退化的現(xiàn)象。深度可分離卷積層[4]可以跨越多個(gè)通道組織空間特征信息用于提高網(wǎng)絡(luò)的表達(dá)能力且參數(shù)量?jī)H為傳統(tǒng)卷積層的[19],增加了網(wǎng)絡(luò)深度且充分壓縮了網(wǎng)絡(luò)的參數(shù)量加速模型的收斂速度。由于訓(xùn)練過程中各層輸入的分布因?yàn)榍耙粚訁?shù)分布的改變而變得復(fù)雜,所以只能通過較低的學(xué)習(xí)速率和參數(shù)初始化進(jìn)行實(shí)驗(yàn),從而減慢了模型的訓(xùn)練速度。加入歸一化層(batch normalization)使得中間神經(jīng)元的激活保持均值為0,方差為1的高斯分布,令各層中的輸入數(shù)據(jù)分布變得穩(wěn)定,從而達(dá)到了加速訓(xùn)練的目的。使用全局平均值池化層代替最后的全連接層,降低了參數(shù)量并避免過擬合現(xiàn)象發(fā)生。
深度可分離卷積層中先使用空間卷積依次卷積所有通道特征圖,然后再使用N個(gè)1x1的點(diǎn)卷積分別遍歷不同通道間的信息并進(jìn)行特征融合,通過分開映射卷積層通道間的相關(guān)性和空間相關(guān)性達(dá)到了更好的識(shí)別效果。
假設(shè)使用的空間卷積核的大小為3*3形狀,N為卷積核的個(gè)數(shù),M為輸入通道大小,K為輸入的大小。
那么標(biāo)準(zhǔn)卷積運(yùn)算計(jì)算量為
深度可分離卷積運(yùn)算計(jì)算量為
通過如上公式(2)得出,深度可分離卷積層將傳統(tǒng)卷積層分解為2個(gè)步驟,將計(jì)算量壓縮為傳統(tǒng)卷積參數(shù)量的[19],提高網(wǎng)絡(luò)識(shí)別能力的同時(shí)也增強(qiáng)了對(duì)于抽象特征的有效利用,減少了冗余的參數(shù)量。
本文采用的改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,整個(gè)網(wǎng)絡(luò)深度為38, 使用了3個(gè)普通空間卷積和8個(gè)深度可分離卷積,具體結(jié)構(gòu)如下。
輸入層為32×32像素大小的交通標(biāo)志訓(xùn)練圖片;首先網(wǎng)絡(luò)連續(xù)使用了2個(gè)普通卷積層,每層均為8個(gè)卷積核大小為3×3的小卷積, 步長(zhǎng)為1,并且在卷積之間加入了BN層批歸一化與ReLU修正線性單元,充分活躍了網(wǎng)絡(luò)中的神經(jīng)元并使得訓(xùn)練過程更加平穩(wěn),可以得到28[×28×8]的特征圖輸出。在模型中間部分,連續(xù)使用了4段深度可分離卷積,每段卷積包括2個(gè)深度可分離卷積層和1個(gè)最大化池化層并加入了BN層與ReLU激活函數(shù),通過 2個(gè)連續(xù)的3[×3]的卷積核代替5[×5]的大卷積核,額外增加了一層卷積層與激活層,增強(qiáng)了非線性模塊結(jié)構(gòu)并減小了參數(shù)量。4段卷積分別輸出14[×14×16]、7[×7×32]、4[×4×64]和2[×2×128]的特征圖。最后模型采用全局平均池化層替代了傳統(tǒng)模型使用的全連接層,加入softmax激活函數(shù)進(jìn)行多分類識(shí)別,進(jìn)一步壓縮了參數(shù)量,降低了訓(xùn)練的成本。
4 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證改進(jìn)的VGG16網(wǎng)絡(luò)框架對(duì)交通標(biāo)志的識(shí)別效果,使用德國(guó)交通標(biāo)志數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。操作系統(tǒng)為Ubuntu18.04,運(yùn)行環(huán)境為Python3.6,TensorFlow-Gpu==1.5和keras==2.1.5版本的深度學(xué)習(xí)框架,安裝了GPU計(jì)算加速庫(kù)CUDA 9.0和cuDNN v7,電腦配置為Intel Xeon E5-2637,64 GB 內(nèi)存以及12GB顯存的NVIDIA Tesla K40C。
4.1數(shù)據(jù)集介紹
實(shí)驗(yàn)使用的數(shù)據(jù)集是德國(guó)交通標(biāo)志數(shù)據(jù)庫(kù)GTSRB,將交通標(biāo)志劃被劃分為43類,其中有39209張屬于訓(xùn)練數(shù)據(jù),12630張為測(cè)試圖像。每幅圖像中交通標(biāo)志唯一且大小分布在 15*15像素到222*193 像素之間,但是部分交通標(biāo)志存在圖像模糊、部分遮擋、形變等影響。其中訓(xùn)練集中分別屬于43類的數(shù)據(jù)分布如圖3所示。
4.2 預(yù)處理
交通標(biāo)志數(shù)據(jù)集中的圖片大小界于 15*15到222*193 像素之間不等,所以本文將實(shí)驗(yàn)圖片進(jìn)行尺寸歸一化至32*32的統(tǒng)一大小作為模型的輸入。本文使用水平翻轉(zhuǎn)、水平偏移、豎直偏移、隨機(jī)轉(zhuǎn)動(dòng)等圖像增強(qiáng)方法實(shí)時(shí)擴(kuò)充訓(xùn)練數(shù)據(jù)用于規(guī)定次數(shù)的訓(xùn)練,通過一些細(xì)微的形變與旋轉(zhuǎn)等方式增強(qiáng)模型的魯棒性和泛化能力,有效地避免了過擬合現(xiàn)象的發(fā)生。
本文在訓(xùn)練過程中使用ReLU激活函數(shù)用于加快模型的收斂速度,利用Adam優(yōu)化方法自適應(yīng)調(diào)整參數(shù)學(xué)習(xí)率,避免落入局部最優(yōu)解。
4.3實(shí)驗(yàn)結(jié)果及其分析
通過分別運(yùn)用LeNet5、AlexNet、經(jīng)典VGG16 卷積神經(jīng)網(wǎng)絡(luò)以及改進(jìn)的VGG16 卷積神經(jīng)網(wǎng)絡(luò)對(duì)上述數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試。表1為本文模型與其他模型的實(shí)驗(yàn)結(jié)果對(duì)比, 圖4為改進(jìn)的VGG16模型的訓(xùn)練過程。可以看出改進(jìn)VGG16的參數(shù)量相比于使用3個(gè)全連接層的經(jīng)典VGG16方法,參數(shù)量大大減少且將準(zhǔn)確率提高了3.6%。改進(jìn)的VGG16模型的識(shí)別率98.49%與比賽中平均人類表現(xiàn)的準(zhǔn)確率98.84%幾乎一致。通過實(shí)驗(yàn)證明,使用深度可分離卷積模塊可以在增加網(wǎng)絡(luò)深度的同時(shí)也減少網(wǎng)絡(luò)參數(shù)量。
5 結(jié)論
本文結(jié)合普通的空間卷積與深度可分離卷積改進(jìn)了VGG模型,減少了冗余的參數(shù)量且提高了識(shí)別率,降低了訓(xùn)練的時(shí)間與成本。在德國(guó)交通標(biāo)志數(shù)據(jù)集測(cè)試中,我們的識(shí)別率為98.49%與平均人類表現(xiàn)一致,但是改進(jìn)的模型在大霧天氣下能見度不足下的準(zhǔn)確率仍然存在不足。在未來(lái)的工作,我們將重點(diǎn)研究如何加強(qiáng)交通標(biāo)志在模糊場(chǎng)景下的準(zhǔn)確識(shí)別。
參考文獻(xiàn):
[1] 張鵬. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志牌識(shí)別算法研究[D].吉林大學(xué),2017.
[2] Stallkamp J , Schlipsing M , Salmen J , et al. Man vs. computer: Benchmarking machine learning algorithms for traffic sign recognition[J]. Neural networks: the official journal of the International Neural Network Society, 2012, 32:323-332.
[3] Simonyan K , Zisserman A . Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. ComputerScience,2014.
[4] Chollet, Fran?ois. Xception: Deep Learning with Depthwise Separable Convolutions[J]. 2016.
[5] 劉志. 基于特征融合與深度卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)識(shí)識(shí)別[D].廣東工業(yè)大學(xué),2017.
[6] 宋青松,張超,田正鑫,等.基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,45(08):131-137.
[7] 朱永佳. 基于卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志檢測(cè)與識(shí)別研究[D].上海師范大學(xué),2018.
[8] Zhao J D , Bai Z M , Chen H B . Research on Road Traffic Sign Recognition Based on Video Image[C]// 2017 10th International Conference on Intelligent Computation Technology and Automation (ICICTA). 2017.
[9] 黨倩. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別[D].陜西師范大學(xué),2016.
[10] 田正鑫. 基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法[D].長(zhǎng)安大學(xué),2017.
[11] 王猛. 基于深度學(xué)習(xí)的交通標(biāo)志圖像識(shí)別研究[D].蘭州理工大學(xué),2018.
【通聯(lián)編輯:唐一東】