齊廣華 何明祥
摘 要:針對(duì)現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)量大、訓(xùn)練時(shí)間長(zhǎng)的問題,提出了一種結(jié)合VGG模型和Inception模塊特點(diǎn)的網(wǎng)絡(luò)模型。該模型通過結(jié)合兩種經(jīng)典模型的特點(diǎn),增加網(wǎng)絡(luò)模型的寬度和深度,使用較小的卷積核和較多的非線性激活,在減少參數(shù)量的同時(shí)增加了網(wǎng)絡(luò)特征提取能力,同時(shí)利用全局平均池化層替代全連接層,避免全連接層參數(shù)過多容易導(dǎo)致的過擬合問題。在MNIST和CIFAR-10數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在MNIST數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了99.76%,在CIFAR-10數(shù)據(jù)集上的準(zhǔn)確率相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型提高了6%左右。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò); Inception模塊; 全局平均池化; 卷積核; 圖像分類
DOI:10. 11907/rjdk. 192501
中圖分類號(hào):TP301 ? 文獻(xiàn)標(biāo)識(shí)碼:A??????????????? 文章編號(hào):1672-7800(2020)003-0079-04
Convolutional Neural Network Image Classification Method Combined
with Inception Module
QI Guang-hua, HE Ming-xiang
(College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China)
Abstract: Aiming at the problem that the existing convolutional neural network model has large parameters and long training time, we propose a network model combining VGG model and inception module. By combining the characteristics of the two classical models, the model increases the width and depth of the network model, uses a smaller convolution kernel and more nonlinear activation, and increases the network feature extraction ability while reducing the parameter quantity. The average pooling layer replaces the fully connected layer, avoiding the over-fitting problem that is easily caused by too many parameters of the full-connected layer. Experimental results on the MNIST and CIFAR-10 datasets show that the accuracy of this method on the MNIST dataset is 99.76%. The accuracy on the CIFAR-10 dataset is about 6% higher than the traditional convolutional neural network model.
Key Words: convolutional neural network; inception module; global average pooling; convolution kernel; image classification
0 引言
智能化信息時(shí)代的到來,使得人工智能與機(jī)器學(xué)習(xí)技術(shù)得到了飛速發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)[1](Convolution Neural Network,CNN)作為深度學(xué)習(xí)最常用的模型之一,由于具有良好的特征提取能力和泛化能力,在圖像處理、目標(biāo)跟蹤與檢測(cè)、自然語言處理、場(chǎng)景分類、人臉識(shí)別、音頻檢索、醫(yī)療診斷等諸多領(lǐng)域獲得了巨大成功。
隨著如LeNet-5[2],AlexNet,VGGNet[3]等一系列經(jīng)典CNN模型的提出,模型的深度和復(fù)雜度也隨之增加,網(wǎng)絡(luò)模型的參數(shù)也變得龐大,模型運(yùn)行也消耗了更多時(shí)間。文獻(xiàn)[4]討論了在特定復(fù)雜度和時(shí)間中,CNN模型的深度、特征數(shù)、卷積核等因素平衡問題。通過增加卷積層數(shù)量增加網(wǎng)絡(luò)深度,使得模型在分類任務(wù)上更有優(yōu)勢(shì);文獻(xiàn)[5]、文獻(xiàn)[6]的研究表明,CNN模型中從卷積層到全連接層存在大量冗余參數(shù),并且全連接層的參數(shù)量約占90%。剔除不重要的參數(shù)節(jié)點(diǎn)以及卷積核,可以達(dá)到精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)的目的,減少參數(shù)進(jìn)而有效緩解過擬合現(xiàn)象[7]的發(fā)生,同時(shí)減少網(wǎng)絡(luò)訓(xùn)練時(shí)間,提升網(wǎng)絡(luò)模型的健壯性;文獻(xiàn)[8]提出了Inception模塊,利用3種類型的卷積操作(1×1,3×3,5×5),增加了CNN深度,同時(shí)減少了參數(shù),提升了計(jì)算資源利用率。
基于以上背景,本文提出結(jié)合Inception模塊的卷積神經(jīng)網(wǎng)絡(luò)圖像分類方法,利用若干個(gè)較小的卷積核替代一個(gè)較大的卷積核,通過增加卷積層獲取深層次信息,同時(shí)讓幾種類型的卷積核并聯(lián)提取圖像特征,增加了網(wǎng)絡(luò)深度、寬度并減少了參數(shù),同時(shí)提升了算法效率。本文利用全局平均池化層(Global Average Pooling[9])替換全連接層以防止過擬合,采用批歸一化[10](Batch Normalization,BN)操作加速收斂過程,增強(qiáng)模型學(xué)習(xí)能力。
1 卷積神經(jīng)網(wǎng)絡(luò)模型
1.1 VGG-Net
VGG-Net在 ILSVRC-2014中的優(yōu)秀表現(xiàn),證明增加網(wǎng)絡(luò)深度可以影響網(wǎng)絡(luò)模型最終性能。VGG-Net的一個(gè)改進(jìn)是利用幾個(gè)連續(xù)的小卷積核替代AlexNet中的較大卷積核。在給定的相同感受野[11]下,由于小卷積核的代價(jià)較小,卷積核的堆疊也增加了非線性激活次數(shù),以進(jìn)行更深層的特征學(xué)習(xí),因此利用連續(xù)的小卷積核[12]是更優(yōu)選擇。例如在VGG中使用3個(gè)3×3卷積核代替1個(gè)7×7卷積核,7×7的參數(shù)為49個(gè),3個(gè)3×3的參數(shù)是27個(gè)。這樣保證在具有相同感受野的條件下,提升網(wǎng)絡(luò)深度,同時(shí)使用3次非線性函數(shù)而不是1次,這樣增加了函數(shù)判別能力,減少了參數(shù)數(shù)量,在一定程度上提升了神經(jīng)網(wǎng)絡(luò)效果。
1.2 Inception模塊
VGG-Net的泛化性能非常好,常用于圖像特征抽取和目標(biāo)檢測(cè)候選框生成等。VGG的最大問題就在于參數(shù)數(shù)量,簡(jiǎn)單地堆疊較大卷積層非常消耗計(jì)算資源,VGG-19 基本上是參數(shù)量最多的卷積網(wǎng)絡(luò)架構(gòu)。由于信息位置的巨大差異,為卷積操作選擇合適的卷積核大小較為困難。信息分布全局性好的圖像偏好較大的卷積核,信息分布比較局部的圖像偏好較小的卷積核。非常深的網(wǎng)絡(luò)更容易過擬合,將梯度更新傳輸?shù)秸麄€(gè)網(wǎng)絡(luò)很困難。為了使網(wǎng)絡(luò)變寬,而不是更深,Inception模塊由此而生。它沒有像 VGG-Net 那樣大量使用全連接網(wǎng)絡(luò),因此參數(shù)量非常小。
GoogLeNet最大的特點(diǎn)是使用了Inception模塊,如圖1所示,利用 1×1、3×3 或 5×5 等不同的卷積運(yùn)算與池化操作獲得輸入圖像的不同信息,并行處理這些運(yùn)算并結(jié)合所有結(jié)果將獲得更好的圖像特征。同時(shí),為了降低計(jì)算成本,在3×3和5×5卷積層之前添加相較于3×3和5×5卷積廉價(jià)很多的 1×1 卷積層,以限制輸入信道數(shù)量。
2 卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)方法
2.1 模型寬度與深度
使用VGG16模型的前三層卷積,即3×3卷積核和2×2池化層的組合,卷積層使用大小相同的卷積核對(duì)圖像進(jìn)行特征提取,緊跟的池化層將處理過的圖像進(jìn)行高度和寬度壓縮,達(dá)到縮小圖像的目的。通過增加卷積池化層不斷加深網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)而增強(qiáng)圖像特征提取能力。
利用Inception模塊,設(shè)計(jì)一種具有優(yōu)良局部拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò),即對(duì)輸入圖像并行地執(zhí)行多個(gè)卷積運(yùn)算或池化操作,并將所有輸出結(jié)果拼接為一個(gè)非常深的特征圖。由于1×1、3×3 或 5×5 等不同的卷積運(yùn)算與池化操作可以獲得輸入圖像的不同信息,并行處理這些運(yùn)算并結(jié)合所有結(jié)果以獲得更好的圖像表征。在同一層級(jí)上運(yùn)行該具備多個(gè)尺寸的濾波器,增加了網(wǎng)絡(luò)寬度。
2.2 GAP
在卷積神經(jīng)網(wǎng)絡(luò)初期,通過卷積池化層后總是需要接一個(gè)或幾個(gè)全連接層,最后輸入到Softmax層進(jìn)行分類。其特征是全連接層的參數(shù)非常多,使模型本身變得非常臃腫。Lin等[8]提出使用GAP替代全連接層的思路,該方法取代了擁有大量參數(shù)的全連接層,直接實(shí)現(xiàn)了參數(shù)降維。GAP在結(jié)構(gòu)上對(duì)整個(gè)網(wǎng)絡(luò)作正則化進(jìn)而防止過擬合,允許輸入任意大小的圖像,重新整合空間特征信息,進(jìn)而使算法擁有更強(qiáng)的魯棒性。
2.3 自適應(yīng)學(xué)習(xí)率
在機(jī)器學(xué)習(xí)中,為了得到最優(yōu)權(quán)值,需要構(gòu)建利用代價(jià)損失函數(shù),并選用合適的優(yōu)化算法得到最小函數(shù)損失值。本文選用隨機(jī)梯度下降算法[13](Stochastic Gradient Descent,SGD)和Adam學(xué)習(xí)率自適應(yīng)算法[14]相結(jié)合的方式更新學(xué)習(xí)速率。
SGD算法在計(jì)算下降最快的方向時(shí),每次只隨機(jī)選擇一個(gè)樣本更新模型參數(shù),而不是掃描全部樣本集。因此加快了迭代速度,計(jì)算量也有所降低,并且可以進(jìn)行在線更新。SGD相關(guān)公式如下:
式中,θ代表參數(shù)權(quán)值,▽?duì)?代表梯度,J(θ)代表損失函數(shù),α表示學(xué)習(xí)率。如果學(xué)習(xí)率過小,算法需要經(jīng)過較多的迭代次數(shù)才能找到最優(yōu)解,收斂速度會(huì)大幅度下降,更有可能陷入局部最優(yōu)解。如果學(xué)習(xí)率過大,雖然會(huì)加快訓(xùn)練速度,但也加大了跳過最優(yōu)解的幾率,可能出現(xiàn)在最優(yōu)解兩側(cè)來回跳躍的情況反而找不到最優(yōu)解。由此可以看出,學(xué)習(xí)率是決定梯度下降算法是否有效的關(guān)鍵因素。
SGD能夠收斂于最優(yōu)解,但是相對(duì)而言它可能花費(fèi)的時(shí)間更長(zhǎng),并且容易陷入局部極小值點(diǎn),甚至鞍點(diǎn)。為了使學(xué)習(xí)率更好地適應(yīng)SGD,本文選擇Adam算法作為自適應(yīng)學(xué)習(xí)速率SGD優(yōu)化算法。該算法利用梯度的一階矩陣和二階矩陣動(dòng)態(tài)調(diào)整參數(shù)學(xué)習(xí)率、校正后的學(xué)習(xí)率,使每一次迭代都有一個(gè)確定范圍,并且使參數(shù)更新比較平穩(wěn)。θ 參數(shù)更新如式(2)所示。
式中,[v]和[m]分別是對(duì)代價(jià)函數(shù)求梯度的一階矩陣及二階矩陣。
2.4 改進(jìn)模型
改進(jìn)后的網(wǎng)絡(luò)模型如圖2所示。設(shè)F0(X)=X+η為第一層輸入,F(xiàn)i(X)為第i層輸出,*為卷積操作,Wi和bi 分別表示卷積層的權(quán)重與偏置。
第一層使用Inception模塊,使用包括1×1、3×3、2個(gè)3×3共3種不同尺度大小的卷積核增加網(wǎng)絡(luò)寬度,提取更多特征,此外還執(zhí)行最大池化,所有子層的輸出最后會(huì)被級(jí)聯(lián)起來,并傳送至下一個(gè)模塊。針對(duì)數(shù)據(jù)集較小的情況,決定將層數(shù)降為32層,每種尺度大小的卷積核個(gè)數(shù)為8個(gè)。其中,W11=3×3×8,W12=3×3×8,W13=1×1×8,W14=1×1×8。
第二層使用VGG網(wǎng)絡(luò)的3個(gè)卷積池化層,利用Conv+BN+ReLU+maxpool組合,64、128和256個(gè)3×3卷積核的卷積層以及2×2池化層,不斷縮小圖像高度和寬度,提高了網(wǎng)絡(luò)深度,學(xué)習(xí)了更深層的更多特征。使用ReLU[15]激活函數(shù),避免梯度消失;增加BN操作進(jìn)行歸一化,加快網(wǎng)絡(luò)訓(xùn)練。各層輸出表示為:
第三層使用全局平均池化層替代全連接層,有效減少了參數(shù)數(shù)量,可以很好地減輕過擬合發(fā)生。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)平臺(tái)與數(shù)據(jù)
實(shí)驗(yàn)選取的數(shù)據(jù)集為手寫數(shù)字識(shí)別數(shù)據(jù)集MNIST和一般物體圖像數(shù)據(jù)集CIFAR-10。本文實(shí)驗(yàn)主要在Intel(R)Core(TM)i5-6300HQ CPU2.30 GHz+Nvidia GeForce GTX960M GPU+8G內(nèi)存配置的服務(wù)器上進(jìn)行,另外采用基于Python語言的TensorFlow4.2深度學(xué)習(xí)框架對(duì)不同數(shù)據(jù)庫進(jìn)行訓(xùn)練與測(cè)試。
3.2 實(shí)驗(yàn)結(jié)果對(duì)比
3.2.1 MNIST數(shù)據(jù)集實(shí)驗(yàn)分析
MNIST數(shù)據(jù)集包含訓(xùn)練樣本60 000個(gè),測(cè)試樣本??? 10 000個(gè)的手寫數(shù)字圖像,其中每張圖像大小為28×28。設(shè)置epoch為100,batch 為200,每個(gè)epoch需要訓(xùn)練100次,總迭代訓(xùn)練次數(shù)為10 000次。卷積層步長(zhǎng)設(shè)置為1,池化層步長(zhǎng)設(shè)置為2,用反向傳播算法調(diào)整網(wǎng)絡(luò)權(quán)值,用交叉熵函數(shù)衡量訓(xùn)練損失,利用自適應(yīng)學(xué)習(xí)率對(duì)訓(xùn)練集樣本進(jìn)行學(xué)習(xí)提取,采用Adam優(yōu)化算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練結(jié)果如表1所示。經(jīng)過 100 次迭代準(zhǔn)確率已達(dá)到 99.64%,參數(shù)總數(shù)相比也有大幅度減少。
為了進(jìn)一步驗(yàn)證模型有效性,與近幾年手寫字符識(shí)別方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。文獻(xiàn)[16]通過減少全連接層參數(shù),識(shí)別準(zhǔn)確率為99.29%;文獻(xiàn)[17]通過融合卷積神經(jīng)網(wǎng)絡(luò)使準(zhǔn)確率達(dá)到99.10%;文獻(xiàn)[18]通過PCA和K-臨近算法使識(shí)別準(zhǔn)確率達(dá)到99.40%;文獻(xiàn)[19]在隱藏層設(shè)置SVM輔助分類器提高學(xué)習(xí)效率,使識(shí)別準(zhǔn)確率達(dá)到99.61%;文獻(xiàn)[20]通過改進(jìn)的LeNet-5模型準(zhǔn)確率達(dá)到99.36%。如表2所示,本文方法識(shí)別準(zhǔn)確率高于其它文獻(xiàn)方法,降低了手寫數(shù)字識(shí)別錯(cuò)誤率。
3.2.2 CIFAR-10數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
網(wǎng)絡(luò)模型泛化能力越強(qiáng),表明模型普適性越強(qiáng),對(duì)未知數(shù)據(jù)集的處理能力就越強(qiáng);否則,模型泛化能力越差。為了進(jìn)一步驗(yàn)證模型有效性,模型繼續(xù)在CIFAR-10數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。CIFAR-10數(shù)據(jù)集由50 000個(gè)訓(xùn)練圖像和10 000個(gè)測(cè)試圖像組成,共10個(gè)類,每個(gè)類有6 000個(gè)彩色圖像,每張彩色圖像大小為32×32。
用本文提出的模型在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與傳統(tǒng)CNN模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
表3列出了本文改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)集上的測(cè)試結(jié)果,通過圖4改進(jìn)模型與傳統(tǒng)CNN模型的損失值對(duì)比,可以直觀地看出本文模型在圖像分類識(shí)別上的優(yōu)勢(shì),從側(cè)面展示了改進(jìn)模型在不同圖像識(shí)別環(huán)境中具有一定適應(yīng)能力。
4 結(jié)語
本文根據(jù)VGGNet和Inception模塊,提出了一種卷積神經(jīng)網(wǎng)絡(luò)模型,通過加大網(wǎng)絡(luò)寬度和深度增強(qiáng)特征提取能力,通過對(duì)每層輸入進(jìn)行Batch Normalization,用Relu激活函數(shù)、SGD自適應(yīng)學(xué)習(xí)率算法和Adam優(yōu)化算法加快學(xué)習(xí)速度,卷積核疊加和全局平均池化層減少了參數(shù)數(shù)量,最后輸入到Softmax層中進(jìn)行分類。本文在MNIST數(shù)據(jù)集和CIFAR-10數(shù)據(jù)集上與一些傳統(tǒng)CNN模型進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明,本文網(wǎng)絡(luò)模型在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率相對(duì)更高,擁有更好的魯棒性和泛化能力。同時(shí),由于實(shí)驗(yàn)中所使用的數(shù)據(jù)集較小,訓(xùn)練樣本數(shù)量和種類限制對(duì)實(shí)驗(yàn)結(jié)果有一定影響。因此下一步工作中,將擴(kuò)大數(shù)據(jù)集以驗(yàn)證本模型在圖像分類中的有效性。
參考文獻(xiàn):
[1]LECUN Y, BOSER B E, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C]. Advances in neural information processing systems, 1990:396-404.
[2]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. International Conference on Learning Representations, 2015.
[4]HE K M, SUN J. Convolutional neural networks at constrained time cost[C]. Proceedings of Computer Vision and Pattern Recognition, 2015:5353-5360.
[5]HU H, PENG R,TAI Y W, et al. Network trimming: a data-driven neuron pruning approach towards efficient deep architectures[DB/OL]. https://arxiv.org/abs/1607.03250.
[6]JIN Y, KUWASHIMA S, KURITA T, Fast and accurate image super resolution by deep CNN with skip connection and network in network[C]. International Conference on Neural Information Processing, 2017:217-225.
[7]GONG Y, LIU L, YANG M, et al. Compressing deep convolutional networks using vector quantization[DB/OL]. https://arxiv.org/abs/1607.03250.
[8]SZEGEDY C,LIU W,JIA Y Q,et al. Going deeper with convolutions[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
[9]LIN M, CHEN Q, YAN S. Network in network[DB/OL]. https://arxiv.org/abs/1607.03250.
[10]YU N, JIAO P, ZHENG Y. Handwritten digits recognition base on improved LeNet5[C]. The 27th Chinese Control and Decision Conference, 2015:4871-4875.
[11]SPRINGENBERG T,DOSOVITSKIY A,BROX T, et al. Striving for simplicity: the all convolutional net[C]. Proceedings of International Conference on Learning Represenation Workshop Track,2015.
[12]SZEGEDY C,VANHOUCKE V,IOFFE S,et al. Rethinking the inception architecture for computer vision[C]. Proceeding of IEEE Conference on Computer Vision and Pattern Recognition,2016:2818-2826.
[13]王功鵬,段萌,牛常勇. 基于卷積神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度下降算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2018,39(2):441-445,462.
[14]張爍,張榮. 基于卷積神經(jīng)網(wǎng)絡(luò)模型的手寫數(shù)字辨識(shí)算法研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2019,36(8):172-176,261.
[15]OSHEA K, NASH R. An introduction to convolutional neural networks[DB/OL]. https://arxiv.org/abs/1607.03250,2015.
[16]YANG Z,MOCZULSKI M,DENIL M, et al. Deep fried convnets[C].? Proceedings of the IEEE International Conference on Computer Vision,2015:1476-1483.
[17]陳玄,朱榮,王中元. 基于融合卷積神經(jīng)網(wǎng)絡(luò)模型的手寫數(shù)字識(shí)別[J]. 計(jì)算機(jī)工程, 2017(11):187-192.
[18]顧潘龍,史麗紅. 基于PCA及k-鄰近算法的復(fù)雜環(huán)境數(shù)字手寫體識(shí)別[J]. 電子技術(shù),2018, 47(10):44-48.
[19]LEE C Y, XIE S, GALLAGHER P, et al. Deeply-supervised nets[C].? Artificial Intelligence and Statistics, 2015:562-570.
[20]王秀席,王茂寧,張建偉,等. 基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車型識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(7): 301-304.
(責(zé)任編輯:孫 娟)
收稿日期:2019-11-14
作者簡(jiǎn)介:齊廣華(1993-),男,山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院碩士研究生,研究方向?yàn)橹悄苄畔⑻幚砑夹g(shù);何明祥(1969-),男,山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副教授,研究方向?yàn)閿?shù)據(jù)庫系統(tǒng)、信息處理、人工智能、數(shù)字礦山。本文通訊作者:齊廣華。