楊 鵬, 蔡青青, 孫 昊,3, 孫麗紅
(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院 天津 300130; 2.智能康復(fù)裝置與檢測技術(shù)教育部工程研究中心 天津 300130; 3.河北省控制工程技術(shù)研究中心 天津 300130)
場景識別是移動機(jī)器人系統(tǒng)的重要研究內(nèi)容,其作用是移動機(jī)器人系統(tǒng)提供場景的語義上下文和先驗信息,使智能機(jī)器人理解所處場景從而適應(yīng)更加復(fù)雜的環(huán)境.在近年研究中,場景識別方法大多為提取場景特征,按照提取特征的性質(zhì)可以將場景識別方法歸為基于全局特征與基于局部特征兩類.全局特征包括顏色、紋理、形狀等低層特征,局部特征包括尺度不變特征變換(scale-invariant feature transform,SIFT)特征[1]以及梯度方向直方圖(histogram of oriented gradient,HOG)特征[2]等.然而,上述技術(shù)應(yīng)用于室內(nèi)場景識別問題上無法獲得理想的識別結(jié)果.這是因為相較于戶外場景,室內(nèi)環(huán)境具有排列無序、復(fù)雜的特點,缺少顯著的局部或全局視覺特征.與上述傳統(tǒng)手工特征不同,通過卷積神經(jīng)網(wǎng)絡(luò)提取的特征含有更加豐富的結(jié)構(gòu)信息,具備可辨別能力強(qiáng)、旋轉(zhuǎn)不變性等優(yōu)勢,已成為研究圖像分類問題的重要工具.LeCun于1998年設(shè)計了卷積神經(jīng)網(wǎng)絡(luò)LeNet-5,實現(xiàn)了對手寫數(shù)字的識別.在那之后,隨著互聯(lián)網(wǎng)大數(shù)據(jù)的興起,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像理解領(lǐng)域中獲得廣泛應(yīng)用[3-5].
基于以上研究成果,本文摒棄了傳統(tǒng)人工提取場景特征的方法,選擇了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),應(yīng)用目前識別精度較高的GoogLeNet模型來完成室內(nèi)場景的識別任務(wù),以證明卷積神經(jīng)網(wǎng)絡(luò)在室內(nèi)場景識別問題上的有效性.
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN) 是帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)的卷積結(jié)構(gòu)減小參數(shù)個數(shù),簡化計算過程,并采用dropout[6-7]等方式緩解過擬合問題,優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提高識別的準(zhǔn)確率.
卷積神經(jīng)網(wǎng)絡(luò)是一個多層結(jié)構(gòu)的網(wǎng)絡(luò),如圖1所示,卷積神經(jīng)網(wǎng)絡(luò)由卷積層、下采樣層和全連接層構(gòu)成.輸入首先通過濾波器在卷積層進(jìn)行卷積后可獲得一些特征圖,下采樣層經(jīng)過池化處理后,由全連接層輸出.
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of convolutional neural network
1.1.1卷積層 卷積層通過卷積運算使輸入信號增強(qiáng),噪音減?。矸e層的輸入與上層感受野相連來提取特征,同時得到與其他特征間的位置關(guān)系.卷積層輸出的特征計算方法為
(1)
1.1.2下采樣層 下采樣層也被稱為池化層,卷積神經(jīng)網(wǎng)絡(luò)中每一個卷積層后都有一個下采樣層,因為經(jīng)卷積層所得特征數(shù)據(jù)量過大,若直接用于訓(xùn)練會增加網(wǎng)絡(luò)模型復(fù)雜度.因此,可以通過對特征局部進(jìn)行池化來降低特征的維度.同時,池化可以一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)的過擬合問題,經(jīng)過兩次特征提取后可以使網(wǎng)絡(luò)對輸入有較強(qiáng)的畸變?nèi)萑棠芰Γ?/p>
卷積神經(jīng)網(wǎng)絡(luò)通過局部感受野和權(quán)值共享兩種技術(shù)來減少網(wǎng)絡(luò)參數(shù).不同于以往的全連接方式,每個神經(jīng)元僅需與局部圖像相連感知局部信息,并將局部信息結(jié)合從而獲得圖像全局信息.通過局部連接的方式能夠顯著降低網(wǎng)絡(luò)參數(shù)的個數(shù),優(yōu)化網(wǎng)絡(luò)的性能.卷積神經(jīng)網(wǎng)絡(luò)還通過權(quán)值共享的方式來盡可能降低網(wǎng)絡(luò)參數(shù)的數(shù)量,即在卷積神經(jīng)網(wǎng)絡(luò)同一個卷積核內(nèi),將所有神經(jīng)元權(quán)值設(shè)置為相同值,從而降低網(wǎng)絡(luò)的復(fù)雜度,加快訓(xùn)練速度.
通過加深網(wǎng)絡(luò)深度可以提高識別的準(zhǔn)確率,但網(wǎng)絡(luò)規(guī)模的增大也使網(wǎng)絡(luò)結(jié)構(gòu)變得更加復(fù)雜,會大大增加網(wǎng)絡(luò)訓(xùn)練的計算量,還有可能在訓(xùn)練過程中出現(xiàn)過擬合問題.而且,僅僅通過增加網(wǎng)絡(luò)規(guī)模來提高識別準(zhǔn)確率的做法無法提取更加有效的圖像特征. 因此,由Szegedy等[5]設(shè)計的GoogLeNet網(wǎng)絡(luò)模型不僅增加卷積神經(jīng)網(wǎng)絡(luò)的層數(shù),還應(yīng)用Inception模塊得到了更優(yōu)越的網(wǎng)絡(luò)性能.Google團(tuán)隊優(yōu)化了基本的特征提取單元,使用優(yōu)化后的特征提取模塊構(gòu)建網(wǎng)絡(luò).實驗證明了基于該思想設(shè)計的GoogLeNet模型具有良好的識別效果,且參數(shù)也小于AlexNet模型的網(wǎng)絡(luò)參數(shù),是目前性能出色的網(wǎng)絡(luò)模型之一.
GoogLeNet模型是一個具有22層結(jié)構(gòu)的深度卷積神經(jīng)網(wǎng)絡(luò),模型除卷積層、池化層以外,還有Google團(tuán)隊提出的Inception結(jié)構(gòu).Inception結(jié)構(gòu)采用不同尺度的卷積核優(yōu)化網(wǎng)絡(luò)中基本的特征提取單元,用優(yōu)化后的特征提取模塊去構(gòu)建網(wǎng)絡(luò).文獻(xiàn)[9]介紹了一種逐層結(jié)構(gòu),對結(jié)構(gòu)最后一層的單元進(jìn)行相關(guān)性統(tǒng)計,并將具有高相關(guān)性的單元聚集在一起形成簇,用這些簇去構(gòu)成下一層的單元.假定上一層的單元與輸入圖像某一區(qū)域有對應(yīng)關(guān)系,被濾波器分成若干組.低層靠近輸入的相關(guān)單元會在局部區(qū)域聚集,最后可以獲得一個區(qū)域的大量群,可以在下一層通過1×1卷積覆蓋.而且可以利用覆蓋更大的空間來減少單元組的數(shù)量.為了避免塊對齊問題,基于方便性考慮,目前將Inception模塊的濾波器大小限制在1×1、3×3、5×5.此外,由于池化操作對于目前成功的卷積神經(jīng)網(wǎng)絡(luò)是必不可少的,因此額外在每個模塊上添加一個并行的池化結(jié)構(gòu).
基于此,Google團(tuán)隊提出了如圖2所示的模型A.模型A中,卷積核與感受野的尺寸都不一樣,那么后面的組合即代表多尺度數(shù)據(jù)融合.考慮到對齊問題,卷積核尺寸選擇1、3和5.然而,網(wǎng)絡(luò)越到后面,每個特征所涉及的感受野越大.因此,層數(shù)的增加會導(dǎo)致計算量大的問題,必須使用1×1的卷積核降低維度,改進(jìn)后的Inception模型B如圖3所示.總體來說,Inception結(jié)構(gòu)的中心思想就是找出最優(yōu)的局部稀疏結(jié)構(gòu)并將其覆蓋為近似的稠密組件,達(dá)到優(yōu)化網(wǎng)絡(luò)模型的目的.
圖2 模型A[5]Fig.2 Module A
圖3 模型B[5]Fig.3 Module B
評價所用模型的室內(nèi)場景識別效果時要選擇一個合適的數(shù)據(jù)集.深度卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中要求大量的圖片作為輸入數(shù)據(jù),因此實驗所選的數(shù)據(jù)集應(yīng)包含豐富的場景圖片,且之前有研究者做過相應(yīng)研究并取得一定的成果,以便與本文所選方法做對比.基于以上要求,本文選用了在場景識別領(lǐng)域應(yīng)用廣泛的MIT_Indoor數(shù)據(jù)集[10].MIT_Indoor數(shù)據(jù)集是分類多樣的室內(nèi)場景應(yīng)用數(shù)據(jù)集,數(shù)據(jù)集一共含有67種室內(nèi)場景的總共15 620幅圖片,不僅包括日常的生活場景如客廳、廚房、衛(wèi)生間等,還包括發(fā)廊、洗衣店、酒窖等多種室內(nèi)場景.
為了對模型進(jìn)行訓(xùn)練并驗證訓(xùn)練好的網(wǎng)絡(luò)模型性能,首先對數(shù)據(jù)集進(jìn)行標(biāo)記,將67種場景圖像的類別分別用0~66的數(shù)字表示出來.實驗前將MIT_Indoor數(shù)據(jù)集的全部圖像分為訓(xùn)練集和測試集兩部分,其中訓(xùn)練集約占總數(shù)據(jù)集的80%,測試集占20%.
進(jìn)行場景識別前需要構(gòu)建網(wǎng)絡(luò),如今實現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)有了框架,比如Caffe、Torch、MXNet以及TensorFlow等深度學(xué)習(xí)框架,本文實驗中采用的為Caffe[11].Caffe(convolutional architecture for fast feature embedding)是一個清晰而高效的深度學(xué)習(xí)框架,核心語言是C++,支持命令行、Python和MATLAB接口,且可以在GPU上運行.它直接集成了卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)層,提供了大量的示例模型,其中包括LeNet、AlexNet以及本文將要用到的GoogLeNet模型.
Caffe以四維數(shù)組blobs方式存儲和傳遞數(shù)據(jù),利用層之間的計算結(jié)果傳遞每層的輸入和輸出.訓(xùn)練要求輸入的原始圖像尺寸是一致的,因此在Caffe上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)前,要對輸入圖像進(jìn)行預(yù)處理,并改進(jìn)數(shù)據(jù)的質(zhì)量,使學(xué)習(xí)算法獲得更好的效果.為了增加數(shù)據(jù)的多樣性,利用翻轉(zhuǎn)、旋轉(zhuǎn)的數(shù)據(jù)增廣來產(chǎn)生新的圖像,如圖4所示.圖像的尺寸會影響卷積核的選取,如果圖像尺寸過大,會增大運算量,耗費過多時間;如果圖像太小,會導(dǎo)致圖像有效信息的缺失.因此,通常情況下會選擇256×256像素作為圖像的尺寸大?。畬⑺袌D像的短邊縮放到 256 像素,根據(jù)比例調(diào)整圖像尺寸,留下中間224×224像素的部分,并經(jīng)數(shù)據(jù)歸一化操作后作為模型的輸入.
圖4 數(shù)據(jù)增廣Fig.4 Data augmentation
本文選用的GoogLeNet模型在Caffe中有具體的網(wǎng)絡(luò)定義文件,詳細(xì)定義了網(wǎng)絡(luò)結(jié)構(gòu)各層的參數(shù),實驗中未進(jìn)行修改.訓(xùn)練前只修改訓(xùn)練過程和測試過程所需要的參數(shù),比如學(xué)習(xí)率、權(quán)重衰減系數(shù)、迭代次數(shù)、使用CPU還是GPU等.實驗中使用MIT_Indoor室內(nèi)場景數(shù)據(jù)集來進(jìn)行訓(xùn)練和測試,本文對原模型參數(shù)進(jìn)行了如下修改:每100次迭代進(jìn)行一次測試,測試間隔為500次,初始化學(xué)習(xí)率為 0.01.每100次迭代顯示一次信息,最大迭代次數(shù)為1×106次,網(wǎng)絡(luò)訓(xùn)練的動量為0.9,權(quán)重衰退為0.000 2,每5×104次進(jìn)行一次當(dāng)前狀態(tài)的記錄.在GPU模式下進(jìn)行訓(xùn)練.實驗使用的是NVIDIA公司的GeForce GTX TITAN X GPU工作站,運算效率很高,完成一次迭代僅需0.3 s.參數(shù)設(shè)置完成后,即可對網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試,兩天后得到網(wǎng)絡(luò)模型的識別精度為59.7%.
使用Caffe訓(xùn)練GoogLeNet模型并測試得出結(jié)果,與一部分使用傳統(tǒng)人工特征提取的算法及其結(jié)果進(jìn)行比較,這些算法是在歐洲計算機(jī)視覺國際會議 (European conference on computer vision, ECCV)和IEEE國際計算機(jī)視覺與模式識別會議 (IEEE conference on computer vision and pattern recognition, CVPR)上發(fā)表的具有一定的代表性,可以用來與本文做對照,如表1所示.在表1中能夠發(fā)現(xiàn),基于卷積神經(jīng)網(wǎng)絡(luò)的,GoogLeNet網(wǎng)絡(luò)模型所得到的識別結(jié)果高于使用傳統(tǒng)特征提取方法的結(jié)果,這說明了深度卷積神經(jīng)網(wǎng)絡(luò)在室內(nèi)場景識別上的有效性.
表1 基于MIT_Indoor數(shù)據(jù)集的識別結(jié)果對比
本文摒棄了傳統(tǒng)的人工提取場景特征的方法,選擇了可以自主學(xué)習(xí)圖像特征的卷積神經(jīng)網(wǎng)絡(luò),應(yīng)用目前識別精度較高的GoogLeNet模型實現(xiàn)了對室內(nèi)場景的識別,得到了59.7%的正確率,實驗結(jié)果證明了卷積神經(jīng)網(wǎng)絡(luò)在室內(nèi)場景識別問題上的有效性.隨著研究的不斷深入,深度卷積神經(jīng)網(wǎng)絡(luò)在場景識別領(lǐng)域也越來越受到重視,通過深度卷積神經(jīng)網(wǎng)絡(luò)得到的特征能夠有效描述場景的語義信息,準(zhǔn)確地判斷場景與場景和目標(biāo)與目標(biāo)之間的差異性和相似性.由此可見,深度卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力在圖像分類問題的研究上具有強(qiáng)大的優(yōu)勢.在今后的工作中,會繼續(xù)優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò)的性能,從增大訓(xùn)練數(shù)據(jù)的數(shù)量和改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)方面對算法進(jìn)行更深入的研究,從而獲得更加準(zhǔn)確的識別結(jié)果.