基于卷積神經(jīng)網(wǎng)絡(luò)的室內(nèi)場景識別

2018-08-22 01:27蔡青青孫麗紅

鄭州大學(xué)學(xué)報（理學(xué)版） 2018年3期

楊鵬，蔡青青，孫昊,3，孫麗紅

(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院天津 300130； 2.智能康復(fù)裝置與檢測技術(shù)教育部工程研究中心天津 300130； 3.河北省控制工程技術(shù)研究中心天津 300130)

0 引言

場景識別是移動機(jī)器人系統(tǒng)的重要研究內(nèi)容，其作用是移動機(jī)器人系統(tǒng)提供場景的語義上下文和先驗信息，使智能機(jī)器人理解所處場景從而適應(yīng)更加復(fù)雜的環(huán)境．在近年研究中，場景識別方法大多為提取場景特征，按照提取特征的性質(zhì)可以將場景識別方法歸為基于全局特征與基于局部特征兩類．全局特征包括顏色、紋理、形狀等低層特征，局部特征包括尺度不變特征變換(scale-invariant feature transform，SIFT)特征[1]以及梯度方向直方圖(histogram of oriented gradient，HOG)特征[2]等．然而，上述技術(shù)應(yīng)用于室內(nèi)場景識別問題上無法獲得理想的識別結(jié)果．這是因為相較于戶外場景，室內(nèi)環(huán)境具有排列無序、復(fù)雜的特點，缺少顯著的局部或全局視覺特征．與上述傳統(tǒng)手工特征不同，通過卷積神經(jīng)網(wǎng)絡(luò)提取的特征含有更加豐富的結(jié)構(gòu)信息，具備可辨別能力強(qiáng)、旋轉(zhuǎn)不變性等優(yōu)勢，已成為研究圖像分類問題的重要工具．LeCun于1998年設(shè)計了卷積神經(jīng)網(wǎng)絡(luò)LeNet-5，實現(xiàn)了對手寫數(shù)字的識別．在那之后，隨著互聯(lián)網(wǎng)大數(shù)據(jù)的興起，卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像理解領(lǐng)域中獲得廣泛應(yīng)用[3-5]．

基于以上研究成果，本文摒棄了傳統(tǒng)人工提取場景特征的方法，選擇了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，應(yīng)用目前識別精度較高的GoogLeNet模型來完成室內(nèi)場景的識別任務(wù)，以證明卷積神經(jīng)網(wǎng)絡(luò)在室內(nèi)場景識別問題上的有效性．

1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN) 是帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)，通過網(wǎng)絡(luò)的卷積結(jié)構(gòu)減小參數(shù)個數(shù)，簡化計算過程，并采用dropout[6-7]等方式緩解過擬合問題，優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，提高識別的準(zhǔn)確率．

1.1 卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)是一個多層結(jié)構(gòu)的網(wǎng)絡(luò)，如圖1所示，卷積神經(jīng)網(wǎng)絡(luò)由卷積層、下采樣層和全連接層構(gòu)成．輸入首先通過濾波器在卷積層進(jìn)行卷積后可獲得一些特征圖，下采樣層經(jīng)過池化處理后，由全連接層輸出．

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of convolutional neural network

1.1.1卷積層卷積層通過卷積運算使輸入信號增強(qiáng)，噪音減?。矸e層的輸入與上層感受野相連來提取特征，同時得到與其他特征間的位置關(guān)系．卷積層輸出的特征計算方法為

(1)

1.1.2下采樣層下采樣層也被稱為池化層，卷積神經(jīng)網(wǎng)絡(luò)中每一個卷積層后都有一個下采樣層，因為經(jīng)卷積層所得特征數(shù)據(jù)量過大，若直接用于訓(xùn)練會增加網(wǎng)絡(luò)模型復(fù)雜度．因此，可以通過對特征局部進(jìn)行池化來降低特征的維度．同時，池化可以一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)的過擬合問題，經(jīng)過兩次特征提取后可以使網(wǎng)絡(luò)對輸入有較強(qiáng)的畸變?nèi)萑棠芰Γ?/p>

1.2 局部感知與權(quán)值共享

卷積神經(jīng)網(wǎng)絡(luò)通過局部感受野和權(quán)值共享兩種技術(shù)來減少網(wǎng)絡(luò)參數(shù)．不同于以往的全連接方式，每個神經(jīng)元僅需與局部圖像相連感知局部信息，并將局部信息結(jié)合從而獲得圖像全局信息．通過局部連接的方式能夠顯著降低網(wǎng)絡(luò)參數(shù)的個數(shù)，優(yōu)化網(wǎng)絡(luò)的性能．卷積神經(jīng)網(wǎng)絡(luò)還通過權(quán)值共享的方式來盡可能降低網(wǎng)絡(luò)參數(shù)的數(shù)量，即在卷積神經(jīng)網(wǎng)絡(luò)同一個卷積核內(nèi)，將所有神經(jīng)元權(quán)值設(shè)置為相同值，從而降低網(wǎng)絡(luò)的復(fù)雜度，加快訓(xùn)練速度．

2 GoogLeNet模型

通過加深網(wǎng)絡(luò)深度可以提高識別的準(zhǔn)確率，但網(wǎng)絡(luò)規(guī)模的增大也使網(wǎng)絡(luò)結(jié)構(gòu)變得更加復(fù)雜，會大大增加網(wǎng)絡(luò)訓(xùn)練的計算量，還有可能在訓(xùn)練過程中出現(xiàn)過擬合問題．而且，僅僅通過增加網(wǎng)絡(luò)規(guī)模來提高識別準(zhǔn)確率的做法無法提取更加有效的圖像特征. 因此，由Szegedy等[5]設(shè)計的GoogLeNet網(wǎng)絡(luò)模型不僅增加卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)，還應(yīng)用Inception模塊得到了更優(yōu)越的網(wǎng)絡(luò)性能．Google團(tuán)隊優(yōu)化了基本的特征提取單元，使用優(yōu)化后的特征提取模塊構(gòu)建網(wǎng)絡(luò)．實驗證明了基于該思想設(shè)計的GoogLeNet模型具有良好的識別效果，且參數(shù)也小于AlexNet模型的網(wǎng)絡(luò)參數(shù)，是目前性能出色的網(wǎng)絡(luò)模型之一．

GoogLeNet模型是一個具有22層結(jié)構(gòu)的深度卷積神經(jīng)網(wǎng)絡(luò)，模型除卷積層、池化層以外，還有Google團(tuán)隊提出的Inception結(jié)構(gòu)．Inception結(jié)構(gòu)采用不同尺度的卷積核優(yōu)化網(wǎng)絡(luò)中基本的特征提取單元，用優(yōu)化后的特征提取模塊去構(gòu)建網(wǎng)絡(luò)．文獻(xiàn)[9]介紹了一種逐層結(jié)構(gòu)，對結(jié)構(gòu)最后一層的單元進(jìn)行相關(guān)性統(tǒng)計，并將具有高相關(guān)性的單元聚集在一起形成簇，用這些簇去構(gòu)成下一層的單元．假定上一層的單元與輸入圖像某一區(qū)域有對應(yīng)關(guān)系，被濾波器分成若干組．低層靠近輸入的相關(guān)單元會在局部區(qū)域聚集，最后可以獲得一個區(qū)域的大量群，可以在下一層通過1×1卷積覆蓋．而且可以利用覆蓋更大的空間來減少單元組的數(shù)量．為了避免塊對齊問題，基于方便性考慮，目前將Inception模塊的濾波器大小限制在1×1、3×3、5×5．此外，由于池化操作對于目前成功的卷積神經(jīng)網(wǎng)絡(luò)是必不可少的，因此額外在每個模塊上添加一個并行的池化結(jié)構(gòu)．

基于此，Google團(tuán)隊提出了如圖2所示的模型A．模型A中，卷積核與感受野的尺寸都不一樣，那么后面的組合即代表多尺度數(shù)據(jù)融合．考慮到對齊問題，卷積核尺寸選擇1、3和5．然而，網(wǎng)絡(luò)越到后面，每個特征所涉及的感受野越大．因此，層數(shù)的增加會導(dǎo)致計算量大的問題，必須使用1×1的卷積核降低維度，改進(jìn)后的Inception模型B如圖3所示．總體來說，Inception結(jié)構(gòu)的中心思想就是找出最優(yōu)的局部稀疏結(jié)構(gòu)并將其覆蓋為近似的稠密組件，達(dá)到優(yōu)化網(wǎng)絡(luò)模型的目的．

圖2 模型A[5]Fig.2 Module A

圖3 模型B[5]Fig.3 Module B

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

評價所用模型的室內(nèi)場景識別效果時要選擇一個合適的數(shù)據(jù)集．深度卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中要求大量的圖片作為輸入數(shù)據(jù)，因此實驗所選的數(shù)據(jù)集應(yīng)包含豐富的場景圖片，且之前有研究者做過相應(yīng)研究并取得一定的成果，以便與本文所選方法做對比．基于以上要求，本文選用了在場景識別領(lǐng)域應(yīng)用廣泛的MIT_Indoor數(shù)據(jù)集[10]．MIT_Indoor數(shù)據(jù)集是分類多樣的室內(nèi)場景應(yīng)用數(shù)據(jù)集，數(shù)據(jù)集一共含有67種室內(nèi)場景的總共15 620幅圖片，不僅包括日常的生活場景如客廳、廚房、衛(wèi)生間等，還包括發(fā)廊、洗衣店、酒窖等多種室內(nèi)場景．

為了對模型進(jìn)行訓(xùn)練并驗證訓(xùn)練好的網(wǎng)絡(luò)模型性能，首先對數(shù)據(jù)集進(jìn)行標(biāo)記，將67種場景圖像的類別分別用0～66的數(shù)字表示出來．實驗前將MIT_Indoor數(shù)據(jù)集的全部圖像分為訓(xùn)練集和測試集兩部分，其中訓(xùn)練集約占總數(shù)據(jù)集的80%，測試集占20%．

3.2 網(wǎng)絡(luò)模型訓(xùn)練

進(jìn)行場景識別前需要構(gòu)建網(wǎng)絡(luò)，如今實現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)有了框架，比如Caffe、Torch、MXNet以及TensorFlow等深度學(xué)習(xí)框架，本文實驗中采用的為Caffe[11]．Caffe(convolutional architecture for fast feature embedding)是一個清晰而高效的深度學(xué)習(xí)框架，核心語言是C++，支持命令行、Python和MATLAB接口，且可以在GPU上運行．它直接集成了卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)層，提供了大量的示例模型，其中包括LeNet、AlexNet以及本文將要用到的GoogLeNet模型．

Caffe以四維數(shù)組blobs方式存儲和傳遞數(shù)據(jù)，利用層之間的計算結(jié)果傳遞每層的輸入和輸出．訓(xùn)練要求輸入的原始圖像尺寸是一致的，因此在Caffe上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)前，要對輸入圖像進(jìn)行預(yù)處理，并改進(jìn)數(shù)據(jù)的質(zhì)量，使學(xué)習(xí)算法獲得更好的效果．為了增加數(shù)據(jù)的多樣性，利用翻轉(zhuǎn)、旋轉(zhuǎn)的數(shù)據(jù)增廣來產(chǎn)生新的圖像，如圖4所示．圖像的尺寸會影響卷積核的選取，如果圖像尺寸過大，會增大運算量，耗費過多時間；如果圖像太小，會導(dǎo)致圖像有效信息的缺失．因此，通常情況下會選擇256×256像素作為圖像的尺寸大?。畬⑺袌D像的短邊縮放到 256 像素，根據(jù)比例調(diào)整圖像尺寸，留下中間224×224像素的部分，并經(jīng)數(shù)據(jù)歸一化操作后作為模型的輸入．

圖4 數(shù)據(jù)增廣Fig.4 Data augmentation

本文選用的GoogLeNet模型在Caffe中有具體的網(wǎng)絡(luò)定義文件，詳細(xì)定義了網(wǎng)絡(luò)結(jié)構(gòu)各層的參數(shù)，實驗中未進(jìn)行修改．訓(xùn)練前只修改訓(xùn)練過程和測試過程所需要的參數(shù)，比如學(xué)習(xí)率、權(quán)重衰減系數(shù)、迭代次數(shù)、使用CPU還是GPU等．實驗中使用MIT_Indoor室內(nèi)場景數(shù)據(jù)集來進(jìn)行訓(xùn)練和測試，本文對原模型參數(shù)進(jìn)行了如下修改：每100次迭代進(jìn)行一次測試，測試間隔為500次，初始化學(xué)習(xí)率為 0.01．每100次迭代顯示一次信息，最大迭代次數(shù)為1×106次，網(wǎng)絡(luò)訓(xùn)練的動量為0.9，權(quán)重衰退為0.000 2，每5×104次進(jìn)行一次當(dāng)前狀態(tài)的記錄．在GPU模式下進(jìn)行訓(xùn)練．實驗使用的是NVIDIA公司的GeForce GTX TITAN X GPU工作站，運算效率很高，完成一次迭代僅需0.3 s．參數(shù)設(shè)置完成后，即可對網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試，兩天后得到網(wǎng)絡(luò)模型的識別精度為59.7%．

3.3 結(jié)果分析

使用Caffe訓(xùn)練GoogLeNet模型并測試得出結(jié)果，與一部分使用傳統(tǒng)人工特征提取的算法及其結(jié)果進(jìn)行比較，這些算法是在歐洲計算機(jī)視覺國際會議 (European conference on computer vision, ECCV)和IEEE國際計算機(jī)視覺與模式識別會議 (IEEE conference on computer vision and pattern recognition, CVPR)上發(fā)表的具有一定的代表性，可以用來與本文做對照，如表1所示．在表1中能夠發(fā)現(xiàn)，基于卷積神經(jīng)網(wǎng)絡(luò)的，GoogLeNet網(wǎng)絡(luò)模型所得到的識別結(jié)果高于使用傳統(tǒng)特征提取方法的結(jié)果，這說明了深度卷積神經(jīng)網(wǎng)絡(luò)在室內(nèi)場景識別上的有效性．

表1 基于MIT_Indoor數(shù)據(jù)集的識別結(jié)果對比

4 結(jié)語

本文摒棄了傳統(tǒng)的人工提取場景特征的方法，選擇了可以自主學(xué)習(xí)圖像特征的卷積神經(jīng)網(wǎng)絡(luò)，應(yīng)用目前識別精度較高的GoogLeNet模型實現(xiàn)了對室內(nèi)場景的識別，得到了59.7%的正確率，實驗結(jié)果證明了卷積神經(jīng)網(wǎng)絡(luò)在室內(nèi)場景識別問題上的有效性．隨著研究的不斷深入，深度卷積神經(jīng)網(wǎng)絡(luò)在場景識別領(lǐng)域也越來越受到重視，通過深度卷積神經(jīng)網(wǎng)絡(luò)得到的特征能夠有效描述場景的語義信息，準(zhǔn)確地判斷場景與場景和目標(biāo)與目標(biāo)之間的差異性和相似性．由此可見，深度卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力在圖像分類問題的研究上具有強(qiáng)大的優(yōu)勢．在今后的工作中，會繼續(xù)優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò)的性能，從增大訓(xùn)練數(shù)據(jù)的數(shù)量和改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)方面對算法進(jìn)行更深入的研究，從而獲得更加準(zhǔn)確的識別結(jié)果．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡