張明,桂凱
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
深度學(xué)習(xí)最早由Hinton[1]等人在2006年提出。近年來深度學(xué)習(xí)的快速發(fā)展,在各行各業(yè)都有廣泛的應(yīng)用,例如人臉識別領(lǐng)域,無人駕駛領(lǐng)域等。室內(nèi)場景識別的難點(diǎn)在于場景圖像元素很多而且還很復(fù)雜,傳統(tǒng)的場景識別研究的比較多,然而利用深度學(xué)習(xí)來解決室內(nèi)場景識別的研究還很少。
目標(biāo)檢測是室內(nèi)場景識別的核心組成部分,在多年的發(fā)展過程中產(chǎn)生許多經(jīng)典算法。N.Dalai和B.Triggs提出梯度分布直方圖HOG[2]特征(Histogrames of Oriented Gradients),使用SVM分類器用于行人的目標(biāo)檢測,該方法的優(yōu)點(diǎn)是提取的邊緣特征可以較好地展示局部特征信息,缺點(diǎn)是需要圖像中的人物保持直立狀態(tài)才有較好的識別效果。Felzenszwalb等人在HOG特征的基礎(chǔ)上提出多尺度形變模型(Deformable Parts Models,DPM)[3]。DPM檢測方法大體與HOG一致,通過使用SVM(Support Vector Machine)訓(xùn)練得到待測物的梯度模型(Model),簡單的說就是模型和目標(biāo)匹配進(jìn)行檢測。DPM在模型上做了很多改進(jìn)工作,DPM方法被認(rèn)為是目標(biāo)檢測與識別領(lǐng)域的重要里程碑。
特征提取是室內(nèi)場景識別中另一個(gè)重要部分,傳統(tǒng)的人工特征設(shè)計(jì)雖然能解決一些問題,但是泛化能力較弱,需要人工深度參與,并且需要人工擁有豐富的專業(yè)知識。相較而言,深度學(xué)習(xí)中特征學(xué)習(xí)不需要人工過多的參與其中,因此逐漸取代了人工設(shè)計(jì)特征。研究表明,使用深度學(xué)習(xí)技術(shù)對場景進(jìn)行識別的準(zhǔn)確率要比傳統(tǒng)方法要高很多[4-5]。
由于傳統(tǒng)的室內(nèi)場景識別中需要大量的專業(yè)人員參與特征設(shè)計(jì),時(shí)間長、工作量大。因此本文提出使用深度學(xué)習(xí)技術(shù)來解決特征設(shè)計(jì)的難題。具體來說就是先通過原圖得到高斯金字塔圖片集,然后采取優(yōu)化的區(qū)域選擇算法得到待測圖片的顯著區(qū)域,接著使用CNN網(wǎng)絡(luò)對顯著區(qū)域的圖像進(jìn)行特征學(xué)習(xí),最后根據(jù)多層感知機(jī)對特征進(jìn)行場景類別判斷。相比傳統(tǒng)的室內(nèi)場景識別方法,本文方法優(yōu)勢主要體現(xiàn)在不需要人工過多的參與特征設(shè)計(jì),利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)特征相比人工特征設(shè)計(jì)效果提升明顯。同時(shí),使用多尺度提取特征比單一尺度的特征提取,特征信息更豐富,對場景識別準(zhǔn)確度的增加有明顯提升。室內(nèi)場景識別的流程圖如圖1所示。
圖1 室內(nèi)場景識別流程圖
顯著區(qū)域是圖像中最能表現(xiàn)圖像內(nèi)容的區(qū)域,對應(yīng)到室內(nèi)場景中就是指能夠代表場景內(nèi)容特征的區(qū)域。通過獲取圖像顯著區(qū)域的特征,可以增加場景識別的準(zhǔn)確度。
其中G(n+1)(i,j)表示新圖像,Gn表示原始圖像。W(m,n)=W(m)*W(n)是長度為5的高斯卷積和,新圖像Gn+1是通過對原圖像Gn進(jìn)行偶數(shù)行采樣而得到。用MATLAB編程運(yùn)行如圖2所示。
根據(jù)人眼視距的特點(diǎn),景物尺寸的大小和其所在位置的距離都會(huì)影響到目標(biāo)物的判斷與識別。在卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)過程中,一般采用池化方法來解決由于景物尺寸大小帶來的影響,不過這樣就會(huì)使得卷積神經(jīng)網(wǎng)絡(luò)的規(guī)模變得非常大,影響網(wǎng)絡(luò)的性能,同時(shí)還會(huì)降低學(xué)習(xí)模型對目標(biāo)的定位與描述。
為了解決這個(gè)問題,本文提出利用高斯金字塔[6]對圖像進(jìn)行預(yù)處理。高斯金字塔過程是對原圖像進(jìn)行多尺度像素采樣,生成一系列不同分辨率的圖像。本文主要使用下采樣,通過對一張圖片選取高斯金字塔中三張圖片輸入到卷積神經(jīng)網(wǎng)絡(luò)中,由于圖像視野窗口一定,而每張圖片的像素點(diǎn)所包含的背景信息是不同的,可以得到更好的圖像表示效果。高斯金字塔的圖像可以采用如下公式來獲?。?/p>
圖2 高斯金字塔圖片
陳媛媛在文獻(xiàn)[7]中介紹了通過閾值法提取圖像顯著矩形區(qū)域的方法。具體做法是通過相關(guān)算法得到二值化的圖像。然后設(shè)定一個(gè)初始值為T的閾值,通過計(jì)算圖像中所有小于閾值T的像素平均值A(chǔ)1以及大于閾值T的像素平均值A(chǔ)2,新的閾值T'取A1和A2的和的均值,反復(fù)計(jì)算直道兩次閾值的差小于1,最后得到的閾值為最終閾值。對于大于閾值的點(diǎn),用矩形框覆蓋,最后形成的矩形區(qū)域即為顯著區(qū)域。
受陳媛媛方法影響,本文中將待測場景圖像的每一個(gè)點(diǎn)進(jìn)行判斷,分為顯著類或非顯著類。這個(gè)點(diǎn)可以是一個(gè)像素,一個(gè)區(qū)域,或一個(gè)目標(biāo)。通過該方法估算每個(gè)點(diǎn)的顯著度,顯著度指的是該點(diǎn)屬于顯著類的概率。在知道場景圖像的位置信息以及特征信息的前提下,顯著度檢測可以采用貝葉斯定理公式進(jìn)行推導(dǎo),本文在陳媛媛方法的基礎(chǔ)上做了改進(jìn),待測場景圖像中某一點(diǎn)的顯著度公式如下:
上式中變量Sx是二值變量,表示該點(diǎn)屬于顯著類還是非顯著類,變量F和變量L分別表示該點(diǎn)的特征信息與位置信息,fx和lx表示的是未知點(diǎn)x的特征信息和位置信息。因此,通過上式待測點(diǎn)x的顯著度SDx的概率可以用公式表示為p(Sx=1|F=fx,L=lx)。
因?yàn)樘卣鲌D表示的是圖像的不同特征,每個(gè)特征之間是相互獨(dú)立的,如果需要對不同的特征進(jìn)行比較,需要將這些特征圖的取值設(shè)定標(biāo)準(zhǔn),而且取值區(qū)間應(yīng)當(dāng)在相同的范圍內(nèi),對特征圖進(jìn)行標(biāo)準(zhǔn)化的操作如下:
(1)對于計(jì)算得到的圖像中的點(diǎn)的顯著度,需要轉(zhuǎn)化成一個(gè)取值區(qū)間[0,N];
(2)將待測圖劃分成一個(gè)個(gè)小的區(qū)域,然后將每一個(gè)小區(qū)域得到的顯著度最大值N以及周圍的局部最大值n找出來;
(3)對于待測圖中所有點(diǎn),計(jì)算(N-n)2。
通過上述步驟,可以根據(jù)(N-n)2的取值變化對圖像中點(diǎn)的顯著度區(qū)域進(jìn)行判斷。如果取值變化不大,則表示該幅圖中沒有很顯著的區(qū)域,因?yàn)楦車狞c(diǎn)區(qū)別不明顯。如果取值變化很大,說明該幅圖確實(shí)有很明顯的顯著度區(qū)域。
室內(nèi)場景識別研究中,傳統(tǒng)的人工特征設(shè)計(jì)都是基于特殊的場景進(jìn)行。隨著深度學(xué)習(xí)的快速發(fā)展,可以采用深度學(xué)習(xí)技術(shù)對室內(nèi)場景識別進(jìn)行研究。
卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)[1](Convolutional Neural Networks,簡稱CNN)是一種多層神經(jīng)網(wǎng)絡(luò),其隱藏層由卷積層和池化層以及全連接層組成。選用良好的卷積神經(jīng)網(wǎng)絡(luò)模型不僅可以取得較好的識別效果,同時(shí)可以提升識別效率,減少訓(xùn)練參數(shù),加快訓(xùn)練時(shí)間等。LeNet-5是最經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。
圖3 LeNet-5卷積神經(jīng)網(wǎng)絡(luò)
上圖中C1,C3,C5表示的是卷積層,S2,S4是池化層,F(xiàn)6是全連接層,最后一層是輸出層。卷積神經(jīng)網(wǎng)絡(luò)通過卷積核提取圖像的特征,每個(gè)卷積層中都有多個(gè)特征平面(Feature Map),同個(gè)特征平面的神經(jīng)元共享權(quán)值。對待測圖像進(jìn)行卷積操作,利用局部感受野和共享參數(shù)等特性,使用池化層對圖像進(jìn)行局部下采樣,可以有效減少處理的數(shù)據(jù)量,同時(shí)保留有效的數(shù)據(jù)信息。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程以圖3為例,輸入的圖像大小為32×32,若卷積核大小為5×5,通過第一層卷積操作后,得到28×28的特征圖。然后進(jìn)入第二層池化層,輸入是以卷基層的輸出為基礎(chǔ),若池化采用2×2均值操作,則得到14×14的池化層數(shù)據(jù)。如此反復(fù)操作,最后通過損失函數(shù)計(jì)算誤差,通過誤差修正權(quán)值,從而達(dá)到訓(xùn)練目的。
利用深度學(xué)習(xí)解決室內(nèi)場景識別的研究主要從兩個(gè)方向入手,一個(gè)是場景圖像的顯著區(qū)域提取,一個(gè)是利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)。本文的研究方法也是從這兩方面展開。
為了解決視距原因造成的目標(biāo)室內(nèi)場景識別準(zhǔn)確度的影響,本文提出多尺度顯著區(qū)域提取的方法來優(yōu)化該問題。具體做法如下,對于一幅室內(nèi)場景圖像A,將原圖標(biāo)記為(Q1=A),使用高斯金字塔對A預(yù)處理,提取兩張不同分辨率圖像,然后通過區(qū)域選擇方法提取兩張圖像的顯著度,標(biāo)記為Q2和Q3。通過Q1,Q2和Q3組成的多尺度顯著區(qū)域進(jìn)行實(shí)驗(yàn),結(jié)果表明相比單一尺度的特征提取,多尺度的顯著區(qū)域特征提取可以更好地表示室內(nèi)場景信息,同時(shí)識別準(zhǔn)確率有明顯的提升。
通過上述方法提取得到的顯著區(qū)域Q1、Q2和Q3,利用卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行前向傳導(dǎo),提取對應(yīng)的特征U1,U2和U3。
上式中,W表示權(quán)重,b表示偏置。Q(k)表示輸入,g(G(k);(W,b))表示對輸入Q(k)進(jìn)行前向傳導(dǎo)。通過卷積神經(jīng)網(wǎng)絡(luò)提取三個(gè)不同尺度下的顯著區(qū)域特征,本文采取加權(quán)平均的方式對獲取的特征進(jìn)行融合,具體如下:
其中α+β+γ=1。
U表示融合后的顯著區(qū)域特征,為了充分提現(xiàn)多尺度下特征提取的互補(bǔ)性,取α=β=γ=1/3,由于多層感知器在圖像識別方面的廣泛應(yīng)用,預(yù)測場景類別時(shí)可以訓(xùn)練一個(gè)多層感知機(jī)(MLP),具體如下:
Z是MLP的輸出,即為針對場景類別的一個(gè)概率分布。MLP的損失函數(shù)定義為:
上式中,fj表示得分向量的第j個(gè)元素的得分,yi代表正確的類別。Softmax函數(shù)將一組向量的任意數(shù)值壓縮到0和1之間,使其和為上式即模型的優(yōu)化目標(biāo)函數(shù),其中第二項(xiàng)為二次正則項(xiàng)。我們的目標(biāo)是通過訓(xùn)練,可以最小化損失。因此本文采用了Adam方法[8]對模型進(jìn)行訓(xùn)練。Adam方法的優(yōu)化公式為:
上式中,L表示損失函數(shù),下標(biāo)t代表迭代的次數(shù),i代表訓(xùn)練樣本的標(biāo)號,W為權(quán)值,mt和vt是引入的力矩估計(jì)參數(shù),α是學(xué)習(xí)率,β1和β2是自適應(yīng)參數(shù)。室內(nèi)場景的類別由多層感知機(jī)(MPL)中預(yù)測概率最大的那一類所確定。
實(shí)驗(yàn)所用的卷積神經(jīng)網(wǎng)絡(luò)框架為Caff,該框架支持Python和MATLAB接口。實(shí)驗(yàn)所需圖片數(shù)據(jù)庫選用的是MIT-67[9],該數(shù)據(jù)庫包含的室內(nèi)場景圖像比較豐富,在場景識別領(lǐng)域使用廣泛,部分場景圖片如圖4。為了驗(yàn)證本文方法,做了如下說明。
(1)顯著區(qū)域的選擇,選擇了原圖Q1以及經(jīng)過高斯金字塔預(yù)處理得到的Q2和Q3。相比只選用原圖Q1,由Q1、Q2和Q3組成的多尺度顯著區(qū)域可以更準(zhǔn)確地表示場景信息。
(2)特征的提取,對三個(gè)不同尺度的顯著區(qū)域特征提取,輸入到卷積神經(jīng)網(wǎng)絡(luò)的圖像大小均為32×32。同時(shí)將學(xué)習(xí)速率α和權(quán)值λ的值分別設(shè)置為1×10-5和5×10-4。對于α的取值,試驗(yàn)結(jié)果表明1×10-5是理想的學(xué)習(xí)速率。而λ則是基于經(jīng)驗(yàn)值,并未進(jìn)行特別的調(diào)試。
實(shí)驗(yàn)結(jié)果
本文所選取的MIT-67數(shù)據(jù)庫包含了67個(gè)室內(nèi)類別圖像,共15620張圖像。每種類別的圖像數(shù)量上有差異,但是都不少于100張圖像,所有的圖像都是JPG格式。為了方便研究,本文選擇的圖像都是常見的如臥室、廚房等室內(nèi)場景。每種場景圖片各選擇30張,共180張圖片。選擇30張圖像進(jìn)行室內(nèi)場景識別模型測試,剩下150張進(jìn)行場景識別模型的訓(xùn)練。表1展示的是預(yù)測準(zhǔn)確度。
從圖表可以看出,辦公室和臥室的識別準(zhǔn)確率最高,達(dá)到75%以上,原因可能是它們的室內(nèi)特征相對單一明顯。而客廳和廚房的準(zhǔn)確率在60%-70%之間,要低于臥室和辦公室,分析原因可能是顯著度提取不夠明顯,導(dǎo)致特征學(xué)習(xí)出現(xiàn)偏差。總體而言,本文使用的基于深度學(xué)習(xí)的室內(nèi)場景識別方法是有效的。
其次,與傳統(tǒng)單一人工特征設(shè)計(jì)的場景識別的準(zhǔn)確率的對比,將待測圖片放入訓(xùn)練好的室內(nèi)場景識別模型中進(jìn)行測試,其中HOG,LBP,GIST[10]是傳統(tǒng)的單一的人工特征設(shè)計(jì)在場景識別中的準(zhǔn)確率。Q1-Q3是指多尺度下特征融合后的場景識別準(zhǔn)確率。測試結(jié)果如圖5所示。
從圖5可以看出,Q1-Q3的識別準(zhǔn)去率在50%左右,相比單一尺度的特征學(xué)習(xí)的準(zhǔn)確度提升5%,即表中Q1、Q2、Q3所示。同時(shí)相比傳統(tǒng)的人工特征設(shè)計(jì)的場景識別算法優(yōu)勢明顯。從而可以得出本文提出的方法在室內(nèi)場景識別的研究中是有效的,也說明未來使用深度學(xué)習(xí)技術(shù)進(jìn)行場景識別將會(huì)成為主流的研究方向。
室內(nèi)場景識別由于室內(nèi)環(huán)境的復(fù)雜性,一直是研究的熱點(diǎn)與難點(diǎn),隨著深度學(xué)習(xí)的發(fā)展,采用不同的學(xué)習(xí)模型取得的效果也是不一樣的。通過選擇更好的學(xué)習(xí)模型,同時(shí)在優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)方面進(jìn)行深入研究,可以進(jìn)一步改善實(shí)驗(yàn)的結(jié)果。
[1]HINTONGE,OSINDEROS,TEHYW.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.
[2]Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C].In 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'05)2005 jun 25(Vol.1,pp.886-893).
[3]Felzenszwalb PF,Girshick R B,McAllester D,et al.Object Detection with Discriminatively Trained Part-Based Models[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2010,32(9):1627-1645
[4]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet Classification with Deep Convolutional Neural Networks[C].Lake Tahoe,USA:MIT Press,2012:1106-1114.
[5]SZEGEDY C,LIU W,JIA Y,et al.Going Deeper with Convolutions[C].Boston,USA:IEEE,2015:1-9.
[6]劉晨羽,蔣云飛,李學(xué)明.基于卷積神經(jīng)網(wǎng)的單幅圖像超分辨率重建算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2017(09).
[7]陳媛媛.圖像顯著區(qū)域提取及其在圖像檢索中的應(yīng)用[D].上海交通大學(xué),2006
[8]D.kingma,J.Ba.Adam.A Method for Stochastic Optimization[C].International Conference for Learning Representations,2015.
[9]QUATTONI A,TORRALBA.A Recognizing Indoor Scenes[C].Miami,USA:IEEE,2009:413-420.
[10]ZUO Z,WANG G,SHUAI B,et al.Learning Discriminative and Shareable Features for Scene Classification[C].ECCV.Zurich,Switzerland:Springer,2014:552-568.