国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度局部特征編碼與多通道特征融合的圖像場景分類

2019-09-09 10:05顧廣華
燕山大學(xué)學(xué)報(bào) 2019年4期
關(guān)鍵詞:碼本尺度卷積

秦 芳,顧廣華,*

(1. 燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2.燕山大學(xué) 河北省信息傳輸與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)

0 引言

場景分類是計(jì)算機(jī)視覺和模式識(shí)別的重要分支,它廣泛應(yīng)用于圖像檢索、目標(biāo)檢測(cè)和行為識(shí)別等多個(gè)領(lǐng)域[1]。場景由多個(gè)基本單元組成,這些單元排列在無規(guī)律的布局中。場景圖像具有較大的類內(nèi)差異和類間相似性,當(dāng)人眼看到一幅場景圖像時(shí)可迅速做出判斷,但對(duì)于機(jī)器來說難度很大。因此,讓計(jì)算機(jī)正確理解視覺場景對(duì)于研究者來說一直是一個(gè)具有挑戰(zhàn)性的問題。在過去的幾十年中,研究者們提出了許多用于圖像場景分類的方法,其中最著名的是“詞袋”(Bag of words, BOW)模型[2]。BOW模型使用聚類方法產(chǎn)生視覺碼本,通過量化局部特征構(gòu)建“視覺詞”的出現(xiàn)頻率來表示圖像,取得了不錯(cuò)的分類效果,但由于BOW模型沒考慮圖像的空間信息而影響了分類準(zhǔn)確性。因此,一些研究者提出了一系列基于BOW模型的方法來提高獲取局部空間信息的能力。如概率潛在語義分析(Probabilistic Latent Semantic Analysis, pLSA)模型[3]和貝葉斯等級(jí)模型[4],都改善了分類效果。特別值得關(guān)注的是Lazebnik等提出空間金字塔匹配(Spatial Pyramid Matching,SPM)模型[5],它通過將圖像分割成越來越精細(xì)的子區(qū)域,并計(jì)算每個(gè)子區(qū)域內(nèi)局部特征的直方圖來提升分類性能。然而,上述這些基于BOW的方法的性能強(qiáng)烈依賴于底層特征,例如,尺度不變特征變換(Scale Invariant Feature Transform, SIFT)或方向梯度直方圖(Histogram of Oriented Gradient, HOG)以及紋理特征。由于場景圖像的復(fù)雜性,這些底層特征無法有效實(shí)現(xiàn)精確分類。近年來,深度學(xué)習(xí)的方法不僅在語音識(shí)別、目標(biāo)識(shí)別和檢測(cè)、自然語言處理等[6-7]經(jīng)典問題上取得了巨大的成功,在許多其他實(shí)際應(yīng)用中也取得了飛躍性的突破,引起了學(xué)術(shù)界和工業(yè)界的極大興趣。

深層卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[8]是深度學(xué)習(xí)的一個(gè)流行分支,是一個(gè)由卷積、池化和全連接層組成的多層架構(gòu),在視覺識(shí)別任務(wù)尤其是圖像分類領(lǐng)域取得了巨大成功。最大的突破之一是在ImageNet(包含1 000多個(gè)類別的圖像)大型視覺識(shí)別挑戰(zhàn)(ImageNet Large Scale Visual Recognition Challenge , ILSVRC)[9]中,CNN的識(shí)別精度比所有基于底層特征的方法高出約10%。目前,很多最近的工作[10-15]已經(jīng)證明,基于諸如ImageNet、Places等大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的深層CNN的中間特征的學(xué)習(xí),可以有效地轉(zhuǎn)移到其他有限的訓(xùn)練數(shù)據(jù)識(shí)別任務(wù)中去。

然而,CNN特征是一種全局圖像表示,更多的獲取了圖像的高頻信息,且缺少幾何不變性。因?yàn)樵枷袼卦诰矸e網(wǎng)絡(luò)中的局部鄰域內(nèi)被多次濾波和池化,圖像的局部空間信息已經(jīng)消失在聚類背景中,從而降低了分類和判別能力。為解決該問題,本文進(jìn)行了三方面的工作:1)使用局部約束線性編碼(Locality constrained linear coding, LLC)方法編碼多尺度圖像塊的深度卷積層特征;2)提取原始圖像的第一個(gè)全連接層的全局CNN特征;3)將深度卷積層的多尺度編碼特征與原始圖像在全連接層的全局CNN特征實(shí)現(xiàn)多通道融合。

1 多尺度局部特征編碼

針對(duì)底層特征無法實(shí)現(xiàn)有效分類的問題以及CNN特征的缺點(diǎn),本文通過滑動(dòng)窗提取多尺度圖像塊,并獲得其深度卷積層CNN特征,使用K-means聚類方法將提取的特征量化為視覺碼本,基于通用碼本,使用LLC方法進(jìn)行編碼獲取圖像的局部空間信息,以彌補(bǔ)底層特征與高層語義之間的差距,同時(shí)使用原始圖像的全連接層特征來有效表征場景圖像的語義信息,全局空間信息仍然被保留,并將來自于深度卷積層的中層編碼特征與來自全連接層的全局CNN特征進(jìn)行多通道融合,實(shí)現(xiàn)全局信息與局部信息的互補(bǔ),從而獲得更加準(zhǔn)確的圖像表征。其原理框圖如圖1所示。

圖1 多尺度局部特征編碼與多通道特征融合的原理框圖
Fig.1 Multi-scale local feature coding and multi-channel feature fusion of the block diagram

1.1 獲取多尺度圖像塊的CNN特征

本文實(shí)驗(yàn)證明使用較大尺寸的圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入比相對(duì)較小的尺寸更有優(yōu)勢(shì),采用多尺度圖像塊的卷積層特征進(jìn)行編碼來獲取圖像的局部空間信息的方法需要的特征數(shù)目不能過少。因此,首先將圖像調(diào)整為256×256的大小并轉(zhuǎn)化為灰度圖,將其用作原始圖像。然后,使用長度分別為128像素和64像素的滑動(dòng)窗以16像素步長對(duì)圖像進(jìn)行采樣,提取尺度分別為128×128、64×64的圖像塊,使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(VGG-F)提取圖像塊的CNN特征。該網(wǎng)絡(luò)架構(gòu)由5個(gè)卷積層和3個(gè)全連接層組成,第1個(gè)、第2個(gè)和第5個(gè)卷積層后帶有池化層,如圖2所示。

圖2 預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)示意圖
Fig.2 Pre-trained convolution neural network architecture diagram

卷積層即一組濾波器進(jìn)行工作,其中包括濾波器的可學(xué)習(xí)權(quán)重以產(chǎn)生輸入圖像的卷積信息,通過卷積運(yùn)算,使原信號(hào)特征增強(qiáng),并且降低噪音。池化層通過局部非線性運(yùn)算來減小輸入層的空間尺寸,減少計(jì)算量的同時(shí)保持圖像旋轉(zhuǎn)不變性。全連接采用softmax全連接,得到的激活值即卷積神經(jīng)網(wǎng)絡(luò)提取到的圖片特征。

1.2 特征編碼

使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)獲得多尺度局部圖像塊的深度卷積層特征之后,對(duì)于訓(xùn)練集的每一類圖像塊特征使用K-means聚類算法來生成具有M個(gè)聚類簇的類碼本,依次得到所有類圖像的類碼本后,進(jìn)行類碼本的級(jí)聯(lián)得到最終的通用碼本?;讷@得的通用碼本,采用局部約束線性編碼LLC[16]來獲得圖像的視覺描述符。LLC編碼用于減少重構(gòu)誤差,利用局部約束將每個(gè)描述子投影到它的局部坐標(biāo)系中,并且投影坐標(biāo)通過特征各維最大池化整合來產(chǎn)生最終的圖像表示。其目標(biāo)函數(shù)為

s.t.1Tci=1,?i

(1)

式中加號(hào)前的一項(xiàng)最小化是為了減少量化誤差,加號(hào)后的一項(xiàng)則是做出假設(shè)約束。其中,X表示從圖像中提取的一組D維局部描述符,X=[x1,x2,…,xN]∈RD×N,碼本B具有M個(gè)元素B=[b1,b2,…,bM]∈RD×N,di表示可以為每個(gè)基本向量分配不同自由度的局部適配器,并且分配的自由度與輸入描述符xi的相似性成比例。即

di=exp(dist(xi,B)/σ),

(2)

dist(xi,B)=[dist(xi,bi),…,dist(xi,bM)],

(3)

其中dist(xi,bj)表示xi與bj之間的歐式距離。σ用于調(diào)整局部適配器的權(quán)重衰減率。約束1Tci=1滿足LLC編碼的旋轉(zhuǎn)不變性要求。

2 多通道特征融合

圖像場景分類與其他分類任務(wù)不同,因?yàn)閳鼍皥D像具有較大的類內(nèi)差異和類間相似性。一些場景圖像中含有許多復(fù)雜的目標(biāo),且其對(duì)類別的判斷十分重要。例如,圖3中的示例圖像來自于15類場景數(shù)據(jù)集中的“bedroom”和“kitchen”類,這兩類圖像中都含有多個(gè)目標(biāo),但是能夠識(shí)別“bedroom”類場景的判別性信息來自于圖中占據(jù)面積接近三分之一的床,而識(shí)別“kitchen”類的重要部分是圖中的“電飯煲”、“灶臺(tái)”等局部信息,由此可知,局部信息對(duì)于場景圖像的分類至關(guān)重要。此外,對(duì)于場景圖像來說,圖像的全局信息是實(shí)現(xiàn)分類判別的基礎(chǔ),無論是室內(nèi)場景中的橫向布局,抑或是室外場景的縱向結(jié)構(gòu),或者人造場景的全局結(jié)構(gòu),都是實(shí)現(xiàn)準(zhǔn)確分類的前提。因此,融合全局結(jié)構(gòu)信息與局部空間信息對(duì)于提高圖像場景分類準(zhǔn)確性十分重要。卷積神經(jīng)網(wǎng)絡(luò)的全連接層輸出的特征表示高層語義信息,丟失了目標(biāo)的詳細(xì)信息和場景類別的空間信息。深度卷積層特征已被證明更適合于描述對(duì)象本身以及圖像中對(duì)象之間的空間關(guān)系[17]。本文通過獲取局部圖像塊的深度卷積層特征并進(jìn)行編碼,捕獲圖像中目標(biāo)的局部信息。將來自于深度卷積層的多尺度編碼特征與來自全連接層的全局CNN特征進(jìn)行多通道融合。具體而言,獲得編碼特征與全局CNN特征后,將這兩種特征等比例加權(quán)級(jí)聯(lián),實(shí)現(xiàn)圖像全局與局部信息的融合,獲得更高效的圖像表示。即

ffinal=[w1·f1,w2·f2],

(4)

其中,w1=w2=0.5,f1表示多尺度圖像塊卷積層的編碼特征,f2表示圖像的全連接層的CNN特征,用最終的融合特征表示來訓(xùn)練分類器進(jìn)行預(yù)測(cè)。

圖3 場景類示例圖像
Fig.3 Scene class example image

3 實(shí)驗(yàn)結(jié)果與分析

本文針對(duì)所提出的問題在兩個(gè)常用場景類數(shù)據(jù)集上進(jìn)行了評(píng)估,實(shí)驗(yàn)分為3個(gè)部分:第一部分比較了單個(gè)通道特征與多通道融合特征的分類精度;第二部分探究了聚類碼本的不同大小對(duì)于分類結(jié)果的影響;第三部分探究了圖像塊不同尺度對(duì)于分類結(jié)果的影響。最后,根據(jù)三部分實(shí)驗(yàn)所獲得的最優(yōu)參數(shù)在兩個(gè)通用場景數(shù)據(jù)集上進(jìn)行了分類判別實(shí)驗(yàn)。

3.1 數(shù)據(jù)集

1) Lazebnik等的15類場景數(shù)據(jù)集(15-category)。該數(shù)據(jù)集共包含4 486張灰度圖像,用于每個(gè)類別的圖像數(shù)量范圍為200~400。對(duì)于每個(gè)類別,隨機(jī)選取80幅圖像用于訓(xùn)練,20幅圖像測(cè)試。最終分類精度取10次實(shí)驗(yàn)的平均值。

2) SUN397數(shù)據(jù)集是Xiao等[18]提出的場景識(shí)別數(shù)據(jù)集,包含397個(gè)場景類別,是當(dāng)前最大的場景類別數(shù)據(jù)集。包含室內(nèi)和室外場景圖像,每個(gè)類別至少包含100幅圖像。為了降低計(jì)算量,本文從中選出15個(gè)類別的圖像組成一個(gè)新的數(shù)據(jù)集SUN397-15,其中包括“ball_pit”, “ocean”, “bamboo_forest”, “electrical_substation”, “wave”, “bow_window_outdoor”, “subway_interior”, “sky”, “bullring”, “pagoda”, “ice_skating_rink_indoor”, “skatepark”, “shower”, “train_station_platform”, “rock_arch”。對(duì)該場景數(shù)據(jù)集同樣選取80幅圖像用于訓(xùn)練,20幅圖像用于測(cè)試。最終的分類精度取10次實(shí)驗(yàn)的平均值。

3.2 多通道對(duì)比

將深度卷積層的多尺度編碼特征與全連接層的全局CNN特征進(jìn)行多通道融合,實(shí)現(xiàn)圖像的高效表征。為了驗(yàn)證多通道融合特征的優(yōu)越性,在實(shí)驗(yàn)中對(duì)兩個(gè)數(shù)據(jù)集的圖像分別提取不同通道的CNN特征,進(jìn)行分類判別,分類精度如表1所示。表1中Channel1表示最后一個(gè)卷積層的CNN特征,Channel2表示第一個(gè)全連接層的CNN特征,Channel3表示第二個(gè)全連接層的CNN特征。

由表1可見,在兩個(gè)數(shù)據(jù)集上使用單通道特征進(jìn)行分類判別時(shí),第一個(gè)全連接層的識(shí)別精度均高于其他單通道特征的識(shí)別精度。當(dāng)使用多通道融合特征進(jìn)行分類比較時(shí),可以發(fā)現(xiàn)在SUN397-15數(shù)據(jù)集上,最后一個(gè)卷積層與第一個(gè)全連接層的雙通道融合特征的識(shí)別精度最好,而在15-category數(shù)據(jù)集上,最后一個(gè)卷積層與第一個(gè)全連接層的雙通道融合特征與兩個(gè)全連接層的融合特征的識(shí)別精度相當(dāng)。由于卷積神經(jīng)網(wǎng)絡(luò)是通過一系列濾波器與輸入圖像進(jìn)行卷積、池化來層層抽象,最后一個(gè)卷積層還含有圖像的部分局部信息,而到達(dá)全連接層時(shí),獲取的已經(jīng)是圖像的高層語義信息。因此,本文為了彌補(bǔ)局部信息的缺失,采用圖像塊最后一個(gè)深度卷積層的特征進(jìn)行編碼,同時(shí),與第一個(gè)全連接層的全局語義信息進(jìn)行多通道融合,來更有效的表征圖像。

表1 多通道特征的分類結(jié)果比較Tab.1 Classification results comparison of multi-channel

3.3 碼本大小的選擇

K-means聚類的缺點(diǎn)之一是對(duì)K值的選擇敏感,因此本文中選擇K=10,K=50,K=100,K=150這四種不同大小的類碼本執(zhí)行聚類,依次得到每個(gè)類別的視覺碼本,再將所有類碼本級(jí)聯(lián)獲得通用碼本?;谠摯a本,使用LLC編碼方法獲得多尺度局部圖像塊的編碼特征,并進(jìn)一步將其與原始圖像的第一個(gè)全連接層的全局CNN特征級(jí)聯(lián),實(shí)現(xiàn)多通道融合,在15-category數(shù)據(jù)集上比較了分類準(zhǔn)確性,分類結(jié)果如表2所示。

表2 不同大小類碼本的分類結(jié)果比較Tab.2 Classification results comparison of different size codebook

由表2可見,隨著類碼本的增大,編碼特征和融合特征的分類精度在15-category數(shù)據(jù)集上均為先增加后減小。且當(dāng)類碼本大小為K=100時(shí),編碼特征和融合特征都可以獲得最好的分類精度。對(duì)于LLC編碼來說,在一定范圍內(nèi),類碼本越大,編碼特征的分類效果越好。但碼本過大,編碼特征會(huì)過于稀疏,反而影響分類效果。且在一幅實(shí)際場景圖像中,包含的視覺目標(biāo)也是有限的。因此,在本文的實(shí)驗(yàn)中,選擇K=100作為類碼本的大小,采用K-means聚類來構(gòu)建視覺通用碼本。

3.4 多尺度對(duì)比

實(shí)驗(yàn)中選擇不同尺度的滑動(dòng)窗進(jìn)行局部圖像塊采樣,獲取其深度卷積層特征并進(jìn)行LLC編碼,分別對(duì)不同尺度圖像塊的編碼特征進(jìn)行分類判別。進(jìn)一步將編碼特征與原圖在第一個(gè)全連接層的全局特征相融合,在15-category數(shù)據(jù)集上比較了分類精度,結(jié)果取10次實(shí)驗(yàn)的平均值,分類結(jié)果如表3所示。表3中Scale1表示采樣64×64的圖像塊,Scale2表示采樣128×128的圖像塊,Scale1+Scale2表示采樣兩個(gè)不同尺度的局部圖像塊。

表3 多尺度編碼特征與融合特征的分類結(jié)果比較Tab.3 Classification results comparison of multi-scale coding features and fusion features

由表3可知,當(dāng)使用多尺度圖像塊的深度卷積層特征進(jìn)行LLC編碼時(shí),其分類精度比單尺度圖像塊的編碼特征高,且較大尺度圖像塊編碼特征的分類效果比較小尺度好。進(jìn)一步將局部圖像塊的編碼特征與第一個(gè)全連接層的全局CNN特征進(jìn)行多通道融合,使用兩個(gè)尺度的圖像塊編碼特征得到的融合特征相比兩個(gè)單尺度融合特征的分類精度都高。多尺度融合特征比多尺度編碼特征的分類精度提高了3.1%,這進(jìn)一步說明了多通道融合的有效性。因此,本文在最終的分類判別實(shí)驗(yàn)中,采用多尺度多通道融合特征來表征圖像。

3.5 分類判別

如前所述,本文采用多尺度局部圖像塊的深度卷積層特征進(jìn)行LLC編碼,獲得編碼特征,進(jìn)而與原始圖像的第一個(gè)全連接層的全局CNN特征實(shí)現(xiàn)多通道融合,以獲得整合了局部與全局信息的有效圖像表示。將編碼特征與融合特征在SUN397-15和15-category兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較,識(shí)別精度取10次實(shí)驗(yàn)的平均值,分類結(jié)果如表4所示。同時(shí),為了更好地驗(yàn)證本文方法的有效性,將原始圖像的第一個(gè)全連接層的CNN特征進(jìn)行分類判別,作為比較的基準(zhǔn)。表4中CNN1表示原始圖像CNN特征的分類精度,LLC1表示使用LLC編碼獲得的多尺度局部圖像塊的編碼特征的分類精度,LLC1+CNN1表示多通道融合后的分類精度。

表4 兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.4 Experimental results on both datasets

由表4可見,使用LLC方法獲得多尺度局部圖像塊的深度卷積層編碼特征,與原始圖像在第一個(gè)全連接層的全局CNN特征進(jìn)行多通道融合,基于融合特征做分類判別時(shí),在SUN397-15數(shù)據(jù)集上的分類精度達(dá)到98.0%,相比原始圖像的全局CNN特征的分類精度提高了1.5%。在15-category數(shù)據(jù)集上的分類精度達(dá)到92.9%,相比原始圖像CNN特征的識(shí)別精度提高了4.5%。由此可以看出本文將局部與全局信息融合的方法對(duì)于場景圖像的分類判別是有效的。

此外,針對(duì)15類場景數(shù)據(jù)集,本文與其他場景分類方法[5,19-22]也進(jìn)行了實(shí)驗(yàn)對(duì)比,結(jié)果如表5所示。將多尺度局部圖像塊的編碼特征整合到全局CNN特征中的多通道融合方法,相比表5中的其他方法在分類精度上都有所提高,不僅比傳統(tǒng)的使用SPM方法進(jìn)行場景識(shí)別的分類精度提高了11.5%,而且達(dá)到了與文獻(xiàn)[22]中相當(dāng)?shù)姆诸愋Ч?,但本文使用的網(wǎng)絡(luò)結(jié)構(gòu)比文獻(xiàn)[22]簡單,且算法復(fù)雜度更低。由此表明,整合局部信息對(duì)于使用深度特征進(jìn)行場景分類十分有效。

4 結(jié)論

本文為了克服CNN特征無法有效表征圖像局部信息的缺點(diǎn),通過將多尺度局部圖像塊的深度卷積層特征進(jìn)行LLC編碼,并將編碼特征與原始圖像的全連接層CNN特征進(jìn)行多通道融合,從而獲得整合了局部結(jié)構(gòu)信息與全局空間信息的有效圖像表示。在兩個(gè)典型數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,表明了本文所提出的場景分類方法的優(yōu)越性。同時(shí),也驗(yàn)證了多尺度圖像塊的編碼特征優(yōu)于單尺度圖像塊的編碼特征,且多通道融合特征優(yōu)于單通道CNN特征。

表5 15-category數(shù)據(jù)集上不同分類方法比較Tab.5 Comparison of different classification methods on the 15-category dataset

猜你喜歡
碼本尺度卷積
免調(diào)度NOMA系統(tǒng)中擴(kuò)頻碼優(yōu)化設(shè)計(jì)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于有限域上仿射空間構(gòu)造新碼本
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
基于Zadoff-Chu 矩陣的最優(yōu)碼本構(gòu)造方法
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
大規(guī)模MIMO預(yù)編碼碼本的優(yōu)化設(shè)計(jì)與分析*
宇宙的尺度