楊紅菊,李堯
(1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)),山西 太原 030006)
近些年,基于內(nèi)容的圖像檢索技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域備受關(guān)注[1-3],很大程度上幫助和改善了人們的生活?;趦?nèi)容的圖像檢索方法是基于給定的查詢(xún)實(shí)例,在數(shù)據(jù)庫(kù)中查找紋理和語(yǔ)義與之相似的實(shí)例?;趦?nèi)容的圖像檢索方法分為兩個(gè)階段:特征提取和相似度計(jì)算。特征提取用于描述圖像局部紋理或整體的語(yǔ)義信息,相似度計(jì)算用于度量圖像特征之間的距離,其中特征提取在檢索領(lǐng)域扮演著重要角色。
傳統(tǒng)的圖像特征提取方法雖然取得了較好的進(jìn)展,但并不能彌補(bǔ)電子設(shè)備所捕獲的特征和視覺(jué)神經(jīng)所感知到的語(yǔ)義信息之間的差異,例如尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)[4],方向梯度直方圖(Histograms of oriented gradients,HOG)[5],局部二進(jìn)制模式(Local Binary Pattern,LBP)[6]等。最近研究表明,由多個(gè)非線性映射層所組成的卷積網(wǎng)絡(luò)在圖像分類(lèi)[7-8]、檢索[1-3]、物體檢測(cè)[9]等視覺(jué)相關(guān)領(lǐng)域取得了突破性的進(jìn)展。不僅如此,基于深度模型的卷積網(wǎng)絡(luò)(convolution neural network, CNN)和循環(huán)網(wǎng)絡(luò)在語(yǔ)音識(shí)別[10-11]和自然語(yǔ)言領(lǐng)域[12-13]也有著廣泛的應(yīng)用。
卷積網(wǎng)絡(luò)在圖像檢索領(lǐng)域有著廣泛的應(yīng)用[7,14-17],主要可分為基于卷積層的特征和基于全連接層的特征表示。全連接層的特征使用一維向量進(jìn)行編碼,Krizhevsky等[7]將全連接層的數(shù)值作為特征用以檢索任務(wù),取得了突破性的進(jìn)展。Babenko等[14]使用主成分分析將全連接層的特征從高維空間映射到相對(duì)較低的維度,提高了檢索性能。雖然降低特征維度有助于提高檢索效率,但這種兩段式的特征計(jì)算方法會(huì)丟失某些潛在的語(yǔ)義特征。受到文獻(xiàn)[14]工作的啟發(fā), Xia等[15]將圖像編碼為維度相對(duì)較低的二進(jìn)制向量,但由于在數(shù)據(jù)預(yù)處理階段需要構(gòu)造圖像之間的相似度矩陣,并不適合數(shù)據(jù)集相對(duì)較大的情況。Lin等[16]在倒數(shù)第二個(gè)全連接層后添加一個(gè)編碼層學(xué)習(xí)圖像的隱含特征,該層的激活值由閾值操作計(jì)算得到,提高了檢索的效率和精度。Yang 等[17]在二進(jìn)制編碼層對(duì)網(wǎng)絡(luò)計(jì)算得到的數(shù)值特征添加相關(guān)的約束條件,使得編碼表達(dá)能力也有所提高。
最近的研究表明[18],全連接層的特征趨向于刻畫(huà)圖像全局的語(yǔ)義信息,卷積層對(duì)圖像的局部語(yǔ)義信息比較敏感。傳統(tǒng)的圖像檢索任務(wù)中,多使用全連接層的激活值作為特征進(jìn)行相似度檢索,失去了對(duì)圖像局部信息的刻畫(huà)能力。因?yàn)閷?duì)于自然的圖像,全局的語(yǔ)義輪廓信息并不能區(qū)分有些類(lèi)別之間的區(qū)別:例如在區(qū)分“狗”和“長(zhǎng)頸鹿”時(shí),使用高層的語(yǔ)義特征從外形輪廓上就可以區(qū)分出類(lèi)別之間的差距,而對(duì)于有些“狗”和“貓”的差異,需要從局部細(xì)節(jié)紋理上進(jìn)行區(qū)分。Babenko等[19]將卷積層計(jì)算得到的三維特征圖,通過(guò)局部加權(quán)的方式編碼為一維的特征向量,用于圖像檢索任務(wù)。Ng等[20]提出使用VLAD聚合算法,將三維的特征圖聚合為一維的特征向量,進(jìn)行編碼任務(wù),提高了檢索的精確度。
文獻(xiàn)[19-20]的特征融合方法僅考慮到二維特征圖中的每個(gè)像素權(quán)重,并未考慮到每個(gè)維度的權(quán)重?;谠搯?wèn)題,本文提出了一種基于卷積層特征的融合方法(Spatial Weight Feature, SWF),將三維的特征圖編碼為一維的特征向量, 使用卷積層的特征去刻畫(huà)圖像的局部紋理信息,用于檢索任務(wù)。
近年來(lái),基于深度模型的卷積網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了突破性的進(jìn)展。CNN是由多個(gè)非線性映射層組成的網(wǎng)絡(luò)架構(gòu),主要包括卷積層,池化層以及全連接層,其中卷積層和全連接層之間需要學(xué)習(xí)對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù)。
CNN首先通過(guò)前向傳播計(jì)算輸入圖像的預(yù)測(cè)分類(lèi)結(jié)果,使用對(duì)應(yīng)的圖像標(biāo)簽計(jì)算分類(lèi)誤差,然后反向傳播誤差梯度更新網(wǎng)絡(luò)權(quán)重。卷積層是網(wǎng)絡(luò)的核心組成部分,主要使用卷積核提取圖像的局部細(xì)節(jié)紋理,顏色以及形狀等特征。卷積核的大小隨著網(wǎng)絡(luò)層次的加深逐漸減小,卷積核越小,提取圖像特征的能力越強(qiáng)。池化層用于對(duì)卷積層計(jì)算得到的特征圖進(jìn)行下采樣操作,降低網(wǎng)絡(luò)模型的復(fù)雜度,對(duì)急劇變化的特征圖進(jìn)行均衡化操作。全連接層用于將三維的特征圖編碼為一維的特征向量,將圖像的局部細(xì)節(jié)特征歸結(jié)為全局的語(yǔ)義信息。激活函數(shù)用于對(duì)卷積得到的特征圖進(jìn)行非線性映射。網(wǎng)絡(luò)最后連接一個(gè)多分類(lèi)器,使用輸入圖像對(duì)應(yīng)的標(biāo)簽和預(yù)測(cè)得到的結(jié)果計(jì)算對(duì)應(yīng)的誤差梯度,用以更新網(wǎng)絡(luò)權(quán)重。經(jīng)過(guò)若干次迭代計(jì)算之后,網(wǎng)絡(luò)的誤差趨于穩(wěn)定,分類(lèi)精確變高。
卷積層計(jì)算得到的是三維的特征圖,并不能直接用于檢索任務(wù),首先需要將三維的特征編碼為一維的描述算子?;谠搯?wèn)題,本文使用局部特征融合方法,將三維的特征圖編碼為一維特征向量用于相似度計(jì)算,同時(shí)保持特征的區(qū)分能力。
本文使用F∈R(K×W×H)表示卷積層計(jì)算得到的特征圖,K表示特征圖的個(gè)數(shù),W和H分別代表每個(gè)特征圖的寬和高。由于每個(gè)特征圖代表圖像不同細(xì)節(jié)方面的紋理特征,可以將其編碼為對(duì)應(yīng)的浮點(diǎn)數(shù),最終得到一個(gè)K維的向量。式(1)中,f(x,y)表示特征圖坐標(biāo)(x,y)上的激活值,Φ(k)(I)表示計(jì)算得到的一維向量中的特征值,具體表述如下:
(1)
公式(1)中,在對(duì)特征圖進(jìn)行加權(quán)時(shí),將每個(gè)像素值均視為等價(jià)的地位,權(quán)重均賦值為1。但是在人的視覺(jué)神經(jīng)中,對(duì)于一幅圖像,并非是關(guān)注圖像的每個(gè)細(xì)節(jié),而是前景物體或者一些重要的區(qū)域。基于該問(wèn)題,本文假設(shè)一幅圖像中,最重要的區(qū)域是中心區(qū)域,越向邊緣靠攏像素值的權(quán)重越低。使用α(x,y)∈R(W,H)代表特征圖中每個(gè)位置對(duì)應(yīng)的權(quán)重,可以將上述公式(1)改為表達(dá)式(2):
(2)
每個(gè)像素值所對(duì)應(yīng)的權(quán)重系數(shù)α(x,y)依賴(lài)于在整個(gè)特征圖中出現(xiàn)的位置,本文使用高斯核來(lái)計(jì)算每個(gè)像素值的權(quán)重,權(quán)重計(jì)算公式如式(3)所示,其中W和H分別表示特征圖的寬和高,σ設(shè)定為W的三分之一:
(3)
對(duì)于三維特征中的每個(gè)二維特征圖而言,也有與之對(duì)應(yīng)的權(quán)重。本文使用β∈R(K)表示每個(gè)維度的權(quán)重。每個(gè)二維特征圖所對(duì)應(yīng)的權(quán)重和該平面中激活值大于零的個(gè)數(shù)成正比,并且特征圖中激活數(shù)值總和N也應(yīng)該被考慮在內(nèi),如表達(dá)式(5)所示:
β(k)=log(N/ξ(k))
(4)
(5)
其中ξ表示二維特征圖中激活值大于0的像素個(gè)數(shù)和總像素個(gè)數(shù)的比例。如果v>0則Ι[v]=1,否則Ι[v]=0。將每個(gè)特征圖的權(quán)重也考慮在特征編碼中,得到的特征如下式所示:
(6)
最終計(jì)算得到特征向量用Φ(I)∈RK表示。之后使用主成分分析和白化操作,對(duì)計(jì)算得到的特征向量進(jìn)行處理。如下所示:
Φ(I)=diag(s1,s2,s3…sN)-1MΦ(I)
(7)
(8)
其中M∈RN×C將C維的特征向量編碼為N維向量。使用L2范數(shù)處理計(jì)算得到的向量,如式(8)所示。最終將三維的特征圖F∈RK×W×H編碼成為一維的特征向量Φ(I)∈RK,使用歐式距離來(lái)計(jì)算兩個(gè)特征之間的距離。
本文對(duì)提出的編碼方法在INRIA和Oxford數(shù)據(jù)集上進(jìn)行評(píng)估。INRIA Holidays總計(jì)包含1 491張圖像,其中500張作為查詢(xún)實(shí)例。Oxford數(shù)據(jù)集包含5 062張圖像,55張查詢(xún)實(shí)例。使用VGG網(wǎng)絡(luò)提取圖像的卷積層特征,每個(gè)圖像均放縮到586×586大小作為網(wǎng)絡(luò)的輸入,從最后一個(gè)卷積層提取得到的特征圖大小為512×37×37。卷積網(wǎng)絡(luò)使用開(kāi)源的神經(jīng)網(wǎng)絡(luò)庫(kù)Caffe[21]實(shí)現(xiàn)。
將本文提出的SWF與傳統(tǒng)的聚合模型,如Avg Pooling, Fisher Vectors[22],Triangulation embedding[23]以及SPoc進(jìn)行比較。上述所有的聚合方法最終均使用主成分分析將特征編碼到相對(duì)較低的維度。使用平均查準(zhǔn)率(mean average precision,MAP)評(píng)估算法的查詢(xún)性能,實(shí)驗(yàn)結(jié)果如表1所示。
表1 檢索平均查準(zhǔn)率
從表1可以看出,相比較于其他的模型,基于SWF的聚合方法,在平均查準(zhǔn)率上高于其他的聚合模型,這主要是因?yàn)閷?duì)不同維度的特征賦予了合適的權(quán)重因子,去除了特征圖編碼中存在的不相關(guān)信息。在數(shù)據(jù)集Holidays上的平均查準(zhǔn)率要高于Oxford,因?yàn)樵贠xford上,每個(gè)圖像存在的噪點(diǎn)相對(duì)較多,并且對(duì)于每個(gè)建筑存在多個(gè)視角方面的實(shí)例。同時(shí),本文對(duì)不同層的編碼結(jié)果也進(jìn)行檢索效果評(píng)估,結(jié)果如表2所示。從中可以發(fā)現(xiàn)編碼長(zhǎng)度在256維之后的檢索效果趨于穩(wěn)定,同時(shí)發(fā)現(xiàn),第五個(gè)池化層計(jì)算得到的特征向量具有較強(qiáng)的編碼能力,在平均檢索精度上優(yōu)于其它層得到的結(jié)果。這是由于深層的特征更加趨向于刻畫(huà)圖像整體的輪廓,去除了局部細(xì)節(jié)有可能產(chǎn)生的噪音所導(dǎo)致的。
表2 不同長(zhǎng)度的編碼特征平均查準(zhǔn)率
為了進(jìn)一步驗(yàn)證算法的有效性,本文從Oxford上挑選出兩個(gè)圖像,對(duì)SWF和Sum pooling方法進(jìn)行查詢(xún)結(jié)果的可視化,如圖1所示。從左到右,相似度依次遞減,用綠色方框框起來(lái)的表示查詢(xún)正確的圖像,黃色代表原圖像。發(fā)現(xiàn)基于SWF加權(quán)的特征編碼方法檢索到正確的圖像個(gè)數(shù)相對(duì)較多,并且查詢(xún)到的圖像中包含的建筑視角也大致相同。
Fig.1 Retrieval results in SWF aggregation method圖1 SWF檢索效果
為了進(jìn)一步探究提出編碼方法的特性,本文對(duì)SWF的編碼方法計(jì)算得到的特征進(jìn)行可視化,如圖2所示??梢钥闯?對(duì)于直接將每個(gè)維度對(duì)應(yīng)的激活值相加得到的特征圖,存在較多的噪點(diǎn),如Sum pooling。而SWF加權(quán)特征圖,去掉了不相關(guān)的圖像區(qū)域,突出了圖像中心區(qū)域中的建筑整體輪廓,去掉了邊緣中無(wú)關(guān)的信息,進(jìn)而提高了特征的編碼能力。
Fig.2 Illustration of different feature aggregation methods圖2 不同特征融合方法示意圖
從上述的檢索平均精準(zhǔn)度和檢索結(jié)果示意圖可以看出,本文所提出的特征融合方法較適合于將三維的特征圖編碼為一維特征向量,用于檢索任務(wù),達(dá)到了相對(duì)較好的結(jié)果。從圖2的特征融合結(jié)果可以看出,對(duì)每個(gè)特征維度賦予相對(duì)應(yīng)的權(quán)重,可以減小圖像中不相關(guān)區(qū)域的噪點(diǎn),突出語(yǔ)義的整體輪廓。并且圖2中的高亮區(qū)域?qū)?yīng)的物體和原圖像對(duì)應(yīng)的實(shí)例區(qū)域幾乎重合,表明本文所提出的特征聚合方法,可以提取出自然圖像中對(duì)分類(lèi)性能至關(guān)重要的區(qū)域,關(guān)注于圖像中最為感興趣的區(qū)域的特征編碼,而并非圖像的整個(gè)區(qū)域,進(jìn)而提高了檢索效率。
基于深度卷積網(wǎng)絡(luò),本文提出了一種基于特征加權(quán)的編碼方法,將三維的特征圖編碼為一維的特征向量用于檢索任務(wù)。在數(shù)據(jù)集Oxford和INRIA上均取得了相對(duì)較好的結(jié)果。雖然使用卷積層的特征在平均查準(zhǔn)率上有所提升,但這種兩段式的編碼方法會(huì)降低圖像特征的表達(dá)能力,在后續(xù)的工作中將繼續(xù)探討如何將兩段式的編碼方法變?yōu)槎说蕉说奶卣魈崛】蚣?用于檢索任務(wù),提高檢索效率。
[1] Jiang K,Que Q,Kulis B.Revisiting Kernelized Locality-sensitive Hashing for Improved Large-scale Image Retrieval[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:4933-4941.DOI:10.1109/CVPR.2015.7299127.
[2] Yan K,Wang Y,Liang D,etal.CNN vs.SIFT for Image Retrieval:Alternative or Complementary? [C]∥Proceedings of the 2016 ACM International Conference on Multimedia. New York, USA: ACM, 2016: 407-411.DOI:10.1145/2964284.2967252.
[3] Babenko A,Lempitsky V.Aggregating Local Deep Features for Image Retrieval[C]∥Proceedings of the IEEE International Conference on Computer Vision.New York,USA:IEEE,2015:1269-1277.DOI:10.1109/ICCV.2015.150.
[4] Ng P C,Henikoff S.SIFT:Predicting Amino Acid Changes That Affect Protein Function [J].NucleicAcidsResearch,2003,31(13):3812-3814.DOI:10.1093/nar/gkg509.
[5] Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2005,1:886-893.DOI:10.1109/CVPR.2005.177.
[6] Ojala T,Pietik?inen M,M?enp?? T.Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2002,24(7):971-987.DOI:10.1109/TPAMI.2002.1017623.
[7] Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[C].Advances in Neural Information Processing Systems,2012,25(2):2012.DOI:10.1145/3065386.
[8] Szegedy C,Liu W,Jia Y,etal.Going Deeper with Convolutions[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:1-9.DOI:10.1109/CVPR.2015.7298594.
[9] Tsai Y H,Hamsici O C,Yang M H.Adaptive Region Pooling for Object Detection[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:731-739.DOI:10.1109/CVPR.2015.7298673.
[10] Graves A,Mohamed A,Hinton G.Speech Recognition with Deep Recurrent Neural Networks[C]∥ICASSP2013:Acoustics,speech and signal processing,2013 ieee international conference on. IEEE,2013:6645-6649.DOI:10.1109/ICASSP.2013.6638947.
[11] Graves A,Jaitly N,Mohamed A.Hybrid Speech Recognition with Deep Bidirectional LSTM[C]∥ASRU2013:Automatic Speech Recognition and Understanding,2013 IEEE Workshop on. IEEE,2013:273-278.DOI:10.1109/ASRU.2013.6707742.
[12] Tseng S Y,Chakravarthula S N,Baucom B,etal.Couples Behavior Modeling and Annotation Using Low-Resource LSTM Language Models[J].Interspeech,2016,2016:898-902.DOI:10.21437/Interspeech.2016-1186.
[13] Sutskever I,Vinyals O,Le Q V.Sequence to Sequence Learning with Neural Networks[C].AdvancesinNeuralInformationProcessingSystems,2014,4:3104-3112.
[14] Babenko A,Slesarev A,Chigorin A,etal.Neural Codes for Image Retrieval[C]∥European conference on computer vision. Springer International Publishing,2014:584-599.DOI:10.1007/978-3-319-10590-1_38.
[15] Xia R,Pan Y,Lai H,etal.Supervised Hashing for Image Retrieval Via Image Representation Learning[C]∥Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. Menlo Park,CA:AAAI,2014:2156-2162.
[16] Lin K,Yang H F,Hsiao J H,etal.Deep Learning of Binary Hash Codes for Fast Image Retrieval[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:27-35.DOI:10.1109/CVPRW.2015.7301269.
[17] Yang H F,Lin K,Chen C S.Supervised Learning of Semantics-Preserving Hashing via Deep Neural Networks for Large-Scale Image Search[J].ComputerScience,2015.DOI:10.1109/TPAMI.2017.2666812.
[18] Lai H,Pan Y,Liu Y,etal.Simultaneous Feature Learning and Hash Coding with Deep Neural Networks[C]∥Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:3270-3278.DOI:10.1109/CVPR.2015.7298947.
[19] Ng Y H,Yang F,Davis L S.Exploiting Local Features from Deep Networks for Image Retrieval[C]∥Computer Vision and Pattern Recognition Workshops.IEEE,2015:53-61.DOI:10.1007/978-3-319-10590-1_53.
[20] Babenko A,Lempitsky V.Aggregating Deep Convolutional Features for Image Retrieval[J].ComputerScience,2015.DOI:10.1145/2647868.2654889.
[21] Jia Y,Shelhamer E,Donahue J,etal.Caffe:Convolutional Architecture for Fast Feature Embedding[C]∥Proceedings of the 22nd ACM international conference on Multimedia.ACM,2014:675-678.DOI:10.1109/CVPR.2007.383266.
[22] Perronnin F,Dance C.Fisher Kernels on Visual Vocabularies for Image Categorization[C]∥Computer Vision and Pattern Recognition,2007.CVPR′07.IEEE Conference on.IEEE,2007:1-8.DOI:10.1109/CVPR.2014.417.
[23] Jégou H,Zisserman A.Triangulation Embedding and Democratic Aggregation for Image Search[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:3310-3317.DOI:10.1109/ICCV.2015.150.