国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種用于圖像檢索的冪歸一化深度卷積特征加權(quán)聚合方法

2020-05-12 14:16伍世虔徐望明
武漢科技大學學報 2020年2期
關(guān)鍵詞:相似性檢索卷積

張 琴,伍世虔,徐望明,4

(1.武漢科技大學機械自動化學院,湖北 武漢,430081;2.武漢科技大學機器人與智能系統(tǒng)研究院,湖北 武漢,430081;3.武漢科技大學信息科學與工程學院,湖北 武漢,430081;4.武漢科技大學冶金自動化與檢測技術(shù)教育部工程研究中心,湖北 武漢,430081)

基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)[1-5]一直是計算機視覺研究領(lǐng)域中的熱門課題。它通過特征提取算法將圖像表示為向量,并利用近鄰搜索方法找到與給定的查詢圖像內(nèi)容相似的圖像,其中,特征提取算法對圖像檢索性能起著關(guān)鍵作用。為了提取出具有判別能力的圖像特征,形成有效的圖像表示,人們針對特征提取算法進行了大量研究,近十幾年來其經(jīng)歷了從基于SIFT[6]、SURF[7]等算法并結(jié)合BOW[8-9]、FV[10]、VLAD[11]等嵌入編碼方法提取圖像淺層特征到基于深度卷積神經(jīng)網(wǎng)絡(luò)[12]提取圖像深層特征的發(fā)展過程。

最近研究表明,在圖像檢索任務(wù)中,采用在大規(guī)模數(shù)據(jù)庫ImageNet[13]上預訓練好的卷積神經(jīng)網(wǎng)絡(luò)提取的深度特征比傳統(tǒng)的淺層特征取得了更加好的檢索效果[14-19],而且深度網(wǎng)絡(luò)中卷積層[17-22]輸出的特征可看作圖像的局部表示,能體現(xiàn)出更多的圖像細節(jié)信息,比全連接層[14-15]輸出的特征取得了更高的檢索精度。因此,目前的主流算法是將卷積層輸出的特征進行聚合形成圖像的全局表示。卷積層的特征聚合又分為兩種:一種是編碼聚合[16-18],這種方法將卷積層的列特征看作類似于SIFT的局部特征,進行VLAD、FV或BOW等嵌入編碼,最后聚合成圖像的全局表示;另一種是直接聚合[19-22],將卷積層的特征圖直接求和聚合或加權(quán)后求和聚合,形成圖像的全局表示。

深度卷積特征比經(jīng)典手工局部特征具有更強的判別能力,而且適用于經(jīng)典SIFT特征的嵌入編碼方式不宜簡單移植到深度卷積特征上,直接對深度卷積特征進行求和聚合,可取得比常用編碼聚合方法更好的性能[19],因此本文著重研究深度卷積特征的直接聚合方法。對于典型的聚合方法——基于部位的加權(quán)聚合(part-based weighting aggregation,PWA)方法[22],筆者發(fā)現(xiàn),聚合后的特征在大部分維度上的響應(yīng)比較小,而在一小部分維度上的響應(yīng)卻明顯較大,這隱含著類似于基于SIFT的淺層編碼特征出現(xiàn)的視覺突發(fā)(visual burstiness)問題[23],即圖像特征中某些元素信息多倍于其它元素信息重復出現(xiàn),這些重復的視覺特征在進行圖像相似性度量時會起主導作用,使得圖像檢索精度降低。為了有效調(diào)節(jié)這種視覺突發(fā)效應(yīng),改善圖像檢索效果,本文運用冪歸一化方法改進PWA特征聚合方法,并在4個標準的圖像數(shù)據(jù)庫上進行圖像檢索實驗,以驗證改進方法的有效性。

1PWA特征聚合方法及其存在的問題

一般而言,深度卷積特征的聚合方法是將卷積神經(jīng)網(wǎng)絡(luò)的卷積層輸出的特征圖作為聚合算法的輸入,可用3維張量表示為X∈RK×W×H,這里W×H表示空間分辨率,K表示特征圖數(shù)量或通道數(shù)量,其中一個通道對應(yīng)的特征圖為二維矩陣Xk∈R(W×H)(k=1,2,…,K),該特征圖中的一個元素表示為Xk(i,j)∈R(i=1,2,…,W;j=1,2,…,H)。

深度卷積特征聚合方法的典型代表是基于部位的加權(quán)聚合(PWA)。文獻[24]中指出:深度卷積神經(jīng)網(wǎng)絡(luò)卷積層中特定通道對特定語義有較強的響應(yīng),一些具有區(qū)分性的通道可用來作為目標的部位檢測器(part detector)。受此啟發(fā),文獻[22]提出PWA框架,先從深度卷積神經(jīng)網(wǎng)絡(luò)卷積層輸出的所有通道中選出一部分有代表性的具有區(qū)分性的通道作為包含特定語義的部位檢測器,用作空間權(quán)重,再對該層輸出的所有卷積特征圖(通道)進行加權(quán)聚合,形成具有特定語義的區(qū)域聚合特征,然后將這些區(qū)域特征連接起來即可形成最終的圖像全局表示。

PWA方法中具有區(qū)分性的通道是根據(jù)待檢索圖像數(shù)據(jù)庫中所有圖像樣本的通道特征圖的聚合值的方差來選擇的,方差越大則該通道特征圖的區(qū)分性越強,該過程可以離線完成。第m幅圖像在卷積層輸出的第k個通道特征圖的求和聚合值為:

(1)

設(shè)圖像數(shù)據(jù)庫一共有M幅圖像,則第k個通道特征圖的均值為:

(2)

那么第k個通道特征圖的方差為:

(3)

對所有方差dk(k=1,2,…,K)排序,選擇其中最大的N個方差所對應(yīng)的通道作為部位檢測器。

將選取的N個通道特征圖表示為X(n)∈RW×H(n=1,2,…,N),則空間權(quán)重Sn(i,j)的產(chǎn)生方式可表示為:

Sn(i,j)=

(4)

式中:a和b均為冪變換參數(shù)。用該空間權(quán)重對第k個通道特征圖加權(quán)求和:

(5)

這樣,利用K個通道的加權(quán)求和特征值可構(gòu)成特征向量

Fn=[fn,1,fn,2,…,fn,K]

(6)

形成區(qū)域聚合特征,然后將N個區(qū)域特征連接起來,即形成PWA圖像全局特征表示:

Fpwa=[F1,F2,…,FN]

(7)

(8)

式中:D為最終特征的維度;P為PCA降維矩陣;σ1,σ2,…,σD為與P相關(guān)的D個奇異值。

由于PWA特征包含了語義信息,故在圖像檢索任務(wù)中取得了現(xiàn)階段較好的效果。然而如前所言,這種PWA特征可能出現(xiàn)視覺突發(fā)現(xiàn)象,影響圖像檢索精度。

以圖1為例,圖1(a)是Oxford5k圖像數(shù)據(jù)庫[25]中的一幅查詢圖像(圖中黃色框內(nèi)的建筑物窗戶),圖1(b)和圖1(c)是該庫中的兩幅參考圖像,其中圖1(b)不包含查詢區(qū)域,圖1(c)包含查詢區(qū)域。圖1(d)~(f)分別表示圖1(a)~(c)的PWA聚合特征響應(yīng)。從圖1(d)~(f)中不難發(fā)現(xiàn),原PWA聚合特征的響應(yīng)值在少數(shù)特征維度上取值特別大,而大部分特征維度上的響應(yīng)值卻相對很??;同時也容易觀察到圖1(d)與圖1(e)中響應(yīng)取較大值的位置十分相似,而圖1(d)與圖1(f)卻有明顯區(qū)別。實驗發(fā)現(xiàn),通過歐氏距離進行特征相似性度量,圖1(a)和圖1(b)的相似性大于圖1(a)和圖1(c)的相似性,表明這些少數(shù)很大的響應(yīng)主導了圖像的相似性度量,導致圖像檢索精度降低。

(a)查詢圖像(框中區(qū)域) (b)參考圖像1(c)參考圖像2

(d)查詢圖像的PWA特征響應(yīng)

(e)參考圖像1的PWA特征響應(yīng)

(f)參考圖像2的PWA特征響應(yīng)

2 利用冪歸一化改進的PWA方法

冪變換可用在很多需要拉伸數(shù)據(jù)對比度的場合。在數(shù)字圖像處理領(lǐng)域,冪變換是圖像增強算法中經(jīng)常用到的基本概念,它是一種非線性點運算,選擇合適的變換參數(shù)可實現(xiàn)圖像較亮或較暗區(qū)域的對比度增強。針對上述PWA深度聚合特征中的視覺突發(fā)現(xiàn)象,本文也采用合適的冪變換函數(shù)進行歸一化處理,改進特征加權(quán)聚合方法,以提高圖像檢索的精度。

實際上,在原PWA方法中,對部位檢測器產(chǎn)生空間權(quán)重時,對于選擇的通道采用了如式(4)所示的歸一化和尺度拉伸的冪變換處理,在一定程度上也是為了減輕不同通道聚合響應(yīng)之間的巨大差異,但它不能保證最終聚合而成的圖像全局特征響應(yīng)中不再出現(xiàn)突發(fā)現(xiàn)象,而圖像全局特征表示才是進行圖像相似性度量的關(guān)鍵;另一方面,式(4)中有兩個冪變換參數(shù)即a和b,為了使最終的圖像檢索結(jié)果最優(yōu),這兩個參數(shù)的組合情況很復雜且很難確定。

因此,在本文提出的基于冪歸一化改進的PWA方法(power-normalized PWA,PPWA)中,為了達到在最終形成的全局特征基礎(chǔ)上抑制突發(fā)度的目的,同時為了減少不必要的計算量及減小參數(shù)選擇的難度,先直接使用選定的通道特征圖作為空間權(quán)重矩陣,即將式(4)改為:

Sn(i,j)=X(n)(i,j)

(9)

再將冪歸一化方法用到原PWA聚合后的特征中,直接對式(6)中每個特征維進行參數(shù)為θ(0<θ<1)的冪變換:

p(z)=sgn(z)|z|θ

(10)

式中:p(·)為冪變換函數(shù);sgn(·)為符號函數(shù);|·|表示求絕對值;z為任一特征維上的取值。

記冪歸一化后的區(qū)域聚合特征為:

Fnθ=p(Fn)=[p(fn,1),p(fn,2),…,p(fn,K)]

(11)

則圖像全局特征變?yōu)椋?/p>

Fppwa=[F1θ,F2θ,…,FNθ]

(12)

后處理步驟中只需要進行PCA降維及白化操作,就得到最終更緊湊的D維全局特征表示,即式(8)相應(yīng)地變?yōu)椋?/p>

Ffinal_ppwa=diag(σ1,σ2,…,σD)-1PFppwa

(13)

選取合適的參數(shù)θ,將最終的全局特征用于圖像相似性度量,可以比原PWA方法取得更好的圖像檢索效果。相比于式(4)要選取兩個變換參數(shù),這里只需要選取1個,這也便于通過實驗進行確定。

PPWA方法的作用效果可以由圖2來說明。圖2(a)和圖2(b)分別顯示了將圖1(a)作為查詢圖像、使用PWA和PPWA在Oxford5k數(shù)據(jù)庫上進行檢索后返回的Top-16結(jié)果 (即前16幅最相似圖像,按相似性大小從左到右、從上到下排列)。在PWA方法的檢索結(jié)果(圖2(a))中,圖1(b)排在了第10位,而圖1(c)卻不在這前16幅圖像中;在PPWA方法的檢索結(jié)果(圖2(b))中,圖1(c)排在了第10位,而圖1(b)已經(jīng)排除在這前16幅圖像之外了,這也是圖像檢索希望看到的結(jié)果。同時也不難發(fā)現(xiàn),從所有檢索出的圖像來看,PPWA方法優(yōu)于PWA方法。

(a)PWA方法 (b)PPWA方法

圖2 采用PWA和PPWA方法對圖1(a)中查詢圖像的Top-16檢索結(jié)果

Fig.2 Top-16 retrieval results of query image in Fig.1(a) by PWA and PPWA methods

進一步地,如圖3所示,從上到下依次顯示了圖1中3幅圖像最終采用PPWA方法聚合后的特征響應(yīng)??梢?,經(jīng)過冪歸一化后的圖像響應(yīng)分布相比改進前較為均衡,特別大的響應(yīng)得以抑制,降低了其對于相似性度量的影響,而原來較小的一些響應(yīng)被拉伸,其對比度和區(qū)分性得以提升,在相似性度量中的作用也會隨之提高,這也是在圖2(b)所示的檢索結(jié)果中圖1(c)排在了第10位而圖1(b)被排除在Top-16之外的原因。

(a)查詢圖像的PPWA特征響應(yīng)

(b)參考圖像1的PPWA特征響應(yīng)

(c)參考圖像2的PPWA特征響應(yīng)

3 實驗與結(jié)果分析

3.1 圖像數(shù)據(jù)庫及實驗設(shè)置

為了進一步驗證本文方法的有效性,在公共圖像數(shù)據(jù)庫上開展了圖像檢索實驗。Oxford5k數(shù)據(jù)庫[25]包含11個牛津大學標志性建筑物的5062幅圖像,Paris6k數(shù)據(jù)庫[26]包含11個巴黎建筑物的6412幅圖像,這些圖像的拍攝視角和光照條件各不相同,除了需要檢索的目標建筑物圖像,還包含大量內(nèi)容各異的其它相關(guān)圖像。這兩個數(shù)據(jù)庫都有55幅查詢圖像,每個建筑物各有5幅,對要查詢的感興趣區(qū)域都進行了標注。每個數(shù)據(jù)庫圖像均被分配了“Good”(目標清晰)、“OK”(目標25%以上可見)、“Junk”(目標25%以下可見或目標被嚴重遮擋或變形)或“Bad”(目標不存在)4個標簽之一。評價檢索結(jié)果時,將標記為“OK”和“Good”的作為正確結(jié)果,標記為“Bad”的作為錯誤結(jié)果,標記為“Junk”的則忽略(不影響評價結(jié)果)。另外,為了測試檢索算法在大規(guī)模數(shù)據(jù)庫中的性能,還用含有99 782幅圖像的Flickr100k數(shù)據(jù)庫[25]進行擴充,分別組成Oxford105k數(shù)據(jù)庫和Paris106k數(shù)據(jù)庫。

實驗中采用裁剪出的感興趣區(qū)域作為查詢圖像,使用歐氏距離計算每幅圖像的相似性得分,并按照從高到低的順序排列,最后采用平均查準率的均值(mean average precision, mAP)評價性能。卷積層特征是用Caffe包[27]從預訓練好的VGG16[28]深度神經(jīng)網(wǎng)絡(luò)上獲取的,提取的是池化層第5層的特征圖,特征圖總數(shù)即通道數(shù)K=512。PWA方法中空間權(quán)重的變換參數(shù)取a=2和b=2(為方便比較,使用了文獻[22]中的默認值)。當對Oxford5k進行測試時,使用在Paris6k上學習的PCA降維方式,反之亦然。PCA降維維數(shù)分別設(shè)置為4096、2048、1024、512、256、128。實驗中也比較了使用查詢拓展(query expansion, QE)策略進行圖像檢索的結(jié)果,利用前10個搜索出的圖像進行查詢拓展[29],表示為QE_10。

3.2 參數(shù)選擇

3.2.1 部位檢測器個數(shù)

PWA方法中的一個重要參數(shù)是所要選取的部位檢測器數(shù)量,即通道數(shù)N(N

(a)Oxford5k和Paris6k上的結(jié)果(QE表示拓展查詢)

(b)Oxford105k和Paris106k上的結(jié)果(QE表示拓展查詢)

從圖4中可以看出,在兩個規(guī)模較小的數(shù)據(jù)庫Oxford5k和Paris6k上,選擇較小值N=18時結(jié)果最好,而在兩個規(guī)模較大的數(shù)據(jù)庫Oxford105k和 Paris106k上,選擇較大值N=30要比N=25時結(jié)果好很多,因此最后確定在Oxford5k和Paris6k上使用N=18,在Oxford105k和Paris106k上使用N=30。

3.2.2 冪歸一化參數(shù)

對本文提出的PPWA方法中的參數(shù)θ在兩個小數(shù)據(jù)庫上進行了測試,結(jié)果如圖5所示。由圖5可見,在參數(shù)θ=0.5時能獲得相對較好的結(jié)果,因此后續(xù)實驗選擇θ=0.5作為PPWA方法的冪歸一化參數(shù)。

3.3 實驗結(jié)果分析

根據(jù)所選擇的參數(shù),在上述4個數(shù)據(jù)庫上進行圖像檢索實驗,對比分析原PWA方法和本文改進后的PPWA方法,實驗結(jié)果如圖6所示。從圖6中可以看出,在兩個規(guī)模較小的數(shù)據(jù)庫Oxford5k和Paris6k上,與原PWA方法(N=25)相比,選擇更適合的部位檢測器個數(shù)(N=18)可以獲得更高的精度,同時,使用本文改進方法即PPWA又進一步提高了檢索精度。對于兩個規(guī)模較大的數(shù)據(jù)庫也有相同的實驗結(jié)果。

將本文方法與其它幾個深度特征聚合方法的性能對比結(jié)果列于表1和表2中,可以看出,采用本文方法的圖像檢索平均正確率均高于對比方法,驗證了PPWA方法的有效性。

從表1和表2中也可以看到,在不同維度和不同數(shù)據(jù)庫上, PPWA 都要優(yōu)于原PWA方法。未使用拓展查詢策略時(表1),PPWA相比于PWA在兩個小數(shù)據(jù)庫上的mAP值提高了1.2%~8.3%, 在兩個大數(shù)據(jù)庫上的mAP值提高了5.6%~13.3%;在使用拓展查詢策略QE_10時(表2),PPWA相比于PWA在兩個小數(shù)據(jù)庫上的mAP值提高了1.5% ~ 9.9%,在兩個大數(shù)據(jù)庫上的mAP值提高了4.8% ~ 18.2%,這也表明PPWA方法返回的前10個圖像與查詢圖像更相似,這正是圖像檢索希望看到的結(jié)果。特別地,在低維度(比如128和256維)時,PPWA方法在小規(guī)模數(shù)據(jù)庫上獲得的mAP值相對于PWA方法有5%以上的提升,在大規(guī)模數(shù)據(jù)庫上的精度提升更達到了10%以上,這驗證了PPWA方法在低維特征情形下的魯棒性,也表明其更適用于在大規(guī)模圖像檢索中為了提高效率而選用低維特征的情況。

(a)未使用拓展查詢時在4個數(shù)據(jù)庫上的性能表現(xiàn)

(b)使用拓展查詢時在4個數(shù)據(jù)庫上的性能表現(xiàn)

表1 PPWA與其它方法的檢索性能對比

Table 1 Comparison of retrieval performance between PPWA and other methods

方法維度不同數(shù)據(jù)庫上的mAP/%Oxford5kParis6kOxford105kParis106kCroW[21]12864.174.659.664.8PWA[22]12863.976.853.060.3PPWA12867.283.258.868.2R-MAC[20]25656.172.947.060.1CroW[21]25668.476.564.070.1PWA[22]25668.580.058.864.8PPWA25673.284.864.973.4R-MAC[20]51266.983.061.675.7CroW[21]51270.879.767.174.9PWA[22]51272.082.464.371.5PPWA51277.886. 869.777.5PWA[22]102475.484.467.674.9PPWA102480.187.473.980.2PWA[22]204878.385.471.276.7PPWA204881.588.176.782.1PWA[22]409678.986.173.678.6PPWA409681.387.178.583.0

表2 加入拓展查詢(QE_10)后PPWA與其它方法的檢索性能對比

4 結(jié) 語

本文采用冪歸一化方法來調(diào)節(jié)深度特征聚合中的視覺突發(fā)現(xiàn)象,對典型的深度卷積特征聚合方法PWA進行了改進。冪歸一化可以抑制少數(shù)通道的巨大響應(yīng),提高多數(shù)較小的通道響應(yīng)在相似性度量中的重要程度。去除冗余的空間權(quán)重變換方法以及選取合適的冪歸一化參數(shù),使得改進的PWA方法即PPWA在沒有增加計算開銷的情況下大大改善檢索精度。在多個數(shù)據(jù)庫上的圖像檢索實驗中,使用不同的特征維度以及拓展查詢策略都證實了本文方法能有效提高基于深度聚合特征的圖像檢索準確率。

猜你喜歡
相似性檢索卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
淺析當代中西方繪畫的相似性
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計
瑞典專利數(shù)據(jù)庫的檢索技巧
在IEEE 數(shù)據(jù)庫中檢索的一點經(jīng)驗
一種基于Python的音樂檢索方法的研究
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
12個毫無違和感的奇妙動物組合
基于隱喻相似性研究[血]的慣用句
修水县| 霍州市| 封丘县| 新田县| 临海市| 旬阳县| 霞浦县| 三原县| 鄂托克前旗| 宁河县| 大余县| 宜宾市| 盐边县| 建水县| 聂荣县| 册亨县| 民县| 泗洪县| 霍邱县| 海林市| 闸北区| 榆社县| 子长县| 随州市| 林口县| 雷波县| 五常市| 延川县| 句容市| 麻江县| 柳河县| 从江县| 台南县| 海城市| 株洲县| 西安市| 安吉县| 淳安县| 济阳县| 和林格尔县| 呼和浩特市|