馮慶賀,聶廣華,劉榮升,遲明路,王元利,高雅昆,張建霞
(1.河南工學(xué)院 智能工程學(xué)院,河南 新鄉(xiāng) 453003;2.河南工學(xué)院 電氣工程與自動化學(xué)院,河南 新鄉(xiāng) 453003)
伴隨著個人移動終端、對地觀測衛(wèi)星、醫(yī)學(xué)影像設(shè)備和交通視頻監(jiān)控設(shè)備的普及應(yīng)用,海量的人臉圖像、遙感圖像、醫(yī)學(xué)圖像和交通視頻監(jiān)控圖像正在不斷地被收集和存儲[1,2]。由于圖像的數(shù)量呈現(xiàn)了爆炸式增長,因此高效準(zhǔn)確地檢索到感興趣的目標(biāo)圖像,在移動邊緣計算領(lǐng)域、遙感衛(wèi)星觀測領(lǐng)域、醫(yī)學(xué)輔助診斷領(lǐng)域和智能交通監(jiān)控領(lǐng)域都成為一個被廣泛關(guān)注的研究熱點,而有效的特征提取對圖像檢索系統(tǒng)的準(zhǔn)確性和高效性方面都起著關(guān)鍵的作用[3,4]。
縱覽國內(nèi)外研究現(xiàn)狀,特征提取方法大致可以劃分為圖像底層視覺特征提取方法和深度卷積特征提取方法兩個方面。圖像底層視覺特征提取方法主要包括顏色特征提取、形狀特征提取和紋理特征提取三個大類[5,6]。最近幾年,深度卷積特征提取開始逐漸走進(jìn)圖像檢索領(lǐng)域。不同于圖像顏色、形狀和紋理特征,深度卷積特征提取方法主要從圖像的語義進(jìn)行考慮[7]。但是基于圖像分類任務(wù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型并不可以直接應(yīng)用于圖像檢索任務(wù)。其中重要的原因是圖像分類任務(wù)的目標(biāo)是將具有相同語義的圖像劃分到一個類別內(nèi)[8],然而圖像檢索任務(wù)需要具體到同一個事物。例如在最常用的Pairs-6K地標(biāo)建筑數(shù)據(jù)集中進(jìn)行埃菲爾鐵塔圖像檢索,就需要所檢索到的圖像中包含埃菲爾鐵塔這個地標(biāo)性建筑。因此從預(yù)訓(xùn)練模型抽取的深度卷積特征通常存在嚴(yán)重的冗余影響圖像檢索準(zhǔn)確率的問題。
針對這個問題,提出一種深度卷積聚合(Deep Convolutional Aggregation, DCA)算法用于消減預(yù)訓(xùn)練模型抽取的深度卷積特征冗余,以提高圖像檢索的準(zhǔn)確率。所提出算法可以概括為三個步驟:篩選、聚合和池化。在篩選步驟中,提出一種基于熵的卷積描述子篩選策略;在聚合步驟中,卷積描述子通過洪泛算法聚合為目標(biāo)掩碼圖;在池化步驟中,卷積特征圖內(nèi)部的目標(biāo)掩碼圖區(qū)域被池化后再聚合。再通過在公共的地標(biāo)建筑圖像數(shù)據(jù)集上的定量和定性實驗,以驗證該算法在特征篩選上的有效性和在地標(biāo)建筑圖像檢索上的優(yōu)越性。
當(dāng)前預(yù)訓(xùn)練的AlexNet、GoogLeNet、VGGNet、ResNet和DenseNet等卷積神經(jīng)網(wǎng)絡(luò)模型已經(jīng)廣泛應(yīng)用于圖像檢索研究工作,考慮到在ImageNet上預(yù)訓(xùn)練VGG16網(wǎng)絡(luò)模型的良好遷移學(xué)習(xí)性能,并且當(dāng)前大多數(shù)圖像檢索的研究工作也都基于VGG16網(wǎng)絡(luò)模型上進(jìn)行深度卷積特征提取,為了保證算法和實驗對比的有效性和公平性,本文采用預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)模型作為算法的基礎(chǔ)。與此同時,本文也采用文獻(xiàn)[9]中的參數(shù)設(shè)置方案,圖像的尺寸被重置為700×700后輸入網(wǎng)絡(luò)模型中,之后抽取模型的池化5層(Pool-5)進(jìn)行深度卷積特征提取。如圖1所示,在Pool-5層解析中,將Pool-5看做一個三維卷積激活張量,其包含K個大小為L×W的卷積特征圖集合S,其中任意一個卷積特征圖標(biāo)記為Sk,k∈K。為了方便,本文采用不同的顏色進(jìn)行卷積特征圖的區(qū)分[10]。轉(zhuǎn)換空間角度,將Pool-5三維卷積激活張量看作L×W個卷積描述子,其中每一個卷積描述子可以看作一個K維變量標(biāo)記為Cell(l,w),其中l(wèi)∈[1,L],w∈[1,W]。
圖1 Pool-5層解析
然而,Pool-5卻不適合直接作為一個深度卷積特征,主要原因是卷積神經(jīng)網(wǎng)絡(luò)模型自身存在嚴(yán)重的參數(shù)冗余問題。如文獻(xiàn)[10]認(rèn)為,卷積神經(jīng)網(wǎng)絡(luò)模型精度只損失1%的前期下,采用最簡單的標(biāo)量量化方法可以將網(wǎng)絡(luò)模型參數(shù)的總量壓縮至原大小的1/16到1/24;卷積神經(jīng)網(wǎng)絡(luò)模型中只需要5%的參數(shù),即可重構(gòu)出剩下95%參數(shù);在卷積神經(jīng)網(wǎng)絡(luò)模型精度只損0.58%的情況下,采用通用的網(wǎng)絡(luò)量化方法可以將網(wǎng)絡(luò)模型的體積縮減20.34倍,浮點數(shù)運算的次數(shù)縮減4.06倍。基于以上研究結(jié)論,本文推測卷積神經(jīng)網(wǎng)絡(luò)模型中Pool-5也存在著嚴(yán)重冗余。為了驗證這種推測,本文對Pool-5中所有卷積特征圖Sk進(jìn)行了求和,獲得一個掩碼圖,之后等比放大至原圖像大小。如圖2所示,可以看到在Oxford-5K和Pairs-6K數(shù)據(jù)集上不同地標(biāo)建筑物的Pool-5掩碼圖定位結(jié)果示例,其中掩碼區(qū)域代表求和后值不為0的區(qū)域。從圖中可以清楚看到目標(biāo)掩碼圖幾乎覆蓋了整張圖像的絕大多數(shù)區(qū)域,其中包括干擾的天空背景、遮擋的樹木、周圍建筑等等。如此之多的干擾因素不僅會導(dǎo)致Pool-5的嚴(yán)重冗余問題,更會影響到深度卷積特征的表達(dá)能力,增加計算負(fù)擔(dān)和存儲花費。如何有效去除冗余是一個值得研究的問題。
(a) Oxford-5K數(shù)據(jù)集
熵這個概念最初由Clausius在熱力學(xué)中將其定義為體系混亂的程度。之后Shannon將信息熵的概念引入信息論,將其定義為變量的不確定度。變量的不確定度通常采用概率分布進(jìn)行度量。在數(shù)學(xué)上,設(shè)X為一個變量,其取值范圍為?,x∈?。變量X的熵被定義為H(X),具體定義如下所示[11]:
(1)
式中,p(x)代表x的概率。通常H(X)越大代表變量X的不確定度越高,所包含的信息也就越多。
受啟發(fā)于Shannon信息熵理論,本文將卷積層中每個卷積描述子看做一個變量。如果卷積描述子里面存在不為0的值越多,那么代表卷積描述子的不確定度也就越高,對應(yīng)的熵值也就越大。據(jù)此,本文構(gòu)建了深度卷積聚合算法如圖3所示,Pool-5中每一個卷積描述子Cell(l,w)的熵被定義為H(l,w),具體定義如下所示:
圖3 深度卷積聚合算法流程圖
(2)
式中,p(k)代表k的概率。通常熵H(l,w)的值越大代表卷積描述子Cell(l,w)的不確定度越高。
(3)
(4)
盡管在2.1節(jié)根據(jù)熵值去除了池化五層中部分冗余的卷積描述子Cell(l,w),然而實際上所篩選出的感興趣卷積描述子仍然存在著部分冗余,并不是所有的感興趣卷積描述子都屬于目標(biāo)區(qū)域。為了進(jìn)一步有效篩選出目標(biāo)所在的區(qū)域,本文利用文獻(xiàn)[9]中的洪泛算法,將所有感興趣卷積描述子聚合為N個候選的感興趣區(qū)域(Region-of-Interest, ROI),返回其中最大的感興趣區(qū)域作為目標(biāo)掩碼圖Mask,具體定義如下:
(5)
式中,ROIn表示為第n個感興趣區(qū)域,n∈[1,2,…,N]。在池化五層中,N的值為512。
接下來,本文將目標(biāo)掩碼圖Mask與Pool-5中每一張卷積特征圖Sk進(jìn)行交集運算,用于選取Sk中目標(biāo)區(qū)域(Object-of-Rgion)ORk,具體定義如下所示:
ORk=Mask?Sk
(6)
其中符號?代表交集運算。
之后,對從特征圖Sk中選取的目標(biāo)區(qū)域ORk進(jìn)行平均池化,獲得DCAave。具體定義如下所示:
(7)
為了進(jìn)一步將DCAave串聯(lián)為深度卷積聚合特征向量DCA,DCA具體定義如下所示:
DCA=[DCAave(0),DCAave(1),…,DCAave(k-1)]
(8)
為保證實驗的精準(zhǔn)性和可復(fù)現(xiàn)性,本文參照文獻(xiàn)[12,13]中的實驗參數(shù)設(shè)置方案,把最常用的Oxford-5K和Pairs-6K地標(biāo)建筑數(shù)據(jù)集用于測試所提出方法的檢索性能。在實驗中,DCA特征向量經(jīng)過L2歸一化后利用歐式距離進(jìn)行相似性度量。定量的檢索效果評價指標(biāo)采用平均準(zhǔn)確率(Mean Average Precision, mAP)。
如圖4所示,Oxford-5K數(shù)據(jù)集上的原始Pool-5掩碼圖幾乎被全圖覆蓋,而所提出的目標(biāo)掩碼圖Mask的覆蓋區(qū)域明顯減少。在細(xì)節(jié)上,可以看到目標(biāo)掩碼圖不僅濾掉過原圖像中天空區(qū)域等冗余,而且準(zhǔn)確定位出檢索目標(biāo)所在的區(qū)域。如圖5所示,在Pairs-6K數(shù)據(jù)集上,可以觀察到所提出的目標(biāo)掩碼圖Mask依然可以有效過濾整張圖像中的冗余,并準(zhǔn)確地定位出地標(biāo)建筑所在的目標(biāo)區(qū)域。
圖4 Oxford-5K和Pairs-6K數(shù)據(jù)集上掩碼圖示例
圖5 Pairs-6K數(shù)據(jù)集上掩碼圖示例
表1列出了在Oxford-5K和Pairs-6K數(shù)據(jù)集上、Pool-5(原始)、文獻(xiàn)[13]中HFCLF方法和DCA(本文)的mAP結(jié)果對比。表中粗體數(shù)值表示在Oxford-5K和Pairs-6K數(shù)據(jù)集上的最高mAP。從表1可以看到DCA在Oxford-5K和Pairs-6K數(shù)據(jù)集上的mAP(%)為59.0和68.8,明顯優(yōu)于Pool-5和HFCLF方法。主要原因在于DCA不僅消減了Pool-5中的冗余,而且聚合不同層增加了特征的表達(dá)能力,進(jìn)而提升了檢索的準(zhǔn)確率。
表1 在Oxford-5K和Pairs-6K數(shù)據(jù)集上平均準(zhǔn)確率對比
本文提出了一種深度卷積聚合特征提取算法。受啟發(fā)于Shannon信息熵理論,提出了利用熵值作為閾值篩選出感興趣的卷積描述子,之后通過洪泛算法將感興趣的卷積描述子聚合為目標(biāo)掩碼圖,用于卷積特征圖中對應(yīng)區(qū)域的篩選,最后篩選出的區(qū)域在平均池化后進(jìn)行串聯(lián)聚合。通過在Oxford-5K和Pairs-6K圖像數(shù)據(jù)集上的定性和定量實驗結(jié)果對比證明了本文所提算法的優(yōu)越性和有效性。