基于深度學(xué)習(xí)的兩階段細(xì)粒度車輛檢索算法

2022-11-07 10:49江昆鵬閆洪濤張慶輝楊紅衛(wèi)

計(jì)算機(jī)應(yīng)用與軟件 2022年10期

江昆鵬閆洪濤張慶輝楊紅衛(wèi)

1(河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院河南鄭州 450001) 2(河南工業(yè)技師學(xué)院河南鄭州 450007)

0 引言

隨著我國社會(huì)經(jīng)濟(jì)的發(fā)展，越來越多的人擁有了自己的私家車，導(dǎo)致我國汽車保有量呈爆炸式增長，因此開發(fā)出一款車輛檢索系統(tǒng)具有重要的現(xiàn)實(shí)意義。此外在道路安全監(jiān)控方面，公安交通系統(tǒng)數(shù)據(jù)庫中保存有大量車輛圖像，依據(jù)車輛外觀進(jìn)行圖像檢索將有利于刑事案件的偵破。

圖像檢索是計(jì)算機(jī)視覺領(lǐng)域里一個(gè)長期研究的課題，基于內(nèi)容的圖像檢索任務(wù)早在20世紀(jì)90年代就已經(jīng)開始。2003年Sivic等[1]提出了詞包(Bag of Words,BoW)模型，該模型主要利用了尺度不變特征轉(zhuǎn)換(Scale-invariant feature transform,SIFT)[2]算法，從此以后，計(jì)算機(jī)領(lǐng)域內(nèi)的專家學(xué)者共同見證了十多年來BoW模型對圖像檢索的重要性，并對算法進(jìn)行了許多次改進(jìn)。直到2012年Krizhevsky 等[3]提出了深層卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet，并在ImageNet挑戰(zhàn)賽中獲得了冠軍，引起了學(xué)術(shù)界的廣泛關(guān)注，圖像檢索的研究重心開始轉(zhuǎn)向深度學(xué)習(xí)。直到今天基于SIFT的圖像檢索技術(shù)仍在發(fā)展，但基于卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索技術(shù)已經(jīng)成為主流?；诰矸e神經(jīng)網(wǎng)絡(luò)的圖像檢索技術(shù)大體分為三類，基于預(yù)訓(xùn)練的模型[4]、基于微調(diào)的模型[5]和混合模型[6]。前兩者基于單網(wǎng)絡(luò)傳輸，后者則基于多網(wǎng)絡(luò)傳輸[7]。然而，這些方法中大部分直接使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了特征提取，而沒有評估所獲得特征的有效性。

細(xì)粒度圖像檢索是圖像檢索領(lǐng)域的一個(gè)重要分支，不同于基于內(nèi)容的圖像檢索任務(wù)?；趦?nèi)容的圖像檢索主要針對圖像內(nèi)容的相似性進(jìn)行檢索，而細(xì)粒度圖像檢索是對主類別下的子類別進(jìn)行檢索(例如對寶馬品牌下不同型號車輛的檢索)，由于子類別之間的差異往往是細(xì)微的，因而細(xì)粒度檢索難度更大。實(shí)驗(yàn)表明目前大部分的圖像檢索算法在細(xì)粒度圖像檢索任務(wù)上效果不佳。

與解決細(xì)粒度分類任務(wù)提出的方法數(shù)量相比，解決細(xì)粒度圖像檢索任務(wù)的方法則要少得多。Wang等[8]提出利用深度排序去學(xué)習(xí)細(xì)粒度圖像間的相似性，然而這需要對圖像進(jìn)行標(biāo)注，不利于大規(guī)模圖像檢索。Wei等[9]提出一種無監(jiān)督細(xì)粒度圖像檢索方法，通過對主要目標(biāo)的定位，排除掉了無關(guān)信息的干擾，生成具有判別力的特征描述子，但該方法在車輛檢索方面效果不理想。Ahmad等[10]提出了一種基于對象的圖像檢索方法，通過設(shè)置閾值去除了無效的特征信息，并采用了哈希方法進(jìn)行了大規(guī)模圖像檢索。

以上方法主要是對全局特征的相似度進(jìn)行比較，隨著檢索類別數(shù)量的增多，檢索效果會(huì)變得不理想。為了解決這種問題，本文利用Faster R-CNN[11]對目標(biāo)區(qū)域進(jìn)行定位和類別判斷，并結(jié)合這兩項(xiàng)數(shù)據(jù)結(jié)果進(jìn)行二次檢索。本文方法首先對全局特征描述子進(jìn)行檢索，再利用局部特征描述子和類別得分對圖像進(jìn)行二次檢索。實(shí)驗(yàn)結(jié)果證明該方法在主流細(xì)粒度車輛數(shù)據(jù)集中取得了較好的檢索效果。

1 方法

為實(shí)現(xiàn)對車輛圖像的檢索任務(wù)，本文提出了一種兩階段圖像檢索方法，該方法的整體網(wǎng)絡(luò)框架如圖1所示，首先對預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行微調(diào)，在“Pool6”層設(shè)置閾值t，選擇包含有效激活區(qū)域的特征。然后進(jìn)行第一階段檢索，通過GeM pooling[12]將特征聚合為全局特征描述子，對全局特征描述子進(jìn)行降維與白化操作，再根據(jù)歐氏距離方法進(jìn)行初次檢索；第二階段采用Faster R-CNN網(wǎng)絡(luò)模型對第一階段排序結(jié)果中的圖像進(jìn)行目標(biāo)區(qū)域定位和類別預(yù)測，將具有相同類別目標(biāo)區(qū)域的特征描述子再次進(jìn)行歐氏距離相似性度量，并結(jié)合擴(kuò)展查詢，得到最終的檢索結(jié)果。

1.1 有效特征選擇

2015年牛津大學(xué)的Simonyan等[13]提出了VGG-Net，該模型的網(wǎng)絡(luò)深度為16到19層，有兩種類型，即VGG-16和VGG-19。VGG-16由13個(gè)卷積層和3個(gè)全連接組成，包含512個(gè)通道，輸入圖像被表示為一個(gè)W×H×512的3維張量。在512個(gè)通道中隨機(jī)選取一些特征圖，并將特征圖疊加在原始圖像上，以便獲得更好的可視化效果，從圖2中可以發(fā)現(xiàn)，采樣的特征圖中激活區(qū)域(圖中高亮部分)有的(如圖2(c)和圖2(d))在車輛上，有的則在背景中(如圖2(a)和圖2(b))，這說明了并非所有特征都是有效的，單個(gè)通道最多只包含弱語義信息，因此選擇和使用有用的特征是十分必要的。

選擇有效的特征有兩個(gè)重要目的：首先，可以消除不相關(guān)的特征，利用有效的特征來表示對象；其次，去除不相關(guān)的特征可以降低背景在圖像表示過程中的影響。Pool5層是VGG-16模型中最后一個(gè)最大池化層，通過調(diào)整Pool5輸出特征圖的尺寸為6×6，發(fā)現(xiàn)在車輛特定部位產(chǎn)生了不同程度的激活。為了選擇有效的特征，Ahmad等[10]通過計(jì)算每幅特征圖的平均激活值，利用空利用指數(shù)，設(shè)置閾值t，對小于閾值的特征圖進(jìn)行保留，從而消除了那些對大多數(shù)圖像沒有強(qiáng)烈反應(yīng)或產(chǎn)生空激活的特征圖，保留的特征圖表現(xiàn)出了對目標(biāo)物體的極大關(guān)注度，該方法可以在不降低VGG-16性能的情況下選擇出有效的特征。

1.2 特征聚合池化方法

經(jīng)過預(yù)訓(xùn)練模型提取的特征是一組局部特征，為了將其聚合為全局特征描述子，方便進(jìn)行相似性度量，目前主流的方法是進(jìn)行池化操作。常用的池化方法包括全局最大池化(Global Max Pooling)、全局平均池化(Global Average Pooling)。全局最大池化能更好地凸顯個(gè)體的激活信息，而損失了整體信息，全局平均池化則剛好相反，對特征圖的整體信息進(jìn)行保留，而弱化了個(gè)體信息。

通過預(yù)訓(xùn)練模型輸出一個(gè)W×H×K的3維張量R,其中K是最后一層卷積層產(chǎn)生特征圖的數(shù)量，Rk為特征圖k∈{1，2，…，K}對應(yīng)W×H的激活集合。特征聚合池化采用R作為輸入并以向量f作為輸出，向量f的全局最大池化和全局平均池化分別表示如下：

全局最大池化：

(1)

全局平均池化：

(2)

廣義平均池化(Generalized Mean Pooling，GeM pooling)[12]結(jié)合了全局最大池化和全局平均池化方法，其優(yōu)點(diǎn)是可以通過訓(xùn)練進(jìn)行優(yōu)化，如式(3)所示。

(3)

式中:pk是可微的，其值可以手動(dòng)設(shè)置也可通過訓(xùn)練獲得，當(dāng)pk趨于無窮大時(shí)效果等同于全局最大池化效果，當(dāng)pk等于1時(shí)，則和全局平均池化效果相同。

在對預(yù)訓(xùn)練模型提取的特征進(jìn)行廣義平均池化后，需要對向量f進(jìn)行2范數(shù)[14]歸一化操作，以便使得圖像之間的相似性可以通過內(nèi)積來度量，GeM向量對應(yīng)于被2范數(shù)歸一化的f向量,構(gòu)成了圖像的全局特征描述子，為初次檢索做準(zhǔn)備。

1.3 全局特征描述子降維與白化

對高維數(shù)據(jù)進(jìn)行操作是一件困難的事，許多可以在低維數(shù)據(jù)中進(jìn)行的操作無法在高維數(shù)據(jù)上實(shí)現(xiàn)。在提取數(shù)據(jù)庫中所有圖像的全局特征描述子時(shí)，會(huì)產(chǎn)生大量的計(jì)算和內(nèi)存消耗，這就需要對全局特征描述子進(jìn)行主成分分析(Principal Component Analysis,PCA)降維和白化處理[15]。

PCA是一種常用的特征降維方法，其主要優(yōu)點(diǎn)是降低數(shù)據(jù)的復(fù)雜性，只保留重要信息。PCA的工作原理是首先找出數(shù)據(jù)方差最大方向作為第一個(gè)主成分坐標(biāo)軸，接著找出數(shù)據(jù)方差次大方向且與第一主成分方向正交的坐標(biāo)軸作為第二主成分方向，以此類推找出所有主成分方向，然后通過數(shù)據(jù)集的協(xié)方差矩陣計(jì)算出主成分的特征值和特征向量，保留最大的a個(gè)特征，從而將維度降為a維特征向量。然后對a維向量進(jìn)行白化處理得到最終的全局特征描述子。

PAC降維與白化操作降低了特征的冗余度和特征間的相關(guān)性，能夠有效提高檢索效率。

1.4 相似性度量和查詢擴(kuò)展

歐氏距離是指在N維空間中兩個(gè)向量之間的絕對距離，其形式簡單，是一種常用的向量相似性度量方法。本文以歐氏距離對GeM pooling產(chǎn)生的全局特征描述子進(jìn)行相似性度量，兩個(gè)特征向量x∈(x1,xi)，y∈(y1,yn)之間距離可表示為:

(4)

為進(jìn)一步提高檢索精度，本文增加了擴(kuò)展查詢(Query Expansion,QE)[16]功能，QE是一種常用的圖像檢索方法，該方法借鑒于對文本的檢索案例。在進(jìn)行擴(kuò)展查詢之前通過計(jì)算查詢圖像特征描述子與數(shù)據(jù)庫中圖像特征描述子之間的歐氏距離，得到數(shù)據(jù)庫中排名前k個(gè)圖像的特征描述子，在擴(kuò)展查詢時(shí)對這k個(gè)特征描述子進(jìn)行均值求和并重新歸一化得到新的特征描述子，將新的特征描述子同數(shù)據(jù)庫中的特征描述子再進(jìn)行一次歐氏距離度量，得到最終的檢索結(jié)果。擴(kuò)展查詢使得特征變得更為豐富，通過兩次空間驗(yàn)證提高了查詢精度。

1.5 重排序

區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network，RPN)是Faster R-CNN的重要組成部件，經(jīng)常被用在計(jì)算機(jī)視覺領(lǐng)域。RPN是一種全卷積神經(jīng)網(wǎng)絡(luò)(FCN)，F(xiàn)CN沒有全連接層，對輸入的不同尺寸圖像經(jīng)過一次全卷積操作就可以得到多個(gè)區(qū)域的特征。RPN替代了選擇搜索(Selective search)形式的候選區(qū)域生成方式，采用了滑動(dòng)窗口在特征圖上進(jìn)行滑動(dòng)并產(chǎn)生多尺度的錨(anchor)，然后通過分類層判斷目標(biāo)區(qū)域類別，并通過邊界回歸層得到目標(biāo)位置。

在訓(xùn)練RPN過程中，給每個(gè)候選區(qū)域都分配了一個(gè)二值標(biāo)簽用以判別是否是目標(biāo)區(qū)域，對以下兩類候選區(qū)域配以正標(biāo)簽：(1) 與目標(biāo)區(qū)域有最大交并比值(Intersection-over-Union，IoU)(即兩個(gè)區(qū)域的交集和并集之比)的候選區(qū)域；(2) 與目標(biāo)區(qū)域的交并比值大于0.7的候選區(qū)域。而與所有目標(biāo)區(qū)域的交并比值低于0.3的候選框配負(fù)標(biāo)簽，其他情況的一律舍棄。RPN的損失函數(shù)由分類損失函數(shù)和邊界回歸損失函數(shù)組成，損失函數(shù)定義為：

(5)

待檢測圖像和其特征圖在位置上存在一定的對應(yīng)關(guān)系，把待檢測圖像中目標(biāo)區(qū)域映射到特征圖中的過程稱為感興趣區(qū)域(RoI)映射，該過程在感興趣區(qū)域池化層(RoI pooling layer)中完成。由于全連接層需要固定尺度的特征圖進(jìn)行訓(xùn)練，而RoI Pooling能將不同尺寸的輸入圖像以固定維度的特征向量輸出，所以RoI Pooling可以很好地將RPN產(chǎn)生的不同尺度錨縮放到固定尺度，然后傳入到全連接層中進(jìn)行目標(biāo)定位和類別預(yù)測操作。

在對查詢圖像中目標(biāo)車輛的類別進(jìn)行預(yù)測前，需要對Faster R-CNN進(jìn)行微調(diào)，將數(shù)據(jù)集所包含的類別作為可預(yù)測范圍。重排序首先將待查詢圖像和初次檢索圖像的特征圖送入RPN中產(chǎn)生候選框，經(jīng)過非極大值抑制法去除掉無關(guān)的候選框，對每個(gè)候選框進(jìn)行ROI pooling操作后送入全連接層，在全連接層中預(yù)測車輛所屬類別，并獲得該類別車輛的目標(biāo)區(qū)域。重排序過程首先對目標(biāo)區(qū)域做全局最大值池化操作，得到目標(biāo)區(qū)域的特征描述子，然后將初次檢索的圖像類別和查詢類別相同的目標(biāo)區(qū)域進(jìn)行二次歐氏距離計(jì)算，并結(jié)合擴(kuò)展查詢得到最終的排序結(jié)果，作為檢索結(jié)果按順序輸出。

2 實(shí) 驗(yàn)

本文實(shí)驗(yàn)在Caffe深度學(xué)習(xí)框架上進(jìn)行，操作系統(tǒng)使用的是Ubuntu 16.04，顯卡采用8 GB內(nèi)存的Nvidia GeForce RTX 2080，CPU為英特爾Core i7- 8700K六核，內(nèi)存為16 GB。數(shù)據(jù)集采用CompCars Dataset[17]和Stanford Cars[18]。

實(shí)驗(yàn)分別在Stanford Cars和CompCars Dataset數(shù)據(jù)集上進(jìn)行，Stanford Cars數(shù)據(jù)集是計(jì)算機(jī)視覺領(lǐng)域常用的細(xì)粒度車輛數(shù)據(jù)集，其中包含196個(gè)車型類別共計(jì)16 850幅圖像，標(biāo)注有汽車的品牌、型號、生產(chǎn)年份信息和位置邊框信息。CompCars Dataset數(shù)據(jù)集包含50 000幅監(jiān)控圖像，都是從車輛正前方拍攝，其中有281種不同類別型號的車輛。

2.1 各車輛數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)采用預(yù)訓(xùn)練模型VGG-16進(jìn)行提取特征，將GeM pooling的pk設(shè)置為固定值3，并依據(jù)數(shù)據(jù)集的特點(diǎn)對Faster R-CNN模型進(jìn)行了微調(diào)。本文采用mAP(Mean Average Precision)和precision@K(top K)進(jìn)行性能評估。

2.2 Stanford Car數(shù)據(jù)集

根據(jù)Stanford Car數(shù)據(jù)集的特點(diǎn)，調(diào)整了Faster R-CNN中的輸出層，設(shè)置預(yù)測類別為197個(gè)(包括背景類別)，從每個(gè)類別下抽出5幅用于測試，不參與訓(xùn)練過程。首先將查詢圖像通過GeM分支進(jìn)行初次檢索，將檢索結(jié)果進(jìn)行保存供重排序使用，圖3所示為初次檢索結(jié)果中的前8幅圖像，圖中左上角為查詢圖像，后面為查詢結(jié)果，按照相似度由大到小的順序從左到右從上到下依次排列，其中1、3、7、8位置為正確結(jié)果。然后，在初次查詢結(jié)果的基礎(chǔ)上進(jìn)行重排序檢索，作為最終的檢索結(jié)果輸出，重排序結(jié)果如圖4所示，1、2、3、4、5、7、8位置為正確結(jié)果，從實(shí)驗(yàn)結(jié)果中可以看出重排序?qū)z索精度的提高效果明顯。

為了證明方法的先進(jìn)性，本文將算法與主流圖像檢索算法在Stanford Cars數(shù)據(jù)集上進(jìn)行檢索精度對比,Top1和Top5的mAP比較結(jié)果如表1所示。R-MAC[4]算法利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的局部特征，然后利用不同尺度的滑動(dòng)窗口進(jìn)行Global Max Pooling操作將特征聚合為全局特征描述子，在多區(qū)域模式下，利用積分圖像和近似極大值算子可加快該過程。SPoC[19]算法利用sum pooling提取全局特征描述子，使用經(jīng)向基函數(shù)計(jì)算特征平面，但忽略了每個(gè)通道的權(quán)值，導(dǎo)致去噪效果不好。CroW算法[20]對CNN最后一個(gè)卷積層提取的特征添加了權(quán)重，并且對每個(gè)卷積通道也進(jìn)行加權(quán)處理，達(dá)到了較好的效果。SCDA算法[9]主要針對細(xì)粒度圖像檢索任務(wù)，使用極大連通圖定位圖像中的物體，以去除背景噪聲，算法將全局最大池化和全局平均池化進(jìn)行了串聯(lián)，在細(xì)粒度檢索上取得了不錯(cuò)的效果。HLBP算法[21]利用多個(gè)卷積層特征的自相關(guān)和互相關(guān)性，有效融合了多層特征信息，提高了圖像檢索性能。CGD算法[22]組合了多個(gè)全局描述子，在端到端的方式進(jìn)行訓(xùn)練時(shí)，可以操作不同類型的特征屬性，獲得了比單個(gè)全局描述子更好的效果。

表1 Stanford Cars數(shù)據(jù)集檢索mAP結(jié)果

圖5顯示了在Stanford Cars數(shù)據(jù)集上precision@K(top K)的檢索精度比較，其中K分別取5、10、15、20、25，可以看出本文算法相比以往大部分算法在細(xì)粒度圖像檢索任務(wù)上的先進(jìn)性。

2.3 CompCars Dataset數(shù)據(jù)集

CompCars Dataset下包含有50 000幅車輛監(jiān)控圖像，全部在車輛正面拍攝，根據(jù)數(shù)據(jù)集中包含的車輛類別數(shù)量，將Faster R-CNN的預(yù)測類別設(shè)置為282個(gè)(包含背景類別)，從每個(gè)類別下抽出5幅圖像用于查詢測試，不參與訓(xùn)練過程。如圖6所示為查詢結(jié)果，每行第一個(gè)為查詢圖像，后面為此按相似度排序最高的前四張圖像，第一行4和第二行3、4為查詢錯(cuò)誤圖像。

由于光照度影響，數(shù)據(jù)集中在夜間拍攝的車輛圖像沒有被檢索出來，這些圖像往往存在車輛輪廓無法辨認(rèn)的情況，影響了數(shù)據(jù)集整體的檢索效果。

3 結(jié) 語

本文提出了一種兩階段細(xì)粒度車輛圖像檢索算法，首先對預(yù)訓(xùn)練卷積模型進(jìn)行微調(diào)，對提取的特征進(jìn)行篩選，排除無關(guān)的背景信息，然后在第一階段中利用generalized mean pooling對局部特征進(jìn)行聚合，獲得圖像的全局特征描述子，對全局描述子進(jìn)行PCA降維與白化處理，并使用歐氏距離法進(jìn)行初次檢索；第二階段利用Faster R-CNN的類別預(yù)測和定位功能，將查詢圖像與初次檢索圖像類別相同的目標(biāo)區(qū)域特征描述子之間再次進(jìn)行歐氏距離計(jì)算，最后結(jié)合擴(kuò)展查詢得到檢索結(jié)果。實(shí)驗(yàn)結(jié)果表明，本文方法相比以往的主流檢索方法在細(xì)粒度車輛圖像檢索準(zhǔn)確率上優(yōu)勢明顯。本文主要針對小規(guī)模、固定數(shù)量的數(shù)據(jù)集進(jìn)行檢索。針對交通系統(tǒng)的實(shí)時(shí)性、數(shù)據(jù)量大的特點(diǎn)，利用大數(shù)據(jù)技術(shù)進(jìn)行存儲與檢索是今后的研究方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡