国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合神經(jīng)網(wǎng)絡(luò)與超像素的候選區(qū)域優(yōu)化算法

2021-08-24 03:17:44王春哲安軍社姜秀杰邢笑雪崔天舒
關(guān)鍵詞:候選框滑動(dòng)邊緣

王春哲,安軍社,姜秀杰,邢笑雪,崔天舒

(1. 中國(guó)科學(xué)院國(guó)家空間科學(xué)中心 復(fù)雜航天系統(tǒng)電子信息技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100190;2. 中國(guó)科學(xué)院大學(xué), 北京 100049; 3. 長(zhǎng)春大學(xué) 電子信息工程學(xué)院, 吉林 長(zhǎng)春 130022)

在諸如目標(biāo)檢測(cè)、目標(biāo)跟蹤等計(jì)算機(jī)視覺(jué)任務(wù)中,候選區(qū)域算法有著廣泛的應(yīng)用。所謂候選區(qū)域,即使用目標(biāo)的顏色、紋理等信息尋找圖像中更可能出現(xiàn)的目標(biāo)的區(qū)域框[1]。

在目標(biāo)檢測(cè)及跟蹤等任務(wù)中,需要將圖像中的目標(biāo)進(jìn)行識(shí)別與定位。解決這一任務(wù)的傳統(tǒng)策略是在圖像中密集采樣滑動(dòng)窗口,并判別每個(gè)滑動(dòng)窗口是否含有目標(biāo)。由于該范式下生成的滑動(dòng)窗口質(zhì)量不高,因此需要訓(xùn)練復(fù)雜的分類(lèi)器,浪費(fèi)了計(jì)算資源[2-3]。在文獻(xiàn)[1-3]中指出,僅在單尺度下,每張圖像需要處理104~105個(gè)滑動(dòng)窗口,而且當(dāng)前的目標(biāo)檢測(cè)要求檢測(cè)算法處理不同尺度及不同寬高比下的目標(biāo),極大地增加了算法的復(fù)雜度。

使用候選區(qū)域算法能夠有效提高目標(biāo)的檢測(cè)效率,如在基于快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast Regions with Convolutional Neural Network, Fast RCNN)的檢測(cè)算法中,使用選擇性搜索(Selective Search,SS)算法[4]生成大約2 000個(gè)候選框;在Faster RCNN中,使用候選區(qū)域網(wǎng)絡(luò)(Region Proposals Network, RPN)生成大約800個(gè)候選框[5]。當(dāng)前主流候選區(qū)域算法主要有Object-ness[6],BING[7]及Edge Boxes[8]。

隨著深度神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,其已經(jīng)在目標(biāo)檢測(cè)、圖像哈希(Image Hashing,IH)、圖像細(xì)分類(lèi)、視覺(jué)描述與生成、視覺(jué)問(wèn)答等方面有著廣泛的應(yīng)用[9]。特別地,文獻(xiàn)[10]使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為代理來(lái)構(gòu)建哈希函數(shù)以及序列化學(xué)習(xí)策略(Sequential Learning Strategy,SLS)來(lái)完成圖像哈希;文獻(xiàn)[11]則通過(guò)神經(jīng)網(wǎng)絡(luò)提出一種細(xì)粒度的視覺(jué)-文本(Visual-Textual,VT)表達(dá)學(xué)習(xí)方法來(lái)完成圖像的細(xì)分類(lèi)。

目標(biāo)的邊緣和邊界常被定義為具有目標(biāo)的語(yǔ)義信息[12]。Edge Boxes通過(guò)統(tǒng)計(jì)滑動(dòng)窗口中出現(xiàn)目標(biāo)的邊緣信息量來(lái)確定候選區(qū)域,但由于Edge Boxes仍使用的是傳統(tǒng)的邊緣生成算法,不能夠準(zhǔn)確地描述目標(biāo)的邊界,具有一定的局限性[3]。由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)通過(guò)模擬人類(lèi)的感知系統(tǒng),通過(guò)自適應(yīng)學(xué)習(xí)方式能夠更準(zhǔn)確地描述目標(biāo)的邊緣,生成更富有語(yǔ)義信息的邊緣特征,有助于提高目標(biāo)候選區(qū)域的質(zhì)量。

目標(biāo)顯著性[13-17],是在圖像的多尺度層面統(tǒng)計(jì)圖像中目標(biāo)與背景的對(duì)比度、形狀等信息,通過(guò)合理的數(shù)學(xué)模型來(lái)模擬人類(lèi)視覺(jué)感知系統(tǒng),快速地將目標(biāo)從背景中區(qū)別出來(lái)。在視頻分類(lèi)、圖像細(xì)分類(lèi)、顯著性目標(biāo)分割等領(lǐng)域有著廣泛的應(yīng)用。

文獻(xiàn)[18]從運(yùn)動(dòng)學(xué)的角度,將視頻幀分成顯著性區(qū)域和非顯著性區(qū)域,并使用不同的網(wǎng)絡(luò)分別對(duì)顯著性、非顯著區(qū)域建模以達(dá)到視頻分類(lèi)的目的。文獻(xiàn)[19]使用了一種全局平均池化(Global Average Pooling,GAP)層的神經(jīng)網(wǎng)絡(luò),稱(chēng)之為顯著性提取網(wǎng)絡(luò)(Saliency Extraction Network,SEN)來(lái)提取每張圖像的顯著性信息,并配合檢測(cè)框架完成圖像的細(xì)分類(lèi)。此外,文獻(xiàn)[20]聯(lián)合了目標(biāo)顯著性的先驗(yàn)知識(shí),精調(diào)顯著性圖及語(yǔ)義分割數(shù)據(jù)的預(yù)訓(xùn)練策略來(lái)完成顯著性分割任務(wù)。

在目標(biāo)顯著性檢測(cè)中,常用超像素算法提取目標(biāo)信息特征。由于自然圖像具有高度結(jié)構(gòu)化特性[12],若將能夠描述圖像局部信息的超像素引入候選區(qū)域算法,可有效提高候選區(qū)域的召回率。

本文從神經(jīng)網(wǎng)絡(luò)、目標(biāo)顯著性?xún)蓚€(gè)線(xiàn)索來(lái)研究目標(biāo)的候選區(qū)域算法。使用深度卷積神經(jīng)網(wǎng)絡(luò)提取更能表達(dá)目標(biāo)邊界的邊緣特征;利用超像素的空間位置、完整性及相鄰超像素間的對(duì)比度策略來(lái)描述每個(gè)超像素的顯著性得分;最后統(tǒng)計(jì)每個(gè)滑動(dòng)窗口中含有目標(biāo)的邊緣信息量及包含超像素的顯著性得分,篩選滑動(dòng)窗口。

1 卷積邊緣特征與目標(biāo)顯著性

所提算法主要包括三部分:①邊緣特征圖的生成、邊緣點(diǎn)聚合及邊緣簇權(quán)重的計(jì)算;②超像素的顯著性得分;③篩選滑動(dòng)窗口。首先,使用豐富卷積特征(Richer Convolutional Features,RCF)網(wǎng)絡(luò)生成富有語(yǔ)義信息的卷積邊緣特征圖,并結(jié)合邊緣點(diǎn)聚類(lèi)獲取邊緣簇、邊緣簇間的相似性等策略獲取每個(gè)邊緣簇權(quán)重;然后,在整張圖像上使用簡(jiǎn)單線(xiàn)性迭代的聚類(lèi)(Simple Linear Iterative Clustering,SLIC)算法將圖像分割成若干圖像塊,并利用相鄰超像素間顏色直方圖的卡方距離(Chi-Square Distance,CSD)、超像素的空間位置及完整性等策略,統(tǒng)計(jì)每個(gè)滑動(dòng)窗口的顯著性得分;最后,根據(jù)每個(gè)滑動(dòng)窗口含有的邊緣信息得分、顯著性得分,篩選滑動(dòng)窗口,確定候選區(qū)域。其算法結(jié)構(gòu)如圖1所示。

圖1 所提算法的實(shí)現(xiàn)框圖Fig.1 Block diagram of the proposed algorithm

1.1 卷積邊緣特征

RCF結(jié)構(gòu)的骨架是VGG-16網(wǎng)絡(luò),由卷積層、concat層和cross-entropy層組成[12],其結(jié)構(gòu)見(jiàn)文獻(xiàn)[3,12]。為更直觀地說(shuō)明卷積邊緣特征,在邊緣檢測(cè)數(shù)據(jù)集BSD500任意選取一張?jiān)紙D像(見(jiàn)圖2(a)),及使用幾種邊緣檢測(cè)算子生成的邊緣特征圖(見(jiàn)圖2(c)~圖2(e)),圖2(b)為真實(shí)的邊緣特征圖。由圖2(c)可知,傳統(tǒng)邊緣檢測(cè)算子Canny生成的邊緣特征,目標(biāo)輪廓較差,目標(biāo)語(yǔ)義信息較弱;由圖2(e)可知,使用RCF網(wǎng)絡(luò)生成的邊緣特征,目標(biāo)輪廓更加明顯,目標(biāo)語(yǔ)義信息豐富。豐富的語(yǔ)義信息可使用相對(duì)簡(jiǎn)單的分類(lèi)器進(jìn)行目標(biāo)分類(lèi),有效降低了算法的復(fù)雜度。

給定任意一個(gè)邊緣簇s,任取s中的任意一個(gè)邊緣點(diǎn)p,用四維向量[mp,θp,xp,yp]表示。向量中的參數(shù)分別為邊緣點(diǎn)p的邊緣強(qiáng)度、方向角及空間位置坐標(biāo)。根據(jù)邊緣點(diǎn)p可確定邊緣簇s的空間位置。

(1)

其中,P是s中所有邊緣點(diǎn)組成的集合。

因此,邊緣簇s的方向角θs為:

(2)

(3)

式中,γ是調(diào)整方向角的變化對(duì)相似性a(ti,tj)的敏感程度的參數(shù)[8],鑒于Edge Boxes算法的取值,取γ=2。

給定滑動(dòng)窗口b及邊緣簇tk,使用參數(shù)wb(tk)∈[0,1]來(lái)描述tk是否被滑動(dòng)窗口b包圍。若wb(tk)=0,表明滑動(dòng)窗口b與邊緣簇tk不相交;若wb(tk)=1,表明tk完全在b中[8]。而對(duì)于其他的邊緣簇ti,采用以下策略來(lái)確定參數(shù)wb(ti)。

步驟1:建立一個(gè)集合Tb作為與滑動(dòng)窗口b的邊界完全相交的邊緣簇。若邊緣簇ti∈Tb,則wb(ti)=0。

(4)

(5)

(a) 原圖(a) Original image (b) 真實(shí)邊緣特征(b) Real Edge Features (c) Canny (d) 結(jié)構(gòu)化的邊緣(d) Structured edges (e) RCF 圖2 幾種邊緣特征圖的對(duì)比Fig.2 Comparisons of several edge features

1.2 顯著性得分

1.2.1 超像素

圖3為使用SLIC算法[21]分割的超像素示意圖。圖3中每一個(gè)閉合區(qū)域?yàn)橐粋€(gè)超像素。

從圖3可知:①任意一個(gè)超像素塊與相鄰超像素塊顏色的對(duì)比度較大;②靠近圖像中心的超像素更可能含有目標(biāo);③在圖像邊緣像素個(gè)數(shù)越多的區(qū)域更可能成為背景,如圖3中的br。含有目標(biāo)區(qū)域的bc無(wú)邊緣像素,br含有相對(duì)較多的邊緣像素。為方便起見(jiàn),把包含圖像邊緣像素的數(shù)目作為指標(biāo)來(lái)定義一個(gè)超像素的完整性。

對(duì)于一張圖像X,其中心坐標(biāo)為(x0,y0)。首先使用SLIC算法將其過(guò)分割成L個(gè)超像素{ci}(i=1,…,L)。SLIC算法對(duì)不同圖源的圖像具有通用性,其算法流程及初值選取情況如下所示。

圖3 SLIC算法生成超像素Fig.3 Superpixels generated from SLIC algorithm

R通道顏色直方圖的卡方距離

(6)

G通道顏色直方圖的卡方距離

(7)

B通道顏色直方圖的卡方距離

(8)

為考慮計(jì)算成本,取nbin=8。則超像素ci與nj直方圖的卡方距離為:

(9)

常使用與相鄰超像素nj間的卡方距離d(ci,nj)、超像素ci的空間位置g(xci,yci)及完整性q(u)來(lái)描述超像素ci的顯著性[16]。因此,超像素ci的顯著性[16]為:

(10)

式中,wij是給對(duì)應(yīng)的p(d(ci,nj))賦予的權(quán)重值,其值的大小為:

(11)

式中,count(ο)表示含有ο的個(gè)數(shù)。

p(φ)=-lg(1-φ)

(12)

式中,函數(shù)p(φ)目的是保證輸入為φ時(shí),輸出為正值。

由此可知,超像素ci與nj直方圖的卡方距離越大,p(d(ci,nj))值也將越大。g(xci,yci)描述超像素ci的中心(xci,yci)與圖像中心(x0,y0)歸一化的空間距離:

(13)

如前所述,一個(gè)完整的超像素應(yīng)是一個(gè)閉合(連通)區(qū)域,如bc。而對(duì)于超像素br,由于位于圖像的邊緣,并不是一個(gè)完整的超像素。因此,引入描述超像素的完整性參數(shù)q(u)。

(14)

其中:μ為超像素ci所包含在圖像邊緣像素的數(shù)目;E為圖像X中所有邊緣像素的數(shù)目;λ用來(lái)控制E對(duì)q(u)的影響強(qiáng)度;η是一個(gè)閾值。鑒于文獻(xiàn)[16]的取值,取λ=0.05,η=0.07。

由式(14)知,當(dāng)μ=0時(shí),q(u)=1,表明超像素ci不在圖像的邊緣;當(dāng)μ≠0時(shí),q(u)是一個(gè)取值范圍在[0,1]之間的正數(shù)。

由此可知,超像素ci與所有相鄰的超像素nj間的顯著性f(ci)的值越大,超像素ci包含目標(biāo)的可能性越大。

1.2.2 滑動(dòng)窗口的顯著性得分

給定滑動(dòng)窗口b,用四維向量[bx,by,bw,bh]表示。為確定滑動(dòng)窗口b包含超像素ci的程度,首先,計(jì)算滑動(dòng)窗口b的中心位置坐標(biāo)(bmx,bmy):

(15)

其中:bx,by分別為滑動(dòng)窗口b左上角的位置坐標(biāo);bw,bh分別為滑動(dòng)窗口b的寬與高。

然后計(jì)算圖像X上所有超像素的中心位置坐標(biāo)(xci,yci)(i=1,…,L)。確定超像素ci的中心位置坐標(biāo)的算法,見(jiàn)算法1。

目標(biāo)顯著性得分情況如圖4所示。圖4中,超像素2、5被滑動(dòng)窗口完全包圍,超像素1、3、4被滑動(dòng)窗口部分包圍。為確定滑動(dòng)窗口b包含超像素ci的程度,使用b的中心位置(bmx,bmy)與超像素ci中心位置(xci,yci)之間的歐氏距離dis(b,ci)是否滿(mǎn)足:

dis(b,ci)≤δ

(16)

圖4 目標(biāo)顯著性得分示意圖Fig.4 Illustration of object saliency scores

(17)

使用b中包含所有超像素{cψ}的顯著性得分作為滑動(dòng)窗口b的顯著性得分:

(18)

式中,Nb表示b中含有的超像素的個(gè)數(shù)。

1.3 篩選候選框

將上述獲得滑動(dòng)窗口的邊緣信息得分hb以及顯著性得分Ssal(b),并給予恰當(dāng)權(quán)重值,作為此滑動(dòng)窗口b含有目標(biāo)的得分。

(19)

最后,按照每個(gè)候選區(qū)域b的得分從高到低排列,選取指定個(gè)數(shù)的候選區(qū)域進(jìn)行后續(xù)的目標(biāo)檢測(cè)。

2 數(shù)據(jù)分析與性能比較

2.1 數(shù)據(jù)集選取、評(píng)價(jià)指標(biāo)及RCF網(wǎng)絡(luò)的訓(xùn)練

在目標(biāo)檢測(cè)領(lǐng)域中廣泛使用PASCAL VOC 2007數(shù)據(jù)集進(jìn)行測(cè)試。該數(shù)據(jù)集由訓(xùn)練集、驗(yàn)證集與測(cè)試集組成。包含20類(lèi)、共24 640個(gè)目標(biāo),分布在9 963張圖像中。

使用召回率來(lái)衡量候選區(qū)域算法的性能,召回率是描述候選區(qū)域算法生成有效的目標(biāo)候選框占所有目標(biāo)候選框的比重[3]。

借鑒文獻(xiàn)[12]中關(guān)于RCF網(wǎng)絡(luò)的訓(xùn)練方法,即直接使用Liu等訓(xùn)練好的RCF網(wǎng)絡(luò)[12],在PASCAL VOC 2007數(shù)據(jù)集中獲取對(duì)應(yīng)每張圖像的邊緣特征。關(guān)于RCF網(wǎng)絡(luò)超參數(shù)的設(shè)置見(jiàn)文獻(xiàn)[12]。

2.2 參數(shù)確定

由表1可知:當(dāng)α=0.2、τ=0.8、IoU=0.7及0.9時(shí),PRPA4取得最高的召回率。在高IoU的取值下,獲得召回率值最高的參數(shù)組合,表明候選框與標(biāo)注候選框重合面積越大,其定位性能越好,因此選擇PRPA4,即參數(shù)α=0.2、τ=0.8。

表1 所提算法在VOC 2007驗(yàn)證集的召回率

2.3 數(shù)據(jù)性能分析

為論證所述算法的性能,選取近幾年來(lái)較流行的算法如:SS[4]、Object-ness[6]、BING[7]、Edge Boxes[8]、CPMC[22]、Randomized Prim′s[23]、Geodesic[24]、MCG[25]、Rantalankila[26],在VOC 2007測(cè)試集上進(jìn)行對(duì)比實(shí)驗(yàn)。

固定候選區(qū)域數(shù)目,研究各種算法在不同IoU下的召回率,如圖5所示。當(dāng)取得較少候選框數(shù)100時(shí),MCG及CPMC算法性能略高于所提算法PRPA4,但PRPA4性能卻優(yōu)于近年主流算法SS[4];當(dāng)候選框數(shù)為1 000及10 000時(shí),交并比為0.5~0.7時(shí),PRPA4的召回率最高,這表明所提算法能夠生成高質(zhì)量的候選框。

接下來(lái),固定交并比,研究10種算法在不同候選框數(shù)目下的召回率,如圖6所示。從圖6(a)及圖6(b)可以看出,當(dāng)交并比為0.5、0.7時(shí),隨著候選框數(shù)目的不斷增加,PRPA4的召回率不斷升高,最終可獲得最高的召回率。圖6(c)為各算法在交并比取[0.5,1.0]時(shí)的平均召回率。由圖6(c)可知,隨著候選框數(shù)目的增加,所提算法PRPA4的平均召回率(Average Recall,AR)逐漸超過(guò)Edge Boxes算法,其整體性能表現(xiàn)優(yōu)越。

2.4 候選區(qū)域算法對(duì)不同尺寸目標(biāo)性能的影響

在VOC 2007測(cè)試集中測(cè)試了PRPA4對(duì)不同尺寸目標(biāo)性能的影響。使用目標(biāo)區(qū)域的面積來(lái)衡量不同尺寸目標(biāo),即:如果目標(biāo)候選框的面積BoxArea≤32像素×32像素,則為小尺寸目標(biāo);如果BoxArea>32像素×32像素,則為較大尺寸目標(biāo)。

選取1 000個(gè)候選框,以及常用的IoU為0.5、0.6及0.7進(jìn)行實(shí)驗(yàn),其結(jié)果見(jiàn)表2。

(a) 100個(gè)候選框(a) 100 proposals (b) 1 000個(gè)候選框(b) 1 000 proposals (c) 10 000個(gè)候選框(c) 10 000 proposals圖5 交并比與召回率的關(guān)系Fig.5 Recall versus IoU threshold

(a) 交并比為0.5(a) IoU is 0.5 (b) 交并比為0.7(b) IoU is 0.7 (c) 交并比為[0.5,1](c) IoU is between [0.5,1]圖6 候選框數(shù)目與召回率的關(guān)系Fig.6 Recall versus number of proposals

表2 10種候選區(qū)域算法不同尺寸目標(biāo)的性能

由表2可知:對(duì)于較大尺寸目標(biāo),IoU=0.5、0.6、0.7時(shí),PRPRA4均能達(dá)到最高的召回率;對(duì)于較小尺寸目標(biāo),PRPA4在IoU=0.6、0.7時(shí),可獲得最高的召回率,在IoU=0.5時(shí),略低于SS算法的召回率;結(jié)合各算法運(yùn)算時(shí)間可知,在處理較大尺寸目標(biāo)時(shí),PRPA4能夠生成質(zhì)量最高的目標(biāo)候選框。

2.5 RCF網(wǎng)絡(luò)及顯著性得分對(duì)候選區(qū)域算法的影響

使用Canny及RCF兩種邊緣檢測(cè)算子(均使用參數(shù)α=0.2、τ=0.8),選定500個(gè)候選框,在VOC 2007驗(yàn)證集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果見(jiàn)表3。

表3 不同檢測(cè)算子的性能

表3中:符號(hào)“/”左側(cè)為未引進(jìn)顯著性的召回率;符號(hào)“/”右側(cè)為引進(jìn)顯著性的召回率;符號(hào)“↑”代表召回率提高;符號(hào)“↓”代表召回率下降。

由表3可以看出,Canny算子在IoU=0.9時(shí),加入顯著性得分后,召回率略有下降(下降了0.11%),在其余的情況下,引入顯著性得分均可改善候選區(qū)域的質(zhì)量。

另一方面,在未加入顯著性得分時(shí),相較于Canny算子,RCF生成的目標(biāo)候選框的召回率明顯提高。因此,基于卷積神經(jīng)網(wǎng)絡(luò)生成的邊緣特征圖和顯著性得分這兩部分都有助于提高所生成目標(biāo)候選框的質(zhì)量。

2.6 所提算法在Fast RCNN上檢測(cè)性能的表現(xiàn)

為確定所提算法在檢測(cè)框架Fast RCNN[27]上的檢測(cè)性能。選取了Fast RCNN的3種基本模型分別是:Model-S(即CaffeNet)、Model-M(即VGG_CNN_M_1024)、Model-L(即VGG16)。

選取2組對(duì)比實(shí)驗(yàn),2 000個(gè)候選框在Fast RCNN的3種模型的檢測(cè)精度見(jiàn)表4。

1)未重訓(xùn)練。選取由SS算法生成的候選框(VOC 2007訓(xùn)練集),分別訓(xùn)練Fast RCNN的3種模型,獲得訓(xùn)練參數(shù),并對(duì)其他9種候選區(qū)域算法生成的候選框進(jìn)行測(cè)試(VOC 2007測(cè)試集),其各算法的平均檢測(cè)度(mean Average Precision,mAP)分別位于表4中符號(hào)“/”的左側(cè)。

2)重訓(xùn)練。在10種候選區(qū)域算法各自生成的候選框(VOC 2007訓(xùn)練集)上,分別訓(xùn)練Fast RCNN的3種模型,使用訓(xùn)練參數(shù),分別測(cè)試各算法在測(cè)試集上生成的候選框(VOC 2007測(cè)試集),其檢測(cè)精度位于表4中符號(hào)“/”的右側(cè)。

表4中:符號(hào)“+”代表檢測(cè)精度mAP值增加。符號(hào)“-”代表mAP值減小。

由表4可知:在檢測(cè)模型Model-M中,在“未重訓(xùn)練”的情況下,PRPA4的檢測(cè)精度要優(yōu)于Edge Boxes算法,這說(shuō)明PRPA4確實(shí)提高了候選區(qū)域的質(zhì)量。在“重訓(xùn)練”的情況下,PRPA4在3種模型中,檢測(cè)精度均要優(yōu)于Edge Boxes算法;同時(shí),在Model-M及Model-L模型中,PRPA4均能獲得最高的mAP值,這也說(shuō)明PRPA4能夠獲得高質(zhì)量的目標(biāo)候選區(qū)域。

另外,從表4也可發(fā)現(xiàn):像Object-ness、BING、Edge Boxes、PRPA4算法,在Model-S、Model-M、Model-L的3種模型中,“重訓(xùn)練”均能大幅提高目標(biāo)的檢測(cè)精度(精度升高的變化范圍為1.64%~8.40%)。

表4 2 000個(gè)候選框在Fast R-CNN的3種模型的檢測(cè)精度

在表4的Model-S模型中,“重訓(xùn)練”的PRPA4的檢測(cè)精度mAP值要小于MCG算法。為說(shuō)明此現(xiàn)象的原因,首先觀看圖5。

由圖5可知,當(dāng)交并比IoU取值為0.8~1.0時(shí),MCG算法生成的候選框要比PRPA4的召回率高,這表明:相比于PRPA4算法,MCG算法生成的目標(biāo)候選框和真實(shí)的目標(biāo)標(biāo)注框有較高的重疊率;當(dāng)在相對(duì)較淺的網(wǎng)絡(luò)Model-S訓(xùn)練時(shí),由于淺層網(wǎng)絡(luò)不能很好地抓住目標(biāo)的語(yǔ)義信息,PRPA4算法生成定位質(zhì)量相對(duì)較差的目標(biāo)候選框。由于引入了額外的背景信息,其平均檢測(cè)精度要小于MCG算法生成的目標(biāo)候選框的檢測(cè)精度。

而隨著檢測(cè)網(wǎng)絡(luò)的深入,如Model-M及Model-L模型時(shí),這些網(wǎng)絡(luò)能夠很好地抓住目標(biāo)的語(yǔ)義信息;且在訓(xùn)練這兩個(gè)模型的過(guò)程中,相對(duì)于MCG算法,PRPA4算法生成的目標(biāo)候選框有較多的正樣本(Positive Samples,PS),這將促進(jìn)兩個(gè)模型的目標(biāo)檢測(cè)準(zhǔn)確度。因此在Model-M、Model-L模型中,使用“重訓(xùn)練”模式,PRPA4生成的目標(biāo)候選框的平均檢測(cè)精度要高于MCG算法。

表5列出了在模型Model-L下選取2 000個(gè)候選框,“重訓(xùn)練”模式,各算法在VOC 2007測(cè)試集上的檢測(cè)精度。同時(shí),為每個(gè)算法給出20類(lèi)目標(biāo)的mAP值。表5中,每類(lèi)目標(biāo)的最高檢測(cè)精度值用“加粗”字體標(biāo)識(shí)。

表5 VOC 2007測(cè)試集中20類(lèi)目標(biāo)的檢測(cè)精度

由表5可知:①所提算法PRPA4在諸如“bird”“boat”“car”“horse”“person”“plant”共6類(lèi)目標(biāo)上性能最好,這表明在遇到上述場(chǎng)景目標(biāo)時(shí),可優(yōu)先選用PRPA4算法;②與其他9種算法相比,所提算法的檢測(cè)精度為最高值的目標(biāo)數(shù)為6,遠(yuǎn)遠(yuǎn)大于SS算法(4種)、Edge Boxes算法(4種)、Randomized Prim′s算法(3種),這反映所提算法的檢測(cè)性能有更高的魯棒性;③所提算法的mAP值最高。

2.7 所提算法的運(yùn)算效率

文獻(xiàn)[28]使用召回率、候選區(qū)域的定位質(zhì)量(Proposal Localization Quality,PLO)和算法的運(yùn)算效率(Computational Efficiency,CE)來(lái)說(shuō)明各算法所生成的候選區(qū)域的質(zhì)量。本文繪制了各算法的召回率與運(yùn)算效率的散點(diǎn)圖以及各算法的定位質(zhì)量與運(yùn)算效率的散點(diǎn)圖,來(lái)描述各算法的性能。

通常使用數(shù)據(jù)集中所有類(lèi)別的平均最佳重疊率(Mean Average Best Overlap,MABO)衡量候選區(qū)域的定位質(zhì)量。

圖7為選擇1 000個(gè)候選框時(shí),各候選區(qū)域算法的召回率、MABO以及運(yùn)算時(shí)間的對(duì)比圖。由圖7(a)可知:BING算法所需時(shí)間最短,但是召回率低;PRPA4算法所需時(shí)間相對(duì)較短,但卻有最高的召回率。由圖7(b)可知:PRPA4算法的MABO接近MCG算法,但運(yùn)算時(shí)間遠(yuǎn)小于MCG算法。因此,所述算法使用較短的時(shí)間,就能獲得高質(zhì)量的候選區(qū)域。

(a) 候選區(qū)域的召回率與運(yùn)算時(shí)間(a) Recall of region proposals versus computation time

(b) MABO與運(yùn)算時(shí)間 (b) MABO versus computation time圖7 VOC 2007數(shù)據(jù)集上各算法的性能對(duì)比Tab.7 Performance comparison of region proposal methods on VOC 2007 dataset

2.8 所提算法的目標(biāo)檢測(cè)結(jié)果

圖8列出了各候選區(qū)域算法的目標(biāo)檢測(cè)結(jié)果。從圖8可以看出:各算法檢測(cè)出來(lái)的“候選框”及精度值均有差別;“候選框”越接近標(biāo)注框,檢測(cè)精度越高;另外,PRPA4算法的檢測(cè)“候選框”更接近真實(shí)標(biāo)注框,檢測(cè)精度值也更高。

(a) BING (b) CPMC

(c) Edge Boxes (d) Geodesic

(e) MCG (f) Object-ness

(g) Randomized Prim′s (h) Rantalankila

(i) SS (j) PRPA4圖8 各候選區(qū)域算法的目標(biāo)檢測(cè)結(jié)果Fig.8 Object detection results of region proposals algorithms

3 結(jié)論

本文從卷積神經(jīng)網(wǎng)絡(luò)、超像素兩方面研究目標(biāo)候選區(qū)域算法。實(shí)驗(yàn)結(jié)果表明:由卷積神經(jīng)網(wǎng)絡(luò)生成的邊緣特征具有較高的語(yǔ)義信息,能夠更清楚地表達(dá)目標(biāo)的邊界,從而提高目標(biāo)候選區(qū)域的質(zhì)量。使用超像素算法將圖像中具有相似屬性的像素聚類(lèi)成同一區(qū)域,并從超像素的空間位置、完整性角度統(tǒng)計(jì)每個(gè)滑動(dòng)窗口的顯著性得分,使得候選區(qū)域的召回率提高。

在目標(biāo)檢測(cè)框架Fast RCNN的檢測(cè)模型Model-M及Model-L上,選取2 000個(gè)候選框,所提算法PRPA4的平均檢測(cè)精度mAP分別為61.33%、69.24%,較Edge Boxes算法的mAP分別提高了0.43%、0.34%;同時(shí),由MABO這一定位指標(biāo)可知,所述算法能夠獲得定位質(zhì)量較好的候選框。

所述算法的不足之處在對(duì)淺層的神經(jīng)網(wǎng)絡(luò)檢測(cè)框架Fast RCNN(Model-S),其檢測(cè)精度并不是最優(yōu)。針對(duì)這種情況,接下來(lái)將繼續(xù)從超像素角度研究目標(biāo)的顯著性對(duì)目標(biāo)檢測(cè)精度的影響,以提高所生成的候選框的檢測(cè)精度。

猜你喜歡
候選框滑動(dòng)邊緣
重定位非極大值抑制算法
面向自然場(chǎng)景文本檢測(cè)的改進(jìn)NMS算法
基于Soft-NMS的候選框去冗余加速器設(shè)計(jì)*
一種新型滑動(dòng)叉拉花鍵夾具
Big Little lies: No One Is Perfect
一種針對(duì)特定目標(biāo)的提議算法
一張圖看懂邊緣計(jì)算
滑動(dòng)供電系統(tǒng)在城市軌道交通中的應(yīng)用
一種基于變換域的滑動(dòng)聚束SAR調(diào)頻率估計(jì)方法
在邊緣尋找自我
雕塑(1999年2期)1999-06-28 05:01:42
四平市| 曲麻莱县| 罗江县| 泊头市| 贵州省| 满洲里市| 五家渠市| 大渡口区| 三明市| 密云县| 博兴县| 朝阳县| 通城县| 甘德县| 朝阳区| 道真| 河北区| 吐鲁番市| 商南县| 元氏县| 玛曲县| 浦北县| 钦州市| 金乡县| 黄浦区| 二手房| 扎鲁特旗| 宕昌县| 上林县| 集贤县| 仁怀市| 白城市| 翁源县| 金秀| 金溪县| 武山县| 宿州市| 闵行区| 涞水县| 民和| 罗平县|